본문 바로가기

cluster4

Hadoop Cluster & Spark 설치하기 - 3.Spark 설치 지금까지 총 4대의 분산 환경 서버에 기본환경을 설정하고 Hadoop을 설치해보았습니다. 이번에는 MapReduce보다 빠른 속도에 분산환경을 지원하는 메모리 기반의 Spark를 설치하고 테스트를 해보겠습니다. Spark 설치하기 1. Spark 버젼 확인 아래 사이트에 접속하여 설치하고자 하는 spark의 버젼을 확인합니다. http://spark.apache.org/downloads.html 2. Spark 2.0.2 설치 # home으로 이동 $ cd ~ # 설치파일 다운로드 $ wget http://www.eu.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.7.tgz # 압축 해제 $ tar -zxf spark-2.0.2-bin-hadoop.. 2016. 12. 24.
Hadoop Cluster & Spark 설치하기 - 2.Hadoop 설치 이전 내용에서 각 서버들에 공통적인 기본환경들을 구성하였습니다. 이번에는 본격적으로 Hadoop을 설치하여 서비스를 기동시키고 Mapreduce 테스트까지 돌려보겠습니다. Hadoop 설치하기 먼저 master서버인 ubuntu0 서버부터 설치를 진행을 합니다. 그리고 진행 중간부분쯤에 설치된 패키지를 나머지 서버들로 배포를 하고 각 서버별로 재수정을 하도록 하겠습니다. 1. data 디렉토리 생성 hadoop의 HDFS(파일시스템)에 사용될 디렉토리를 생성합니다. ### 모든 서버에 data 디렉토리를 생성합니다. $ sudo mkdir /data $ sudo chown -R hduser:hadoop /data ### master 서버에서만 namenode 디렉토리를 생성합니다. $ mkdir /dat.. 2016. 12. 23.
Hadoop Cluster & Spark 설치하기 - 1.서버 환경구성 분산환경의 빅데이터 서버를 구성하기 위해서는 apache hadoop을 많이 사용하고 있습니다.데이터가 점차 중요해지는 시기가 되고 있고 엄청나게 많은 데이터가 넘쳐나고 있는 지금의 세상에서 어쩌면 가장 필수적인 서버 환경이 되지 않을까 싶은 생각이 듭니다. 그래서, 올해 마지막이자, 개인적인 연말 프로젝트로 시작하는 분산컴퓨팅 환경을 구축하려고 합니다.ubuntu 14 서버 총 4대를 가지고 hadoop cluster 환경을 구축하고 이어서 spark까지 해보도록 하겠습니다. 워낙 길고 긴 여정이 될 내용인지라 너무 길어서 조금 나눠서 올릴 계획입니다. 아마 3~4부 정도 되지 않을까 싶으네요. 서버 환경 구성하기 일단 hadoop을 설치하기 전에,4대의 ubuntu 서버들 모두에게 공통적으로 기본 환.. 2016. 12. 22.
34. 자율적으로 학습하기 (Unsupervised Learning) : K means optimization 이번에는 기존의 다른 알고리즘에서 optimization objective를 했던것과 같이 K means 알고리즘에 대한 optimization에 대해서 알아보겠습니다.c(i)는 각각의 x(i)의 데이터가 갖게되는 cluster의 번호를 의미하며 이 값은 cluster의 k 만큼의 존재하는 수 중에서 하나가 됩니다.uk는 cluster의 centroid(중심점)가 되는 정보로 k 갯수 만큼 존재합니다.uc(i)는 x(i)의 데이터가 속하는 cluster에 대한 cluster 중심점을 의미하게 됩니다.이렇게 구성된 정보를 바탕으로 J 함수가 아래의 그림과 같이 생성이 됩니다. 이 J함수는 cost 함수이면서 또 Distortion 이라고 불리웁니다. 이 함수는 x(i)와 uc(i) 간에 거리의 제곱으로 나.. 2016. 8. 20.