본문 바로가기

hdfs2

Hadoop Cluster & Spark 설치하기 - 2.Hadoop 설치 이전 내용에서 각 서버들에 공통적인 기본환경들을 구성하였습니다. 이번에는 본격적으로 Hadoop을 설치하여 서비스를 기동시키고 Mapreduce 테스트까지 돌려보겠습니다. Hadoop 설치하기 먼저 master서버인 ubuntu0 서버부터 설치를 진행을 합니다. 그리고 진행 중간부분쯤에 설치된 패키지를 나머지 서버들로 배포를 하고 각 서버별로 재수정을 하도록 하겠습니다. 1. data 디렉토리 생성 hadoop의 HDFS(파일시스템)에 사용될 디렉토리를 생성합니다. ### 모든 서버에 data 디렉토리를 생성합니다. $ sudo mkdir /data $ sudo chown -R hduser:hadoop /data ### master 서버에서만 namenode 디렉토리를 생성합니다. $ mkdir /dat.. 2016. 12. 23.
빅데이터 분산 컴퓨팅 (Hadoop) 빅데이터 저장소 - 1테라 바이트를 약 100MB/S 로 전송한다면 2시간 반 이상 걸린다.- 100개의 드라이브가 있고, 각 드라이브는 100/1씩 저장하고 병렬로 동작한다면 2분내에 데이터를 읽을 수 있다- 병렬 분산처리를 위해서는 하드웨어 장애와 데이터 분할 결합에 대한 고려가 필요하다.- 하둡은 안정적인 공유저장소(HDFS)와 분산 프로그래밍 프레임웍(맵리듀스)을 제공한다. HDFS - 파일시스템(Storage)- FILE은 Block 단위(64MB or 128MB)로 분할되고 분산되어 저장됨- 분할된 정보는 Name node(master)에 메타정보가 기록이 되고, 실제 분할된 파일은 Data node(Slave)들에 분산되어 저장이 됨- Name node 가 없으면 Data node에 저장된 .. 2016. 12. 12.