본문 바로가기

hadoop7

빅데이터 웹 데이터 분석 및 시각화 (하둡, 파이썬, 스파크, R) 강의 1. 과정목표- Hadoop기반 빅데이터 플랫폼 구축과 데이터 처리,분석을 위한 Hadoop 에코시스템 학습부터- 파이썬, Spark, R을 활용하여 데이터의 수집부터 처리, 분석, 시각화 실습까지 실무적 빅데이터 프로세스 기술 마스터 2. 학습대상- 빅데이터에 관심이 있는 대학생 및 재직자- 리눅스, 프로그래밍언어 등이 익숙하지 않아 빅데이터 진입 장벽을 느끼고 있는 분- Hadoop을 활용한 빅데이터 분석 시스템 도입을 고려하고 있는 개발자 3. 학습목표- 빅데이터 플랫폼 구축 및 운영법을 학습합니다.- 파이썬을 이용하여 웹 스크래핑 및 OpenAPI를 통해 데이터를 수집합니다.- Hadoop 에코시스템을 통해 빅데이터 처리 및 분석을 실습합니다.- R을 통해 데이터를 분석 및 시각화를 학습하고 실습.. 2018. 10. 17.
Hadoop & Spark Resources spark summit 2016https://spark-summit.org/2016/schedule/ Apache Spark로 시작하는 머신러닝 입문https://www.youtube.com/watch?v=PRLz11vv7VA Hadoophttp://hadoop.apache.org/ Spark guide & bookhttp://spark.apache.org/docs/latest/programming-guide.htmlhttps://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/https://www.pdf-archive.com/2016/04/21/learning-spark-o-reilly-2015/learning-spark-o-reilly-2015... 2017. 1. 16.
Ambari 설치 : Hadoop 에코시스템의 설치/관리 및 모니터링 Apache Ambari는 손쉬운 웹 UI 및 REST API 사용을 제공하여 Hadoop 클러스터의 관리 및 모니터링을 간소화합니다. Ambari는 Linux 기반 HDInsight 클러스터에 포함되어 있으며 클러스터를 모니터링하고 구성을 변경하는데 사용됩니다. ubuntu 14 기준으로 설치하는 방법은 다음과 같습니다. $ cd /etc/apt/sources.list.d$ sudo wget http://public-repo-1.hortonworks.com/ambari/ubuntu14/2.x/updates/2.2.2.0/ambari.list$ sudo apt-key adv --recv-keys --keyserver keyserver.ubuntu.com B9733A7A07513CAD$ sudo apt-g.. 2017. 1. 15.
Hadoop Cluster & Spark 설치하기 - 3.Spark 설치 지금까지 총 4대의 분산 환경 서버에 기본환경을 설정하고 Hadoop을 설치해보았습니다. 이번에는 MapReduce보다 빠른 속도에 분산환경을 지원하는 메모리 기반의 Spark를 설치하고 테스트를 해보겠습니다. Spark 설치하기 1. Spark 버젼 확인 아래 사이트에 접속하여 설치하고자 하는 spark의 버젼을 확인합니다. http://spark.apache.org/downloads.html 2. Spark 2.0.2 설치 # home으로 이동 $ cd ~ # 설치파일 다운로드 $ wget http://www.eu.apache.org/dist/spark/spark-2.0.2/spark-2.0.2-bin-hadoop2.7.tgz # 압축 해제 $ tar -zxf spark-2.0.2-bin-hadoop.. 2016. 12. 24.
Hadoop Cluster & Spark 설치하기 - 2.Hadoop 설치 이전 내용에서 각 서버들에 공통적인 기본환경들을 구성하였습니다. 이번에는 본격적으로 Hadoop을 설치하여 서비스를 기동시키고 Mapreduce 테스트까지 돌려보겠습니다. Hadoop 설치하기 먼저 master서버인 ubuntu0 서버부터 설치를 진행을 합니다. 그리고 진행 중간부분쯤에 설치된 패키지를 나머지 서버들로 배포를 하고 각 서버별로 재수정을 하도록 하겠습니다. 1. data 디렉토리 생성 hadoop의 HDFS(파일시스템)에 사용될 디렉토리를 생성합니다. ### 모든 서버에 data 디렉토리를 생성합니다. $ sudo mkdir /data $ sudo chown -R hduser:hadoop /data ### master 서버에서만 namenode 디렉토리를 생성합니다. $ mkdir /dat.. 2016. 12. 23.
Hadoop Cluster & Spark 설치하기 - 1.서버 환경구성 분산환경의 빅데이터 서버를 구성하기 위해서는 apache hadoop을 많이 사용하고 있습니다.데이터가 점차 중요해지는 시기가 되고 있고 엄청나게 많은 데이터가 넘쳐나고 있는 지금의 세상에서 어쩌면 가장 필수적인 서버 환경이 되지 않을까 싶은 생각이 듭니다. 그래서, 올해 마지막이자, 개인적인 연말 프로젝트로 시작하는 분산컴퓨팅 환경을 구축하려고 합니다.ubuntu 14 서버 총 4대를 가지고 hadoop cluster 환경을 구축하고 이어서 spark까지 해보도록 하겠습니다. 워낙 길고 긴 여정이 될 내용인지라 너무 길어서 조금 나눠서 올릴 계획입니다. 아마 3~4부 정도 되지 않을까 싶으네요. 서버 환경 구성하기 일단 hadoop을 설치하기 전에,4대의 ubuntu 서버들 모두에게 공통적으로 기본 환.. 2016. 12. 22.
빅데이터 분산 컴퓨팅 (Hadoop) 빅데이터 저장소 - 1테라 바이트를 약 100MB/S 로 전송한다면 2시간 반 이상 걸린다.- 100개의 드라이브가 있고, 각 드라이브는 100/1씩 저장하고 병렬로 동작한다면 2분내에 데이터를 읽을 수 있다- 병렬 분산처리를 위해서는 하드웨어 장애와 데이터 분할 결합에 대한 고려가 필요하다.- 하둡은 안정적인 공유저장소(HDFS)와 분산 프로그래밍 프레임웍(맵리듀스)을 제공한다. HDFS - 파일시스템(Storage)- FILE은 Block 단위(64MB or 128MB)로 분할되고 분산되어 저장됨- 분할된 정보는 Name node(master)에 메타정보가 기록이 되고, 실제 분할된 파일은 Data node(Slave)들에 분산되어 저장이 됨- Name node 가 없으면 Data node에 저장된 .. 2016. 12. 12.