본문 바로가기

하둡3

빅데이터 웹 데이터 분석 및 시각화 (하둡, 파이썬, 스파크, R) 강의 1. 과정목표- Hadoop기반 빅데이터 플랫폼 구축과 데이터 처리,분석을 위한 Hadoop 에코시스템 학습부터- 파이썬, Spark, R을 활용하여 데이터의 수집부터 처리, 분석, 시각화 실습까지 실무적 빅데이터 프로세스 기술 마스터 2. 학습대상- 빅데이터에 관심이 있는 대학생 및 재직자- 리눅스, 프로그래밍언어 등이 익숙하지 않아 빅데이터 진입 장벽을 느끼고 있는 분- Hadoop을 활용한 빅데이터 분석 시스템 도입을 고려하고 있는 개발자 3. 학습목표- 빅데이터 플랫폼 구축 및 운영법을 학습합니다.- 파이썬을 이용하여 웹 스크래핑 및 OpenAPI를 통해 데이터를 수집합니다.- Hadoop 에코시스템을 통해 빅데이터 처리 및 분석을 실습합니다.- R을 통해 데이터를 분석 및 시각화를 학습하고 실습.. 2018. 10. 17.
Ambari 설치 : Hadoop 에코시스템의 설치/관리 및 모니터링 Apache Ambari는 손쉬운 웹 UI 및 REST API 사용을 제공하여 Hadoop 클러스터의 관리 및 모니터링을 간소화합니다. Ambari는 Linux 기반 HDInsight 클러스터에 포함되어 있으며 클러스터를 모니터링하고 구성을 변경하는데 사용됩니다. ubuntu 14 기준으로 설치하는 방법은 다음과 같습니다. $ cd /etc/apt/sources.list.d$ sudo wget http://public-repo-1.hortonworks.com/ambari/ubuntu14/2.x/updates/2.2.2.0/ambari.list$ sudo apt-key adv --recv-keys --keyserver keyserver.ubuntu.com B9733A7A07513CAD$ sudo apt-g.. 2017. 1. 15.
46. 빅데이터 대응하기 : 분산환경 처리하기 (Map Reduce & data parallelism) 지금까지 배운 알고리즘들을 수행하는 것은 하나의 컴퓨터나 서버에서 처리되는 방식이였습니다. 만약 데이터가 너무 커서 하나의 머신에서 학습이 어려울 경우에는 어떻게 하면 좋을까요? 이를 위해 나온것이 Map Reduce입니다. 아래와 같은 공식의 Batch gradient descent 가 있습니다. m = 400 개인 dataset을 가지고 있습니다. Map Reduce의 개념은 이 400개의 데이터를 한번에 연산하는 것이 아니라 100개씩 4개의 컴퓨터나 서버로 나누어 계산하고 최종적으로 하나의 master 개념의 컴퓨터에서 통합시켜서 처리하는 방법입니다. 아래 공식과 같이 4개로 dataset을 분리하여 각각 100개씩 처리하도록 공식을 나누는 것을 볼 수 있습니다. 그리고 최종적으로 연산된 4개의 .. 2016. 9. 7.