본문 바로가기

하둡2

Ambari 설치 : Hadoop 에코시스템의 설치/관리 및 모니터링 Apache Ambari는 손쉬운 웹 UI 및 REST API 사용을 제공하여 Hadoop 클러스터의 관리 및 모니터링을 간소화합니다. Ambari는 Linux 기반 HDInsight 클러스터에 포함되어 있으며 클러스터를 모니터링하고 구성을 변경하는데 사용됩니다. ubuntu 14 기준으로 설치하는 방법은 다음과 같습니다. $ cd /etc/apt/sources.list.d$ sudo wget http://public-repo-1.hortonworks.com/ambari/ubuntu14/2.x/updates/2.2.2.0/ambari.list$ sudo apt-key adv --recv-keys --keyserver keyserver.ubuntu.com B9733A7A07513CAD$ sudo apt-g.. 2017. 1. 15.
46. 빅데이터 대응하기 : 분산환경 처리하기 (Map Reduce & data parallelism) 지금까지 배운 알고리즘들을 수행하는 것은 하나의 컴퓨터나 서버에서 처리되는 방식이였습니다. 만약 데이터가 너무 커서 하나의 머신에서 학습이 어려울 경우에는 어떻게 하면 좋을까요? 이를 위해 나온것이 Map Reduce입니다. 아래와 같은 공식의 Batch gradient descent 가 있습니다. m = 400 개인 dataset을 가지고 있습니다. Map Reduce의 개념은 이 400개의 데이터를 한번에 연산하는 것이 아니라 100개씩 4개의 컴퓨터나 서버로 나누어 계산하고 최종적으로 하나의 master 개념의 컴퓨터에서 통합시켜서 처리하는 방법입니다. 아래 공식과 같이 4개로 dataset을 분리하여 각각 100개씩 처리하도록 공식을 나누는 것을 볼 수 있습니다. 그리고 최종적으로 연산된 4개의 .. 2016. 9. 7.