본문 바로가기

분류 전체보기246

Hadoop Cluster & Spark 설치하기 - 2.Hadoop 설치 이전 내용에서 각 서버들에 공통적인 기본환경들을 구성하였습니다. 이번에는 본격적으로 Hadoop을 설치하여 서비스를 기동시키고 Mapreduce 테스트까지 돌려보겠습니다. Hadoop 설치하기 먼저 master서버인 ubuntu0 서버부터 설치를 진행을 합니다. 그리고 진행 중간부분쯤에 설치된 패키지를 나머지 서버들로 배포를 하고 각 서버별로 재수정을 하도록 하겠습니다. 1. data 디렉토리 생성 hadoop의 HDFS(파일시스템)에 사용될 디렉토리를 생성합니다. ### 모든 서버에 data 디렉토리를 생성합니다. $ sudo mkdir /data $ sudo chown -R hduser:hadoop /data ### master 서버에서만 namenode 디렉토리를 생성합니다. $ mkdir /dat.. 2016. 12. 23.
Hadoop Cluster & Spark 설치하기 - 1.서버 환경구성 분산환경의 빅데이터 서버를 구성하기 위해서는 apache hadoop을 많이 사용하고 있습니다.데이터가 점차 중요해지는 시기가 되고 있고 엄청나게 많은 데이터가 넘쳐나고 있는 지금의 세상에서 어쩌면 가장 필수적인 서버 환경이 되지 않을까 싶은 생각이 듭니다. 그래서, 올해 마지막이자, 개인적인 연말 프로젝트로 시작하는 분산컴퓨팅 환경을 구축하려고 합니다.ubuntu 14 서버 총 4대를 가지고 hadoop cluster 환경을 구축하고 이어서 spark까지 해보도록 하겠습니다. 워낙 길고 긴 여정이 될 내용인지라 너무 길어서 조금 나눠서 올릴 계획입니다. 아마 3~4부 정도 되지 않을까 싶으네요. 서버 환경 구성하기 일단 hadoop을 설치하기 전에,4대의 ubuntu 서버들 모두에게 공통적으로 기본 환.. 2016. 12. 22.
ML 뉴스 모음 - 201612 1. 페이스북 Yann LeCun 교수님의 강의https://code.facebook.com/pages/1902086376686983 2. DeepMind Lab is a 3D learning environment 소스https://github.com/deepmind/lab 3. ML Yearning draft book 메일링 신청http://www.mlyearning.org/ 4. 마크주커버그가 아이언맨의 자비스를 만든 이야기 재미있는 프로젝트를 했나봅니다.인공지능 비서를 만들었네요~집에 삼성TV를 사용한다는것과 코딩을 계속할 것이라는 말이 기억에 남는건모지ㅋhttps://m.facebook.com/notes/mark-zuckerberg/building-jarvis/10154361492931634 5... 2016. 12. 20.
20. Windows(윈도우)에 Tensorflow(텐서플로) GPU 설치하기 Tensorflow v0.12 부터 Windows 지원 이번에 업데이트가 된 TensorFlow v0.12.0 RC1 에서부터 windows OS에서도 Tensorflow를 사용이 가능하도록 지원이 되었습니다. (현재 2017년 7월 최신버전은 1.2버전입니다) https://developers.googleblog.com/2016/11/tensorflow-0-12-adds-support-for-windows.html?1480466252369=1 아주 편리하고 쉽게 설치가 가능해졌고, Nvidia 그래픽 카드를 이용한 GPU도 마음것 사용이 가능하게 되었습니다. 이제부터 Windows 로컬 PC에 설치하는 방법에 대해서 정리를 해보겠습니다. 사진들은 클릭하면 확대됩니다. 설치준비 - 파일 다운로드 ANAC.. 2016. 12. 18.
빅데이터 분산 컴퓨팅 (Hadoop) 빅데이터 저장소 - 1테라 바이트를 약 100MB/S 로 전송한다면 2시간 반 이상 걸린다.- 100개의 드라이브가 있고, 각 드라이브는 100/1씩 저장하고 병렬로 동작한다면 2분내에 데이터를 읽을 수 있다- 병렬 분산처리를 위해서는 하드웨어 장애와 데이터 분할 결합에 대한 고려가 필요하다.- 하둡은 안정적인 공유저장소(HDFS)와 분산 프로그래밍 프레임웍(맵리듀스)을 제공한다. HDFS - 파일시스템(Storage)- FILE은 Block 단위(64MB or 128MB)로 분할되고 분산되어 저장됨- 분할된 정보는 Name node(master)에 메타정보가 기록이 되고, 실제 분할된 파일은 Data node(Slave)들에 분산되어 저장이 됨- Name node 가 없으면 Data node에 저장된 .. 2016. 12. 12.
19. Tensorflow 시작하기 - word2vec 이번에는 텍스트로 사용되는 언어를 처리하는(Language Processing) 방법에 대한 튜토리얼을 살펴보겠습니다. 이번 튜토리얼의 링크는 다음과 같습니다 원문 : https://www.tensorflow.org/versions/master/tutorials/word2vec/index.html한글 : https://tensorflowkorea.gitbooks.io/tensorflow-kr/content/g3doc/tutorials/word2vec/소스 : https://github.com/tensorflow/tensorflow/blob/r0.11/tensorflow/examples/tutorials/word2vec/word2vec_basic.py Distributional hypothesis 언어를 .. 2016. 11. 28.
18. Tensorflow 시작하기 - Convolutional Neural Networks (이미지 프로세싱) 이번에는 이미지를 인식하기 위해서 많이 사용되는 CNN 모델에 대해서 살펴보겠습니다. Deep CNN 튜토리얼 링크는 다음과 같습니다(https://www.tensorflow.org/versions/master/tutorials/deep_cnn/index.html#convolutional-neural-networks)튜토리얼 문서에서 'tensorflow/models/image/cifar10' 로 되어 있는 링크에서 최신본의 전체 소스를 다운로드 할 수 있습니다. 다운로드 받으신 파일들중에서 'cifar10_train.py' 파일을 실행하면 기초 데이터를 다운받고 학습을 진행하게 됩니다. 이번에는 많은 이미지들을 학습해야 하기 때문에 서버 사양에 따라 빠르면 4~5시간에서 많게는 몇일이 걸릴수도 있으니 .. 2016. 11. 20.
17. Tensorflow 시작하기 - Estimator 지금까지 우리는 기본적으로 제공되고 있는 tf.contrib.learn 의 알고리즘 API들을 그대로 사용하여 학습을 시키고 loss를 구하고 평가를 하였습니다. LinearClassifier: Constructs a linear classification model.LinearRegressor: Constructs a linear regression model.DNNClassifier: Construct a neural network classification model.DNNRegressor: Construct a neural network regressions model. 그런데 우리의 목적에 맞게 조금 변형하고 보완하여 사용하고 싶을 때나, 혹은 다른 종류의 알고리즘을 사용하고 싶을 경우에는 이러.. 2016. 11. 19.
16. Tensorflow 시작하기 - input function 이번에는 tf.contrib.learn 에 있는 input functions를 생성하는 방법에 대해서 알아보겠습니다.input_fn을 사용하면 모델에 preprocess를 처리하거나 data를 feed 하는데 유용하게 사용할 수 있습니다. Custom Input Pipelines with input_fn tf.contrib.learn을 사용해서 neural network 학습을 진행할때 우리는 feature와 target data를 직접적으로 fit, evaluate, predict ops에 사용하였습니다. tf.contrib.learn quickstart 의 예제를 통해서 보았던 방법인데 이러한 접근방식은 source data가 완벽하여 추가 보정같은 것이 필요하지 않을때만 사용이 가능합니다.하지만, .. 2016. 11. 14.
15. Tensorflow 시작하기 - Logging & Monitoring 이번에는 Tensorflow를 이용해서 모델을 학습하는 알고리즘을 구현할 때,Tensorflow의 로깅하는 기능과 모니터링 할때 사용하는 api에 대해서 알아보겠습니다.이번 내용에서는 이전에서 다뤘던 tf.contrib.learn Quickstart 에서 사용했던 내용을 기반으로 합니다. 안보신 분들은 한번 읽어보시고 오시면 좋을 것 같습니다. 이 예제는 Iris 3개종 중에서 하나를 예측하는 내용입니다.이를 위해서 Neural Net classifier 를 사용하여 학습을 하게 됩니다.그런데 이 예제 소스를 그냥 실행시키면 현재는 결과 값만 볼 수 있습니다. 학습이 진행되는 과정에 대한 내용을 볼 수 없는 상태입니다. 로깅을 하지 않으면 일종에 눈가리고 프로그래밍을 하는 것과 같습니다. 실제 어떻게 동.. 2016. 11. 13.