본문 바로가기

분류 전체보기250

3. 튜토리얼 예제로 한번 실행해보기 Tensorflow에서 제공하는 기본 데이터셋인 MNIST로 가볍게 돌려볼 수 있는 튜토리얼을 제공하고 있습니다. 이것을 통해서 간단하게 Tensorflow로 ML을 돌려볼 수 있는데, 대략 이런 함수들이 있구나 이렇게 흘러가는구나 정도는 가볍게 알수 있는 쉬운 예제인 것 같습니다. 일단 모라도 작성해서 돌려보고 결과가 나오는 것을 봐야 아! 걸음마를 땠구나 하는 기분이 들기 때문에, 직접 한번 작성해보고 실행을 해보는 것이 좋은 것 같습니다. Tensorflow 튜토리얼 문서 바로가기 test1.pyimport tensorflow as tf # MNIST 데이터 불러오기 from tensorflow.examples.tutorials.mnist import input_data mnistData = inp.. 2016. 9. 28.
2. Pycharm 설치하기 (remote server interpreter, Auto Deploy) AWS 서버에 python과 Tensorflow가 설치가 되었는데개발을 하고 테스트를 하기 위해서는 IDE가 로컬 Windows PC에 있으면 편하겠지요 Pycharm pro 버젼에서는 이러한 기능을 지원을 해주고 있어서 참으로 좋습니다. 더 좋은것은 로컬 windows pc에 Python과 Tensorflow등을 별도로 설치하지 않아도 된다는 것이지요. 그저 서버에 있는 것을 이용하면 되니까요. 그럼 Pycharm을 설치하고 원격 빌드 셋팅까지 해보겠습니다. 1. Pycharm 다운로드 및 설치https://www.jetbrains.com/pycharm/download/ 에서 pro 버젼을 다운로드 합니다.원래 pro버젼은 유료인데 30일간은 무료로 사용할 수 있습니다. 또 학생들은 특별히 무료로 이용.. 2016. 9. 27.
1. Tensorflow 설치 (ubuntu, virtualenv) 구글에서 공개한 오픈소스 ML software인 Tensorflow를 사용해보려고 합니다.Tensorflow는 Graph 기반의 수학적인 연산을 위한 소프트웨어입니다. 이미 유명한 Matlab/Octave와 비슷한 역할을 하는 프로그램인데, 조금 다른점은 python 기반으로 돌아가는 무료이면서 소스가 모두 공개가 되어 있다는 것입니다.공개한지 얼마되지 않았음에도 많은 사람들이 관심을 가지고 사용하고 있는 것 같습니다. Tensorflow의 장점이라고 하면 수학적인 연산을 할때 CPU뿐만 아니라 GPU를 사용해서 더욱 빠르게 처리가 가능하도록 지원하고 있고, 분산 환경을 지원해서 다양한 Device에서 병렬처리가 가능하다는 것입니다그리고 Server 뿐만아니라 일반 PC나 모바일에서도 실행이 가능한 것 .. 2016. 9. 26.
ubuntu 14 - mysql 설치하기 ubuntu 14 서버에 mysql DB를 설치해보겠습니다.주로 많이 사용되는 AWS 서버에 사용하기 좋은 OS와 DB이지요? ㅎ 1. apt-get 프로그램 정보를 업데이트 합니다.$sudo apt-get update #최신버젼 mysql 5.7 설치시에는 아래와 같이 직접 업데이트 해주어야 합니다.$wget http://dev.mysql.com/get/mysql-apt-config_0.6.0-1_all.deb$sudo dpkg -i mysql-apt-config_0.6.0-1_all.deb 2. 내가 설치하고자 하는 mysql-server에 대한 정보를 찾아봅니다. 설치될 버젼등을 확인할 수 있습니다.$sudo apt-cache search mysql-server 3. 이제 설치를 위한 준비가 되었으.. 2016. 9. 24.
50. 머신러닝(Machine Learning) Summary 지금까지 머신러닝의 기본적인 개념과 다양한 분석방법에 대해서 모두 배웠습니다. 저도 주말에 도서관등에 다니면서 공부하고 블로그에 정리하면서 많은 것을 배웠네요. 참 재미있고 흥미가 커지는 주제가 아닌가 싶습니다. 실질적으로 적용을 할 수 있는 분야도 다양하고 거의 모든 곳에 활용되어 질 수 있을 것 같습니다. 알파고와 딥마인드 덕분에 세상에서 화두가 된지 아직 1년도 되지 않았지만, 이미 많은 사람들이 관심을 가지고 공부하고 이미 적용도 많이 되어 있는 것 같습니다. 조만간 멋진 머신 비서를 이용할 날도 멀지 않은 것 같네요^^ 저도 평생 공부한다고 생각하고 다음 주제를 찾아서 계속 해볼 생각입니다. 좋은 정보가 있으면 서로 공유하고 나누면서 같이 공부하실 분을 만날 수 있기를 기대해보면서 이번 주제는 .. 2016. 9. 13.
49. 머신러닝 시스템 예제 : Ceiling analysis 머신러닝 시스템을 구축하는데 있어서 가장 중요한 리소스는 개발 시간입니다.많은 사람들이 이 시스템을 개발하면서 감이나 운에 의거해서 task를 선택하고 성능 개선을 위해서 여러가지 시도를 하고 있습니다. 하지만 때로는 이렇게 보내는 많은 시간들이 실제적으로 시스템의 성능 개선에 미치지 못하는 경우가 있어 안타깝기도 합니다.이러한 시간 낭비가 되는 것을 방지하기 위해서 지금까지 여러가지 분석 방안에 대해서 이야기 했습니다. 이번에는 앞에서 다룬 예제와 pipeline을 통해서 Ceiling analysis에 대해서 알아보겠습니다. 아래와 같이 Photo OCR의 pipeline이 3가지의 모듈로 구성이 되어 있습니다. 이 각각의 모듈은 작은 팀으로 구성되어 업무를 수행하고 있을 것입니다. 혹은 한사람이 전.. 2016. 9. 12.
48. 머신러닝 시스템 예제 : Aritificial data synthesis 지금까지 우리가 알고리즘들을 배워오면서 또 바로 앞에 내용에서 학습을 위해서는 다양한 이미지 데이터들이 필요하다는 것을 이해하고 있습니다. 이런 기초 학습을 위한 데이터가 많으면 많을수록 머신러닝의 시스템의 성능에 많은 영향을 준다는 것도 이미 알고 있지요 그러면, 이렇게 많은 데이터들을 어떻게 수집하고 생성해야 할까요?실제적으로 데이터를 수집하기 위해서 많은 노력을 들여야 하게 되는데 이것을 좀더 유용하게 하는 방법이 있습니다. 그것은 바로 인공적으로 데이터를 만들어내는 것입니다. 이것을 Artificial data synthesis라고 합니다. 데이터를 수집하는 주요 경로는 웹이나 인터넷상에서 수집하는 방법이 있고, 현재 보유하고 있는 작은 데이터셋(small labeled training set)으.. 2016. 9. 11.
47. 머신러닝 시스템 예제 : Photo OCR 지금까지 배운 머신러닝에 대한 내용을 토대로하여 photo OCR 시스템을 만들어 보도록 하겠습니다.이것을 통해서 우리는 지금까지 배운 모든 내용들을 종합적으로 사용하는 것을 배우며, 또 머신 러닝 시스템을 구축하기 위한 pipeline에 대해서 알아볼 것입니다. 먼저 photo OCR이란 photo optical character recognition을 말합니다. 즉 사진에 찍혀있는 문자들을 인식하는 것입니다. 최근에 스마트폰등의 보급으로 디지털 카메라를 모두 사용하기 때문에 이러한 사진을 많이 가지고 있습니다. 이런 사진들을 인식하기 위한 하나의 방법이 되는 것입니다. 이를 이용해서 다양하게 실생활에 활용도 가능할 것입니다. 예를들어, 사진 정보를 이용해서 사진을 분류하거나 검색하는데 사용도 될 수 .. 2016. 9. 10.
46. 빅데이터 대응하기 : 분산환경 처리하기 (Map Reduce & data parallelism) 지금까지 배운 알고리즘들을 수행하는 것은 하나의 컴퓨터나 서버에서 처리되는 방식이였습니다. 만약 데이터가 너무 커서 하나의 머신에서 학습이 어려울 경우에는 어떻게 하면 좋을까요? 이를 위해 나온것이 Map Reduce입니다. 아래와 같은 공식의 Batch gradient descent 가 있습니다. m = 400 개인 dataset을 가지고 있습니다. Map Reduce의 개념은 이 400개의 데이터를 한번에 연산하는 것이 아니라 100개씩 4개의 컴퓨터나 서버로 나누어 계산하고 최종적으로 하나의 master 개념의 컴퓨터에서 통합시켜서 처리하는 방법입니다. 아래 공식과 같이 4개로 dataset을 분리하여 각각 100개씩 처리하도록 공식을 나누는 것을 볼 수 있습니다. 그리고 최종적으로 연산된 4개의 .. 2016. 9. 7.
45. 빅데이터 대응하기 : 스트림형 데이터 처리하기 (Online learning) 이번에 배울 알고리즘은 Online learning 입니다.데이터가 지속적으로 흘러가는 것을 처리하기 위한 모델로서 stream 형태의 데이터들을 통해서 학습하는데 유용하게 사용되고 있습니다. 기본적인 아이디어는 stochastic gradient descent와 비슷합니다. 다만 다른 점은 데이터가 고정된 dataset이 아니라는 점일 뿐입니다. 많은 웹사이트 회사에서 지속적으로 유입되는 사용자들의 정보들을 Online learning과 비슷한 방식으로 학습하여 시시각각 변하는 사용자들의 선호도를 조사하고 웹사이트 개선에 이를 반영하기 위해서 널리 사용되고 있습니다. 아래는 배달 서비스를 예제로 하여 설명하고 있습니다. 유저는 배달 서비스가 내위치로 부터 목적지까지 배달이 가능한지 문의하게 됩니다. 그.. 2016. 9. 6.