본문 바로가기

Python3

빅데이터 웹 데이터 분석 및 시각화 (하둡, 파이썬, 스파크, R) 강의 1. 과정목표- Hadoop기반 빅데이터 플랫폼 구축과 데이터 처리,분석을 위한 Hadoop 에코시스템 학습부터- 파이썬, Spark, R을 활용하여 데이터의 수집부터 처리, 분석, 시각화 실습까지 실무적 빅데이터 프로세스 기술 마스터 2. 학습대상- 빅데이터에 관심이 있는 대학생 및 재직자- 리눅스, 프로그래밍언어 등이 익숙하지 않아 빅데이터 진입 장벽을 느끼고 있는 분- Hadoop을 활용한 빅데이터 분석 시스템 도입을 고려하고 있는 개발자 3. 학습목표- 빅데이터 플랫폼 구축 및 운영법을 학습합니다.- 파이썬을 이용하여 웹 스크래핑 및 OpenAPI를 통해 데이터를 수집합니다.- Hadoop 에코시스템을 통해 빅데이터 처리 및 분석을 실습합니다.- R을 통해 데이터를 분석 및 시각화를 학습하고 실습.. 2018. 10. 17.
머신러닝 프로그래밍 과외 그룹 모집 (파이썬python 케라스keras) 제 주변 지인분들께서도 머신러닝쪽 개발에 많은 관심을 가지고 계셔서 문의가 많이 오고 있습니다. 작년에 수개월동안 공을 들여서 준비했던 머신러닝 책도 원고가 마무리가 되어 곧 출판을 하게 될 것 같습니다. 그동안 책을 쓰는냐고 여유 시간이 많이 없어서 블로그도 소홀해졌었는데 이제 다시 시작을 할 수 있을 것 같네요. 머신러닝을 처음 접하고자 하시는데 어려움이 있으시거나 파이썬, 케라스로 한번 실제로 만들어보고 싶으신 분들께 좋은 기회가 될 수 있었으면 좋겠어서 모임을 한번 만들어봅니다. [개요] Newbie To Expert : 파이썬, 케라스로 배우는 머신러닝- 정원 : 2-5명 소수그룹 & 개인별 지도- 장소 : 공공장소 센터 (역삼동)- 상세 페이지 : http://gonggongplace.com/.. 2018. 7. 5.
빅데이터 분산 컴퓨팅 (Hadoop) 빅데이터 저장소 - 1테라 바이트를 약 100MB/S 로 전송한다면 2시간 반 이상 걸린다.- 100개의 드라이브가 있고, 각 드라이브는 100/1씩 저장하고 병렬로 동작한다면 2분내에 데이터를 읽을 수 있다- 병렬 분산처리를 위해서는 하드웨어 장애와 데이터 분할 결합에 대한 고려가 필요하다.- 하둡은 안정적인 공유저장소(HDFS)와 분산 프로그래밍 프레임웍(맵리듀스)을 제공한다. HDFS - 파일시스템(Storage)- FILE은 Block 단위(64MB or 128MB)로 분할되고 분산되어 저장됨- 분할된 정보는 Name node(master)에 메타정보가 기록이 되고, 실제 분할된 파일은 Data node(Slave)들에 분산되어 저장이 됨- Name node 가 없으면 Data node에 저장된 .. 2016. 12. 12.