분류 전체보기279 RL (강화학습) 기초 - 9. Model-free Control 이번에는 Model-free에서의 Control에 대한 내용과 on-policy, off-policy에 대한 내용을 알아보겠습니다. 이전까지 배운 내용을 정리하면 Model-free Prediction이라고 할 수 있습니다. Model-free라는 것은 모델을 사용하지 않는 강화학습을 의미합니다. 그리고 prediction이라는 것은 MDP를 알지 못하는 환경에 대해서 value function을 추정하기 위한 방법을 의미합니다.이번에 살펴볼 Model-free Control은 동일한 환경에 대해서 value function을 최적화하기 위한 방법을 설명합니다. MDP 같은 모델을 사용해서 대응할 수 있는 주제들이 나열이 되어 있습니다. 알파고의 바둑 게임이나 포트폴리오 매니징에 적용을 하는 예시들도 보.. 2018. 5. 26. ML 뉴스 모음 - 201803 1. 주피터 랩 : 더 좋아진 브라우져 IDE 최강자 [링크] 기존에 주피터노트북을 개선해서 새롭고 더 편리한 기능으로 주피터 랩이 나왔습니다.~ 좋은거 같아요.설치도 쉽게 그냥 pip install jupyterlab 하면 됩니다.저는 파이썬, 머신러닝 외에도 문서작업하거나 책을 쓸때도 애용하고 있습니다. 2. Densely Connected Convolutional Networks [논문] 오브젝트 인식에 사용되는 혁신적인 모델이 될 것 같습니다. 더 적은 메모리 사용과 Resnet보다 좋은 성능을 보여준다고 되어 있습니다. 3. Learning to Play with Intrinsically-Motivated Self-Aware Agents [논문] 따끈따끈한 논문입니다~ 최근에는 강화학습에서 re.. 2018. 3. 31. ML 뉴스 모음 - 201802 1. 케라스를 이용한 알파제로 만들기 [링크] 알파제로에 대한 내용들이 잘 정리가 되어 있고 깃소스 링크도 있네여. 한번 들여다 봐야겠습니다만 시간이...흐억 2. 딥러닝을 위한 수학 [링크] 미국의 한 대학에서 작성한 매트릭스와 웨이트, 바이어스에서 사용되는 수학적인 내용들을 설명해줍니다. 3. 강화학습 서튼 책 업데이트 [링크] 강화학습의 아버지 서튼 교수님의 책이 2018년 1월자로 업데이트가 되었습니다. 자주 업데이트가 되네여~ 4. 구글 공개 데이터셋 [링크] 구글에서 2017년 한해 성과를 정리한 블로그 글입니다. 좋은 내용과 중간에 공개된 데이터셋들이 있습니다. 5. Mastering Bitcoin [링크] 유명한 개발자를 위한 비트코인 서적입니다. 누구나 무료로 볼 수 있게 공개를 해놓았네.. 2018. 2. 14. ubuntu 14 - 서버 메모리 사용확인 및 정리 우분투 서버를 오래 사용하다보면 간혹 메모리가 말도 안되게 사라져서 재기동을 하게 되는 경우가 생깁니다. 이럴때는 재기동을 하지 말고 메모리 사용량을 확인하고 만약 캐쉬 메모리가 많이 잡혀 있다면 이것을 해제해주면 됩니다. [메모리 사용량 확인] > ps -eo user,pid,ppid,rss,size,vsize,pmem,pcpu,time,cmd --sort -rss | head -n 11 [메모리 확인] > free -m [캐쉬 메모리 정리] sudo syncsudo sysctl -w vm.drop_caches=3 2018. 1. 22. ML 뉴스 모음 - 201801 1. 알고리즘 트레이딩의 바이블 [사이트] 알고리즘 트레이딩에 대한 바이블과 같은 책이 있어 소개를 드립니다. Successful Algorithmic Trading 라는 책인데요. 내용이 알차고 괜찮은 것 같습니다. 2. 네이버의 룩 태그 [사이트] 머신러닝을 이용해서 쇼핑에 점목을 한 내용이 간단한 이미지들로 보여주고 있습니다. 재미있는 아이디어입니다~ 3. Vision in NIPS2017 [동영상] 네이버에서 공개한 닙스의 영상처리에 대한 동향 정보입니다. 동영상이라 편하게 보면 될 것 같아요~ 2018. 1. 21. RL (강화학습) 기초 - 8. TD lamda 1 step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것입니다.2 step TD 에서의 업데이트 방식은 첫번째 보상과 두번째 보상 그리고 두번째 상태에서의 value function의 합으로 업데이트가 됩니다. TD(0) 가 n이 1인 1-step TD입니다. 앞에서 이야기한 업데이트 방식에 대한 내용을 수식으로 표현을 한 것입니다. 이를 n step에 대하여 일반화를 하면 중간에 식이 됩니다.n step TD에서의 value 함수는 n step에서 얻은 총 보상에서 기존 value 함수값과의 차이를 알파만큼 가중치하여 더함으로서 업데이트가 되게 됩니다. 그럼 n 이 몇일때가 가장 최고의.. 2017. 11. 29. ML 뉴스 모음 - 201711 1. Capsule Network [페북 링크] 영상처리 분야에 CNN과 비교할만한 새로운 네트웍 모델이 페북에서 핫하네요. 관심있게 봐보면 좋을 것 같습니다 2. Market Making [유투브 링크] 마켓메이킹에 대한 설명과 그에 따른 간단한 예제와 고려사항들을 잘 설명해주는 영상입니다. 3. 이더리움 기술 세미나 [유투브 링크] 우리나라도 발빠르게 움직이고 있나봅니다. 이더리움의 기술적인 내용들을 깊이 있게 설명해주십니다. 4. 블록체인 개발하기 [사이트 링크] 블록체인의 핵심 알고리즘들을 심플하게 설명과 구현을 할 수 있습니다. 2017. 11. 26. RL (강화학습) 기초 - 7. Temporal-Difference Learning TD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘입니다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징입니다. every-visit MC에서는 실제 에피소드가 끝나고 받게되는 보상을 사용해서 value function을 업데이트 하였습니다.하지만 TD에서는 실제 보상과 다음 step에 대한 미래추정가치를 사용해서 학습을 하게 됩니다.이때 사용하는 보상과 value function의 합을 TD target이라고합니다.그리고 이 TD target과 실제 V(S)와의 차이를 TD error 라고 하고 델타라고 표현을 합니다. MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이.. 2017. 11. 1. ML 뉴스 모음 - 201710 1. 블록체인 기술 [자료 링크] 블록체인에 대한 전반적인 내용의 보고서입니다. 한번 읽어 보면 좋을 내용인 것 같습니다~ [자료 링크] 비트코인에 대한 증권사 리포트입니다. 마이닝에 대한 내용도 상세히 되어 있습니다~ [블로그 링크] 이번에 비트코인이 11월에 하드포크 하는 내용에 대한 블로그입니다~ 2. KAIST AI School [사이트 링크] 양재에서 Kaist 교수님들께서 좋은 주제로 무료 강연을 해주신다고 합니다~ 3. 자바스크립트 채굴기 [사이트 링크] 코인하이브에서 제공하는 모네로 자바스크립트 채굴기를 웹사이트에서 접속자의 CPU 리소스를 이용해서 채굴이 된다고 합니다. 일종의 사이트에 대한 도네이션용으로 생각할 수 있겠네요. 내 자원을 공유해주는거니까요~ [채굴하러가기] 4. 블록체인 .. 2017. 10. 31. RL (강화학습) 기초 - 6. Monte-Carlo Learning Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. 그리고 GPI를 따르는 방식으로 최적화 정책을 찾아냈었습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 상태에서) 환경과 상호 작용을 하며 value function을 추정해 가는 방식을 말합니다. control 은 이렇게 찾은 value function을 최적화하여 최적의 poilc.. 2017. 10. 29. 이전 1 ··· 3 4 5 6 7 8 9 ··· 28 다음