본문 바로가기

Monte-Carlo1

RL (강화학습) 기초 - 6. Monte-Carlo Learning Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. 그리고 GPI를 따르는 방식으로 최적화 정책을 찾아냈었습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 상태에서) 환경과 상호 작용을 하며 value function을 추정해 가는 방식을 말합니다. control 은 이렇게 찾은 value function을 최적화하여 최적의 poilc.. 2017. 10. 29.

이전 1 다음

IT PM Sr. Specialist, 웹/AI증강/블록체인
- 현) (주)모블디 대표
- 전) 성균관대 겸임교수
- 공공장소 법인전환,'21
- 공공블록 오픈,'18
- 저서:대소니의 딥러닝 기초,'18
- sk 계열사 사내 강의,'18
- AI Trading System,'17
- 저서:Jquery Mobile 완벽가이드,'13
- CIGNA Project Award 수상,'13
- (주)라이나 생명보험,'11
- (주)Ace 생명보험,'08

티스토리툴바