본문 바로가기

prediction2

RL (강화학습) 기초 - 6. Monte-Carlo Learning Planning 의 대표적인 Dynamic programming 에서는 MDP를 이미 알고 있는 것을 Bellman 방정식으로 풀어내는 것이였습니다. 그리고 GPI를 따르는 방식으로 최적화 정책을 찾아냈었습니다. Model-free 는 MDP를 모르는 상황에서 환경과 직접적으로 상호작용을 하면서 경험을 통해서 학습을 하게되는 방식을 말합니다. Prediction 은 value를 estimate 하는 것을 말하는데 여기서는 model-free 에서 prediction이므로 MDP를 모르는 상태에서 (환경에 대한 사전지식이 없는 상태에서) 환경과 상호 작용을 하며 value function을 추정해 가는 방식을 말합니다. control 은 이렇게 찾은 value function을 최적화하여 최적의 poilc.. 2017. 10. 29.
RL (강화학습) 기초 - 2. Reinforcement Learning 소개 Deepmind에 David silver 교수님의 강의를 기반으로 하여 강화학습에 대한 이론적인 내용들을 하나씩 살펴 보겠습니다. 강의 영상과 자료들은 아래의 링크에서 볼 수 있습니다.http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 1. About RL 강화학습(RL)은 1979년도에 처음 시작했다고 서튼 교수님의 책에서 말씀하시고 계십니다. 어떻게 생각하면 오래된 것이고 또 다르게 보면 얼마 안된 분야라고도 할 수 있겠지만, 제 인생만큼 같이 발전되어온 분야라고 하니 더욱 관심이 가네요^^ 강화학습은 컴퓨터 사이언스 분야에서 머신러닝의 한 분야에서 사용되기도 하지만, 그 외에 다른 다양한 분양에서도 다른 이름으로 비슷하게 적용이 되고 있습니다. 엔.. 2017. 7. 19.