본문 바로가기

Model-Free3

RL (강화학습) 기초 - 9. Model-free Control 이번에는 Model-free에서의 Control에 대한 내용과 on-policy, off-policy에 대한 내용을 알아보겠습니다. 이전까지 배운 내용을 정리하면 Model-free Prediction이라고 할 수 있습니다. Model-free라는 것은 모델을 사용하지 않는 강화학습을 의미합니다. 그리고 prediction이라는 것은 MDP를 알지 못하는 환경에 대해서 value function을 추정하기 위한 방법을 의미합니다.이번에 살펴볼 Model-free Control은 동일한 환경에 대해서 value function을 최적화하기 위한 방법을 설명합니다. MDP 같은 모델을 사용해서 대응할 수 있는 주제들이 나열이 되어 있습니다. 알파고의 바둑 게임이나 포트폴리오 매니징에 적용을 하는 예시들도 보.. 2018. 5. 26.
RL (강화학습) 기초 - 7. Temporal-Difference Learning TD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘입니다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징입니다. every-visit MC에서는 실제 에피소드가 끝나고 받게되는 보상을 사용해서 value function을 업데이트 하였습니다.하지만 TD에서는 실제 보상과 다음 step에 대한 미래추정가치를 사용해서 학습을 하게 됩니다.이때 사용하는 보상과 value function의 합을 TD target이라고합니다.그리고 이 TD target과 실제 V(S)와의 차이를 TD error 라고 하고 델타라고 표현을 합니다. MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이.. 2017. 11. 1.
RL (강화학습) 기초 - 2. Reinforcement Learning 소개 Deepmind에 David silver 교수님의 강의를 기반으로 하여 강화학습에 대한 이론적인 내용들을 하나씩 살펴 보겠습니다. 강의 영상과 자료들은 아래의 링크에서 볼 수 있습니다.http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 1. About RL 강화학습(RL)은 1979년도에 처음 시작했다고 서튼 교수님의 책에서 말씀하시고 계십니다. 어떻게 생각하면 오래된 것이고 또 다르게 보면 얼마 안된 분야라고도 할 수 있겠지만, 제 인생만큼 같이 발전되어온 분야라고 하니 더욱 관심이 가네요^^ 강화학습은 컴퓨터 사이언스 분야에서 머신러닝의 한 분야에서 사용되기도 하지만, 그 외에 다른 다양한 분양에서도 다른 이름으로 비슷하게 적용이 되고 있습니다. 엔.. 2017. 7. 19.