본문 바로가기

off-policy1

RL (강화학습) 기초 - 9. Model-free Control 이번에는 Model-free에서의 Control에 대한 내용과 on-policy, off-policy에 대한 내용을 알아보겠습니다. 이전까지 배운 내용을 정리하면 Model-free Prediction이라고 할 수 있습니다. Model-free라는 것은 모델을 사용하지 않는 강화학습을 의미합니다. 그리고 prediction이라는 것은 MDP를 알지 못하는 환경에 대해서 value function을 추정하기 위한 방법을 의미합니다.이번에 살펴볼 Model-free Control은 동일한 환경에 대해서 value function을 최적화하기 위한 방법을 설명합니다. MDP 같은 모델을 사용해서 대응할 수 있는 주제들이 나열이 되어 있습니다. 알파고의 바둑 게임이나 포트폴리오 매니징에 적용을 하는 예시들도 보.. 2018. 5. 26.

이전 1 다음

IT PM Sr. Specialist, 웹/AI증강/블록체인
- 현) (주)모블디 대표
- 전) 성균관대 겸임교수
- 공공장소 법인전환,'21
- 공공블록 오픈,'18
- 저서:대소니의 딥러닝 기초,'18
- sk 계열사 사내 강의,'18
- AI Trading System,'17
- 저서:Jquery Mobile 완벽가이드,'13
- CIGNA Project Award 수상,'13
- (주)라이나 생명보험,'11
- (주)Ace 생명보험,'08

티스토리툴바