본문 바로가기

Offline1

RL (강화학습) 기초 - 8. TD lamda 1 step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것입니다.2 step TD 에서의 업데이트 방식은 첫번째 보상과 두번째 보상 그리고 두번째 상태에서의 value function의 합으로 업데이트가 됩니다. TD(0) 가 n이 1인 1-step TD입니다. 앞에서 이야기한 업데이트 방식에 대한 내용을 수식으로 표현을 한 것입니다. 이를 n step에 대하여 일반화를 하면 중간에 식이 됩니다.n step TD에서의 value 함수는 n step에서 얻은 총 보상에서 기존 value 함수값과의 차이를 알파만큼 가중치하여 더함으로서 업데이트가 되게 됩니다. 그럼 n 이 몇일때가 가장 최고의.. 2017. 11. 29.

이전 1 다음

IT PM Sr. Specialist, 웹/AI증강/블록체인
- 현) (주)모블디 대표
- 전) 성균관대 겸임교수
- 공공장소 법인전환,'21
- 공공블록 오픈,'18
- 저서:대소니의 딥러닝 기초,'18
- sk 계열사 사내 강의,'18
- AI Trading System,'17
- 저서:Jquery Mobile 완벽가이드,'13
- CIGNA Project Award 수상,'13
- (주)라이나 생명보험,'11
- (주)Ace 생명보험,'08

티스토리툴바