본문 바로가기

2017/113

RL (강화학습) 기초 - 8. TD lamda 1 step TD의 step을 증가시켜 나가면서 n 까지 보게 되면 n step TD로 일반화를 할 수 있습니다. 만약 step이 무한대에 가깝게 되면 MC와 동일하게 될 것입니다.2 step TD 에서의 업데이트 방식은 첫번째 보상과 두번째 보상 그리고 두번째 상태에서의 value function의 합으로 업데이트가 됩니다. TD(0) 가 n이 1인 1-step TD입니다. 앞에서 이야기한 업데이트 방식에 대한 내용을 수식으로 표현을 한 것입니다. 이를 n step에 대하여 일반화를 하면 중간에 식이 됩니다.n step TD에서의 value 함수는 n step에서 얻은 총 보상에서 기존 value 함수값과의 차이를 알파만큼 가중치하여 더함으로서 업데이트가 되게 됩니다. 그럼 n 이 몇일때가 가장 최고의.. 2017. 11. 29.
ML 뉴스 모음 - 201711 1. Capsule Network [페북 링크] 영상처리 분야에 CNN과 비교할만한 새로운 네트웍 모델이 페북에서 핫하네요. 관심있게 봐보면 좋을 것 같습니다 2. Market Making [유투브 링크] 마켓메이킹에 대한 설명과 그에 따른 간단한 예제와 고려사항들을 잘 설명해주는 영상입니다. 3. 이더리움 기술 세미나 [유투브 링크] 우리나라도 발빠르게 움직이고 있나봅니다. 이더리움의 기술적인 내용들을 깊이 있게 설명해주십니다. 4. 블록체인 개발하기 [사이트 링크] 블록체인의 핵심 알고리즘들을 심플하게 설명과 구현을 할 수 있습니다. 2017. 11. 26.
RL (강화학습) 기초 - 7. Temporal-Difference Learning TD 방식도 마찬가지로 직접적인 경험을 하면서 학습을 하는 알고리즘입니다.DP에서 사용하던 bootstrapping을 사용하고 MD에서 사용하던 Model-free 방식의 장점을 두루 갖추고 있는 것이 특징입니다. every-visit MC에서는 실제 에피소드가 끝나고 받게되는 보상을 사용해서 value function을 업데이트 하였습니다.하지만 TD에서는 실제 보상과 다음 step에 대한 미래추정가치를 사용해서 학습을 하게 됩니다.이때 사용하는 보상과 value function의 합을 TD target이라고합니다.그리고 이 TD target과 실제 V(S)와의 차이를 TD error 라고 하고 델타라고 표현을 합니다. MC에서의 value function이 업데이트 되는 과정을 위 왼쪽의 그림과 같이.. 2017. 11. 1.