state-value function1 RL (강화학습) 기초 - 4. Markov Decision Processes (2) 3. Markov Decision Process 이전까지 살펴보았던 Markov reward process 에 의사결정에 대한 개념을 더 추가합니다. 이를 Markov decision process (MDP) 라고 합니다. 당연히 모든 state가 Markov 인 환경에서 이루어집니다. A 라고 하는 action이 가능한 집합을 표현하는 notation이 하나가 더 추가가 되었습니다. 이를 통해서 현재 상태 s 에서 a 라고 하는 action을 할 때 다음 상태 s' 로 가게 될 확률을 P 에 대한 내용으로 표현을 하게 됩니다. R 도 reward 에 대한 함수인데 마찬가지로 현재 상태 s 에서 a 라는 action을 할때 기대되어지는 보상을 표현하게 됩니다. 그외 나머지는 이전 내용과 동일하니까 생략합.. 2017. 8. 29. 이전 1 다음