본문 바로가기

Markov3

RL (강화학습) 기초 - 4. Markov Decision Processes (2) 3. Markov Decision Process 이전까지 살펴보았던 Markov reward process 에 의사결정에 대한 개념을 더 추가합니다. 이를 Markov decision process (MDP) 라고 합니다. 당연히 모든 state가 Markov 인 환경에서 이루어집니다. A 라고 하는 action이 가능한 집합을 표현하는 notation이 하나가 더 추가가 되었습니다. 이를 통해서 현재 상태 s 에서 a 라고 하는 action을 할 때 다음 상태 s' 로 가게 될 확률을 P 에 대한 내용으로 표현을 하게 됩니다. R 도 reward 에 대한 함수인데 마찬가지로 현재 상태 s 에서 a 라는 action을 할때 기대되어지는 보상을 표현하게 됩니다. 그외 나머지는 이전 내용과 동일하니까 생략합.. 2017. 8. 29.
RL (강화학습) 기초 - 3. Markov Decision Processes (1) 1. Markov Processes 이번에 다루게 될 MDP에 대해서 소개를 하면 RL, 강화학습에서 가장 중요한 핵심 이론이 됩니다. 이 강의에서는 전제조건으로 agent가 환경에서 발생되는 모든 정보를 볼 수 있다고 가정합니다. (fully observable) 설명을 하기 쉬운 환경이지만 실제로 우리가 살고 있는 환경은 그렇치 않죠. 우리는 아무리 노력을 해도 세상의 모든 뉴스를 다 보고 알수는 없기 때문입니다. 어떠한 현재 상태는 큰 프로세스가 진행이 되고 있는 과정 중에서 특정 시점이 될 것이고, 모든 환경을 다 볼 수 있기 때문에 완전히 특성들을 갖추고 있다고 볼 수 있겠습니다. Markov property에 대한 정의를 알아봅니다. agent가 environment에서 어떠한 action을 .. 2017. 8. 8.
RL (강화학습) 기초 - 2. Reinforcement Learning 소개 Deepmind에 David silver 교수님의 강의를 기반으로 하여 강화학습에 대한 이론적인 내용들을 하나씩 살펴 보겠습니다. 강의 영상과 자료들은 아래의 링크에서 볼 수 있습니다.http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 1. About RL 강화학습(RL)은 1979년도에 처음 시작했다고 서튼 교수님의 책에서 말씀하시고 계십니다. 어떻게 생각하면 오래된 것이고 또 다르게 보면 얼마 안된 분야라고도 할 수 있겠지만, 제 인생만큼 같이 발전되어온 분야라고 하니 더욱 관심이 가네요^^ 강화학습은 컴퓨터 사이언스 분야에서 머신러닝의 한 분야에서 사용되기도 하지만, 그 외에 다른 다양한 분양에서도 다른 이름으로 비슷하게 적용이 되고 있습니다. 엔.. 2017. 7. 19.