마르코프 결정 프로세스1 [ 바닥부터 배우는 강화 학습 ] 02. 마르코프 결정 프로세스 문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 한다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP의 형태로 만들어야 한다. 이번 챕터의 목적은 MDP가 무엇인지 잘 이해하는 것이다. 2.1 마르코프 프로세스 그림은 아이가 잠이 들 때 벌어지는 상황을 마르코프 프로세스로 모델링 한 그림이다. 아이가 취할 수 있는 상태의 종류는 총 5가지이다. 아이가 상태에 진입하게 되면 해당 상태에서 1분씩 머물게 된다. 1분이 지나면 다음 상태로 상태 전이를 한다. (현재 상태에서 다음 상태로 넘어간다는 말) 아이는 1분 동안 누워있다가 40% 확률로 일어나서 노는 상태 \(s_1\)으로 전이하거나, 60%의 확률로 눈을 감은 상태로 넘어간다. 1분이 지나 상태 전이를 해야 할 때, 90%의 확률로 \(s.. 2023. 9. 28. 이전 1 다음