정책 이터레이션1 [ 바닥부터 배우는 강화 학습 ] 04. MDP를 알 때의 플래닝 앞서 벨만 방정식을 배운 덕분에 이제는 실제로 간단한 MDP를 풀 수 있다. 이번 챕터에서 벨만 방정식을 반복적으로 적용하는 방법론을 통해 간단한 MDP를 직접 풀어보자. 이번 챕터에서 다룰 내용은 다음 두 조건을 만족하는 상황이다. 1. 작은 문제 (상태 집합 S나 액션의 집합 A의 크기가 작은 경우) 2. MDP를 알 때 (보상 함수\(r_s^a\)와 전이 확률 행렬\(P_{ss'}^a\)을 알고 있을 때) MDP에 대한 모든 정보를 알 때 이를 이용해 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝이라고 한다. --> 미래가 어떤 과정을 거쳐 정해지는지 알고 있으니 시뮬레이션을 해보며 좋은 계획을 세우는 것이다. 이렇게 가장 쉬운 설정에서 정책 \(\pi\)가 주어졌을 때 각 상태의 밸류를 평가하는.. 2023. 11. 10. 이전 1 다음