본문 바로가기

바닥부터 배우는 강화학습2

[ 바닥부터 배우는 강화 학습 ] 04. MDP를 알 때의 플래닝 앞서 벨만 방정식을 배운 덕분에 이제는 실제로 간단한 MDP를 풀 수 있다. 이번 챕터에서 벨만 방정식을 반복적으로 적용하는 방법론을 통해 간단한 MDP를 직접 풀어보자. 이번 챕터에서 다룰 내용은 다음 두 조건을 만족하는 상황이다. 1. 작은 문제 (상태 집합 S나 액션의 집합 A의 크기가 작은 경우) 2. MDP를 알 때 (보상 함수\(r_s^a\)와 전이 확률 행렬\(P_{ss'}^a\)을 알고 있을 때) MDP에 대한 모든 정보를 알 때 이를 이용해 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝이라고 한다. --> 미래가 어떤 과정을 거쳐 정해지는지 알고 있으니 시뮬레이션을 해보며 좋은 계획을 세우는 것이다. 이렇게 가장 쉬운 설정에서 정책 \(\pi\)가 주어졌을 때 각 상태의 밸류를 평가하는.. 2023. 11. 10.
[ 바닥부터 배우는 강화 학습 ] 02. 마르코프 결정 프로세스 문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 한다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP의 형태로 만들어야 한다. 이번 챕터의 목적은 MDP가 무엇인지 잘 이해하는 것이다. 2.1 마르코프 프로세스 그림은 아이가 잠이 들 때 벌어지는 상황을 마르코프 프로세스로 모델링 한 그림이다. 아이가 취할 수 있는 상태의 종류는 총 5가지이다. 아이가 상태에 진입하게 되면 해당 상태에서 1분씩 머물게 된다. 1분이 지나면 다음 상태로 상태 전이를 한다. (현재 상태에서 다음 상태로 넘어간다는 말) 아이는 1분 동안 누워있다가 40% 확률로 일어나서 노는 상태 \(s_1\)으로 전이하거나, 60%의 확률로 눈을 감은 상태로 넘어간다. 1분이 지나 상태 전이를 해야 할 때, 90%의 확률로 \(s.. 2023. 9. 28.