바닥부터 배우는 강화학습 총정리1 바닥부터 배우는 강화학습 1장부터 9장까지 총정리 1장 - 강화 학습이란? 시행착오를 통해 스스로 발전해 나가는 과정 => 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 에이전트가 액션을 하고 그에 따라 상황이 변하는 것을 하나의 루프라고 했을 때, 이 루프가 끊임없이 반복되는 것 = 순차적 의사결정 문제 2장 - 마르코프 결정 프로세스 마르코프 결정 프로세스: MDP MDP ≡ (S, A, P, R, γ) S: 상태의 집합 A: 액션의 집합 P: 전이 확률 행렬 \(P_{ss'}^a\) 현재 상태가 s이며 에이전트가 액션 a를 선택했을 때 다음 상태가 s'이 될 확률 R: 보상 함수 γ : 감쇠인자 상태 가치 함수 v(s) = 현재 s에서 미래 받을 수 있는 누적 보상의 평균 (액션은 π에 의해서 한.. 2024. 1. 15. 이전 1 다음