본문 바로가기

바닥부터 배우는 강화 학습10

바닥부터 배우는 강화학습 1장부터 9장까지 총정리 1장 - 강화 학습이란? 시행착오를 통해 스스로 발전해 나가는 과정 => 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 에이전트가 액션을 하고 그에 따라 상황이 변하는 것을 하나의 루프라고 했을 때, 이 루프가 끊임없이 반복되는 것 = 순차적 의사결정 문제 2장 - 마르코프 결정 프로세스 마르코프 결정 프로세스: MDP MDP ≡ (S, A, P, R, γ) S: 상태의 집합 A: 액션의 집합 P: 전이 확률 행렬 \(P_{ss'}^a\) 현재 상태가 s이며 에이전트가 액션 a를 선택했을 때 다음 상태가 s'이 될 확률 R: 보상 함수 γ : 감쇠인자 상태 가치 함수 v(s) = 현재 s에서 미래 받을 수 있는 누적 보상의 평균 (액션은 π에 의해서 한.. 2024. 1. 15.
[ 바닥부터 배우는 강화 학습 ] 10. 알파고와 MCTS 이번 챕터에서는 알파고에 쓰인 강화 학습 알고리즘과 원리, 그에 더해 MCTS에 대해 배울 예정이다. 10.1 알파고 알파고를 이해할 때 학습 + 실시간 플래닝이라는 2단계로 나누어 접근하면 이해가 쉽다. 학습 단계: 알파고가 이세돌을 만나기 전에 이루어지는 과정 실시간 플래닝: 이세돌과 대국 도중 실시간으로 이루어지는 과정 알파고는 실시간 플래닝 알고리즘으로 MCTS를 사용한다. 학습단계 MCTS에서 쓰일 재료들을 만드는 단계이다. MCTS는 크게 4가지 준비물을 필요로 한다. 1) 사람의 기보를 이용해 지도 학습한 정책 \(\pi_{sl}\) 2) 롤아웃 정책 \(\pi_{roll}\) 3) 스스로 대국하며 강화 학습한 정책 \(\pi_{rl}\) 4) 밸류 네트워크 \(v_{rl}\) 1) 지도 학.. 2024. 1. 9.
[ 바닥부터 배우는 강화 학습 ] 09. 정책 기반 에이전트 9.1 Policy Gradient 먼저 정책 기반 에이전트가 왜 필요한지에 대해 설명해본다. 1. 가치 기반 에이전트가 액션을 선택하는 방식은 결정론적이다. 모든 상태 s에 대해 각 상태에서 선택하는 액션이 변하지 않는다는 뜻이다. 이 에이전트가 가위바위보를 한다면 어떨까? 계속 정해진 하나의 패만 내고 상대가 전략을 수정할 수 있다면 쉽게 간파당할 것이다. 이에 반해 정책 기반 에이전트는 확률적 정책을 취할 수 있다. (가위, 바위, 보를 동등하게 3분의 1 확률로 선택하는 정책을 가질 수 있는 것) 2. 액션 공간이 연속적인 경우 대처 가능 또한 액션 공간이 연속적일 경우(0에서 1사이의 모든 실수 값이 액션으로 선택 가능한 상황) 이때 가치 기반 에이전트가 작동하기 위해서는 모든 a에 대해 Q(s.. 2024. 1. 8.
[ 바닥부터 배우는 강화 학습 ] 08. 가치 기반 에이전트 이번 챕터에서 다룰 문제는 어떠한 제약 조건도 더는 없는 상황이다. 첫 번째는 모델 프리 상황이고, 두 번째는 상태 공간과 액션 공간이 매우 커서 밸류를 일일이 테이블에 담지 못하는 상황에서의 해결책에 대해 다룰 예정이다. 큰 문제 공간을 다루기 위해 본격적으로 뉴럴넷과 강화학습이 접목한다. 강화 학습에 뉴럴넷을 접목시키는 접근법은 2가지이다. 1) 가치 함수 \(v_\pi\)(s)나 \(q_\pi\)(s,a)를 뉴럴넷으로 표현하는 방식 2) \(\pi\)(a|s) 자체를 뉴럴넷으로 표현하는 방식 더 자세한 설명을 하기 전에, 에이전트의 분류에 대해 살펴보자 가치 기반 에이전트는 가치 함수에 근거하여 액션을 선택 액션-가치 함수 q(s,a)의 값을 보고 액션을 선택 (챕터 6에서 설명한 것처럼 모델-프리.. 2024. 1. 8.
[ 바닥부터 배우는 강화 학습 ] 05. MDP를 모를 때 밸류 평가하기 이번 챕터부터는 MDP의 전이 확률과 보상 함수를 모를 때에 대한 이야기이다. 주어진 수식을 이용해 정확한 값을 계산하는 대신, 수많은 샘플을 통해 근사하는 샘플 기반 방법론이 도입될 차례이다. MDP를 모른다는 것은 보상 함수 \(r_{s}^a\)와 전이 확률\(P_{ss'}^a\)을 모른다는 뜻이다. 즉, 실제로 액션을 해 보기 전까지는 보상을 얼마를 받을지도 모르고, 어떤 상태로 이동하게 될 지 확률 분포도 모르는 상황이다. 이를 모델 프리 라고 부른다. 모델 = 강화 학습에서 환경의 모델의 줄임말로, 에이전트의 액션에 대해 환경이 어떻게 응답할지 예측하기 위해 사용하는 모든것을 가리킨다. 에이전트의 액션에 대하여 환경이 어떻게 반응할지 알 수 있다면 에이전트의 입장에선 여러 가지 계획을 세워볼 수.. 2024. 1. 2.
[ 바닥부터 배우는 강화 학습 ] 06. MDP를 모를 때 최고의 정책 찾기 이전 챕터에서 Prediction 문제를 풀었다면 이번 챕터에서는 Control 문제를 해결할 차례이다. 밸류를 계산할 수 있기 때문에 이를 이용해 정책을 찾는 것은 한결 쉽다. Q러닝도 이번 챕터에서 등장한다. 우리는 이제 주어진 정책을 평가하는 방법론인 MC와 TD를 알고있다. 이 방법론을 통해 어떠한 정책이 주어져도, MDP에 대한 정보를 몰라도 각 상태의 가치를 평가할 수 있게 되었다. 해당 정책을 따라서 에이전트가 움직이게 한 다음에 에이전트가 쌓은 경험으로부터 각 상태의 가치를 학습하는 방식이었다. 그러나 이는 주어진 정책을 평가하는 방법론일 뿐 최고의 정책을 찾는 방법에 대해 살펴보자. 여전히 상태 개수나 액션 개수가 적은 MDP 세팅이어야하며, MDP에 대한 정보를 모르고 있어야 한다. 이.. 2023. 11. 23.