본문 바로가기

전체 글36

바닥부터 배우는 강화학습 1장부터 9장까지 총정리 1장 - 강화 학습이란? 시행착오를 통해 스스로 발전해 나가는 과정 => 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 에이전트가 액션을 하고 그에 따라 상황이 변하는 것을 하나의 루프라고 했을 때, 이 루프가 끊임없이 반복되는 것 = 순차적 의사결정 문제 2장 - 마르코프 결정 프로세스 마르코프 결정 프로세스: MDP MDP ≡ (S, A, P, R, γ) S: 상태의 집합 A: 액션의 집합 P: 전이 확률 행렬 \(P_{ss'}^a\) 현재 상태가 s이며 에이전트가 액션 a를 선택했을 때 다음 상태가 s'이 될 확률 R: 보상 함수 γ : 감쇠인자 상태 가치 함수 v(s) = 현재 s에서 미래 받을 수 있는 누적 보상의 평균 (액션은 π에 의해서 한.. 2024. 1. 15.
[ 바닥부터 배우는 강화 학습 ] 10. 알파고와 MCTS 이번 챕터에서는 알파고에 쓰인 강화 학습 알고리즘과 원리, 그에 더해 MCTS에 대해 배울 예정이다. 10.1 알파고 알파고를 이해할 때 학습 + 실시간 플래닝이라는 2단계로 나누어 접근하면 이해가 쉽다. 학습 단계: 알파고가 이세돌을 만나기 전에 이루어지는 과정 실시간 플래닝: 이세돌과 대국 도중 실시간으로 이루어지는 과정 알파고는 실시간 플래닝 알고리즘으로 MCTS를 사용한다. 학습단계 MCTS에서 쓰일 재료들을 만드는 단계이다. MCTS는 크게 4가지 준비물을 필요로 한다. 1) 사람의 기보를 이용해 지도 학습한 정책 \(\pi_{sl}\) 2) 롤아웃 정책 \(\pi_{roll}\) 3) 스스로 대국하며 강화 학습한 정책 \(\pi_{rl}\) 4) 밸류 네트워크 \(v_{rl}\) 1) 지도 학.. 2024. 1. 9.
[ 바닥부터 배우는 강화 학습 ] 09. 정책 기반 에이전트 9.1 Policy Gradient 먼저 정책 기반 에이전트가 왜 필요한지에 대해 설명해본다. 1. 가치 기반 에이전트가 액션을 선택하는 방식은 결정론적이다. 모든 상태 s에 대해 각 상태에서 선택하는 액션이 변하지 않는다는 뜻이다. 이 에이전트가 가위바위보를 한다면 어떨까? 계속 정해진 하나의 패만 내고 상대가 전략을 수정할 수 있다면 쉽게 간파당할 것이다. 이에 반해 정책 기반 에이전트는 확률적 정책을 취할 수 있다. (가위, 바위, 보를 동등하게 3분의 1 확률로 선택하는 정책을 가질 수 있는 것) 2. 액션 공간이 연속적인 경우 대처 가능 또한 액션 공간이 연속적일 경우(0에서 1사이의 모든 실수 값이 액션으로 선택 가능한 상황) 이때 가치 기반 에이전트가 작동하기 위해서는 모든 a에 대해 Q(s.. 2024. 1. 8.
[ 바닥부터 배우는 강화 학습 ] 08. 가치 기반 에이전트 이번 챕터에서 다룰 문제는 어떠한 제약 조건도 더는 없는 상황이다. 첫 번째는 모델 프리 상황이고, 두 번째는 상태 공간과 액션 공간이 매우 커서 밸류를 일일이 테이블에 담지 못하는 상황에서의 해결책에 대해 다룰 예정이다. 큰 문제 공간을 다루기 위해 본격적으로 뉴럴넷과 강화학습이 접목한다. 강화 학습에 뉴럴넷을 접목시키는 접근법은 2가지이다. 1) 가치 함수 \(v_\pi\)(s)나 \(q_\pi\)(s,a)를 뉴럴넷으로 표현하는 방식 2) \(\pi\)(a|s) 자체를 뉴럴넷으로 표현하는 방식 더 자세한 설명을 하기 전에, 에이전트의 분류에 대해 살펴보자 가치 기반 에이전트는 가치 함수에 근거하여 액션을 선택 액션-가치 함수 q(s,a)의 값을 보고 액션을 선택 (챕터 6에서 설명한 것처럼 모델-프리.. 2024. 1. 8.
[ 바닥부터 배우는 강화 학습 ] 05. MDP를 모를 때 밸류 평가하기 이번 챕터부터는 MDP의 전이 확률과 보상 함수를 모를 때에 대한 이야기이다. 주어진 수식을 이용해 정확한 값을 계산하는 대신, 수많은 샘플을 통해 근사하는 샘플 기반 방법론이 도입될 차례이다. MDP를 모른다는 것은 보상 함수 \(r_{s}^a\)와 전이 확률\(P_{ss'}^a\)을 모른다는 뜻이다. 즉, 실제로 액션을 해 보기 전까지는 보상을 얼마를 받을지도 모르고, 어떤 상태로 이동하게 될 지 확률 분포도 모르는 상황이다. 이를 모델 프리 라고 부른다. 모델 = 강화 학습에서 환경의 모델의 줄임말로, 에이전트의 액션에 대해 환경이 어떻게 응답할지 예측하기 위해 사용하는 모든것을 가리킨다. 에이전트의 액션에 대하여 환경이 어떻게 반응할지 알 수 있다면 에이전트의 입장에선 여러 가지 계획을 세워볼 수.. 2024. 1. 2.
[ 바닥부터 배우는 강화 학습 ] 06. MDP를 모를 때 최고의 정책 찾기 이전 챕터에서 Prediction 문제를 풀었다면 이번 챕터에서는 Control 문제를 해결할 차례이다. 밸류를 계산할 수 있기 때문에 이를 이용해 정책을 찾는 것은 한결 쉽다. Q러닝도 이번 챕터에서 등장한다. 우리는 이제 주어진 정책을 평가하는 방법론인 MC와 TD를 알고있다. 이 방법론을 통해 어떠한 정책이 주어져도, MDP에 대한 정보를 몰라도 각 상태의 가치를 평가할 수 있게 되었다. 해당 정책을 따라서 에이전트가 움직이게 한 다음에 에이전트가 쌓은 경험으로부터 각 상태의 가치를 학습하는 방식이었다. 그러나 이는 주어진 정책을 평가하는 방법론일 뿐 최고의 정책을 찾는 방법에 대해 살펴보자. 여전히 상태 개수나 액션 개수가 적은 MDP 세팅이어야하며, MDP에 대한 정보를 모르고 있어야 한다. 이.. 2023. 11. 23.
[ 바닥부터 배우는 강화 학습 ] 04. MDP를 알 때의 플래닝 앞서 벨만 방정식을 배운 덕분에 이제는 실제로 간단한 MDP를 풀 수 있다. 이번 챕터에서 벨만 방정식을 반복적으로 적용하는 방법론을 통해 간단한 MDP를 직접 풀어보자. 이번 챕터에서 다룰 내용은 다음 두 조건을 만족하는 상황이다. 1. 작은 문제 (상태 집합 S나 액션의 집합 A의 크기가 작은 경우) 2. MDP를 알 때 (보상 함수\(r_s^a\)와 전이 확률 행렬\(P_{ss'}^a\)을 알고 있을 때) MDP에 대한 모든 정보를 알 때 이를 이용해 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝이라고 한다. --> 미래가 어떤 과정을 거쳐 정해지는지 알고 있으니 시뮬레이션을 해보며 좋은 계획을 세우는 것이다. 이렇게 가장 쉬운 설정에서 정책 \(\pi\)가 주어졌을 때 각 상태의 밸류를 평가하는.. 2023. 11. 10.
[ 바닥부터 배우는 강화 학습 ] 03. 벨만 방정식 대부분의 강화 학습 알고리즘은 밸류를 구하는 것에서 출발한다. 그리고 밸류를 구하는 데 뼈대가 되는 수식이 바로 벨만 방정식이다. 이번 챕터에서는 벨만 기대 방정식과 벨만 최적 방정식이라는 두 가지 종류의 방정식을 배울 예정이다. 벨만 기대 방정식 = 주어진 정책 아래에서 상태 가치를 계산하는 방정식 상태 가치 함수에 대한 방정식으로 현재 상태에서 특정 정책 \(\pi\)를 따랐을 때 예상되는 기대 반환값을 나타낸다. 벨만 최적 방정식 = 최적 정책을 찾기 위한 방정식 최적 가치 함수를 계산하는 것이 목표이다. 재귀함수 벨만 방정식은 기본적으로 재귀적 관계에 대한 식이다. 재귀 함수는 자기 자신을 호출하는 함수를 가리킨다. 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, ... .. 2023. 10. 4.
[ 바닥부터 배우는 강화 학습 ] 02. 마르코프 결정 프로세스 문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 한다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP의 형태로 만들어야 한다. 이번 챕터의 목적은 MDP가 무엇인지 잘 이해하는 것이다. 2.1 마르코프 프로세스 그림은 아이가 잠이 들 때 벌어지는 상황을 마르코프 프로세스로 모델링 한 그림이다. 아이가 취할 수 있는 상태의 종류는 총 5가지이다. 아이가 상태에 진입하게 되면 해당 상태에서 1분씩 머물게 된다. 1분이 지나면 다음 상태로 상태 전이를 한다. (현재 상태에서 다음 상태로 넘어간다는 말) 아이는 1분 동안 누워있다가 40% 확률로 일어나서 노는 상태 \(s_1\)으로 전이하거나, 60%의 확률로 눈을 감은 상태로 넘어간다. 1분이 지나 상태 전이를 해야 할 때, 90%의 확률로 \(s.. 2023. 9. 28.
[ 바닥부터 배우는 강화 학습 ] 01. 강화 학습이란 1.1 지도 학습과 강화 학습 기계 학습 강화 학습 시행착오를 통해 스스로 발전해 나가는 과정 => 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 지도 학습 지도자 혹은 정답이 주어져 있는 학습 학습에 사용되는 데이터의 특징을 사람이 선택 비지도 학습 ex ) 사람 얼굴 1만 장을 학습한 후에 1만 장에 포함되어 있지 않은 새로운 사람의 얼굴을 생성 ex ) 클러스터링 : 주어진 데이터 중 성질이 비슷한 것들끼리 묶는 것 1.2 순차적 의사결정 문제 순차적 의사결정 문제? = 어떤 행동(의사결정)을 하고, 그로 인해 상황이 바뀌고, 다음 상황에서 또 다시 어떤 행동을 하고 ... 각 상황에 따라 하는 행동이 다음 상황에 영향을 주는 것 ex ) 운전, .. 2023. 9. 18.