본문 바로가기

바닥부터 배우는 강화 학습10

[ 바닥부터 배우는 강화 학습 ] 04. MDP를 알 때의 플래닝 앞서 벨만 방정식을 배운 덕분에 이제는 실제로 간단한 MDP를 풀 수 있다. 이번 챕터에서 벨만 방정식을 반복적으로 적용하는 방법론을 통해 간단한 MDP를 직접 풀어보자. 이번 챕터에서 다룰 내용은 다음 두 조건을 만족하는 상황이다. 1. 작은 문제 (상태 집합 S나 액션의 집합 A의 크기가 작은 경우) 2. MDP를 알 때 (보상 함수\(r_s^a\)와 전이 확률 행렬\(P_{ss'}^a\)을 알고 있을 때) MDP에 대한 모든 정보를 알 때 이를 이용해 정책을 개선해 나가는 과정을 넓게 가리켜 플래닝이라고 한다. --> 미래가 어떤 과정을 거쳐 정해지는지 알고 있으니 시뮬레이션을 해보며 좋은 계획을 세우는 것이다. 이렇게 가장 쉬운 설정에서 정책 \(\pi\)가 주어졌을 때 각 상태의 밸류를 평가하는.. 2023. 11. 10.
[ 바닥부터 배우는 강화 학습 ] 03. 벨만 방정식 대부분의 강화 학습 알고리즘은 밸류를 구하는 것에서 출발한다. 그리고 밸류를 구하는 데 뼈대가 되는 수식이 바로 벨만 방정식이다. 이번 챕터에서는 벨만 기대 방정식과 벨만 최적 방정식이라는 두 가지 종류의 방정식을 배울 예정이다. 벨만 기대 방정식 = 주어진 정책 아래에서 상태 가치를 계산하는 방정식 상태 가치 함수에 대한 방정식으로 현재 상태에서 특정 정책 \(\pi\)를 따랐을 때 예상되는 기대 반환값을 나타낸다. 벨만 최적 방정식 = 최적 정책을 찾기 위한 방정식 최적 가치 함수를 계산하는 것이 목표이다. 재귀함수 벨만 방정식은 기본적으로 재귀적 관계에 대한 식이다. 재귀 함수는 자기 자신을 호출하는 함수를 가리킨다. 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, ... .. 2023. 10. 4.
[ 바닥부터 배우는 강화 학습 ] 02. 마르코프 결정 프로세스 문제를 풀기 위해서는 먼저 문제가 잘 정의되어야 한다. 강화 학습에서 문제를 잘 정의하려면 주어진 문제를 MDP의 형태로 만들어야 한다. 이번 챕터의 목적은 MDP가 무엇인지 잘 이해하는 것이다. 2.1 마르코프 프로세스 그림은 아이가 잠이 들 때 벌어지는 상황을 마르코프 프로세스로 모델링 한 그림이다. 아이가 취할 수 있는 상태의 종류는 총 5가지이다. 아이가 상태에 진입하게 되면 해당 상태에서 1분씩 머물게 된다. 1분이 지나면 다음 상태로 상태 전이를 한다. (현재 상태에서 다음 상태로 넘어간다는 말) 아이는 1분 동안 누워있다가 40% 확률로 일어나서 노는 상태 \(s_1\)으로 전이하거나, 60%의 확률로 눈을 감은 상태로 넘어간다. 1분이 지나 상태 전이를 해야 할 때, 90%의 확률로 \(s.. 2023. 9. 28.
[ 바닥부터 배우는 강화 학습 ] 01. 강화 학습이란 1.1 지도 학습과 강화 학습 기계 학습 강화 학습 시행착오를 통해 스스로 발전해 나가는 과정 => 순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 지도 학습 지도자 혹은 정답이 주어져 있는 학습 학습에 사용되는 데이터의 특징을 사람이 선택 비지도 학습 ex ) 사람 얼굴 1만 장을 학습한 후에 1만 장에 포함되어 있지 않은 새로운 사람의 얼굴을 생성 ex ) 클러스터링 : 주어진 데이터 중 성질이 비슷한 것들끼리 묶는 것 1.2 순차적 의사결정 문제 순차적 의사결정 문제? = 어떤 행동(의사결정)을 하고, 그로 인해 상황이 바뀌고, 다음 상황에서 또 다시 어떤 행동을 하고 ... 각 상황에 따라 하는 행동이 다음 상황에 영향을 주는 것 ex ) 운전, .. 2023. 9. 18.