Loading [MathJax]/jax/output/CommonHTML/jax.js

본문 바로가기

최적 밸류1

[ 바닥부터 배우는 강화 학습 ] 03. 벨만 방정식 대부분의 강화 학습 알고리즘은 밸류를 구하는 것에서 출발한다. 그리고 밸류를 구하는 데 뼈대가 되는 수식이 바로 벨만 방정식이다. 이번 챕터에서는 벨만 기대 방정식과 벨만 최적 방정식이라는 두 가지 종류의 방정식을 배울 예정이다. 벨만 기대 방정식 = 주어진 정책 아래에서 상태 가치를 계산하는 방정식 상태 가치 함수에 대한 방정식으로 현재 상태에서 특정 정책

$\pi$ 를 따랐을 때 예상되는 기대 반환값을 나타낸다. 벨만 최적 방정식 = 최적 정책을 찾기 위한 방정식 최적 가치 함수를 계산하는 것이 목표이다. 재귀함수 벨만 방정식은 기본적으로 재귀적 관계에 대한 식이다. 재귀 함수는 자기 자신을 호출하는 함수를 가리킨다. 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, ... .. 2023. 10. 4.

이전 1 다음

티스토리툴바