Search
💪

강화학습 Week 3(in progress)

생성일
2023/01/16 20:49
태그
강화학습
작성자

* Reference

강의자료
Reinforcement Learning - Week 3
3884.5KB
참고서적

9. Model-free: prediction

3주차 수업에선 Model-free 문제에서 가치 함수를 추정하기 위한 방법들을 배웠다.
강의 자료의 개요에선 “Monte Carlo”, “TD(1-step)”, “TS(λ\lambda)”가 나열돼 있지만 근본적으로는 세가지 모두 같은 맥락을 공유하고 있는 방법들이다.

Monte Carlo algorithm

“몬테 카를로”는 유럽의 작은 도시국가인 모나코의 몬테카를로 카지노에서 따온 이름이다.
랜덤성에 기대어 큰 돈을 따내는 도박처럼, 몬테카를로 방법으로 가치함수를 추정하겠다는 것은 랜덤으로 우연히 얻어진 값들의 평균으로 가치함수를 추정하겠다는 것이다. 이는 추정을 하기 위해 생각할 수 있는 가장 단순한 방법일 것이다.
v(st)v(s_t)는 리턴의 기댓값이라는걸 떠올려보자. 즉 t 시점 이후에 얻을 수 있는 할인된 미래 보상의 합의 기댓값을 sts_t의 가치라고 생각한다는 의미이다. 몬테카를로 방법이란 다양한 에피소드를(시작~종료까지의 행동을 하고 보상을 받는 일련의 과정들. s0,a0,r1,s1,a1,...sTs_0,a_0,r_1,s_1,a_1,...s_T ) 직접 경험해서 얻은 리턴의 관측값들의 평균이 큰수의 법칙에 의해 리턴의 기댓값 즉 v(s)v(s)으로 수렴한다는 사실을 이용한 방법이다.
에이전트가 어떤 주어진 정책 하에서 세번의 에피소드를 경험했다고 하자.
다음 세번의 에피소드를 이용해 v(s0)v(s_0)을 구해보자. (할인율: γ=1\gamma = 1)
episode1: s0,a0,1,s1,a1,1,s2,a2,1,s3,a3,1,sTs_0, a_0, 1, s_1, a_1, 1, s_2, a_2, 1, s_3, a_3, 1, s_TG0=4G_0 = 4
episode2: s0,a0,1,s1,a1,1,s2,a2,1,s3,a3,1,s4,a4,2,sTs_0, a_0, 1, s_1, a_1, 1, s_2, a_2, 1, s_3, a_3, 1, s_4, a_4, 2, s_TG0=6G_0=6
episode3: s0,a0,1,s1,a1,1,s2,a2,1,sTs_0, a_0, 1, s_1, a_1, -1, s_2, a_2, -1,s_TG0=1G_0 = -1
v(s0)=E[G0]=4+6+(1)3=3v(s_0)=E[G_0] = \frac{4+6+(-1)}{3}= 3
같은 방식으로 v(s3)v(s_3)을 아래와 같이 구할 수 있다.
v(s3)=E[G3]=1+32=2v(s_3)=E[G_3] = \frac{1+3}{2}= 2