* Reference
•
강의자료
•
참고서적
9. Model-free: prediction
3주차 수업에선 Model-free 문제에서 가치 함수를 추정하기 위한 방법들을 배웠다.
강의 자료의 개요에선 “Monte Carlo”, “TD(1-step)”, “TS()”가 나열돼 있지만 근본적으로는 세가지 모두 같은 맥락을 공유하고 있는 방법들이다.
Monte Carlo algorithm
“몬테 카를로”는 유럽의 작은 도시국가인 모나코의 몬테카를로 카지노에서 따온 이름이다.
랜덤성에 기대어 큰 돈을 따내는 도박처럼, 몬테카를로 방법으로 가치함수를 추정하겠다는 것은 랜덤으로 우연히 얻어진 값들의 평균으로 가치함수를 추정하겠다는 것이다. 이는 추정을 하기 위해 생각할 수 있는 가장 단순한 방법일 것이다.
는 리턴의 기댓값이라는걸 떠올려보자. 즉 t 시점 이후에 얻을 수 있는 할인된 미래 보상의 합의 기댓값을 의 가치라고 생각한다는 의미이다. 몬테카를로 방법이란 다양한 에피소드를(시작~종료까지의 행동을 하고 보상을 받는 일련의 과정들. ) 직접 경험해서 얻은 리턴의 관측값들의 평균이 큰수의 법칙에 의해 리턴의 기댓값 즉 으로 수렴한다는 사실을 이용한 방법이다.
에이전트가 어떤 주어진 정책 하에서 세번의 에피소드를 경험했다고 하자.
다음 세번의 에피소드를 이용해 을 구해보자. (할인율: )
episode1: →
episode2: →
episode3: →
⇒
같은 방식으로 을 아래와 같이 구할 수 있다.
⇒