Monte-Carlo Reinforcement Learning
๊ณ์๋ ์คํ์ผ๋ก ๋์ถํ ์ค์ ๊ฐ๋ค์ ํตํด์ ์ถ์ ํ๋ ๋ฐฉ์
1.
MC methods learn directly from episodes of experience
2.
MC is model-free: no knowledge of MDP transitions / rewards
3.
MC learns from complete episodes: no bootstrapping, ์ด ๊ฐ๋ค์ ํ๊ท ๋ธ ๊ฒ์ด value
4.
๊ณ์ loopํ episode์ ๊ฒฝ์ฐ return ์ด ๋์ค์ง ์์ผ๋ฏ๋ก, episode๋ ์ข
๋ฃ๋์ด์ผ ํ๋ค.
First-Visit Monte-Carlo Policy Evaluation
The first time-step t that state s is visited in an episode, Increment counter N(s) โ N(s) + 1
Increment total return S(s) โ S(s) + Gt , Value is estimated by mean return V(s) = S(s)/N(s)
โ ๋์์ ๋ฒ์น์ ์ธํด n์ด ๋ฌดํ๋๋ก ๊ฐ๋ฉด V(s)๋ Vpi(s)๋ก ์๋ ดํ๋ค.
Every-Visit Monte-Carlo Policy Evaluation
Every time-step t that state s is visited in an episode, Increment counter N(s) โ N(s) + 1
Increment total return S(s) โ S(s) + Gt , Value is estimated by mean return V(s) = S(s)/N(s)
โ ๋ชจ๋ state๋ฅผ ๋ฐฉ๋ฌธํ๋ค๋ ๊ฐ์ ํ์, ๋์ ๋ฒ์น์ ๋ฐ๋ผ ๋ ๋ฐฉ์์ ๊ฒฐ๊ณผ๋ ๊ฐ๋ค.
Incremental Monte-Carlo Update
V(s)๋ฅผ ๋ฐฉ๋ฌธํ ๋๋ง๋ค Incremental Mean์ ํตํด updateํ๋ค.
non-stationary์์๋ 1/N์ a์ ๊ฐ์ ์์ ๊ฐ์ผ๋ก ๊ณ ์ ํ๋ ๊ฒ์ด ์ข์ ์ ๋ ์๋ค.
โ ์ค๋๋ ๊ฒฝํ์ ์ญ์ ์ํค๊ณ 1/N์ ์ต์ ๊ธฐ์ต์ด ์์ผ ์๋ก update๋๋ ๊ฒ์ ๋ณด์ ์์ผ์ ์ต์ ๊ฐ์ผ๋ก๋ง evaluateํ๊ฒ ๋ง๋ ๋ค.
Temporal-Difference Learning
1.
TD methods learn directly from episodes of experience
2.
TD is model-free: no knowledge of MDP transitions / rewards
3.
TD learns from incomplete episodes, by bootstrapping
TD Target : Rt+1 + ฮณV (St+1)
โ one-step ๋ ๊ฐ์์ ์์ธก์น
TD error : ฮดt =Rt+1+ฮณV(St+1)โV(St)
โ V(St) : one-step ๋ ๊ฐ์์ value ์์ธก์น -V(St+1) : r* one-step์์์ value ์์ธก์น
โ one-step์ ๋ ๊ฐ์ ์์ธกํ๋ ๊ฒ์ด ์ ํํ๋ฏ๋ก, ๊ทธ ๋ฐฉํฅ์ผ๋ก V๋ฅผ ์
๋ฐ์ดํธ
MC vs TD
Advantages and Disadvantages of MC , TD
โข
MC : final outcome์ return ๊ฐ์ด ๋์จ๋ค, , complete sequences ์์ ํ์ต ๊ฐ๋ฅ
terminating ํ๊ฒฝ์์ ์ฌ์ฉ๊ฐ๋ฅ
1.
MC has high variance, zero bias
2.
Good convergence properties (even with function approximation)
3.
Not very sensitive to initial value
4.
Very simple to understand and use
โข
TD : final outcome return ๊ฐ์ด ๋์ค๊ธฐ ์ , incomple sequences ์์ ํ์ต ๊ฐ๋ฅ
non-terminating ํ๊ฒฝ์์ ์ฌ์ฉ ๊ฐ๋ฅ
1.
TD has low variance, some bias
2.
Usually more efficient than MC
3.
TD(0) converges to vฯ(s)
4.
More sensitive to initial value
episode๊ฐ ์งํ๋จ์ ๋ฐ๋ผ error๊ฐ ์ ์ ์ค์ด๋ ๋ค.
MC๋ ์๋งํ ์ค์ด๋ค๊ณ , TD๋ a์ ๋ฐ๋ผ ์ง๋ํ๋ ๋ชจ์ต ๊ด์ฐฐ
Batch MC , TD
episode๋ฅผ ๋ฌดํ๋ฒ ๋ฝ์๋ผ ์ ์์ผ๋ฉด MC์ TD๊ฐ ์๋ ดํ๋ค.
MC : Markov property๋ฅผ ์ฌ์ฉํ์ง ์๊ณ , non-Markov env์์ ๋ณดํต ํจ๊ณผ์
TD : Markov property๋ฅผ ์ฌ์ฉํด์ value๋ฅผ ์ถ์ธก, Markov env์์ ๋ ํจ๊ณผ์
Monte-Carlo Backup
St์์ ์์ํด์ ๋ค์ํ branches๊ฐ ์กด์ฌํ๋ tree๊ตฌ์กฐ
MC๋ ์ด๋ ํ๊ฐ์ง๋ฅผ ๋๊น์ง ํด์ ์ด ๊ฐ์ผ๋ก St๋ฅผ update
Temporal-Difference Backup
TD๋ ํ step๋ง ๊ฐ๋ณด๊ณ , ๊ทธ ์ํ์์ ์ถ์ธกํด์ update = bootstrapping
Dynamic Programming Backup
DP๋ Sampling ๋๊น์ง ํด๋ณด์ง ์๊ณ , ๊ทธ ์นธ์์ ํ ์ ์๋ ๋ชจ๋ actions์ ๋ํด์ ํ step ๊ฐ๋ณด๊ณ , ๊ทธ ์นธ์ ์ ํ ์๋ value๋ก full-width update
Bootstrapping and Sampling
โข
Bootstrapping : ์ถ์ธก์น๋ก ์ถ์ธก์น๋ฅผ update
MC๋ ๋๊น์ง ๊ฐ๊ธฐ ๋๋ฌธ์ ์ํจ, DP์ TD๋ ํ step๋ง ๊ฐ์ ํ๊ธฐ ๋๋ฌธ์ ์ ์ฉ
โข
ํ sample์ ํตํด update
MC, TD๋ Sample์ ํตํด ์ ์ฉ, DP๋ ๊ทธ state์์ ์ ์ฉ ๊ฐ๋ฅํ ๋ชจ๋ action์ ํ๊ธฐ ๋๋ฌธ์ ์ํจ
n-Step Prediction
n์ด ๋ฌดํ๋๋ก ๊ฐ๋ TD = MC
ฮป-return
TD lamda : TD(0) ๋ถํฐ MC๊น์ง ๋ชจ๋ ๊ฒ์ ํ๊ท ๋ด๋ ๊ฐ๋ฅํ๋ค.
โข
(1 - lamda) ์ lamda๋ฅผ ๊ณ์ํด์ ๊ณฑํด์ฃผ๋ ๋ฐฉ์, lamda๊ฐ ๊ณฑํด์ง๋ฉฐ MC์ ๊ฐ์๋ก ๊ฐ์ค์น๊ฐ ์ ์ ์ค์ด๋๋๋ฐฉ์
TD(ฮป) Weighting Function
โ ์๊ฐ์ด ์ง๋ ์๋ก ๊ฐ์ค์น๊ฐ ์ ์ ์ค์ด๋ ๋ค.
Geometry means๋ฅผ ์ฌ์ฉํ๋ฉด computation์ efficientํ๊ณ , memorylessํ๊ฒ ์ฌ์ฉํ ์ ์๋ค.
TD(0)์ ๊ฐ์ ๋น์ฉ์ผ๋ก TD(lamda)๋ฅผ ๊ณ์ฐ๊ฐ๋ฅํ๋ค.
Forward-view TD(lamda)
โข
Update value function towards the ฮป-return
โข
Like MC, can only be computed from complete episodes (TD(0)์ ์ฅ์ ์ด ์ฌ๋ผ์ง)
Backward View TD(lamda)
โข
Update online, every step, from incomplete sequences (TD(0) ์ ์ฅ์ ์ด ์ฌ๋ผ์ง)
โข
Keep an eligibility trace for every state s
โข
๊ณผ๊ฑฐ์์ ์ฑ
์์์ฌ๋ฅผ ๊ณ์ ๊ธฐ๋กํ๋ฉด์ ์ค๊ธฐ ๋๋ฌธ์, ๋งค state๋ง๋ค update๊ฐ ๊ฐ๋ฅ
๋๋ถ๋ถ์ ํ๊ฒฝ์์ Backward TD(lamda)๋ฅผ ์ฃผ๋ก ์ฌ์ฉ
Eligibility Traces
โ ์ฑ
์์ด ํฐ ๊ฒํํ
update๋ฅผ ๋ง์ด ํด์ฃผ๋ ๋ฐฉ์
โข
Frequency heuristic: assign credit to most frequent states
โข
Recency heuristic: assign credit to most recent states
ํ๋ฒ๋ ๋ฐฉ๋ฌธํ์ง ์์ผ๋ฉด 0, state๋ฅผ ๋ฐฉ๋ฌธํ๋ฉด 1์ ๋ํด์ฃผ๊ณ ๋ฐฉ๋ฌธํ์ง ์์ผ๋ฉด r๊ณฑํด์ ์ค์ธ๋ค.