REINFORCE
์ด์ ๊ธ์ ๋ค์ํ Policy gradient ์ค Return์ ์ฌ์ฉํ๋ REINFORCE Algorithm์ด๋ค.
1.
ํ์ฌ ์ฃผ์ด์ง parameter ๋ฅผ ๋ฐํ์ผ๋ก M๊ฐ์ trajectory ์์ฑ
2.
episode์์ Return ๊ณ์ฐ
3.
๋ฅผ sample mean์ผ๋ก ๊ทผ์ฌ
4.
์ ์ฒด trajectory์ ๋ํ Return์ ๊ธฐ๋๊ฐ์ผ๋ก objective function์ด ์ ์๋์ด ์์ผ๋ฏ๋ก Gradient ascent ๋ฐฉ์์ parameter update์ ์ ์ฉ
โข
REINFORCE ๋จ์
ํ๋์ episode๊ฐ ์ข
๋ฃ๋์ด์ผ policy update๊ฐ ๊ฐ๋ฅํ๋ค๋ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ์ด์ ๊ฐ์ ํน์ง์ ๊ฐ์ง๋ฏ๋ก Monte Carlo policy gradient๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ํ gradient๊ฐ Return์ ๋น๋กํ๋ฏ๋ก ๋ถ์ฐ์ด ํฌ๋ค. ๋ง์ง๋ง์ผ๋ก update์ ๋์์ด ๋๋ policy์ ์ค์ sample์ ์ป๋ policy๊ฐ ๋์ผํ on-policy ๋ฐฉ์์ด๋ผ๋ ์ ์ด ๋จ์ ์ด๋ค.
โข
REINFORCE with baseline
REINFORCE์ ๋จ์ ์ธ variance๋ฅผ ์ค์ด๊ธฐ ์ํด์ baseline์ ๋์
ํ ํํ๋ฅผ ๊ณ ๋ คํ๋ค. ์ด๋ baseline์ action๊ณผ ๋ฌด๊ดํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค๋ฉด, ์ด์ ์ ์ฆ๋ช
์ ์ํ์ฌ ๊ธฐ๋๊ฐ์ด ๋ณํ์ง ์์ผ๋ฏ๋ก ์ฌ์ ํ unbias๋ฅผ ์ ์งํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
1.
ํ์ฌ ์ฃผ์ด์ง policy ์ parameter ์ ๋ํด episode ์์ฑ
2.
ํด๋น time-step์ return ๊ณ์ฐ
3.
๊ณ์ฐ๋ return์ target์ผ๋ก ํ์ฌ gradient descent ์ ์ฉํ์ฌ, baseline ( state-function ) parameter update
4.
gradient ascent ๋ฐฉ์์ ์ ์ฉํ์ฌ policy์ parameter update
5.
ํ๋์ episode์ ๋ํด update ์ข
๋ฃ ์ดํ ์์ฑ๋ ๋ค๋ฅธ episode์ ๋ํด ๋ค์ ๋ฐ๋ณต ์ ์ฉ
**5 ๋จ๊ณ์์ ๋ฅผ sample mean์ผ๋ก ๊ทผ์ฌํ์ฌ ์ฌ์ฉํ๋ฉฐ 1-step๋งํผ ์งํํ์ฌ ์ป์ data๋ก ์ฆ์ updateํ๋ ๋ฐฉ์์ ํํ๊ณ ์์
**Policy Gradient ์์