Bellman Equation
1. Value functions
Value function์ ๊ฐ state s ๋๋ state-action pair (s,a)๊ฐ ์์ผ๋ก์ ๊ณผ์ ์ด policy ๋ฅผ ๋ฐ๋ผ ์งํํ๋ค๊ณ ํ ๋, Return์ ๊ธฐ๋๊ฐ์ ๊ด์ ์์ ๊ทธ ๊ฐ์น๋ฅผ ํ๊ฐํ๋ ํจ์์ด๋ค. ์ ๋ฆฌํ์๋ฉด ํ์ฌ state s ํน์ (s,a)๊ฐ ์์ผ๋ก ์ผ๋ง๋ ๋ง์ reward๋ฅผ ์ป์ ์ ์๋์ง ๋ํ๋ด๋ ํจ์์ด๋ค.
2. State-value function
โข
=
โ ํ์ฌ state s์ ๊ฐ์น๋ฅผ ๋ํ๋ด๋ ํจ์๋ก ํ์ฌ state s์์ ์์ํ์ฌ policy ๋ฅผ ๋ฐ๋ฅผ ๋ Return์ ๊ธฐ๋๊ฐ์ผ๋ก ํํ๋๋ค. ๋ง์ฝ Return์ ๊ธฐ๋๊ฐ์ด ํฌ๋ค๋ฉด, ๊ทธ state์์ ์์ผ๋ก ๋ฐ๊ฒ ๋ ํ๊ท ์ ์ธ reward๊ฐ ํฌ๋ค๋ ์๋ฏธ์ด๋ฏ๋ก ๊ฐ์น๊ฐ ๋๋ค๊ณ ํ๋จํ ์ ์๋ค.
3. Action-value function
โข
โ ํ์ฌ state s์์ action a๋ฅผ ์ทจํ์ ๋์ ๊ฐ์น๋ฅผ ๋ํ๋ด๋ ํจ์๋ก ํ์ฌ state s์์ action a๋ฅผ ์ ํํ๊ณ ์ดํ์ policy ๋ฅผ ๋ฐ๋ผ ์งํํ ๋์ Return์ ๊ธฐ๋๊ฐ์ผ๋ก ํํ๋๋ค. ๋ง์ฝ action-value function์ ์ ์ ์๋ค๋ฉด ์ด๋ค action์ด ๊ฐ์ฅ ์ข์ action์ธ์ง ํ๋จ์ด ๊ฐ๋ฅํ๊ธฐ ๋๋ฌธ์ policy ์ ํ์ ์์ด ์ ๋ฆฌํ๋ค. ๋ฐ๋ฉด State-value function๋ง์ ์ฌ์ฉํด์๋ policy ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค. ๊ทธ๋ฆฌ๊ณ ํน์ state์์ ๊ฐ์น๋ฅผ ํ๊ฐํ ๋ state value function์ ํ๋์ ๊ฐ์ผ๋ก ๋์ค์ง๋ง, action value function์ ๋ชจ๋ action์ ๋ํด ๊ณ ๋ คํด์ผ ํ๋ฏ๋ก ์ฐ์ฐ๋์ด ๋ง๋ค๋ ๋จ์ ์ด ์๋ค.
โ ์ ๊ฐ์ด Action value function์ ํ์ฉํ์ฌ state-value function์ ํํํ ์ ์๋ค. ์ด๋ ํ์ฌ state s์ ๊ฐ์น๋ ๊ทธ state์์ ์ ํ ๊ฐ๋ฅํ ๋ชจ๋ action์ ๋ํด ๊ณ ๋ ค๋์ด์ผ ํ๋ฏ๋ก ํน์ action์ด ์ ํ๋ ํ๋ฅ ๊ณผ ๊ทธ๋์ ๊ฐ์น๋ค์ธ q-function์ ํตํด ํํ ๊ฐ๋ฅํ ๊ฒ์ด๋ค.
4. Advantage function
โข
โ state s์์ action a์ ๋ํ Advantage function์ ๋ value function์ ์ฐจ์ด๋ก ๋ํ๋ด๋ฉฐ action์ด ํ์ฌ state์ ๊ฐ์น์ ๋ํด ํ๊ท ์ด์์ ๊ฐ์น๊ฐ ์๋์ง, ์ดํ์ธ์ง๋ฅผ ๋ํ๋ด์ค๋ค.
5. Dynamic Programming vs RL
โข
DP์์๋ MDP๋ฅผ ์๋ ์ํฉ(Model-based)์ด๋ฏ๋ก ์ transition probability P๋ฅผ ์๊ณ ์๋ ์ํฉ์ด๋ค. ๋ฐ๋ผ์ ์ง์ ๊ธฐ๋๊ฐ์ ๋ํ ์ฐ์ฐ์ด ๊ฐ๋ฅํ๊ณ ์ฐ์ฐ๋์ด ์ ์ state-value function์ ์ฃผ๋ก ์ฌ์ฉํ๋ค.
โข
RL์์๋ MDP๋ฅผ ๋ชจ๋ฅด๋ ์ํฉ(Model-free)์ด๋ฏ๋ก transition probability๋ฅผ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์, ๊ธฐ๋๊ฐ ์ฐ์ฐ์ ์ ํํ ์ํํ ์ ์์ผ๋ฏ๋ก sample์ ํตํด ์ถ์ ์น๋ฅผ ๊ณ์ฐํ๋ค.
6. Bellman expectation equation
โข
State value function์ ๋ค์ํ ์ ํํ๊ณผ ์ ๊ฐ ๋ฐฉ์
โข
Action value function์ ๋ค์ํ ์ ํํ๊ณผ ์ ๊ฐ ๋ฐฉ์
โข
Bellman expectation equation ์ ๋ฆฌ
7. Optimal value function and Policy
โข
Optimal state-value function
โ ๋ชจ๋ Policy์ ๋ํ์ฌ state value function์ ๊ฐ์ ์ต๋๋ก ํ๋ Policy๋ฅผ ์ ์ฉํ์์ ๋์ State value function
โข
Optimal action-value function
โ ๋ชจ๋ Policy์ ๋ํ์ฌ action value function์ ๊ฐ์ ์ต๋๋ก ํ๋ Policy๋ฅผ ์ ์ฉํ์์ ๋์ Action value function
: ๊ฒฐ๊ตญ ๊ฐ๊ฐ์ Optimal policy๋ฅผ ๋ฐ๋์ ๋์ value function์ ์๋ฏธํ๋ค.
๋ง์ฝ ๊ฐ๊ฐ์ state์ value๋ฅผ ์ต๋๋ก ํ๋ policy๊ฐ ์๋ก ๋ค๋ฅธ ๊ฒฝ์ฐ์๋ policy๋ฅผ ์ ํํ ์ ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋, MDP์์๋ 1) ๋ชจ๋ Policy์ ๋ํด์ ์ธ ์ ์ด๋ ํ๋์ Optimal policy๊ฐ ์กด์ฌํ๋ค 2) Optimal policy๋ฅผ ์ ์ฉํ state value function์ ํญ์ Optimal state value function๊ณผ ๊ฐ๋ค. 3) Optimal policy๋ฅผ ์ ์ฉํ action value function์ ํญ์ Optimal action value function๊ณผ ๊ฐ๋ค.
๋ฐ๋ผ์ Optimal value function์ ๊ฒฐ๊ตญ Optimal policy๋ฅผ ๋ฐ๋์ ๋์ value function๊ณผ ๊ฐ๊ณ ์ด๊ฒ์ ๋ค๋ฅธ ๋ชจ๋ policy์ ๋ํด์ ์ฑ๋ฆฝํ๋ฏ๋ก ๊ฐ๊ฐ์ state ๋๋ state-action์์ Optimal value function์ด ์๋ก ๋ค๋ฅด๊ฒ ๋๋ ๋ฌธ์ ๋ ๋ฐ์ํ์ง ์๋๋ค.
โข
Optimal Policy
Optimal Policy๋ ๋ฅผ ์ต๋ํ ํ๋ ๊ณผ์ ์์ ์ฐพ์ ์ ์๋ค. ๋ฐ๋ผ์ ์๋์ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
โ ์ฌ๊ธฐ์ ๋ฅผ ์ต๋๋ก ํ๋ action์ ์ ํํ๋ ๊ฒ์ ๊ฐ state์ ๋ํด action value function์ด ์ต๋๊ฐ ๋๋ action์ ๋จ์ํ ์ ํํ๋ค๋ฉด ๊ทธ๊ฒ์ Optimal Policy๊ฐ ์๋ ์ ์๋ค. ๋ฐ๋ผ์ Optimal action value function์ ์ต๋๋ก ํ๋ action์ ์ ํํ๋๋ก ํด์ผํ๋ค. ์ด๋ optimal action value function์ ๊ฐ state์ ๋ํด์ ๊ฐ๋ฅํ action์ ์๋งํผ ์กด์ฌํ๋ฉฐ, ์ด๋ ํด๋น state์์ ๊ทธ action์ ์ ํํ๊ณ ์ดํ์ optimal policy๋ฅผ ๋ฐ๋ฅผ ๋์ ํด๋น state-action pair์ value๋ฅผ ๋ํ๋ด๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
โ MDP์์๋ ํญ์ deterministic optimal policy๊ฐ ์กด์ฌํ๋ฉฐ, ์ด๋ ๊ณง ํน์ state์์ ์ ํํ๋ action์ด ๋ช
ํํ ํ๋๋ก ๊ฒฐ์ ๋๋ค๋ ์๋ฏธ์ด๋ค.
8. Bellman optimality equation
โข
Bellman optimality equation ์ ๋ฆฌ