Markov Property
1. Grid world example
State :
Action:
Reward : ๋๋ฌ ์ , ๋๋ฌ ์ , Negative reward c (๋ฌด์๋ฏธํ ์ด๋ ํจ๋ํฐ)
Agent : Noisy movement
State trainsition probability
1.
์ ๋๋ฌ ์ ํ์ฌ ์ํ ์ ์ง
2.
์ ํํ ๋ฐฉํฅ , ์ข/์ฐ ๋ฐฉํฅ์ ๋ํด ํ๋ฅ ๋ก ์ด๋
Terminal state :
Goal : Total sum of rewards๋ฅผ maximizeํ๋ policy ์ฐพ๊ธฐ
Episode
Total Reward : 5c+1
2. Actions in grid world
โข
Deterministic
โฆ
Agent์ ๋ค์ state๊ฐ ํ์ฌ state์ action์ ์ํด์ ์๋ฒฝํ ์ ํด์ง๋ ๊ฒฝ์ฐ
โช
Policy๊ฐ ์ ํด์ง๋ฉด episode 1๊ฐ๋ง ๊ฐ๋ฅ
โข
Stochastic
โฆ
Agent๊ฐ ๊ฐ์ state์์ ๊ฐ์ action์ ํ๋๋ผ๋ ๋ฌด์์์ฑ์ ์ํด ๋ค์ํ ๊ฒฐ๊ณผ๊ฐ ๊ฐ๋ฅ
โช
Policy๊ฐ ์ ํด์ง๋๋ผ๋ ์ฌ๋ฌ episode๊ฐ ๊ฐ๋ฅ
3. Markov property
โข
Stochastic Process
โฆ
์๊ฐ์ ๋ฐ๋ผ index๊ฐ ๋ถ์ฌ๋ ํ๋ฅ ๋ณ์์ ์งํฉ
โฆ
์ด์ฐ ํ๋ฅ ๊ณผ์ , ์ฐ์ ํ๋ฅ ๊ณผ์ ์ผ๋ก ๊ตฌ๋ถ
โข
Markov Process
โฆ
ํ๋ฅ ๊ณผ์ ์ด Markov property๋ฅผ ๋ง์กฑํ๋ฉด Markov process๋ผ๊ณ ํจ
โฆ
Markov property ๋ง์กฑ?
โช
ํ์ฌ state ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ค์ state ์ด ๋ ํ๋ฅ ์ด ๊ณผ๊ฑฐ์ ์ํ๋ค์ ๋
๋ฆฝ์ ์ด๋ผ๋ ๊ฒ์ ์๋ฏธํจ.
โข
State transition probability
โฆ
ํ์ฌ state ์์ ๋ค์ state ์ด ๋ ํ๋ฅ (์ํ ์ ์ด ํ๋ฅ )
โข
State transition probability matrix
โข
โข
๊ฐ๊ฐ์ ํ์ ํฉ์ ํ์ฌ ์ํ์์ ๊ฐ๋ฅํ ๋ชจ๋ ๋ฏธ๋ ์ํ๋ก์ ์งํ ํ๋ฅ ๋ค์ ํฉ์ด๋ฏ๋ก ํฉ์ 1
๊ฒฐ๊ณผ์ ์ผ๋ก Markov process๋ (S, P)์ tuple ํํ๋ก ๋ํ๋ผ ์ ์๋ค. ์ด๋ S๋ state์ ์งํฉ์ด๊ณ P๋ ์ํ ์ ์ด ํ๋ฅ ํ๋ ฌ์ด ๋๋ค.
Markov Decision Process
1. MDP
โข
MP
โฆ
(State, Transition Probability)
โข
MDP
โฆ
(action, reward, discount factor)
โฆ
๋ชจ๋ state๋ Markov property๋ฅผ ๋ง์กฑ
โข
Transition Probability
โฆ
โข
Reward function
โฆ
Action ์ ํ์ ๊ธฐ์ค
โฆ
: ํ์ฌ state์์ action์ ํด์ ๋ค์ state๋ก ์ ์ด๋ ๋ ์ป๊ฒ ๋๋ reward
โฆ
: ํ์ฌ state์ ์กด์ฌํ๊ธฐ๋ง ํ๋ฉด ๋ฐ๊ฒ ๋๋ reward
โฆ
: ํ์ฌ state์์ action์ ์ทจํ์ ๋ ์ป๊ฒ ๋๋ reward
โข
: 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก discount factor๋ฅผ ์๋ฏธํ๋ค.
2. Environment model
โข
MDP์์์ ํ๊ฒฝ ๋ชจ๋ธ
โฆ
์ ์ด ํ๋ฅ
โฆ
์ ์ด ํ๋ฅ ์ ์๋ ๊ฒฝ์ฐ โ MDP๋ฅผ ์๋ค โ Model-based โ Dynamic programming โ optimal policy
โฆ
์ ์ด ํ๋ฅ ์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ โ MDP๋ฅผ ๋ชจ๋ฅธ๋ค โ Model-free โ Reinforce learning โ optimal policy
3. Optimal policy in Grid world example
State :
Action:
Reward : ๋๋ฌ ์ , ๋๋ฌ ์ , Negative reward c (๋ฌด์๋ฏธํ ์ด๋ ํจ๋ํฐ)
Agent : Noisy movement
State trainsition probability
1.
์ ๋๋ฌ ์ ํ์ฌ ์ํ ์ ์ง
2.
์ ํํ ๋ฐฉํฅ , ์ข/์ฐ ๋ฐฉํฅ์ ๋ํด ํ๋ฅ ๋ก ์ด๋
Terminal state :
Goal : Total sum of rewards๋ฅผ maximizeํ๋ policy ์ฐพ๊ธฐ
โข
Optimal policy()
โฆ
๊ฐ state์์ ์ด๋ค action์ ์ ํํ ๊ฒ์ธ์ง์ ๋ํ ์ ๋ณด
โฆ
์์ ์์์์ 9๊ฐ ๊ฐ๊ฐ์ state๋ง๋ค ์ทจํ๋ action์ ๊ฒฐ์ ํ๋ ํจ์ = policy
โช
์ด๋ state transition probability์ ์ํด์ ๊ฐ์ action์ ์ ํํ๋๋ผ๋ ์ ์ด๋๋ state๊ฐ ๋ค๋ฅผ ์ ์์
โช
๊ทธ๋ฌ๋ฏ๋ก ํ๋์ policy์ ์ํด ์ฌ๋ฌ ๊ฐ์ episode๊ฐ ์์ฑ๋ ์ ์์.
โช
๋ฐ๋ผ์ reward์ ๋จ์ ํฉ์ด ์๋ ํฉ์ ๊ธฐ๋๊ฐ์ ์ต๋ํ ํ๋ policy optimal policy ๋ก ๋ํ๋
โ ์ ๊ทธ๋ฆผ์ ๊ฐ ๋ชจ๋ธ๋ง๋ค ์๋ก ๋ค๋ฅธ Optimal policy
โข
Negative reward์ ์ฐจ์ด๋ก ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ = optimal policy ๋ค๋ฆ
โข
Small negative reward ์ ๊ฐ์ด ํฌ๋ฉด ๊ฐ๊ฐ์ ์ด๋์ ๋ํด ์ฃผ์ด์ง๋ Penalty๊ฐ ์์
โฆ
1๋ฒ case์ (3,2)์์ Optimal action์ด west๊ฐ ๋๋ค.
โช
-1์ ๋๋ฌํ ๊ฐ๋ฅ์ฑ์ ์์ ํ ๋ฐฐ์ ํ๊ธฐ ์ํ ๊ฒ
โช
west action์ ์ทจํ๊ณ transition probability์ ์ํด north๋ก ์ ์ด๋๊ธฐ๋ฅผ ํฌ๋งํ๋ ๊ฒ
โช
๊ฐ์ ์ด์ ๋ก (4,1)์์์ Optimal action๋ south๊ฐ ๋๋ค.
โฆ
2๋ฒ case์์๋ c์ ๊ฐ์ด 1๋ฒ์ ๋นํด ์์์ก์ผ๋ฏ๋ก, step์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ penalty๊ฐ ๋์ด๋จ
โช
๋ฐ๋ผ์ (3,2)์ (4,1)์์ optimal action์ด ๋ฌ๋ผ์ง.
โฆ
๋ง์ง๋ง์ผ๋ก 4๋ฒ case์ ๊ฒฝ์ฐ ๊ฐ step์ ๋ํ penalty๊ฐ -2๋ก ๊ต์ฅํ ํผ
โช
๋ฐ๋ผ์ ์ต๋ํ ๋น ๋ฅธ ์ข
๋ฃ๋ฅผ ํ๋๋ก Optimal policy๊ฐ ์ฃผ์ด์ง
โช
ํนํ (3,2)์์ east action์ optimal๋ก ์ทจ๊ธํจ
โช
๋ง์ฝ north action์ optimal๋ก ์ทจ๊ธํ๋ ๊ฒฝ์ฐ ๊ฐ์ฅ ํฐ reward๋ -1์ธ๋ฐ, ์ด ๊ฒฝ์ฐ๋ -1์ ์ป๊ธฐ ์ํ ํ๋ฅ ์ด 0.8*0.8=0.64๊ฐ ๋๋ฏ๋ก (3,2)์์์ optimal action์ east์
Reward, Policy
1. Reward
โข
Scalar feedback
โข
t step์์ agent์ action์ด ์ผ๋ง๋ ์ ์ ํ์ง๋ฅผ ๋ํ๋
โ agent์ ๋ชฉํ๋ reward์ ๋์ ํฉ์ ์ต๋ํ ํ๋ ๊ฒ
โข
Reward Hypothesis
โฆ
๊ฐํํ์ต์ ๋ชจ๋ ๋ชฉํ๋ reward์ ๋์ ํฉ์ ๊ธฐ๋๊ฐ์ ์ต๋ํ ํ๋ ๊ฒ์ผ๋ก ํํ ๊ฐ๋ฅ
โฆ
๊ธฐ๋๊ฐ์ด ์ฌ์ฉ๋๋ ์ด์ ๋ ํ๋์ policy๋ฅผ ๋ฐ๋ฅธ๋ค๊ณ ํ๋๋ผ๋, transition probability์ ์ํด์ ๋์ฌ ์ ์๋ episode๊ฐ ๋ค์ํ๊ธฐ ๋๋ฌธ์.
2. Known dynamics
โข
๋ชจ๋ transition์ ๋ํด์ dynamics( )๋ฅผ ์๋ค๊ณ ๊ฐ์ ํ๋ฉด transition probability, reward ๋ฑ์ ์ด๋ฅผ ์ฌ์ฉํด ๊ณ์ฐ ๊ฐ๋ฅ
โข
transition probability
โฆ
ํ์ฌ state ์์ action ๋ฅผ ์ ํํ์ฌ ๋ค์ state ์ผ๋ก ์ ์ดํ๋ ๊ณผ์ ์์ ์ป์ ์ ์๋ reward๋ฅผ ๋์
ํ์ฌ transition probability๋ฅผ ํํํ ์ ์์(Marginalization)
โข
Expected reward (state-action pair)
โฆ
๊ธฐ๋๊ฐ ๋ถ๋ถ์ ๊ธฐ๋๊ฐ์ ์ ์์ ์ํด ํํ.
โฆ
๊ฐ ํ์ฌ state ์์ action ๋ฅผ ์ ํํ์ ๋ ์ป์ ์ ์๋ reward์ ๋ํ ํ๋ฅ
โช
๋ฐ๋ผ์ marginalization์ ํตํด state ์์ action ๋ฅผ ์ ํํ์ ๋ reward ์ ๋ฐ๊ณ ์ ์ด ๊ฐ๋ฅํ ๋ชจ๋ ์ ๋ํ ํฉ์ผ๋ก ํํ ๊ฐ๋ฅ
โข
Expected reward (state-action-next_state)
โฆ
๊ธฐ๋๊ฐ ๋ถ๋ถ์ ๊ธฐ๋๊ฐ ์ ์์ ์ํด ํํ.
โฆ
์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์์ ์ํด ํํ
โฆ
์กฐ๊ฑด์ ๋์์ ์ถ๊ฐ
โ ๊ฐ ์์ ์ ๊ฐ ๊ณผ์ ์ dynamics ํญ์ด ์กด์ฌํ๋ฏ๋ก, ์ด๋ฅผ ์๋ค๋ฉด transition probability, reward๋ dynamics๋ฅผ ํตํด ๊ณ์ฐ ๊ฐ๋ฅํ๋ค.
3. Return
โข
t ์์ ๋ถํฐ ์ข
๋ฃ ์์ ๊น์ง ๊ฐ๊ฐ๋ reward์ ๋์ ํฉ์ด๋ค.
โข
๊ฐ๊ฐ์จ ๋ 0~1 ์ฌ์ด์ ์ค์ ๊ฐ์ผ๋ก, ๋ฏธ๋์ reward์ ๋ถํ์ค์ฑ์ ๋ํ ํํ
โฆ
ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ทผ์์์ ์ด๊ฑฐ๋ ์์์์ ์ธ ๋ชจ๋ธ์์ ํํ ๊ฐ๋ฅ
โฆ
Discount factor๋ฅผ ์ฌ์ฉํ๋ ์ด์
โช
return์ ๋ฌดํ๋ ๋ฐ์ฐ์ ๋ง์
โช
๋ฏธ๋์ ๋ถํ์ค์ฑ์ ๋ํ ํํ์ด ๊ฐ๋ฅ
โช
๋ชจ๋ sequence๊ฐ ๋ฐ๋์ ์ข
๋ฃ๋๋ ๊ฒฝ์ฐ ์ฌ์ฉํ์ง ์๋ ๊ฒฝ์ฐ๋ ์์
4. Policy
โข
Stochastic policy
โฆ
์ฃผ์ด์ง state์์ ์ทจํ๋ action์ ๋ํ ํ๋ฅ ๋ถํฌ
โฆ
โข
Deterministic policy
โฆ
Policy๋ ๊ฐ state์์ ์ด๋ค action์ ์ทจํ๋ ๊ฒ์ด optimalํ์ง, ์ฆ total discounted reward๋ฅผ ์ต๋ํํ๊ธฐ ์ํ action ์ ํ์ ๋ํ guideline์ด๋ค. ์ด๋ MDP์์์ policy๋ MDP ๊ฐ state๊ฐ Markov property๋ฅผ ๋ง์กฑํ๊ธฐ ๋๋ฌธ์ ์ค์ง ํ์ฌ state์ ๋ํด์๋ง ์ข
์์ ์ด๋ค.
โข
Case1) Known MDP
โฆ
Deterministic optimal policy ๊ฐ ์กด์ฌํ๋ค.
โข
Case2) Unknown MDP
โฆ
Stochastic policy๋ฅผ ๊ณ ๋ คํด์ผ ํ๋ฉฐ, ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๋ฐฉ์์ ๋งํผ randomํ action์ ์ ํํ๊ณ ๋งํผ greedyํ action(optimal)์ ์ ํํ์ฌ ํ์ฌ sample์์ ๋น๋ก ์ต์ ์ ์๋์ง๋ผ๋, ๊ฒฝํํ์ง ์์ action์ ๋ํด์๋ ๊ณ ๋ คํ ์ ์๋๋ก ํด์ค๋ค. ์ด๋ ์ ํ๋ฅ ์ ์ ํ ๊ฐ๋ฅํ ๋ชจ๋ action์ ๋ํด์ ๋๋ฑํ๊ฒ ๋๋๊ฒ ๋๋ค.
5. Notation
: State-value function โ ํ์ฌ state์์ policy ๋ฅผ ๋ฐ๋์ ๋ ๊ฐ๋ฅํ ๋ชจ๋ return์ ๋ํ ๊ธฐ๋๊ฐ
: Optimal state-value function โ ํ์ฌ state์์ optimal policy ๋ฅผ ๋ฐ๋์ ๋์ value
: Action value function โ ํ์ฌ state์์ action ๋ฅผ ์ ํํ๊ณ ์ดํ์ ๋ฅผ ๋ฐ๋ฅผ ๋์ value
: Optimal action-value function โ ํ์ฌ state์์ action ๋ฅผ ์ ํํ๊ณ ์ดํ์ ์ ๋ฐ๋ฅผ ๋์ value
**์ด๋ value๋ ๊ฐ๊ฐ return์ ๊ธฐ๋๊ฐ์ ์๋ฏธํ๋ค.