Markov Property
1. Grid world example
์๋์ ๊ฐ์ ์ํ๋ฅผ ๊ฐ์ง grid world๋ฅผ ๊ณ ๋ คํ๋ค.
โข
State :
โข
Action:
โข
Reward : (4,3) ๋๋ฌ ์ +1, (4,2) ๋๋ฌ ์ -1, ๊ธฐํ case์ ๋ํด negative reward c
โ negative reward์ ์ ์ฉ ์ด์ : ์๋ฏธ์๋ ์ด๋์ ๋ํ ํจ๋ํฐ ๋ถ์ฌ
โข
Agent : noisy movement, ๊ฐํํ์ต์ ํตํด ์ค์ค๋ก ํ์ตํ๋ ์ฃผ์ฒด
โข
State trainsition probability
1.
๋ฒฝ(2,2)์ ๋๋ฌ ์ ํ์ฌ ์ํ ์ ์ง
2.
์ ํํ ๋ฐฉํฅ(80%) ๊ธฐ์ค ์ข, ์ฐ ๋ฐฉํฅ์ ๋ํด 10% ํ๋ฅ ๋ก ์ด๋ โ action์ ๋ฌด์์์ฑ ๋ถ์ฌ
โข
Terminal state : (4,2), (4,3)
โข
Goal : total sum of rewards๋ฅผ maximizeํ๋ policy ์ฐพ๊ธฐ
์ด๋, Episode๊ฐ ์๋์ ๊ฐ๋ค๋ฉด total reward๋ negative reward์ ์ต์ข
reward์ ํฉ์ธ 5c+1์ด ๋๋ค.
2. Actions in grid world
โข
Deterministic
Agent์ ๋ค์ state๊ฐ ํ์ฌ state์ action์ ์ํด์ ์๋ฒฝํ ์ ํด์ง๋ ๊ฒฝ์ฐ๋ก, Policy๊ฐ ์ ํด์ง๋ฉด episode 1๊ฐ๋ง ๊ฐ๋ฅํ๋ค.
โข
Stochastic
Agent๊ฐ ๊ฐ์ state์์ ๊ฐ์ action์ ํ๋๋ผ๋ ๋ฌด์์์ฑ์ ์ํด ๋ค์ํ ๊ฒฐ๊ณผ๊ฐ ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ Policy๊ฐ ์ ํด์ง๋๋ผ๋ ์ฌ๋ฌ episode๊ฐ ๊ฐ๋ฅํ๋ค. ๋๋ถ๋ถ Stochastic grid world๋ฅผ ๊ณ ๋ คํ๋ค.
3. Markov property
โข
Stochastic Process
ํ๋ฅ ์ ๊ณผ์ ์ ์๊ฐ์ ๋ฐ๋ผ index๊ฐ ๋ถ์ฌ๋ ํ๋ฅ ๋ณ์์ ์งํฉ์ด๋ค. ํฌ๊ฒ ์ด์ฐ ํ๋ฅ ๊ณผ์ ๊ณผ ์ฐ์ ํ๋ฅ ๊ณผ์ ์ผ๋ก ๊ตฌ๋ถ๋๋ฉฐ, ์ด๋ t๊ฐ ํ์ฌ state๋ฅผ ์๋ฏธํ๊ณ , t+1์ด next state, ๋๋จธ์ง๊ฐ post๋ฅผ ์๋ฏธํ๋ค.
โข
Markov Process
๋ง์ฝ ํ๋ฅ ๊ณผ์ ์ด Markov property๋ฅผ ๋ง์กฑํ๋ฉด Markov process๋ผ๊ณ ํ๋ค. Markov property๋ฅผ ๋ง์กฑํ๋ค๋ ๊ฒ์ ํ์ฌ state ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ค์ state ์ด ๋ ํ๋ฅ ์ด ๊ณผ๊ฑฐ์ ์ํ๋ค์ ๋
๋ฆฝ์ ์ด๋ผ๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ Memoryless property๋ผ๊ณ ๋ ํ๋ค.
์ด์ฒ๋ผ Markov property๋ฅผ ๋ง์กฑํ๋ฉด process์์ ์ด์ ์ํ๊ฐ ๊ธฐ๋ก๋ ํ์์ฑ์ด ์ฌ๋ผ์ง๋ฏ๋ก, ๊ณ์ฐ ํจ์จ์ฑ์ด ์ฆ๊ฐํ๋ค.
โข
State transition probability
ํ์ฌ state s์์ ๋ค์ state sโ์ด ๋ ํ๋ฅ ์ ์๋ฏธํ๋ฉฐ ์ํ ์ ์ด ํ๋ฅ ์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ด๋ Markov property๋ฅผ ๋ง์กฑํ๋ ๊ฒฝ์ฐ๋ผ๋ฉด ๊ณผ๊ฑฐ state๊ฐ ํ๋ฅ ์ ์ํฅ์ ๋ฏธ์น์ง ์์ผ๋ฏ๋ก ํ๋ ฌ ํํ์ ํํ์ด ๊ฐ๋ฅํ๋ค.
โข
State transition probability matrix
์ ๊ฐ์ด ํ๋ ฌ ํํ์ ํ์ฉ ๊ฐ๋ฅํ๋ฉฐ ๊ฐ๊ฐ์ ํ์ ํฉ์ ํ์ฌ ์ํ์์ ๊ฐ๋ฅํ ๋ชจ๋ ๋ฏธ๋ ์ํ๋ก์ ์งํ ํ๋ฅ ๋ค์ ํฉ์ด๋ฏ๋ก ํฉ์ 1์ด ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก Markov process๋ (S, P)์ tuple ํํ๋ก ๋ํ๋ผ ์ ์๋ค. ์ด๋ S๋ state์ ์งํฉ์ด๊ณ P๋ ์ํ ์ ์ด ํ๋ฅ ํ๋ ฌ์ด ๋๋ค.
Markov Decision Process
1. MDP
์์์ ์ดํด๋ณธ MP๋ State์ Transition Probability์ tuple๋ก ํํ ๊ฐ๋ฅํ์์ผ๋, MDP์์๋ action, reward, discount factor๊ฐ ํฌํจ๋๋ฉฐ, ๋ชจ๋ state๋ Markov property๋ฅผ ๋ง์กฑํ๋ ํํ์ด๋ค.
โข
S : state space
โข
A : action space
โข
P : Transition Probability
โ ํ์ฌ state๊ฐ s์ด๊ณ a action์ ์ ํํ์ ๋ ๋ค์ state๊ฐ sโ์ด ๋ ํ๋ฅ ์ ์๋ฏธํ๋ค.
โข
R : reward function
Action ์ ํ์ ๊ธฐ์ค์ด ๋๋ฉฐ, reward๊ฐ ์ฃผ์ด์ง๋ ์์ ์ ๋ฐ๋ผ ๋ค์ํ ํํ์ด ๊ฐ๋ฅํ๋ค.
: ํ์ฌ state์์ action์ ํด์ ๋ค์ state๋ก ์ ์ด๋ ๋ ์ป๊ฒ ๋๋ reward์ ๋ํ ํํ
: ํ์ฌ state์ ์กด์ฌํ๊ธฐ๋ง ํ๋ฉด ๋ฐ๊ฒ ๋๋ reward์ ๋ํ ํํ
: ํ์ฌ state์์ action์ ์ทจํ์ ๋ ์ป๊ฒ๋๋ reward์ ๋ํ ํํ
โข
: 0~1 ์ฌ์ด์ ๊ฐ์ผ๋ก discount factor๋ฅผ ์๋ฏธํ๋ค.
2. Environment model
MDP์์์ ํ๊ฒฝ ๋ชจ๋ธ์ ์ ์ด ํ๋ฅ ์ ์๋ฏธํ๋ค. ์ด๋ ์ ์ด ํ๋ฅ ์ ์๋ ๊ฒฝ์ฐ MDP๋ฅผ ์๋ค๋ผ๊ณ ํํํ๋ฉฐ ์ด ๊ฒฝ์ฐ๋ฅผ Model-based๋ผ๊ณ ํ๋ค. Model-based์ ๊ฒฝ์ฐ ๋ฐฉ๋ํ ๊ฒ์ฐ์ ํจ์จ์ ์ผ๋ก ์งํํ๊ธฐ ์ํ์ฌ Dynamic programming ๋ฐฉ์์ ์ฌ์ฉํ์ฌ optimal policy๋ฅผ ์ฐพ๋๋ค. MDP๋ฅผ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ ์ฆ ์ ์ด ํ๋ฅ ์ ๋ชจ๋ฅด๋ ๊ฒฝ์ฐ๋ฅผ Model-free๋ผ๊ณ ํ๋ฉฐ ์ด ๊ฒฝ์ฐ Reinforce learning์ ์ฌ์ฉํ์ฌ optimal policy๋ฅผ์ฐพ๊ฒ ๋๋ค. ๋จ, MDP๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒฝ์ฐ state, action, reward space๋ ์ฌ์ ์ ์ ์ํด์ค๋ค.
3. optimal policy in Grid world example
์๋์ ๊ฐ์ ์ํ๋ฅผ ๊ฐ์ง grid world๋ฅผ ๊ณ ๋ คํ์ฌ, optimal policy๋ฅผ ์ฐพ์๋ณด์
โข
State :
โข
Action:
โข
Reward : (4,3) ๋๋ฌ ์ +1, (4,2) ๋๋ฌ ์ -1, ๊ธฐํ case์ ๋ํด negative reward c
โ negative reward์ ์ ์ฉ ์ด์ : ์๋ฏธ์๋ ์ด๋์ ๋ํ ํจ๋ํฐ ๋ถ์ฌ
โข
Agent : noisy movement, ๊ฐํํ์ต์ ํตํด ์ค์ค๋ก ํ์ตํ๋ ์ฃผ์ฒด
โข
State trainsition probability
1.
๋ฒฝ(2,2)์ ๋๋ฌ ์ ํ์ฌ ์ํ ์ ์ง
2.
์ ํํ ๋ฐฉํฅ(80%) ๊ธฐ์ค ์ข, ์ฐ ๋ฐฉํฅ์ ๋ํด 10% ํ๋ฅ ๋ก ์ด๋ โ action์ ๋ฌด์์์ฑ ๋ถ์ฌ
โข
Terminal state : (4,2), (4,3)
โข
Goal : total sum of rewards๋ฅผ maximizeํ๋ policy ์ฐพ๊ธฐ
MDP์์ optimal policy๋ ๋ก ํํํ๋ฉฐ, ๊ฐ state์์ ์ด๋ค action์ ์ ํํ ๊ฒ์ธ์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค. ์ฆ, ์์ ๊ฒฝ์ฐ 9๊ฐ์ state์์ ์ทจํ๋ action์ ์งํฉ์ 1๊ฐ์ policy๋ผ๊ณ ํ ์ ์๋ค. ์ด๋ state transition probability์ ์ํด์ ๊ฐ์ action์ ์ ํํ๋๋ผ๋ ์ ์ด๋๋ state๊ฐ ๋ค๋ฅผ ์ ์์ผ๋ฏ๋ก ํ๋์ policy์ ์ฌ๋ฌ๊ฐ์ episode๊ฐ ์์ ์ ์๊ณ ๋ฐ๋ผ์ reward์ ๋จ์ ํฉ์ด ์๋ ํฉ์ ๊ธฐ๋๊ฐ์ ์ต๋ํ ํ๋ ๊ฒ์ optimal policy ๋ก ๋ํ๋ธ๋ค.
์ ๊ทธ๋ฆผ์ ๊ฐ ๋ชจ๋ธ๋ง๋ค ์๋ก ๋ค๋ฅธ optimal policy๋ฅผ ํํํ ๊ฒ์ธ๋ฐ, small negative reward์ ์ฐจ์ด๋ก ์๋ก ๋ค๋ฅธ ๋ชจ๋ธ์ด ๋๋ฉฐ optimal policy๊ฐ ๋ฌ๋ผ์ง๋ค. small negative reward(c)์ ๊ฐ์ด ํฌ๋ฉด ๊ฐ๊ฐ์ ์ด๋์ ๋ํด ์ฃผ์ด์ง๋ penalty๊ฐ ์์ผ๋ฏ๋ก 1๋ฒ case์ (3,2)์์ optimalํ action์ด west๊ฐ ๋๋ค. ์ด๋ -1์ ๋๋ฌํ ๊ฐ๋ฅ์ฑ์ ์์ ํ ๋ฐฐ์ ํ๊ธฐ ์ํ ๊ฒ์ผ๋ก, west action์ ์ทจํ๊ณ transition probability์ ์ํด north๋ก ์ ์ด๋๊ธฐ๋ฅผ ํฌ๋งํ๋ ๊ฒ์ด๋ค. ๊ฐ์ ์ด์ ๋ก (4,1)์์์ optimal action๋ south๊ฐ ๋๋ค. ๋ฐ๋ฉด 2๋ฒ case์์๋ c์ ๊ฐ์ด 1๋ฒ์ ๋นํด ์์์ก์ผ๋ฏ๋ก, step์ ์ฆ๊ฐ์ ๋ฐ๋ฅธ penalty๊ฐ ๋์ด๋ ๊ฒ์ด๊ณ ๋ฐ๋ผ์ (3,2)์ (4,1)์์ optimal action์ด ๋ฌ๋ผ์ง๋ค. ๋ง์ง๋ง์ผ๋ก 4๋ฒ case์ ๊ฒฝ์ฐ ๊ฐ step์ ๋ํ penalty๊ฐ -2๋ก ๊ต์ฅํ ํฌ๊ธฐ ๋๋ฌธ์ ์ต๋ํ ๋น ๋ฅธ ์ข
๋ฃ๋ฅผ ํ๋๋ก optimal policy๊ฐ ์ฃผ์ด์ง๋ค. ํนํ (3,2)์์ east action์ optimal๋ก ์ทจ๊ธํ๋๋ฐ, ์ด๋ +1 reward๋ฅผ ์ป๊ธฐ ์ํด์ north action์ ์ทจํ ์, +1์ ๋๋ฌํ๋๋ผ๋ -2+1 = -1 ์ reward๋ฅผ ์ป๊ฒ ๋๊ณ transition probability์ ์ํด์ (3,3)์ ๋๋ฌํ๊ณ east action์ ์ทจํ์์๋ west๋ก ์ ์ด๋๋ค๋ฉด ํจ์ฌ ๋ ์ ์ ๋ณด์์ ์ป๊ธฐ ๋๋ฌธ์, ํ๋ฅ ์ ์ผ๋ก ๊ฐ์ฅ ์์ ํ east action์ optimal๋ก ์ทจ๊ธํ๋ค. ์ ๋ฆฌํ์๋ฉด (3,2)์์ east action์ optimal๋ก ์ง์ ํ๋ ๊ฒฝ์ฐ 0.8์ ํ๋ฅ ๋ก -1 ๋ณด์์ ์ป๊ฒ ๋๊ณ ๋๋จธ์ง ๊ฒฝ์ฐ๋ ์ฌ์ง์ด +1์ ๋๋ฌํ๋ ๊ฒฝ์ฐ์ด๋๋ผ๋ -1๋ณด๋ค ์๊ฑฐ๋ ๊ฐ๋ค. ๋ง์ฝ north action์ optimal๋ก ์ทจ๊ธํ๋ ๊ฒฝ์ฐ ๊ฐ์ฅ ํฐ reward๋ -1์ธ๋ฐ, ์ด ๊ฒฝ์ฐ๋ -1์ ์ป๊ธฐ ์ํ ํ๋ฅ ์ด 0.8*0.8=0.64๊ฐ ๋๋ฏ๋ก (3,2)์์์ optimal action์ east์ด๋ค.
Reward, Policy
1. Reward
reward๋ scalar feedback์ผ๋ก t step์์ agent์ action์ด ์ผ๋ง๋ ์ ์ ํ์ง๋ฅผ ๋ํ๋ด์ค๋ค. ๋ฐ๋ผ์ agent์ ๋ชฉํ๋ reward์ ๋์ ํฉ์ ์ต๋ํ ํ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฐํํ์ต์ Reward Hypothesis๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์งํ๋๋ค.
โข
Reward Hypothesis
โ ๋ชจ๋ ๋ชฉํ๋ reward์ ๋์ ํฉ์ ๊ธฐ๋๊ฐ์ ์ต๋ํ ํ๋ ๊ฒ์ผ๋ก ํํ ๊ฐ๋ฅํ๋ค.
์ด๋, ๊ธฐ๋๊ฐ์ด ๋์ค๋ ์ด์ ๋ ํ๋์ Policy์์ transition probability์ ์ํด์ ๋์ฌ ์ ์๋ episode๊ฐ ์ฌ๋ฌ๊ฐ๊ฐ ๋ ์ ์๊ธฐ ๋๋ฌธ์, ๊ธฐ๋๊ฐ์ ๊ฐ๋
์ ์ฌ์ฉํ๋ค. ๋ํ reward๋ฅผ ๋ฐ๋ ์์ ์ด ๋ค์ํ ์ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ๋ฐ๋์์๋ ๊ฒ์ ์ข
๋ฃ ํ์, ํ๊ตฌ์์๋ ๊ฐ ์ ์๋ง๋ค reward๋ฅผ ์ง๊ธํ๋ ๋ฐฉ์์ ์ฌ์ฉํ ์ ์๋ค.
2. Known dynamics
๋ชจ๋ transition์ ๋ํด์ dynamics( )๋ฅผ ์๋ค๊ณ ๊ฐ์ ํ๋ฉด transition probability, reward ๋ฑ์ ์ด๋ฅผ ์ฌ์ฉํด ๊ณ์ฐ ๊ฐ๋ฅํ๋ค.
โข
transition probability
โ ํ์ฌ state s์์ action a๋ฅผ ์ ํํ์ฌ ๋ค์ state sโ์ผ๋ก ์ ์ดํ๋ ๊ณผ์ ์์ ์ป์ ์ ์๋ reward์ ๋ํ ํ๋ฅ ์ ํฉ์ผ๋ก transition probability๋ฅผ ํํํ ์ ์๊ณ ๊ทธ ๊ณผ์ ์์ dynamics์ ๋ํ ์์ด ์กด์ฌํ๋ค.
โข
expected reward (state-action pair)
โ ๊ธฐ๋๊ฐ ๋ถ๋ถ์ ๊ธฐ๋๊ฐ์ ์ ์์ ์ํด ํ์ด์ค๋ค. ๊ฐ ํ์ฌ state s์์ action a๋ฅผ ์ ํํ์ ๋ ์ป์ ์ ์๋ reward์ ๋ํ ํ๋ฅ ์ด๋ค. ๋ฐ๋ผ์ ์ด๋ state s์์ action a๋ฅผ ์ ํํ์ ๋ reward r์ ๋ฐ๊ณ ์ ์ด ๊ฐ๋ฅํ ๋ชจ๋ sโ์ ๋ํ ํฉ์ผ๋ก ํํ ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๊ณผ์ ์์ dynamics์ ๋ํ ์์ด ์กด์ฌํ๋ค.
โข
expected reward (state-action-next_state)
โ ๊ธฐ๋๊ฐ ๋ถ๋ถ์ ๊ธฐ๋๊ฐ ์ ์์ ์ํด ํ์ด์ค๋ค. ์ด๋ ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ ์์ ๋ง๊ฒ ํ์ด์ฃผ๊ณ , ์กฐ๊ฑด์ ๋์์ ์ถ๊ฐํด์ฃผ๋ฉด ์์ ์ ๊ฐ๊ฐ ๊ฐ๋ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ ๊ณผ์ ์์ dynamics์ ๋ํ ์์ด ์กด์ฌํ๋ค.
3. Return
โ t ์์ ๋ถํฐ ์ข
๋ฃ ์์ ๊น์ง ๊ฐ๊ฐ๋ reward์ ๋์ ํฉ์ด๋ค. ์ด๋ ๊ฐ๊ฐ์จ ๋ 0~1 ์ฌ์ด์ ์ค์ ๊ฐ์ผ๋ก, ๋ฏธ๋์ reward์ ๋ถํ์ค์ฑ์ ๋ํ ํํ์ด๋ฉฐ ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ทผ์์์ ์ด๊ฑฐ๋ ์์์์ ์ธ ๋ชจ๋ธ์์ ํํ ๊ฐ๋ฅํ๋ค. discount factor๋ฅผ ์ฌ์ฉํ๋ ์ด์ ๋ return์ ๋ฌดํ๋ ๋ฐ์ฐ์ ๋ง๊ณ ๋ฏธ๋์ ๋ถํ์ค์ฑ์ ๋ํ ํํ์ด ๊ฐ๋ฅํ๋ฉฐ ์ค์ ์ ์ธ ์ํฉ์์ ๋น์ฅ์ ๋ณด์์ ์กฐ๊ธ ๋ ๊ด์ฌ์ ๊ฐ์ง๊ฒ ํ๊ธฐ ์ํจ์ด๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ sequence๊ฐ ๋ฐ๋์ ์ข
๋ฃ๋๋ ๊ฒฝ์ฐ ์ฌ์ฉํ์ง ์๋ ๊ฒฝ์ฐ๋ ์๋ค.
4. Policy
โข
stochastic policy
โ ์ฃผ์ด์ง state์์ ์ทจํ๋ action์ ๋ํ ํ๋ฅ ๋ถํฌ๋ก ์๋์ ๊ฐ๋ค.
โข
Deterministic policy
policy๋ ๊ฐ state์์ ์ด๋ค action์ ์ทจํ๋ ๊ฒ์ด optimalํ์ง, ์ฆ total discounted reward๋ฅผ ์ต๋ํํ๊ธฐ ์ํ action ์ ํ์ ๋ํ guideline์ด๋ค. ์ด๋ MDP์์์ policy๋ MDP ๊ฐ state๊ฐ Markov property๋ฅผ ๋ง์กฑํ๊ธฐ ๋๋ฌธ์ ์ค์ง ํ์ฌ state์ ๋ํด์๋ง ์ข
์์ ์ด๋ค.
โข
case1) Known MDP
โ deterministic optimal policy ๊ฐ ์กด์ฌํ๋ค.
โข
case2) Unknown MDP
โ stochastic policy๋ฅผ ๊ณ ๋ คํด์ผ ํ๋ฉฐ, ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๋ฐฉ์์ ๋งํผ randomํ action์ ์ ํํ๊ณ ๋งํผ greedyํ action(optimal)์ ์ ํํ์ฌ ํ์ฌ sample์์ ๋น๋ก ์ต์ ์ ์๋์ง๋ผ๋, ๊ฒฝํํ์ง ์์ action์ ๋ํด์๋ ๊ณ ๋ คํ ์ ์๋๋ก ํด์ค๋ค. ์ด๋ ์ ํ๋ฅ ์ ์ ํ ๊ฐ๋ฅํ ๋ชจ๋ action์ ๋ํด์ ๋๋ฑํ๊ฒ ๋๋๊ฒ ๋๋ค.
5. Notation
: state-value function โ ํ์ฌ state์์ policy ๋ฅผ ๋ฐ๋์ ๋ ๊ฐ๋ฅํ ๋ชจ๋ return์ ๋ํ ๊ธฐ๋๊ฐ
: optimal state-value function โ ํ์ฌ state์์ optimal policy ๋ฅผ ๋ฐ๋์ ๋์ value
: action value function โ ํ์ฌ state์์ policy ์ ๋ฐ๋ผ action a๋ฅผ ์ ํํ์ ๋์ value
: optimal action-value function โ ํ์ฌ state์์ policy ์ ๋ฐ๋ผ action a๋ฅผ ์ ํํ์ ๋์ value
์ด๋ value๋ ๊ฐ๊ฐ return์ ๊ธฐ๋๊ฐ์ ์๋ฏธํ๋ค.
Partially Observable Markov Decision Process (POMDP)
1. POMDPโs State transition = (S, A, O, T, Z, R)
โข
State & Action & Reward
โ MDP์ ๋์ผํ๋ค.
โข
State Transition Probability
โ MDP์ ๋์ผํ๋ฉฐ, ๋ก ์ํ ์ ์ด ํ๋ฅ ์ ํํํ๋ค.
โข
Observation
โ Agent๊ฐ action์ ์ ํํ์ฌ ๋ค์ state๋ก ์ ์ดํ ํ์ Observation์ ํตํด ํ์ฌ state์ ๋ํ ๋จ์๋ฅผ ์ป๋๋ค. ๋ก ํํ๋๋ค.
โข
Observation Probability
โ Observation set์ ๊ฐ ์์๋ฅผ ๊ด์ฐฐํ๊ฒ ๋ ํ๋ฅ ์ ์๋ฏธํ๋ค.
โข
์์ฝ : MDP์์๋ ์ํ๊ฐ ์์ ํ ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ฐ๋ฉด, POMDP์์๋ ์ํ๊ฐ ๋ถ๋ถ์ ์ผ๋ก๋ง ๊ด์ฐฐ ๊ฐ๋ฅํ๋ค. ์ฆ, ์์ด์ ํธ๋ ์์ ํ ์ํ ์ ๋ณด๋ฅผ ๊ฐ์ง ์๊ณ , ๊ด์ฐฐ์ ํตํด ๊ฐ์ ์ ์ผ๋ก ์ํ๋ฅผ ์ถ๋ก ํด์ผ ํ๋ค.
2. Planning
state๊ฐ ๋ถ๋ถ์ ์ผ๋ก๋ง ๊ด์ธก ๊ฐ๋ฅํ๋ฏ๋ก, Agent๋ ์ํ์ ๋ํ ํ๋ฅ ๋ถํฌ์ธ Belief b๋ฅผ ์ฌ์ฉํ๋ค.
์ด๋ Belief b์ ์๋ฏธ๋ โ์์ด์ ํธ๊ฐ ๊ฐ ์ํ์ ๋ํด ๊ฐ์ง๊ณ ์๋ ํ๋ฅ ๋ถํฌโ์ด๋ค. ์ฆ ๊ฐ ์ํ๊ฐ ํ์ฌ ์ํ์ผ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ด๋ ๊ฒ์ด๋ค. ์ด๋ Belief bโฒ(sโฒ)๋ ์ด์ ์ Belief ๊ณผ ์๋ก์ด observation์ ๋ฐํ์ผ๋ก update๋๋ค.
1) Initial state
โ Agent๊ฐ ์ด๊ธฐํ๋ belief ์ํ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
2) action ์ ํ
โ Agent๋ ํ์ฌ belief๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Action ์ ํ
โ ํ์ฌ state์ ๋ํ ํ๋ฅ ์ ์ถ์ ์ ๋ฐํ์ผ๋ก Action ์ ํ
3) State transition
โ Agent๊ฐ ๋ค์ state ๋ก ์ ์ด
4) get obsevation
โ ์๋ก์ด state ์์ ๋ observation ๋ฅผ ํ๋
5) belief state update
โ ๋ฒ ์ด์ง์ ๋ฒ์น์ ํตํด ์ ๊ฐ๋๋ ์์์ผ๋ก ์์ ์์ด ์ ๋๋๋ ๊ณผ์ ์ ์๋์ ๊ฐ๋ค.
6) get reward
โ Agent๋ State transition๊ณผ observation ์ ํตํด reward ํ๋
3. ํ๊ณ์
MDP์์ ํ์ค์ ์ผ๋ก ๋ชจ๋ state spcae๋ฅผ ์ ์ ์๊ธฐ ๋๋ฌธ์, POMDP๋ฅผ ๋์
ํ ๊ฒ์ธ๋ฐ ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ POMDP ์ค์ ์ฌ์ฉ์ ์ด๋ ค์์ด ์๋ค. ์๋ฅผ ๋ค๋ฉด Large State Space, Long Planning Horizon, Large Observation Space, Large Action Space๊ฐ ์๋ค.
โข
Long Planning Horizon: agent๊ฐ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ฌ๋ฌ ๋จ๊ณ์ ๊ณํ์ ์ธ์์ผ ํ ๋, ๊ฐ ๋จ๊ณ์ ์ ์ฌ์ ๊ฒฐ๊ณผ ์๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ ํ์.
โ ์ ์์์์ ์ ์ ์์ง๋ง, observation space๋ belief probability๋ฅผ ๊ณ์ ๊ณ์ฐํด์ผ ํ์ฌ ๋งค state space๊ฐ ๋ฐ๋ ๋๋ง๋ค ๋ฌด์ํ ์ฐ์ฐ์ด ์๊ธด๋ค.
4. ํด๊ฒฐ๋ฐฉ๋ฒ
์ํ๋ง ๊ธฐ๋ฐ ๊ทผ์ฌ
โข
PBVI (Point-Based Value Iteration): ๋ํ์ ์ธ belief ์งํฉ์ ์ํ๋งํ๊ณ , ๊ทธ ์ํ๋ belief์์๋ง ๊ฐ์น ํจ์๋ฅผ ๊ณ์ฐํ์ฌ ๋ฌธ์ ์ ๋ณต์ก์ฑ์ ์ค์ธ๋ค.
โข
HSVI (Heuristic Search Value Iteration): Heuristic ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฒ์ ๊ณต๊ฐ์ ์ค์ด๊ณ ๋น ๋ฅด๊ฒ ์ข์ ์ ์ฑ
์ ์ฐพ๋๋ค.
Intrinsic Motivation and Intrinsic Rewards
๊ฐํํ์ต์์๋ reward๊ฐ ๋งค์ฐ sparseํ๋ค๋ ์ฌ์ค์ ์ ์ ์๋ค.
โreward๊ฐ sparseํ๋คโ ๋ผ๋ ๊ฑด ์์ด์ ํธ๊ฐ ํ์ต ๊ณผ์ ์์ ๋ณด์์ ๋ฐ๋ ๋น๋๊ฐ ๋งค์ฐ ๋ฎ๋ค๋ ๊ฒ์ ๋งํ๋ค.
์๋ฅผ ๋ค๋ฉด, ์ฌ๊ธฐ์ ๋ง๋ฆฌ์ค๊ฐ ์ด๋ค ๋ณด์์ ๋ฐ๊ธฐ ์ํด ๋ค์ํ action์ ํ๋ค๊ณ ํ์ ๋ ๋ง์ฝ ์ฃผ์ด์ง 177์ด๋์ ์๋ฌด๋ฐ reward๋ฅผ ๋ฐ์ง ๋ชปํ๋ค๋ฉด ํ์ต ์๊ฐ์ด ๋๋ฌด ์ค๋๊ฑธ๋ฆฐ๋ค. ๋๋ฌธ์ sparse reward ์ธ ๊ฒฝ์ฐ, ์ ๋นํ reward ๋ฅผ ๋ฐ์ ์๊ฐ ์์ด ํ์ต์ด ์ ํ ๋์ง ์๋๋ค. ์ด๋ฌํ sparse reward ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ฮต-greedy, UCB, HER ๋ฑ์ด ์๋ค.
1. UCB
โข
์กด์ฌํ๋ ํ๋์ ์ ํ์ง ์ค์์, ๊ฐ์ฅ ๋์ upper bound๋ฅผ ๊ฐ์ง ํ๋์ ์ ํ
์ ์ ์ ๊ฐ๊น์ธ ์๋ก ๋์ reward๋ฅผ ๋ฐ์ ํ๋ฅ ์ด ๋๋ค๊ณ ํ์ ๋, ๋ฌด๋ํ ์ ํ์ 2๋ฒ์ธ ๊ฒ์ ํ์ธ ํ ์ ์๋ค. ๋์ reward๋ฅผ ์ง์์ ์ผ๋ก ๋ฐ์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋จผ์ ๊ฐ์ฅ ๋์ action value์ธย ๐๐ก(๐)๋ฅผ ์ ํํ๊ณ , ์ฌ๊ธฐ์ ์ค๋ฅธ์ชฝ ํญ์ธ upper bound๋ฅผ ๋ํ๋ ํํ๋ก ๊ตฌ์ฑ๋์ด์๋ค.
: time step t์์ ํ๋ a์ ํ๊ท ๋ณด์
: time step t๊น์ง ํ๋ a๊ฐ ์ ํ๋ ํ์
ํด๋น action์ด ์ ํ๋ ํ์๊ฐ ์ ๋ค๋ฉด ๊ทธ action์ ํ๋๋ก ์ ๋ํ๋ค. ๊ทธ๋์ ์ฒ์์๋ ๋ง์ action์ด ์๋๋ผ๋ ์์ ์ ํ๋๋ action์ด ์๋๋ก ํ๋ ๋ฐฉ์์ผ๋ก ๋์ค์๋ ํจ์จ์ ์ธ ํ์์ ํด์ agent๊ฐ ์ ์ฉํ ๋ณด์์ ๋ ์์ฃผ ๋ฐ๊ฒฌํ๋๋ก ํด์ sparse reward ๋ฌธ์ ๋ฅผ ๊ฐ์ ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค.
์ ๋ฆฌํ์๋ฉด, ํ๊ท reward๋ ๋๊ณ ์ ํ๋ ํ์๋ ์ ์ action์ ์ ํํ๋๋ก ๊ตฌ์ฑ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
2. HER (Hindsight Experience Replay)
1) episode์์ ๊ฐ transition์ ์ ์ฅํ ๋, ์๋ ๋ชฉํ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ๋ชฉํ์ ํจ๊ป ์ ์ฅ
2) ๊ฐ episode์์ ์ต์ข
state๋ฅผ ๋ชฉํ๋ก ํ๋ transition์ ์ถ๊ฐ๋ก ์ ์ฅ
3) Reward ๋ณํ๋ก ์ธํ ํ์ต ํจ์จ์ฑ ์ฆ๋
์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ:
1.
์ด๊ธฐํ
โข
๋ชฉํ ์ ์ด๊ธฐ state sampling
2.
์ํ ์ ์ด ๋ฐ๋ณต
โข
Action policy ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฌ state ์ ๋ชฉํ ์์ action ๋ฅผ sampling
โข
Action ๋ฅผ ์คํํ๊ณ ์๋ก์ด ์ํ ๊ด์ฐฐ
3.
episode ์ข
๋ฃ ํ state transition ์ ์ฅ
โข
๊ธฐ๋ณธ transition ์ ์ฅ
โข
์ถ๊ฐ ๋ชฉํ๋ฅผ ์ํ transition ์ ์ฅ
โฆ
ํ์ฌ episode์ state๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๊ฐ ๋ชฉํ ์งํฉ sampling
4.
์ต์ ํ ๋ฐ๋ณต
โข
Replay buffer R์์ Mini bath B sampling
โข
์๊ณ ๋ฆฌ์ฆ A๋ฅผ ์ฌ์ฉํ์ฌ Mini batch B๋ก ํ ๋จ๊ณ ์ต์ ํ ์ํ
โ ์ ๋ฆฌํ์๋ฉด Agent๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉ ํ์ฌ ์ป์ ๋ชจ๋ transition๊ณผ ์๋ ๋ชฉํ๋ฅผ replay buffer์ ์ ์ฅํจ๊ณผ ๋์์ ํ์ฌ episode์์ ๋๋ฌํ ์ต์ข
state๋ฅผ ์๋ก์ด ๋ชฉํ๋ก ์ค์ ํ์ฌ transition์ ์ถ๊ฐ๋ก ์ ์ฅํ๊ณ , ์ดํ์ replay buffer์์ sample์ ๋ฝ์์ ๊ทธ๊ฒ์ผ๋ก optimization์ ์งํํ๋ค.
replay buffer์์ transition์ sampling ํ๋ ๊ฒ๊ณผ ํจ๊ป, strategy S์ ๋ฐ๋ผ additional goal g'์ sampling ํ๋ ๋ชจ์ต์ ๋ณผ ์ ์๋ค.
original goal g๊ฐ ์๊ธด ํ์ง๋ง, g์ ๋๋ฌํ์ง ๋ชปํ trajectory์ ๊ฒฝ์ฐ r_g๋ ํญ์ near-zero reward์ผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, additinal goal g'์ ๋ํด ์๋ก non-zero reward signal์ ๊ณ์ฐํ๊ธฐ ์ํจ์ด๋ค.
๊ทธ๋ฆฌํ์ฌ, additional goal g'์ ๋ํด ๋ฐ์ํ non-zero reward signal rg'๊ณผ s||g'์ผ๋ก ์นํ๋ sample์ ํตํด agent๋ ํ์ต์ ์ํํ๋ค. ์ด๋ฌํ ๊ณผ์ ์ ํตํด original goal g์ ๋๋ฌํ๋ ๊ฒ์ ์คํจํ trajectory๋ก ๋ถํฐ๋ ์ ์ฑ
์ด ๊ฐ์ ๋ ์ ์๋ค.