Partially Observable Markov Decision Process (POMDP)
1. POMDPโs State transition = (S, A, O, T, Z, R)
โข
State & Action & Reward
โ MDP์ ๋์ผํ๋ค.
โข
State Transition Probability
โ MDP์ ๋์ผํ๋ฉฐ, ๋ก ์ํ ์ ์ด ํ๋ฅ ์ ํํํ๋ค.
โข
Observation
โ Agent๊ฐ action์ ์ ํํ์ฌ ๋ค์ state๋ก ์ ์ดํ ํ์ Observation์ ํตํด ํ์ฌ state์ ๋ํ ๋จ์๋ฅผ ์ป๋๋ค. ๋ก ํํ๋๋ค.
โข
Observation Probability
โ Observation set์ ๊ฐ ์์๋ฅผ ๊ด์ฐฐํ๊ฒ ๋ ํ๋ฅ ์ ์๋ฏธํ๋ค.
โข
์์ฝ : MDP์์๋ ์ํ๊ฐ ์์ ํ ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ฐ๋ฉด, POMDP์์๋ ์ํ๊ฐ ๋ถ๋ถ์ ์ผ๋ก๋ง ๊ด์ฐฐ ๊ฐ๋ฅํ๋ค. ์ฆ, ์์ด์ ํธ๋ ์์ ํ ์ํ ์ ๋ณด๋ฅผ ๊ฐ์ง ์๊ณ , ๊ด์ฐฐ์ ํตํด ๊ฐ์ ์ ์ผ๋ก ์ํ๋ฅผ ์ถ๋ก ํด์ผ ํ๋ค.
2. Planning
state๊ฐ ๋ถ๋ถ์ ์ผ๋ก๋ง ๊ด์ธก ๊ฐ๋ฅํ๋ฏ๋ก, Agent๋ ์ํ์ ๋ํ ํ๋ฅ ๋ถํฌ์ธ Belief b๋ฅผ ์ฌ์ฉํ๋ค.
์ด๋ Belief b์ ์๋ฏธ๋ โ์์ด์ ํธ๊ฐ ๊ฐ ์ํ์ ๋ํด ๊ฐ์ง๊ณ ์๋ ํ๋ฅ ๋ถํฌโ์ด๋ค. ์ฆ ๊ฐ ์ํ๊ฐ ํ์ฌ ์ํ์ผ ๊ฐ๋ฅ์ฑ์ ๋ํ๋ด๋ ๊ฒ์ด๋ค. ์ด๋ Belief bโฒ(sโฒ)๋ ์ด์ ์ Belief ๊ณผ ์๋ก์ด observation์ ๋ฐํ์ผ๋ก update๋๋ค.
1) Initial state
โ Agent๊ฐ ์ด๊ธฐํ๋ belief ์ํ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
2) action ์ ํ
โ Agent๋ ํ์ฌ belief๋ฅผ ๊ธฐ๋ฐ์ผ๋ก Action ์ ํ
โ ํ์ฌ state์ ๋ํ ํ๋ฅ ์ ์ถ์ ์ ๋ฐํ์ผ๋ก Action ์ ํ
3) State transition
โ Agent๊ฐ ๋ค์ state ๋ก ์ ์ด
4) get obsevation
โ ์๋ก์ด state ์์ ๋ observation ๋ฅผ ํ๋
5) belief state update
โ ๋ฒ ์ด์ง์ ๋ฒ์น์ ํตํด ์ ๊ฐ๋๋ ์์์ผ๋ก ์์ ์์ด ์ ๋๋๋ ๊ณผ์ ์ ์๋์ ๊ฐ๋ค.
6) get reward
โ Agent๋ State transition๊ณผ observation ์ ํตํด reward ํ๋
3. ํ๊ณ์
MDP์์ ํ์ค์ ์ผ๋ก ๋ชจ๋ state spcae๋ฅผ ์ ์ ์๊ธฐ ๋๋ฌธ์, POMDP๋ฅผ ๋์
ํ ๊ฒ์ธ๋ฐ ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ POMDP ์ค์ ์ฌ์ฉ์ ์ด๋ ค์์ด ์๋ค. ์๋ฅผ ๋ค๋ฉด Large State Space, Long Planning Horizon, Large Observation Space, Large Action Space๊ฐ ์๋ค.
โข
Long Planning Horizon: agent๊ฐ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ์ฌ๋ฌ ๋จ๊ณ์ ๊ณํ์ ์ธ์์ผ ํ ๋, ๊ฐ ๋จ๊ณ์ ์ ์ฌ์ ๊ฒฐ๊ณผ ์๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ ํ์.
โ ์ ์์์์ ์ ์ ์์ง๋ง, observation space๋ belief probability๋ฅผ ๊ณ์ ๊ณ์ฐํด์ผ ํ์ฌ ๋งค state space๊ฐ ๋ฐ๋ ๋๋ง๋ค ๋ฌด์ํ ์ฐ์ฐ์ด ์๊ธด๋ค.
4. ํด๊ฒฐ๋ฐฉ๋ฒ
์ํ๋ง ๊ธฐ๋ฐ ๊ทผ์ฌ
โข
PBVI (Point-Based Value Iteration): ๋ํ์ ์ธ belief ์งํฉ์ ์ํ๋งํ๊ณ , ๊ทธ ์ํ๋ belief์์๋ง ๊ฐ์น ํจ์๋ฅผ ๊ณ์ฐํ์ฌ ๋ฌธ์ ์ ๋ณต์ก์ฑ์ ์ค์ธ๋ค.
โข
HSVI (Heuristic Search Value Iteration): Heuristic ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฒ์ ๊ณต๊ฐ์ ์ค์ด๊ณ ๋น ๋ฅด๊ฒ ์ข์ ์ ์ฑ
์ ์ฐพ๋๋ค.
Intrinsic Motivation and Intrinsic Rewards
๊ฐํํ์ต์์๋ reward๊ฐ ๋งค์ฐ sparseํ๋ค๋ ์ฌ์ค์ ์ ์ ์๋ค.
โreward๊ฐ sparseํ๋คโ ๋ผ๋ ๊ฑด ์์ด์ ํธ๊ฐ ํ์ต ๊ณผ์ ์์ ๋ณด์์ ๋ฐ๋ ๋น๋๊ฐ ๋งค์ฐ ๋ฎ๋ค๋ ๊ฒ์ ๋งํ๋ค.
์๋ฅผ ๋ค๋ฉด, ์ฌ๊ธฐ์ ๋ง๋ฆฌ์ค๊ฐ ์ด๋ค ๋ณด์์ ๋ฐ๊ธฐ ์ํด ๋ค์ํ action์ ํ๋ค๊ณ ํ์ ๋ ๋ง์ฝ ์ฃผ์ด์ง 177์ด๋์ ์๋ฌด๋ฐ reward๋ฅผ ๋ฐ์ง ๋ชปํ๋ค๋ฉด ํ์ต ์๊ฐ์ด ๋๋ฌด ์ค๋๊ฑธ๋ฆฐ๋ค. ๋๋ฌธ์ sparse reward ์ธ ๊ฒฝ์ฐ, ์ ๋นํ reward ๋ฅผ ๋ฐ์ ์๊ฐ ์์ด ํ์ต์ด ์ ํ ๋์ง ์๋๋ค. ์ด๋ฌํ sparse reward ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ฮต-greedy, UCB, HER ๋ฑ์ด ์๋ค.
1. UCB
โข
์กด์ฌํ๋ ํ๋์ ์ ํ์ง ์ค์์, ๊ฐ์ฅ ๋์ upper bound๋ฅผ ๊ฐ์ง ํ๋์ ์ ํ
์ ์ ์ ๊ฐ๊น์ธ ์๋ก ๋์ reward๋ฅผ ๋ฐ์ ํ๋ฅ ์ด ๋๋ค๊ณ ํ์ ๋, ๋ฌด๋ํ ์ ํ์ 2๋ฒ์ธ ๊ฒ์ ํ์ธ ํ ์ ์๋ค. ๋์ reward๋ฅผ ์ง์์ ์ผ๋ก ๋ฐ์ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋จผ์ ๊ฐ์ฅ ๋์ action value์ธย ๐๐ก(๐)๋ฅผ ์ ํํ๊ณ , ์ฌ๊ธฐ์ ์ค๋ฅธ์ชฝ ํญ์ธ upper bound๋ฅผ ๋ํ๋ ํํ๋ก ๊ตฌ์ฑ๋์ด์๋ค.
: time step t์์ ํ๋ a์ ํ๊ท ๋ณด์
: time step t๊น์ง ํ๋ a๊ฐ ์ ํ๋ ํ์
ํด๋น action์ด ์ ํ๋ ํ์๊ฐ ์ ๋ค๋ฉด ๊ทธ action์ ํ๋๋ก ์ ๋ํ๋ค. ๊ทธ๋์ ์ฒ์์๋ ๋ง์ action์ด ์๋๋ผ๋ ์์ ์ ํ๋๋ action์ด ์๋๋ก ํ๋ ๋ฐฉ์์ผ๋ก ๋์ค์๋ ํจ์จ์ ์ธ ํ์์ ํด์ agent๊ฐ ์ ์ฉํ ๋ณด์์ ๋ ์์ฃผ ๋ฐ๊ฒฌํ๋๋ก ํด์ sparse reward ๋ฌธ์ ๋ฅผ ๊ฐ์ ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ค.
์ ๋ฆฌํ์๋ฉด, ํ๊ท reward๋ ๋๊ณ ์ ํ๋ ํ์๋ ์ ์ action์ ์ ํํ๋๋ก ๊ตฌ์ฑ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
2. HER (Hindsight Experience Replay)
1) episode์์ ๊ฐ transition์ ์ ์ฅํ ๋, ์๋ ๋ชฉํ๋ฟ๋ง ์๋๋ผ ๋ค๋ฅธ ๋ชฉํ์ ํจ๊ป ์ ์ฅ
2) ๊ฐ episode์์ ์ต์ข
state๋ฅผ ๋ชฉํ๋ก ํ๋ transition์ ์ถ๊ฐ๋ก ์ ์ฅ
3) Reward ๋ณํ๋ก ์ธํ ํ์ต ํจ์จ์ฑ ์ฆ๋
์๊ณ ๋ฆฌ์ฆ ๋จ๊ณ:
1.
์ด๊ธฐํ
โข
๋ชฉํ ์ ์ด๊ธฐ state sampling
2.
์ํ ์ ์ด ๋ฐ๋ณต
โข
Action policy ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฌ state ์ ๋ชฉํ ์์ action ๋ฅผ sampling
โข
Action ๋ฅผ ์คํํ๊ณ ์๋ก์ด ์ํ ๊ด์ฐฐ
3.
episode ์ข
๋ฃ ํ state transition ์ ์ฅ
โข
๊ธฐ๋ณธ transition ์ ์ฅ
โข
์ถ๊ฐ ๋ชฉํ๋ฅผ ์ํ transition ์ ์ฅ
โฆ
ํ์ฌ episode์ state๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๊ฐ ๋ชฉํ ์งํฉ sampling
4.
์ต์ ํ ๋ฐ๋ณต
โข
Replay buffer R์์ Mini bath B sampling
โข
์๊ณ ๋ฆฌ์ฆ A๋ฅผ ์ฌ์ฉํ์ฌ Mini batch B๋ก ํ ๋จ๊ณ ์ต์ ํ ์ํ
โ ์ ๋ฆฌํ์๋ฉด Agent๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉ ํ์ฌ ์ป์ ๋ชจ๋ transition๊ณผ ์๋ ๋ชฉํ๋ฅผ replay buffer์ ์ ์ฅํจ๊ณผ ๋์์ ํ์ฌ episode์์ ๋๋ฌํ ์ต์ข
state๋ฅผ ์๋ก์ด ๋ชฉํ๋ก ์ค์ ํ์ฌ transition์ ์ถ๊ฐ๋ก ์ ์ฅํ๊ณ , ์ดํ์ replay buffer์์ sample์ ๋ฝ์์ ๊ทธ๊ฒ์ผ๋ก optimization์ ์งํํ๋ค.
replay buffer์์ transition์ sampling ํ๋ ๊ฒ๊ณผ ํจ๊ป, strategy S์ ๋ฐ๋ผ additional goal g'์ sampling ํ๋ ๋ชจ์ต์ ๋ณผ ์ ์๋ค.
original goal g๊ฐ ์๊ธด ํ์ง๋ง, g์ ๋๋ฌํ์ง ๋ชปํ trajectory์ ๊ฒฝ์ฐ r_g๋ ํญ์ near-zero reward์ผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, additinal goal g'์ ๋ํด ์๋ก non-zero reward signal์ ๊ณ์ฐํ๊ธฐ ์ํจ์ด๋ค.
๊ทธ๋ฆฌํ์ฌ, additional goal g'์ ๋ํด ๋ฐ์ํ non-zero reward signal rg'๊ณผ s||g'์ผ๋ก ์นํ๋ sample์ ํตํด agent๋ ํ์ต์ ์ํํ๋ค. ์ด๋ฌํ ๊ณผ์ ์ ํตํด original goal g์ ๋๋ฌํ๋ ๊ฒ์ ์คํจํ trajectory๋ก ๋ถํฐ๋ ์ ์ฑ
์ด ๊ฐ์ ๋ ์ ์๋ค.