Introduction to MDPs
โข
Markov decision processes formally describe an environment for reinforcement learning
โข
Where the environment is fully observable
โข
Almost all RL problems can be formalised as MDPs, e.g.
Markov Property
The state captures all relevant information from the history
Markov Process
A Markov process is a memoryless random process.
โ memoryless : ์ด๋์ ์ด๋ป๊ฒ ์๋ ์๊ด์์ด ๋ฏธ๋๋ ํ์ฌ์์ ๊ฒฐ์ ํ๋ค๋ ๋ป (Markov Property)
a sequence of random states S1, S2, ... with the Markov property.
โ random process๋ sampling์ ํ ์ ์๋ค๋ ์๋ฏธ. (Markov property๋ฅผ ๊ฐ์ง random state์ ์์๋ฅผ ์๋ฏธ)
โข
S : state๋ค์ ์งํฉ.
โข
P : ๋ค์ state๋ก ์ ์ดํ ํ๋ฅ .
Markov Reward Process
โข
S : ์คํ
์ดํธ๋ค์ ์งํฉ
โข
P : ํธ๋์ง์
ํ๋ฅ ๋งคํธ๋ฆญ์ค
โข
R : ๋ฆฌ์๋ ํจ์ (์ด๋ค ์คํ
์ดํธ์ ๋์ฐฉํ๋ฉด ์ด๋ค ๋ฆฌ์๋๋ฅผ ์ค๋ผ.๋ฅผ ์คํ
์ดํธ ๋ณ๋ก ์ ์ ํด๋๋ ๊ฒ.)
โข
ฮณ : discount factor
Return
The discount ฮณ โ [0, 1] is the present value of future rewards
ฮณ close to 0 leads to โmyopicโ evaluation
ฮณ close to 1 leads to โfar-sightedโ evaluation
Why discount?
โข
Mathematically convenient to discount rewards
โข
Avoids infinite returns in cyclic Markov processes
โข
It is sometimes possible to use undiscounted Markov reward processes (i.e. ฮณ = 1), e.g. if all sequences terminate.
Value Function
return ์ ๊ธฐ๋๊ฐ. ์ด๋ค state์ ์์ ๋, ๊ณ์ sampling ํ๋ฉด์ ์ํผ์๋๋ฅผ ๋ง๋ค์ด๊ฐ๋ค.
๊ทธ๋ด ๋ ์ํผ์๋๋ง๋ค ๋ฆฌํด์ด ์๊ธฐ๊ฒ ๋๋ค.
Bellman Equation for MRPs
immediate reward R(t+1)
Markov Decision Processes (MDP)
โข
A Markov decision process (MDP) is a Markov reward process with decisions.
โข
It is an environment in which all states are Markov.
Policies
โข
A policy fully defines the behaviour of an agent
โข
MDP policies depend on the current state (not the history)
Value Function
state-value function
โข
input์ state ํ๋์ด๋ค.
โข
action์ด ๋ฐ๋ก ์์๋ MRP์๋ ๋ฌ๋ฆฌ action์ด ์ถ๊ฐ๋๋ฉด์ policy ฯ๊ฐ ์ถ๊ฐ๋๋ค.
โข
์ฌ์ ํ ๊ทธ ์๋ฏธ๋ ํ์ฌ ์คํ
์ดํธ s์์ ์ถ๋ฐํ์ ๋ ์ป์ ์ ์๋ return์ ๊ธฐ๋๊ฐ์ ์๋ฏธํ๋ค.
action-value function
โข
Qํจ์๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
โข
input์ state์ action 2๊ฐ๊ฐ ๋ค์ด๊ฐ๋ค.
โข
state s์์ action a๋ฅผ ํ์ ๋ ๊ทธ ์ดํ์๋ policy ฯ๋ฅผ ๋ฐ๋ผ์ ๊ฒ์์ ๋๊น์ง ์งํํ์ ๋ return์ ๊ธฐ๋๊ฐ์ ์๋ฏธํ๋ค.
Bellman Expectation Equation
state-value function decompose
ํ ์คํ
์ ๊ฐ๊ณ , ๊ทธ ๋ค์ ์คํ
์ดํธ๋ถํฐ pi๋ฅผ ๋ฐ๋ผ๊ฐ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
action-value function decompose
R(t+1)์ ๋ฐ๊ณ , ๋ค์ state์์ ๋ค์ ์ก์
์ ํ๋ ๊ฒ์ ๊ธฐ๋๊ฐ๋ค.
๋ค์ ์ก์
์ pi์ ์ํด ๊ฒฐ์ ๋๋ค.
Bellman Expectation Equation (Matrix Form)
โ ์ญํ๋ ฌ์ ํตํด์ direct solution์ ๊ตฌํ ์ ์๋ค.
MDP๊ฐ ์ปค์ง๋ฉด ๊ณ์ฐ๋์ด ๋๋ฌด ์ปค์ ธ๋ฒ๋ฆฌ๋ ๋จ์ ์ด ์๋ค.
Optimal Policy
โpolicy pi๋ฅผ ๋ฐ๋์ ๋, ๋ชจ๋ state-value๊ฐ piโ ์ ๋ฐ๋์ ๋๋ณด๋ค ๋ ์ข์ ๋ pi๊ฐ piโ ์ ๊ฐ๊ฑฐ๋ ๋ฐ์ด๋๋คโ ๋ผ๊ณ ํ ์ ์๋ค.
๋จ, ์ฌ๊ธฐ์ ํ๋์ state-value๋ผ๋ piโ ๊ฒ๋ณด๋ค ์ข๋ค๊ณ ํ ์๋ ์๋ค.
Finding an Optimal Policy
An optimal policy can be found by maximising over qโ(s,a),
There is always a deterministic optimal policy for any MDP
If we know qโ(s,a), we immediately have the optimal policy
Solving the Bellman Optimality Equation
โข
Bellman Optimality Equation is non-linear
โข
No closed form solution (in general)
Many iterative solution methods