Introduction
โข
2๊ฐ์ง ์ฃผ์ challenge
1.
model-free RL ์๊ณ ๋ฆฌ์ฆ์ sample complexity ์ธก๋ฉด์์ ๋น์ฉ์ด ๋ง์ด ๋ค์ด๊ฐ๋ค. ๊ฐ๋จํ ์์
์์๋ ์๋ฐฑ๋ง ๋จ๊ณ์ ๋ฐ์ดํฐ ์์ง์ด ํ์ํ ์ ์๊ณ , large, continuous space๋ก ๊ฐ ์๋ก ํจ์ฌ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ๋ค.
2.
hyperparameter๊ณผ ๊ด๋ จํด์ ์ ์ค์ ํด์ผ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
โข
on-policy์ ๋ฌธ์ ์
Deep-RL์์ sample complexity๊ฐ ๋จ์ด์ง๋ ์์ธ ์ค ํ๋๋ on-policy์ด๋ค.
โoff-policyโ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ experience๋ฅผ ๋ค์ ์ฌ์ฉํ์ง๋ง (Replay memory) ,
โon-policyโ TRPO, PPO, A3C ์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ gradient step์ ๋ํด ์๋ก์ด sample์ ์์งํ๋ ๋ฐฉ์์ผ๋ก ์งํํ๋ค๋ ์ ์์ sample complexity ๋ฌธ์ ๊ฐ ์๋ค.
๊ทธ๋ฌ๋ off-policy(DQN) ๊ฒฝ์ฐ์๋ continous space์์๋ ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ์ ์ด ์๋ค.
๋ฐ๋ผ์ continous space์์ ์ฌ์ฉํ ์ ์๋ off-policy ์๊ณ ๋ฆฌ์ฆ์ธ DDPG๋ ์ฃผ์ด์ง ์ํ์์ ํ๋์ ๊ฒฐ์ ํ๊ธฐ ์ํ ํ๋์ Deterministic policy๋ฅผ ํ์ตํ๋ค.
์ด ์๊ณ ๋ฆฌ์ฆ์ off-policy์ด๊ธฐ ๋๋ฌธ์ sample complexity๊ฐ ๋์ง๋ง, ๋งค์ฐ ๋ฏผ๊ฐํ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ถ์์ ์ฑ ๋๋ฌธ์ ์ฝ๊ฒ ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ์ ์ด ์๋ค.
โข
maximum entropy
SAC๋ Soft Q-learning ๊ธฐ๋ฐ์ Maximum Entropy ๋ฐฉ๋ฒ์ ํ์ฉํ RL ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
์ ๋ณด ์ด๋ก ์์ entropy๊ฐ ๋๋ค๋ ๊ฒ์ ์ ๋ณด๊ฐ ํผํํ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋๊น distribution์ผ๋ก ๋ณด๋ฉด ํ๋ฅ ๊ฐ์ด ๊ฑฐ์ ๋์ผํ uniform distribution๊ณผ ๋์ผํ ์ํ์ธ๋ฐ exploration์ ํ๋ฉด์ gaussian distribution์ ํํ๋ก ๊ฐ๋๊ฒ ์ผ๋ฐ์ ์ด๋ค.
Maximum Entropy RL์ ๋ชฉ์ ์ expected return ๊ณผ policy์ expected entropy๋ฅผ maximizeํ๋ ๊ฒ์ด๋ค. maximum entropy distribution์ policy๋ฅผ high reward region์ผ๋ก ๊ฐ๋๋ก ๋ง๋ ๋ค๋ ์ ์์ ์๋นํ ์ฅ์ ์ด ์๋ค.
Soft Q-learning : Policy Iteration + Maximum Entropy
preliminary
โข
Standard RL
์ผ๋ฐ์ ์ธ RL์์๋ reward์ expected sum๋ฅผ maximize ํ๋ ๊ฒ ๋ชฉ์ ์ด์๋ค.
โข
Maximum entropy objective
entropy ํญ์ policy๊ฐ ์ผ๋ง๋ random์ ์ธ์ง๋ฅผ ํํํ๋ค. (exploration ์ ์กฐ์ )
๊ฐ ์ปค์ง์๋ก exploration๋ฅผ ๋ ๋ง์ดํ๊ณ , ๋ฐ๋๋ก โ 0์ผ๋ก ๊ฐ ์๋ก expected reward๋ฅผ maximizeํ๋ ์ผ๋ฐ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฐ์์ง๋ค.
maximum entropy distribution์ policy๋ฅผ high reward region์ผ๋ก ๋ค๋ก๊ณ ๋ง๋ ๋ค๋ ์ ์์ ์ข๋ค.
โข
Maximum entropy ์ ์ฅ์
1.
์ ๋งํ์ง ์์ ๊ฒฝ๋ก๋ฅผ ํฌ๊ธฐํ๋ฉด์ ๋ ๋๊ฒ ํ์ํ๋๋ก ์ฅ๋ ค๋๋ค.
2.
policy๋ ์ฌ๋ฌ๊ฐ์ง์ sub-optimalํ action์ ํฌ์ฐฉํ ์ ์๋ค.
3.
entropy based ํ์ต์ exploration์์ ๊ธฐ์กด๋ณด๋ค ํฌ๊ฒ ๊ฐ์ ๋์ด ํ์ต์๋๊ฐ ๋น ๋ฅด๋ค.
SAC์ ํน์ง
1.
infinite horizon ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด discount factor ๋ฅผ ์ฌ์ฉํ์ฌ expected reward์ entropy์ ํฉ์ด ์ ํํ๋๋ก ๋ง๋ฆ
2.
์์์ ๋งํ๋ SAC๋ (soft) policy iteration์ ํ๋ค. ํ์ฌ policy์ Q-function์ ํ๊ฐํ๊ณ , off-policy gradient update ๋ฐฉ์์ผ๋ก policy๋ฅผ updateํ๋ค. (์ด๋ policy iteration์ผ๋ก ์์ํด์ maximum entropy varient๋ฅผ ์ ์ฉํด์ ์ต์ข
์ ์ผ๋ก SAC๋ก ์ ๋ํ ์ ์์)
From Soft policy iteration to Soft Actor-Critic
Soft policy evaluate
policy ์ value๋ฅผ ๊ณ์ฐํ ๋์๋ maximum entropy objective๋ฅผ ์ ์ฉํ๊ฒ ๋ค.
๊ณ ์ ๋ policy ์ ๋ํด์ soft Q value๋ Bellman backup์ ์ํด ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉ๋์ด ๊ณ์ฐ๋๋ค.
์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ state value function์์ ํ๋ฅ ๋ถํฌ ์ entropy ๋ง ์ถ๊ฐ๋ ํํ์ด๋ค.
entropyํญ์ logํญ์ ๋ถ์ฌ์ฃผ์ด ๋์ ํ๋ฅ ์ด์๋ ๊ฒ์ penalty๋ฅผ ๋์ฑ ํฌ๊ฒํฌ๊ฒ ๋ถ์ฌํ๋ ์์ด๋ค.
Soft policy improvement
policy๋ฅผ ๋ค๋ฃจ๊ธฐ ์ฝ๊ฒ ํ๊ธฐ ์ํด์ ํน์ policy set ์ผ๋ก ์ ํํ๊ฒ ๋ค.
๊ทธ ์ด์ ๋ ๊ฐ ์ ์ํด์ผ ํ๋ค๋ ์ ์ฝํ์ ๊ฐ์ ๋ policy๋ฅผ project ํ๊ณ ์ถ์ ๊ฒ.
์๋ฅผ ๋ค์ด ๋ฅผ ๋ก restrict ํ๋ ๊ณผ์ ์์ Gaussian distribution์ผ๋ก parameterizeํ ์๋ ์๋ค.
SAC์์๋ ํธ์์ฑ(?) ์ ์ํด Projection์ KL divergence ๋ฅผ ์ฌ์ฉํ์ฌ ์ ์ํ์๋ค.
์์์ ์ดํด๋ณด๋ฉด, Q ์๋ค๊ฐ exp๋ฅผ ๋ฌ์์ฃผ์๊ธฐ ๋๋ฌธ์ action value function์ด ํด ์๋ก, ํด๋น action ์ด ์ข๋ค๋ ๊ฒ์ด ๋์ฑ ๋ถ๊ฐ์ด ๋๋๊น
โ โ์ด์ policy์์ Q๊ฐ ๋์๋ action์ ์์ ํจ์ฌ ๋์ ํ๋ฅ ๋ก ๋ฝ๊ฒ ๋คโ ๋ผ๊ณ ์ดํดํ ์ ์๋ค.
๊ทธ๋ฆฌ๊ณ ๋ ํ๋ฅ ๋ถํฌ๋ก ๋ง๋ค์ด ์ฃผ๊ธฐ ์ํ normalize term์ด๋ค.
๊ทธ๋์ ์์ ๊ฐ์ด Projectionํด์ ์ป๊ฒ ๋ ์ value function์ ๋ณด๋ค ํฌ๊ฑฐ๋ ๊ฐ์๊ฒ ์ฆ๋ช
ํ ์ ์๋ค.
Problems with soft policy iteration
์ฌ๊ธฐ๊น์ง soft policy iteration์ ๊ดํ ๋ด์ฉ์ด์๋ค.
์ ๋ฆฌํ์๋ฉด, ์ ํ๋ policy set ๋ด์์ optimal maximum entropy policy ๋ก ์๋ ดํ ์ ์์์ด ์์์ ์ผ๋ก ์ฆ๋ช
ํ๋ค.
๊ทธ๋ฌ๋ optimalํ ํด๋ฅผ ์ป๋๊ฑด tabular case ์ผ ๋๋ง. continuous domain ์์๋ ์๋ ดํ ๋๊น์ง ํ๋๊ฑด ๋๋ฌด ๋น์ฉ์ด ๋ง์ด ๋ ๋ค.
continuous domain์์๋ ๊ทผ์ฌ์ํค๋ practicalํ ์๊ณ ๋ฆฌ์ฆ์ด SAC์ด๋ค.
Soft Actor-Critic
Train soft value function
Soft policy iterationํ๋ ๊ฑฐ ๋์ Q-function๊ณผ policy๋ฅผ function approximationํด์ ์ฐ๊ฒ ๋ค.
ํ๊ฐ์ง ํน์ง์ ์์น์ ์ผ๋ก๋ state value์ ๋ํด ๋ณ๋์ function approximation์ ๋ฌ์์ฃผ์ง ์์๋ ๋์ง๋ง, soft value์ ๋ํ function approximation์ ๋ฌ์์ฃผ๋๊ฒ ํ์ต์ ์์ ํ๋๋ค.
์์ ์์์ ์ค์ ๊ฐ์น ์ ๊ธฐ๋ ๊ฐ์น ์ squared residual error๋ฅผ minimizeํ๋๋ก soft value๋ฅผ ํ์ตํ๋ค.
๊ธฐ๋ ๊ฐ์น ๋ถ๋ถ์ ์์์ ๋ดค๋ soft policy iteration ์ ๊ฐ๋ค.
Train soft Q-function
soft Q-function์ TD-learning์ ํตํด update๋๋ค.
์ด๋ Target Q์ ์์ ๊ฐ์ trick์ ์ฌ์ฉํ์ฌ Q๋ฅผ Value function์ผ๋ก ๋ฐ๊ฟ์ฃผ๊ณ , ๋ฏธ๋ถ์ ๋๋ฆฐ๋ค.
Stochastic Gradient Descent๋ฅผ ์ฌ์ฉํ์ฌ optimizeํ ์ ์๋ค.
Train soft policy improvement
์์์ ๋ดค๋ soft policy improvement ์์์ด๋ค.
KL divergence๋ฅผ minimizeํ์ฌ ํ์ตํ๋๋ฐ, ์ผ๋ฐ์ ์ธ policy gradient์๋ค๋ฉด likelihood ratio (TRPO, PPO) ๋ฅผ ์ฌ์ฉํด์ backpropagate ํ๊ฒ ์ง๋ง, SAC์ ๊ฒฝ์ฐ์๋ target Q๊ฐ ๋ก ์ ์๋์ด์๊ณ , objective function์ ๋ก ์ ์ ๋์ด์๊ธฐ ๋๋ฌธ์ ๋ฏธ๋ถํ๋ฉด 0๋์ด ์ฌ๋ผ์ง๋ค.
๋ ์ ๊ฒฝ๋ง์ด๊ธฐ ๋๋ฌธ์ ์ฌ๋ผ์ง๋ฉด ์๋๊ธฐ ๋๋ฌธ์ target์ ์ผ๋ก reparameterizeํ๋ trick์ ์ฌ์ฉํ๋ค.
๋ค์ ๋งํด ์๋ ๋ก ์ ์ ๋์๋ ์์์ผ๋ก ์ ๋ํด ์ฌ์ ์ํ๋ค.
๋ฏธ๋ถ์ ํ๊ธฐ ์ ์ KL divergence์ ์์ ์ ์๋ (์์๊ฒ ์ง๋ง) ๋ค์๊ณผ ๊ฐ์๋ฐ, log ์ฑ์ง์ ์ํด ํ์ด์ด soft policy improvement ์์์ด ๋ฐ์ ์์๊ณผ ๊ฐ๋ค.
(์์ ์์์ ๋ฏธ๋ถํ ๊ฒฐ๊ณผ)
(๋์ฒ๋ผ ์์์ ์ฝํ ์ฌ๋์ด ์ ๊ฐํ๋ค๋ณด๋ฉด) " + โ ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ค๋ฅธ์ชฝ ํญ์ ๋ฌธ์ ์๋ ๊ฑฐ ๊ฐ์๋ฐ, ์ผ์ชฝ logํญ์ ์ ํ์ด๋์ค๋์ง ์๋ฌธ์ผ ์ ์๋ค.
๊ทธ ์ด์ ๋ chain rule์์ ์ค๊ฐ ๊ฐ์ธ ๊ฐ ์ ์์กด์ ์ธ ์ํฉ์ด๊ธฐ ๋๋ฌธ์ ํธ๋ฏธ๋ถ์ด ์๋ total derivation์ ๊ณ์ฐํด์ค์ผ ํ๋ค. ๊ทธ๋ฐ ์ด์ ๋๋ฌธ์ ํ์ด๋์ค๋ ๊ฒ์ด๋ค.
Additional Features of SAC
1.
policy improvement ๋จ๊ณ์์ positive bias ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 2๊ฐ์ Q-function์ ์ฌ์ฉํ๋ค.
2๊ฐ์ Q-function์ ๋
๋ฆฝ์ ์ผ๋ก ํ์ตํ์ฌ, ๊ฐ Q-function์ ๋ณ๋์ parameter ๋ฅผ ๊ฐ๋๋ค. ๊ทธ๋ฆฌ๊ณ train๋ ๋
๋ฆฝ์ ์ผ๋ก optimizeํ๋ค. โ
2.
value gradient (Train soft value function ๋ถ๋ถ) ์ policy gradient (Train soft policy improvement ๋ถ๋ถ) ํ ๋์๋ 2๊ฐ์ Q-function ์ค์์ ์์ ๊ฐ์ ์ฌ์ฉํ๊ฒ ๋ค.
Q-function์ overestimation ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํจ๋ ์๊ณ , clipping ํจ๊ณผ๋ก ์์ ์ ์ธ ํ์ต์ ํ๊ธฐ ์ํจ์ด๋ค.
3.
environment์ผ๋ก ๋ถํฐ ๊ฒฝํ์ ์๊ณ , replay buffer์์ batch๋งํผ ๋ฝ์์ function approximation์ผ๋ก updateํ๋ ๊ณผ์ ์ ๋ฒ๊ฐ์๊ฐ๋ฉด์ ํ๋ค.
SAC pseudo code
โ๋งจ ๋ง์ง๋ง ์ค์ ๊ธฐ์กด์ target value์ ๋ํด ์กฐ๊ธ์ฉ value๋ฅผ updateํ๊ฒ ๋คโ ๋ผ๋ ์๋ฏธ.
(DDPG, TD3 ์ ๋น์ทํ soft value update)