Introduction
DQN์ Neural network๋ฅผ ์์์ผ๋ก์จ Q-learning ์ high dimension observation space์ input์ผ๋ก ๋ฐ์ ์ธ ์ ์๊ฒ ๋์์ง๋ง, high dimension action space์์๋ ์ ์๋ํ์ง ์์์.
๊ตณ์ด๊ตณ์ด continuous action space์์๋ DQN์ ์ ์ฉ ์ํฌ ์ ์๋ค.
continous ํ action ์ด์ง๋ง ์ด๋ฅผ ๋ช ๊ฐ์ง์ discrete ํ action์ผ๋ก discretize ํ๋ ๊ฒ์ด๋ค.
๊ทธ๋ฌ๋ action์ ๊ฐ์๋ freedom์ ์ ๋์ ๋ฐ๋ผ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ ๋จ์ํ ํ๋์ด 3๊ฐ๋ก discretize ํ๋ค๊ณ ํ๋ค freedom์ด 7์ด๋ผ๋ฉด ์ ์ฒด action space์ dimension์ (= 2187) ์ด ๋๊ธฐ ๋๋ฌธ์ Curse of dimensionality ์ ๋น ์ ธ๋ฒ๋ฆด ์ ๋ฐ์ ์๋ค. (๋น์ฅ ๋ก๋ด ํ ์์ง์ด๊ฒ ํ๋ ๊ฒ๋ง ํด๋ discretize ํด์ ์ฐ๋๊ฒ ๋ถ๊ฐ๋ฅํด๋ณด์)
๋ํ, Vanilla Actor-Critic์ ๊ฒฝ์ฐ์๋ neural function approximator๋ฅผ ์ฌ์ฉํ๋ค๋ณด๋ ์ด๋ ค์ด task์์ ๋ถ์์ ํ๋ค๋ ๋ฌธ์ ์ ์ด ์์๋ค.
๋ฐ๋ผ์ DDPG ์์๋ Actor-Critic๊ณผ DQN(replay buffer, target Q) ์ ๋ฐฉ์์ ๊ฒฐํฉํ์ฌ ์์ ์ ์ผ๋ก function approximation์ ํ์ตํ๊ณ ์ ๋ง๋ ๋ชจ๋ธ์ด๋ค.
Background
Reinforcement Learning ์ ๋ชฉํ๋ Expected Return ์ maximizeํ๋ policy๋ฅผ ํ์ตํ๋ ๊ฒ์ด๋ค.
์ด Return์ policy ๋ฅผ ๋ฐ๋ฅด๋ state์ action ์ distribution์ ๋ฐ๋ผ ๊ณ์ฐ๋๋ค.
โข
Bellman Equation
๋ policy ๋ฅผ ๋ฐ๋ผ state ์์ stochasticํ๊ฒ ์ ํ๋ ์ ์๋ action ๋ค ์ค ํ๋์ด๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ policy ๊ฐ stochasticํ๋ค๋ฉด ์ ๋ํด expectation์ ์ทจํด์ผํ๋ค.
โข
Bellman Equation (deterministic policy)
policy ๊ฐ deterministicํ๋ค๋ฉด ์์ ์ด๋ค ๋ฅผ ํ ์ง์ ๋ํ uncertain์ด ์ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์, ์ด ๋ช
ํํ๊ฒ ๊ฒฐ์ ๋๋ค. ๋ค์ ๋งํด, action์ด ๋จ 1๊ฐ๋ก ๊ณ ์ ๋๋ค.
deterministic policy๋ก ๋ฐ๊ฟจ์ ๋ ์์์ ๋ณด๋ฉด Expectation์ด environment ์๋ง ์์กดํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋ค์ ๋งํด ํน์ state์์ ํน์ action์ ํ์ ๋, environment์ด ์ด๋ป๊ฒ ๋ฐ์ํ๋์ง๋ policy์ ์ ํ ์ํฅ์ด ์๋ค๋ ๊ฒ์ ๋งํ๋ค.
๋ฐ๋ผ์, data๋ฅผ ์์งํ ๋์๋ ๋ค๋ฅธ policy (์ : ) ๋ฅผ ์ฐ๋๋ผ๋, ์์งํ data๋ฅผ ์ฌ์ฉํ์ฌ target์ผ๋ก ํ๋ policy ๋ฅผ ํ์ตํ ์ ์๋ค. (= off-policy)
โข
Q-learning
DQN์์๋ epsilon greedyํ๊ฒ ๋ฝ์์ง๋ง ์ฌ๊ธฐ์์๋ policy ๊ฐ deterministicํ๊ธฐ ๋๋ฌธ์, greedy policy์ธ ๋ฅผ ์ฌ์ฉํ๋ค.
โข
Loss
์์์ ๋งํ๋ฏ data๋ฅผ ์์งํ ๋์๋ policy ๋ฅผ ๊ฐ์ง๊ณ ํ๋ฉฐ,
Loss๋ ๋ฅผ ์ฌ์ฉํ์ฌ Q-function๋ฅผ approximationํ๊ณ ์๋ค. ๋ฅผ minimizeํ๋ ๋ฐฉํฅ์ผ๋ก ์งํํ๋ฉฐ, DQN ๊ฐ์ด Mean Squared Error ๋ฅผ ์ฌ์ฉํ๋ค.
โข
target Q
๋ ์์ ์ ํ๋ action ์ ๋ฐ๋ฅธ reward๊ณผ ๋ฏธ๋์ Q-๊ฐ์ ๋ํ ๊ฒ์ด๋ค.
๋ ์ ์์กด์ ์ด์ง๋ง, ์ผ๋ฐ์ ์ผ๋ก ๋ฌด์๋๋ค.
โ ๋ Loss ๊ณ์ฐํ ๋ target๊ฐ์ผ๋ก ์ฌ์ฉ๋๋ค. ํ์ต ๊ณผ์ ์์ ๊ฐ ์ ์ต๋ํ ๋น์ทํด์ง๋๋ก ๋ฅผ ์
๋ฐ์ดํธํ๋ ๊ฒ์ด๋ฏ๋ก, ๊ฐ ํน์ time step ์์์ ์ ์ง์ ์ ์ผ๋ก ์ํฅ์ ๋ฐ์ง ์๊ฒ ๊ณ ์ ๋ ๊ฐ์ผ๋ก ์ทจ๊ธ๋๋ค.
Algorithms
์์ Q-learning์ ๋ฌธ์ ์ (continuous domain์์๋ ๋งค time step๋งค๋ค greedy ํ policy๋ฅผ ์ฐพ๊ธฐ ์ํด ์ ๋ํ optimize๋ฅผ ์ํํ๋๋ฐ neural network ์ ํจ๊ป ์ฐ๋ฉด ๊ณ์ฐ ๋น์ฉ์ด ๋๋ฌด ๋๋ค)
๋๋ฌธ์ continuous domain์์ ์ธ ์ ์์ผ๋ฏ๋ก, Deterministic Policy Gradeint ์ ์ฌ์ฉํ๋ค.
DPG (Deterministic Policy Gradient)
โข
Parameterized actor function
state๋ฅผ ํน์ action์ผ๋ก deterministicํ๊ฒ mappingํ๋ policy๋ฅผ ์๋ฏธํ๋ค.
Chain Rule ์ ์ํด update ๋๋ฉฐ distribution์ผ๋ก ๋ถํฐ expected Return ์ ๋ํ actor parameter ๋ก ์งํ๋๋ค.
โข
Critic function
Q-learning๊ณผ ๊ฐ์ด bellman equation์ ํตํด ํ์ต๋๋ค.
โข
Policy Gradient
๋ฐ์ ์์ 2๊ฐ ๋ชจ๋ Chain Rule๋ฅผ ์ ์ฉํ์ฌ gradient ๋ฅผ ๊ณ์ฐํ๋ ๋ถ๋ถ์ด๋ค.
๋จผ์ , ์์ ์์์ Q-function์ action ์ ๋ํ gradient๋ฅผ ์๋ฏธํ๋ฉฐ,
์ ์์์ policy ์ parameter ์ ๋ํ gradient๋ฅผ ์๋ฏธํ๋ค.
NFQCA (Neural Fitted Q Iteration with Continuous Actions)
Q-learning์ ๋ง์ฐฌ๊ฐ์ง๋ก non-linear approximation ์ ๋ฃ์ผ๋ฉด ์๋ ดํ์ง ์์ ์ ์๊ณ , ๋ฐ๋๋ก continuous domain์์๋ linear approximation ๋ง์ผ๋ก๋ ํ์ต์ด ์ด๋ ต๋ค.
DPG ์ ๋์ผํ update rule๋ฅผ ์ฐ๋ฉด์๋ non-linear approximation์ ๋ฃ๋ ๋์ ์ batch learning์ ์ถ๊ฐํ์ฌ ์์ ์ฑ์ ๋ณด์ฅํ์๋ค.
๋ค์ ๋งํด, batch learning์ ํ์ง ์๋ NFQCA๋ DPG์ ๋์ผํ๋ค.
๊ทธ๋์ DDPG๋ NFQCA ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ DPG์ ์ผ๋ถ ์์ ์ ํตํด continuous domain์์๋ ํ์ต์ด ๊ฐ๋ฅํ๋๋ก ๋ง๋ค์๋ค.
DDPG (Deep Deterministic Policy Gradient)
โข
mini-batch learning
์์์ ์ด์ผ๊ธฐ ํ๋ ๊ฒ์ฒ๋ผ ์ ๊ฒฝ๋ง์ ๊ฐํํ์ต์ ์ฌ์ฉํ ๋, ๋๋ถ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ sample ์ด ๋
๋ฆฝ์ ์ด๊ณ , ๋์ผํ๊ฒ ๋ถํฌ๋์ด ์๋ค๋ ๊ฐ์ ์ด ํ์์ ์ด๋ค.
๊ทธ๋ฐ๋ฐ on-policy ๋ฐฉ๋ฒ ์ฒ๋ผ sample๋ฅผ ์์ฐจ์ ์ผ๋ก explorationํ๊ณ , ์์ฑํด๋ด๋ฉด state์ action๊ฐ์correlation ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ํ์ต์ด ๋ถ์์ ํด์ง ์ ์๋ค.
โ Replay buffer๋ฅผ ์ฌ์ฉํ์ฌ mini-batch ํ์ต์ ์งํํ๋ค.
โข
Soft target update
๊ฐ update๋๋ฉด์, ๋์ผํ network๊ฐ target value ๊ณ์ฐํ ๋์๋ ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ ํ์ต ์ค์ network๊ฐ ๋นจ๋ฆฌ ๋ณํ๋ฉด์ ์๋ ดํ์ง ์์ ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก DDPG์์๋ target network๋ฅผ ์ฌ์ฉํ๊ธด ํ์ง๋ง actor-critic ๊ตฌ์กฐ์ ๋ง๊ฒ ๋ณํํ์๋ค. network์ weight๋ฅผ ์ง์ ๋ณต์ฌํด์ ์ฐ๋ ๋์ ์ฒ์ฒํ ๋ณํ์ํค๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
์ ์ ๊ฐ์ด ๋ณต์ฌ๋ณธ์ ๋ง๋ค๊ณ , ์ด target์ ๊ณ์ฐํ๋๋ฐ ์ฌ์ฉํ๋ค.
๋ค์๊ณผ ๊ฐ์ด ๋ฅผ 1๋ณด๋ค ์์ ์๋ก ๊ฒฐ์ ํ์ฌ ํ์ต๋ network์ weight๋ฅผ ์ฒ์ฒํ ๋ฐ๋ผ๊ฐ๋๋ก ๋ง๋ค์๋ค.
์์ 2๊ฐ์ง ๋ฐฉ๋ฒ์ ์ถ๊ฐํ์ฌ Q-learning์ด ๊ฐ์ง๊ณ ์๋ unstability ๋ฌธ์ ๋ฅผ supervised learning ๋ฌธ์ ๋ก ๋ฐ๊พธ์ด ์์ ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ๋ง๋ค์ด์ฃผ์๋ค. ์ถ๊ฐ์ ์ผ๋ก target policy ์ target Q-function ๋ชจ๋ ์ฐ๋ ๊ฒ์ด ์ค์ํ๋ค.
์ด๋ฅผ ํตํด Critic์ด ๋ฐ์ฐํ์ง ์๊ณ ์์ ์ ์ผ๋ก ์๋ ดํ ์ ์์๋ค๊ณ ํ๋ค.
๋ฌผ๋ก soft target update์ ๊ฒฝ์ฐ ์ฒ์ฒํ ๋ฐ๋ผ๊ฐ๋ ๋ฐฉ์์ด๋ค๋ณด๋ ํ์ต ์๋๋ ๋๋ฆฌ์ง๋ง, soft target update๋ฅผ ์ผ์ ๋์ ์์ผ์ ๋์ ์์ ์ฑ ์ฐจ์ด๊ฐ ํฌ๊ฒ ๋ฌ๋ค๊ณ ํ๋ค.
โข
Problems with low-dimensional feature vectors
feature vector์ observation์ ์๋ก ๋ค๋ฅธ ๋ฌผ๋ฆฌ์ ๋จ์(์: ์์น, ์๋)๋ฅผ ๊ฐ์ง ์ ์์ผ๋ฉฐ, ํ๊ฒฝ์ ๋ฐ๋ผ ๋ฒ์๊ฐ ๋ค๋ฅผ ์ ์๋ค.
์ด๋ฌํ ์ฐจ์ด๋ก ์ธํด์ network๊ฐ ํจ๊ณผ์ ์ผ๋ก ํ์ต์ด ๋ถ๊ฐ๋ฅํ ์ ์์ผ๋ฉฐ, ์๋ก ๋ค๋ฅธ ๋ฒ์๋ฅผ ๊ฐ์ง state value ๋ค์ ์ผ๋ฐํํ ์ ์๋ hyperparameter๋ฅผ ์ฐพ๋ ๊ฒ์ด ์ด๋ ค์์ง ์ ์๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด batch normalization ๋ฅผ ์ฌ์ฉํ์๋ค.
์ฆ, mini-batch ๋ด์ ์ฐจ์์ normalizationํด์ ํ๊ท ์ด 0์ด๊ณ , ๋ถ์ฐ์ด 1์ด ๋๋๋ก ๋ง๋๋ ๊ฒ์ด๋ค.
low-dimension state space์์ batch normalization๋ฅผ state input์ ๋ชจ๋ layer์ Q-network์ ๋ชจ๋ layer์ ์ ์ฉํ์๋ค.
๋ฐ๋ผ์, ๋ค์ํ physical unit & range ๋ฅผ ๊ฐ์ง task์์๋ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์๋ค.
โข
Exploration in continuous action space
์์์ ๋ดค๋ฏ DDPG๋ off-policy ์๊ณ ๋ฆฌ์ฆ์ผ๋ก data๋ฅผ ์์งํ ๋ ์ฌ์ฉ๋๋ policy () ์ training ์์ ์ฌ์ฉ๋๋ policy () ๊ฐ ๋ค๋ฅด๋ค.
deterministic policy๋ ์ฃผ์ด์ง state์์ ํญ์ ๋์ผํ action ๋ง ํ๊ธฐ ๋๋ฌธ์ exploration์ ์ข ๋ ํ๋๋ก ๋ง๋ค์ด์ฃผ๊ธฐ ์ํด noise๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.