Double DQN
1. Double DQN
โข
Q-learning์์์ Target
โฆ
โช
์์ ๋ ์ถ์ ๊ฐ
โช
์ด ๊ฐ์ด ์ค์ ๋ก ๊ฐ์ฅ ์ข์ ํ๋์ด๊ธฐ ๋๋ฌธ์ ๋์ ๊ฐ์ ๊ฐ์ง๋ ๊ฒ์ด ์๋๋ผ, ์ฐ์ฐํ ๋์ ๊ฐ์ ๊ฐ์ง ์ ์๋ค.
โข
Q-value์ overestimation bias๋ฅผ ํด๊ฒฐ
โฆ
target์์ action์ ์ ํํ๋ ๋ถ๋ถ๊ณผ ์ ํ๋ action์ ๋ํด Q-value๋ฅผ ๊ตฌํ๋ ๊ณผ์ ์ ๋ณ๋์ Network๋ฅผ ์ฌ์ฉํ์ฌ ์งํ
โข
Double DQN์ loss function
โฆ
Target์์ action ์ ํ
โช
๋ฅผ parameter๋ก ๊ฐ์ง๋ network
โฆ
Q-value ๊ณ์ฐ
โช
์ parameter๋ก ๊ฐ์ง๋ network
โฆ
๋์ผํ ํ๋์ด ๋ ๋คํธ์ํฌ์์ ๋์์ ๊ฐ์ฅ ํฐ Q-value๋ฅผ ๊ฐ๊ฒ ๋ ๊ฐ๋ฅ์ฑ์ด ๋ฎ๊ธฐ ๋๋ฌธ์ overestimation ๋ฌธ์ ๊ฐ ์ํ๋จ
2. Overestimation
โข
Jensen์ ๋ถ๋ฑ์
โข
๋ ๋ฌด์ํ ๋ง์ sample์ ๋ํด ์ํํ๋ค๋ฉด ์ค์ Q-value์ ๊ทผ์ฌํจ.
โข
์ฆ Jensen์ ๋ถ๋ฑ์์ ์ํด ์์ ํ update ๋์ง ์์ Q-value์ max ์ฐ์ฐ์๋ฅผ ๋จผ์ ์ ์ฉํ๋ ๊ฒ์ overestimation ๋ฌธ์ ๋ฅผ ๋ฐ์์ํฌ ์ ์์์ ์๋ฏธ
โข
์์ ๊ฐ๋ฅํ ํ๋์ด ์ด 3๊ฐ๊ฐ ์กด์ฌํ๊ณ 5๊ฐ์ sample์ ์ป์๋ค๊ณ ๊ฐ์
โฆ
โฆ
max ์ฐ์ฐ์๋ฅผ ๋จผ์ ์ ์ฉํ๊ณ mean ์ฐ์ฐ์ ์ ์ฉ ์
โช
โช
โฆ
mean ์ฐ์ฐ์๋ฅผ ๋จผ์ ์ ์ฉํ๊ณ max ์ฐ์ฐ ์ ์ฉ ์
โช
โช
3. Prioritized Replay
โข
Online RL
โฆ
์ฐ์๋ transition ์ฌ์ด์ temporal correlation ๋ฌธ์ ์ ๋ฐ
โฆ
๋๋ฌผ๊ฒ ๋ฐ์ํ๋ experience์ ๋ํด ๊ทธ ๊ฐ์น๊ฐ ๋๋๋ผ๋ ํ๊ธฐ
โฆ
DQN์์ replay buffer๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ์ ์ํ
โข
Replay buffer
โฆ
์ค์ํ sample๊ณผ ๊ทธ๋ ์ง ์์ sample์ด ์ถ์ถ๋ ํ๋ฅ ์ด ๋์ผ
โฆ
์ค์ํ sample์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ ๋ ์์ฃผ sampling ๋๋๋ก ์กฐ์นํ ํ์๊ฐ ์์
โข
Sample์ ์ค์์ฑ?
โฆ
TD error์ ํฌ๊ธฐ๋ก ํ๊ฐ
3. Prioritizing with TD error
โข
Model-based
โฆ
Value iteration
โช
Value ๋ณํ๋์ด ํฐ ์ํ๋ถํฐ ๋จผ์ update
โช
์ค์ํ ๋ณํ๊ฐ ๋ค๋ฅธ state value ๊ณ์ฐ์ ์ฆ์ ๋ฐ์
โช
๋น๋๊ธฐ์ ๋ฐฉ์์์ ํจ๊ณผ์
โข
Model-free
โฆ
์ฑ๊ณต์ ๋ํ transition๋ณด๋ค ์คํจ์ ๋ํ transition์ด ๋ ๋ง์ด ๋ฑ์ฅ
โฆ
ํน์ ์๋์ ๋ํด ์ฑ๊ณต์ ์ธ ๊ฒฐ๊ณผ๋ก ์ด์ด์ง๋ค๋ฉด value ์ฐจ์ด๊ฐ ๋งค์ฐ ์ปค์ง
โข
TD-error ๊ธฐ๋ฐ ๊ฐ์ค์น ๊ณ์ฐ
โข
๋ฌธ์ ์
โฆ
Replay buffer์ ์ ์ฒด transition์ update ํ๋ ๊ฒ์ ๋นํจ์จ์ ์ด๋ฏ๋ก mini batch๋ก sampling๋ transition์ ๋ํด์๋ง priority update
โช
์ด๊ธฐ sampling ๋ transition ์ค TD-error๊ฐ ํฐ transition์ด ์์ฃผ ์ ํ๋๊ณ ๋๋จธ์ง๋ ๋ฌด์๋ ๊ฐ๋ฅ์ฑ ์กด์ฌ
โช
Sample ๋ค์์ฑ์ ๊ฐ์๋ก ์ธํด ๊ณผ์ ํฉ ๊ฐ๋ฅ
โฆ
Priority๊ฐ ๊ณ์ ๋ณํํ๊ธฐ ๋๋ฌธ์, transition sampling์ ์งํํ๋ ๋ถํฌ๊ฐ ๊ณ์ ๋ณํํ์ฌ bias ๋ฐ์
โข
Sample ๋ค์์ฑ์ ๊ดํ ๋ฌธ์ ํด๊ฒฐ
โฆ
Stochastic sampling prioritization์ ์ฌ์ฉ
โฆ
Prioritization ํ๋ฅ
โช
โช
์ ๊ฐ์ด 1์ ๊ฐ๊น์ธ์๋ก TD-error๋ฅผ ๋ฐํ์ผ๋ก ์ ํ๋ ๋น์จ์ ๋์
โช
=0์ด๋ผ๋ฉด prioritization์ ์ ํ ๊ณ ๋ คํ์ง ์๋ ๊ฒฝ์ฐ์
โฆ
: ์ผ๋ง๋ prioritization์ ์ฌ์ฉํ ๊ฒ์ธ์ง์ ๋ํ hyperparameter
โข
Sampling ๋ถํฌ ๋ฌธ์ ํด๊ฒฐ
โฆ
Importance sampling weights ์ฌ์ฉ
โฆ
importancee sampling weights
โช
โช
: ์๋ฒฝํ ๋ณด์
โช
Stability๋ฅผ ์ํด weight์ ์ ๊ณฑํ์ฌ ์งํ
โฆ
Update ์ ์์ฃผ sampling ๋๋ sample์ ์ํฅ๋ ฅ์ ์ค์ธ๋ค.