Dueling DQN
1. Dueling DQN ๊ฐ์
Dueling DQN์ Advantage fuction๊ณผ State-value function์ ๊ฐ๊ฐ ๊ณ์ฐํ๊ณ ์ด๋ฅผ ๊ฒฐํฉํ์ฌ Action value function์ ๊ณ์ฐํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. CNN encoder๋ ๊ณต์ ํ๋ฉด์ ๊ฐ ํจ์๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์ FC layer์ parameter๋ง ๋ค๋ฅด๊ฒ ์ ์ฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก Dueling DQN์ state-value function๊ณผ Advantage-function์ ๋ชจ๋ ํ์ตํ์ฌ action์ด ํ๊ฒฝ ๋ด์์ ์ค์ํ์ง ์์ ๊ฒฝ์ฐ์๋ ๊ทธ state์ value๋ฅผ ํ๊ฐํ๋๋ฐ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ ์ ์์ผ๋ฉฐ, ์ ๋ฐ์ ์ธ state์ ๋ํ value ํ๊ฐ๋ ๊ฐ๋ฅํ๋ค.
2. Value function
๋ณดํต์ ํน์ state์์ ์ด๋ค action์ ์ ํํ ๊ฒ์ธ์ง์ ๋ํ Policy๋ฅผ ํ์ตํ๋ ๊ฒ์ ์ค์ ์ ๋๋ค. ๋ฐ๋ผ์ ๋ฅผ ํ์ตํ๊ณ ์ ํ๋ค. ๊ทธ๋ฌ๋ ํน์ state์์ action์ด ํ๊ฒฝ์ ๋ฏธ์น๋ ์ํฅ์ด ๊ฑฐ์ ์๋ ๊ฒฝ์ฐ ๊ทธ state์ value์ธ ๋ฅผ ํ์ตํ๋ ๊ฒ์ด state value ํ๋จ์ ์์ด ๋ ์ค์ํ ๋๋ ์๋ค.
์์ ์์๋ฅผ ๋ณด๋ฉด ์ฒซ๋ฒ์งธ Case์์๋ ์ฐจ๊ฐ ๋จผ ์์น์ ์๊ธฐ ๋๋ฌธ์ action ์ ํ์ ๋ํ ์ค์๋๋ ๋จ์ด์ง๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก State-value๋ฅผ ํ๊ฐ์๋ง, ์์ ์ฐจ๋ฅผ ๊ณ ๋ คํ๋ค. ๋ฐ๋๋ก ์ฐจ๊ฐ ๊ฐ๊น์ด ๊ฒฝ์ฐ๋ action ์ ํ์ ์ค์๋๊ฐ ๋์์ง๋ฏ๋ก Advantage์์๋ ๊ฐ ์ฐจ๋ค์ ์ง์คํ๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค.
3. Identifiability issue
Action value function, Advantage function, State value function ์ฌ์ด์ ๊ด๊ณ๋ฅผ ์ดํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
์ฌ๊ธฐ์ ์ฃผ๋ชฉํ ๋ถ๋ถ์ Q-value๋ฅผ max๋ก ๋ง๋๋ action์ ์ ์ฉํ ๊ฒ์ด ๊ฒฐ๊ตญ optimal state value์ด๊ธฐ ๋๋ฌธ์, optimal action์ ๋ํด์๋ Advantage function์ด 0์ด ๋๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ Dueling DQN์์๋ state value function๊ณผ Advantage function ๊ณ์ฐ์ ์์ด ์๋ก ๋ค๋ฅธ network๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ optimal action์ ๋ํด์ ์ด ์ฑ์ง์ ๋ณด์ฅํ๊ธฐ ์ด๋ ต๋ค. ๊ทธ๋ฆฌ๊ณ state value๋ ํ๋์ ๊ฐ์ผ๋ก ๋์ค๋ ๋ฐ๋ฉด Advantage function์ ๋ชจ๋ action์ ๋ํด ๊ณ ๋ ค๋๋ฏ๋ก shape์ ๋ํ ๋ฌธ์ ๋ ๋ฐ์ํ๋ค. ์ถ๊ฐ์ ์ผ๋ก ํ๋์ Q-value์ ๋ํด ์ธ ๊ฒฝ์ฐ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์์ผ๋ฏ๋ก ์ ๊ฐ ์ข์ ์ถ์ ๋์ด๋ผ๊ณ ๋ณด๊ธฐ ์ด๋ ต๋ค. ์ด๊ฒ์ด identifiability issue๋ฅผ ์ผ์ผํจ๋ค. ๋ฐ๋ผ์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์์ ์ฑ์ง์ด ๋ณด์ฅ๋๋๋ก ๋ง๋ค์ด์ฃผ์ด์ผ ํ๋๋ฐ, ์ด๋ ์ ์ค ํ๋๊ฐ ์ ํํ estimator๊ฐ ๋๋ค๋ฉด ๋ค๋ฅธ ํ๋๋ ์์ฐ์ค๋ฝ๊ฒ ๋ฐ๋ฅธ ์ถ์ ๋์ด ๋ ๊ฒ์ด๋ผ๋ ์์ด๋์ด์ ๊ธฐ๋ฐํ๋ค. ๋ฐ๋ผ์ ์๋์ ๊ฐ์ด optimal action์ ๋ํ advantage function ํญ์ ์ถ๊ฐํ๋ค.
๊ทธ๋ฌ๋ ์ฌ๊ธฐ์๋ ๋ฌธ์ ๊ฐ ์๋๋ฐ, max ํญ์ ๋ํ ๋ณ๋์ฑ์ด ํฌ๋ฏ๋ก ์์ ์ฑ์ด ๋จ์ด์ง๋ค๋ ๋ฌธ์ ์ ์ด ์๋ค. ๋ฐ๋ผ์ max ๊ฐ์ ์ ์ธํ๋ ๊ฒ์ด ์๋๋ผ mean ๊ฐ์ ์ ์ธํ๋ ๋ฐฉ์์ ์ ์ฉํด์ค๋ค.
์๋ Action-value function๊ณผ State-value function , Advantage function ์ฌ์ด์ ์๋ฏธ๋ฅผ ๋ง์ถฐ์ฃผ๊ธฐ ์ํด์ maximum ๊ฐ์ ๋นผ๋ ๋ฐฉ์์ ์ฌ์ฉํ ๊ฒ์ธ๋ฐ, ์ด ๋ถ๋ถ์ mean์ผ๋ก ๋์ฒดํ์์ผ๋ฏ๋ก max-mean๋งํผ์ ์ค์ฐจ๊ฐ ๋ฐ์ํ๋ค. ๊ทธ๋ฌ๋ ํจ์ฌ ๋ stableํ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์๊ธด๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ตญ ๋ชฉ์ ์์ฒด๊ฐ Q๋ฅผ maximizeํ๋ action์ ์ฐพ๋ ๊ฒ์ธ๋ฐ, ๊ทธ๊ฒ์ Advantage function์ผ๋ก ๊ตฌ์ฑ๋ ํญ์ maximization ํ๋ ๊ฒ๊ณผ ๊ฐ๊ณ , ๋ฐ๋ผ์ max๋ฅผ ์ ์ธํ๋ mean์ ์ ์ธํ๋ ๋์ผํ ๊ฐ์ด ๋น ์ง๋ค๊ณ ๋ณผ ์ ์์ผ๋ฏ๋ก policy๋ฅผ ์ฐพ๋๋ฐ๋ ์ํฅ์ ๋ฏธ์น์ง ์๋๋ค.