Dueling DQN
1. Dueling DQN ๊ฐ์
โข
Advantage fuction๊ณผ state-value function์ ๊ฐ๊ฐ ๊ณ์ฐํ๊ณ ์ด๋ฅผ ๊ฒฐํฉํ์ฌ action value function ๊ณ์ฐ
โข
CNN encoder๋ ๊ณต์ ํ๋ฉด์ ๊ฐ ํจ์๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด์ FC layer์ parameter๋ง ๋ค๋ฅด๊ฒ ์ ์ฉ
โข
Action์ด ํ๊ฒฝ ๋ด์์ ์ค์ํ์ง ์์ ๊ฒฝ์ฐ์๋ state์ value๋ฅผ ํ๊ฐํ๋๋ฐ ์ ์ฉ
2. Value function
โข
์ผ๋ฐ์ ์ผ๋ก ํน์ state์์ ์ด๋ค action์ ์ํํ ๊ฒ์ธ์ง์ ์ง์ค(Policy)
โฆ
๋ฅผ ํ์ต
โข
State์์ action์ด ํ๊ฒฝ์ ๋ฏธ์น๋ ์ํฅ์ด ๊ฑฐ์ ์๋ ๊ฒฝ์ฐ ๋ฅผ ํ์ตํ๋ ๊ฒ์ด State value ํ๋จ์ ์์ด ๋ ์ค์
โข
์ฒซ๋ฒ์งธ Case (์ฐจ๊ฐ ๋จผ ์์น์ ์กด์ฌ)
โฆ
action ์ ํ์ ๋ํ ์ค์๋ ๊ฐ์
โฆ
State-value๋ฅผ ๊ณ์ฐํ ๋๋ง ์์ ์ฐจ๊ฐ ๊ณ ๋ ค ๋์
โข
๋๋ฒ์งธ Case (์ฐจ๊ฐ ๊ฐ๊น์ด ์์น์ ์กด์ฌ)
โฆ
์ด๋ค action์ ํ๋๋๊ฐ ์ค์๋
โฆ
Advantage ๊ณ์ฐ ์์๋ ๊ฐ ์ฐจ๋ค์ ์ง์ค
3. Identifiability issue
โข
Action value function, Advantage function, State value function ์ฌ์ด์ ๊ด๊ณ
โข
Q-value๋ฅผ max๋ก ๋ง๋๋ action์ ์ ์ฉํ ๊ฒ์ด ๊ฒฐ๊ตญ optimal state value
โฆ
optimal action์ธ ๊ฒฝ์ฐ Advantage function=0
โข
Dueling DQN์์ state value function๊ณผ Advantage function ๊ณ์ฐ์ ์์ด ์๋ก ๋ค๋ฅธ network๋ฅผ ์ฌ์ฉ
โฆ
Optimal action์ ๋ํด์ ์ด ์ฑ์ง์ ๋ณด์ฅํ๊ธฐ ์ด๋ ค์
โฆ
state value๋ ํ๋์ ๊ฐ์ผ๋ก ๋์ค๋ ๋ฐ๋ฉด Advantage function์ ๋ชจ๋ action์ ๋ํด ๊ณ ๋ ค๋๋ฏ๋ก shape ๋ฌธ์ ๋ฐ์
โฆ
ํ๋์ Q-value๋ฅผ ๋ถํดํ๋ ๊ฒฝ์ฐ๊ฐ ํน์ ๋์ง ์์
โช
โช
์ ๊ฐ ์ข์ ์ถ์ ๋์ด๋ผ๊ณ ๋ณด๊ธฐ ์ด๋ ค์
โข
๋ฐฉ์ 1) Optimal action์ ๋ํ advantage function ํญ์ ์ถ๊ฐ
โฆ
Max ํญ์ ๋ํ ๋ณ๋์ฑ์ด ํฌ๋ฏ๋ก(์์ฃผ ๋ณํ) ์์ ์ฑ์ด ๋จ์ด์ง
โข
๋ฐฉ์2) Mean ๊ฐ์ ์ ์ธ
โฆ
Optimal action์ ๋ํด Max-mean๋งํผ์ ์ค์ฐจ๊ฐ ๋ฐ์
โข
๋ชฉ์ ์ด Q๋ฅผ maximizeํ๋ action์ ์ฐพ๋ ๊ฒ
โฆ
Advantage function์ผ๋ก ๊ตฌ์ฑ๋ ํญ์ maximization ํ๋ ๊ฒ๊ณผ ๊ฐ์
โฆ
max๋ฅผ ์ ์ธํ๋ mean์ ์ ์ธํ๋ policy๋ฅผ ์ฐพ๋๋ฐ๋ ์ํฅ์ ๋ฏธ์น์ง ์์
โช
State-value function์ action์ ๋ฐ๋ผ ๋ณํ๋ ๊ฒ์ด ์๋๊ธฐ ๋๋ฌธ