Introduction
1. Machine Learning algorithm categories
๊ธฐ๊ณํ์ต์ ์ํ๋ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ท์น์ ์ฐพ๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์์ฑํ์ฌ ๋ฐ์ดํฐ์ ํจ๊ป ์
๋ ฅํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ์
๋ ฅ๊ฐ์ ์ถ๋ ฅ(or ์ ๋ต) ๊ฐ์ผ๋ก mapping ํ๋ ํจ์๊ฐ ํ์ต๋๋ค. ๊ธฐ๊ณํ์ต์ ๋ถ๋ฅ๋ ํฌ๊ฒ ์ง๋ ํ์ต, ๋น์ง๋ ํ์ต, ๊ฐํ ํ์ต์ผ๋ก ๋๋๋ค.
โข
Supervised Learning
์ง๋ ํ์ต์ Label (์ ๋ต)์ด ํฌํจ๋ training data๋ก๋ถํฐ ํ์ต์ด ์งํ๋๋ฉฐ ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ํ๊ท์ ๋ถ๋ฅ๋ฅผ ์ํ ๊ท์น์ ์ฐพ๋๋ค. ์ดํ test data๋ ์๋ก์ด ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ์์ธก์ ์งํํ๋ค.
โข
Unsupervised Learning
๋น์ง๋ ํ์ต์ Label์ด ์๋ training data๋ก๋ถํฐ ํ์ต์ ์งํ๋๋ฉฐ, ๋ฐ์ดํฐ์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ํ์
ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ๋ค. ๋ํ์ ์ธ ์์๋ก clustering์ด ์๋ค. ์ง๋ํ์ต์ ๋นํด ํ์ต์ด ์ด๋ ต๋ค๋ ํน์ง์ด ์๋ค.
โข
Reinforcement Learning
๊ฐํํ์ต์ sampled data๊ฐ ์กด์ฌํ์ง ์์ผ๋ฉฐ, agent๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ํ์ต์ด ์งํ๋๋ค. ํ์ต๊ณผ์ ์์ agent๋ ๊ฐ state์์ policy๋ฅผ ๊ธฐ๋ฐ์ผ๋ก action์ ์ ํํ๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ reward๋ฅผ ์ป๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด reward๋ฅผ ์ต๋๋ก ํ๋ policy๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํ์ต์ด ์งํ๋๋ค. ์ ๋ฆฌํ์๋ฉด policy evaluation๊ณผ policy improvement๊ฐ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉ๋๋ ๊ฒ์ด๋ค.
<๊ฐํํ์ต ๊ณผ์ ๋์ํ>
2. RL์ ์ฌ์ฉํ๋ ์ด์
๋
ธ๋ฉด์์ ๋ก๋ด ๊ฑท๊ธฐ ์์คํ
์ ํ์ตํ๋ ค๊ณ ํ๋ ๊ฒฝ์ฐ๋ฅผ ๊ฐ์ ํ๋ค. ์ง๋ํ์ต์ ์ ์ฉํ๋ค๋ฉด, ์
๋ ฅ ๋ฐ์ดํฐ๋ ๋ก๋ด์ ํ์ฌ ๊ด์ ์ํ (ex. ๊ด์ ์ ๊ฐ๋) ์ ํ์ฌ ๋
ธ๋ฉด์ ๊ตด๊ณก์ด๊ณ label(์ ๋ต๊ฐ)์ ๋ก๋ด์ด ๋์ด์ง์ง ์๊ณ ์ ๋๋ก ๊ฑท๊ธฐ ์ํ ๋ค์ ๊ด์ ์ํ๊ฐ ๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฐ๊ฐ์ (ํ์ฌ ๊ด์ ์ ๊ฐ๋, ํ์ฌ ๋
ธ๋ฉด์ ์ํ)-(์ ๋ต ๊ด์ ์ํ) ์์ ๋ชจ๋ธ์ ์
๋ ฅ๊ฐ์ผ๋ก ๋ฃ์ด์ผ ํ๋๋ฐ, ์ด๋ ๊ฒ ๋๋ฉด ๊ฐ๋ฅํ ์์ ๊ฐ์๊ฐ ์๋นํ ๋ง์์ง๋ฏ๋ก ๋ชจ๋ ์ํ๋ฅผ ๊ณ ๋ คํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ํ์ต์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค. ๊ทธ๋ฌ๋ ๊ฐํํ์ต์์๋ action์ ์์ผ๋ก ์ ํํ ๊ด์ ์ ์ํ state๋ฅผ ํ์ฌ ๋
ธ๋ฉด๊ณผ ๊ด์ ์ ์ํ๋ก ์ค์ ํด์ฃผ๊ธฐ๋ง ํ๋ค๋ฉด agent๊ฐ ์ค์ค๋ก ๋ค์ํ ์๋๋ฅผ ํตํด ์ ์ ํ action์ ์ ํํ ์ ์์ผ๋ฏ๋ก ํ์ต์ด ํจ์จ์ ์ผ๋ก ์ด๋ค์ง ์ ์๋ค.
3. Deep Learning
โข
Machine Learning
๋จธ์ ๋ฌ๋์ ์ธ๊ฐ์ด ์ง์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ์ํํด์ผ ํ๋ค๋ ํน์ง์ ๊ฐ์ง๋ค. ์ด ๊ณผ์ ์์ ์๋ชจ๋๋ ์๊ฐ์ด ๊ธธ๊ณ ์ธ๊ฐ์ด ๋ฐ์ดํฐ์ ํน์ฑ์ ์๋ฒฝํ ํ์
ํ๋ ๊ฒ์ด ์ด๋ ต๊ธฐ ๋๋ฌธ์, ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์์ ํ๊ฑฐ๋ ํน์ ํน์ง์ ์ง์ค๋ ํํ๋ฅผ ๊ฐ์ง ์ ์๋ค๋ ๋จ์ ์ด ์๋ค. ๋ฐ๋ผ์ ๋จ์ํ ์์
์ ์ ํฉํ๋ค.
โข
Deep Learning
๋ฅ๋ฌ๋์ ๋จธ์ ๋ฌ๋๊ณผ ๋ค๋ฅด๊ฒ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ์กด์ฌํ์ง ์์ผ๋ฉฐ ์ ์ฉ ๊ณผ์ ์์ ๊ณ์ํด์ raw data๋ก๋ถํฐ ํน์ง ์ถ์ถ์ด ์ด๋ค์ง๋ค. ๋ฐ๋ผ์ raw data๋ฅผ ๊ทธ๋๋ก ๋ค๋ฃฐ ์ ์๋ ์ฅ์ ์ ๊ฐ์ง๋ค. ๋ฌด์๋ณด๋ค ๋ฐ์ดํฐ์ ๋ํ domain์ด ์๋๋ผ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์๋ค. ๋ฅ๋ฌ๋์ end-to-end ๋ฐฉ์์ผ๋ก ํ์ตํ๋ฉฐ ์ด ๊ณผ์ ์์ backpropagation์ด ํ์ฉ๋๋ค. ์ด๋ ๋ฅ๋ฌ๋์ ๊ฒฝ์ฐ parameter์ ์์ด ๋ง์ผ๋ฏ๋ก ํจ์จ์ ์ธ gradient์ ๊ณ์ฐ์ ์ํด ์ฌ์ฉ๋๋ค.
4. Deep Reinforcement Learning
RL์ด ๋ํ์ ์ผ๋ก ํ์ฉ๋๋ ๋ก๋ณดํฑ์ค ๋ถ์ผ์์๋ state space๊ฐ ์ง์ํจ์์ ์ผ๋ก ๋์ด๋๋ค (curse of dimensionality). ์ด๋ DL์ ์ ์ฉํ๊ฒ ๋๋ฉด, ๋์ ์ฐจ์์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋์ผ๋ก ๋ฎ์ ์ฐจ์์ ํน์ง์ ์ถ์ถํ ์ ์๊ธฐ ๋๋ฌธ์ Deep Reinforcement Learning์ ํจ๊ณผ์ ์ธ ๋ฐฉ์์ผ๋ก ์ฌ๊ฒจ์ง๋ค. ์๋ฅผ ๋ค์ด CNN์ ์ ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ feature vector๋ก ๋ณํํ๊ณ fully connected layer์์ value function์ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก DRL์ ํ์ฉํ ์ ์๋ค.