Introduction
1. Machine Learning algorithm categories
โข
Supervised Learning
โฆ
์ง๋ ํ์ต์ Label (์ ๋ต)์ด ํฌํจ๋ training data๋ก๋ถํฐ ํ์ต์ด ์งํ
โฆ
์
๋ ฅ ๋ฐ์ดํฐ์ ๋ํด ํ๊ท์ ๋ถ๋ฅ๋ฅผ ์ํ ๊ท์น์ ์ฐพ์
โฆ
Test data์ ๋ํด ์์ธก์ ์งํ
โข
Unsupervised Learning
โฆ
๋น์ง๋ ํ์ต์ Label์ด ์๋ training data๋ก๋ถํฐ ํ์ต์ ์งํ
โฆ
๋ฐ์ดํฐ์ ๋ด์ฌ๋ ๊ตฌ์กฐ๋ฅผ ํ์
ํ๋ ๊ฒ์ด ๋ชฉ์ ์
โฆ
์) Clustering, PCA
โข
Reinforcement Learning
โฆ
๊ฐํํ์ต์ sampled data๊ฐ ์กด์ฌํ์ง ์์ผ๋ฉฐ, agent๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ป๊ฒ ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ํ์ต ์งํ
โฆ
ํ์ต๊ณผ์ ์์ agent๋ ๊ฐ state์์ policy๋ฅผ ๊ธฐ๋ฐ์ผ๋ก action์ ์ ํํ๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ reward๋ฅผ ์ป์
โฆ
์ด reward๋ฅผ ์ต๋๋ก ํ๋ policy๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํจ
2. RL์ ์ฌ์ฉํ๋ ์ด์
โข
๋
ธ๋ฉด์์ ๋ก๋ด ๊ฑท๊ธฐ ์์คํ
ํ์ต ๊ฐ์
โฆ
์ง๋ํ์ต
โช
์
๋ ฅ ๋ฐ์ดํฐ: ๋ก๋ด์ ํ์ฌ ๊ด์ ์ํ (ex. ๊ด์ ์ ๊ฐ๋) ์ ํ์ฌ ๋
ธ๋ฉด์ ๊ตด๊ณก์ด๊ณ
โช
Label(์ ๋ต๊ฐ)์ ๋ก๋ด์ด ๋์ด์ง์ง ์๊ณ ์ ๋๋ก ๊ฑท๊ธฐ ์ํ ๋ค์ ๊ด์ ์ํ
โช
(ํ์ฌ ๊ด์ ์ ๊ฐ๋, ํ์ฌ ๋
ธ๋ฉด์ ์ํ)-(์ ๋ต ๊ด์ ์ํ) ์์ ๋ชจ๋ธ์ ์
๋ ฅ๊ฐ์ผ๋ก ๋ฃ์ด์ผ ํจ
โ ๊ฐ๋ฅํ ์์ ๊ฐ์๊ฐ ์๋นํ ๋ง์์ง๋ฏ๋ก ๋ชจ๋ ์ํ๋ฅผ ๊ณ ๋ คํ ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ํ์ต์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค.
โฆ
๊ฐํํ์ต
โช
action: ์์ผ๋ก ์ ํํ ๊ด์ ์ ์ํ
โช
state: ํ์ฌ ๋
ธ๋ฉด๊ณผ ๊ด์ ์ ์ํ
โช
agent๊ฐ ์ค์ค๋ก ๋ค์ํ ์๋๋ฅผ ํตํด ์ ์ ํ action์ ์ ํํ ์ ์์
โ ํ์ต์ด ํจ์จ์ ์ผ๋ก ์ด๋ค์ง ์ ์๋ค.
3. Deep Learning
โข
Machine Learning
โฆ
๋จธ์ ๋ฌ๋์ ์ธ๊ฐ์ด ์ง์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ์ํํด์ผ ํ๋ค
โฆ
๋จ์ : ์ธ๊ฐ์ด ๋ฐ์ดํฐ์ ํน์ฑ์ ์๋ฒฝํ ํ์
ํ๋ ๊ฒ์ด ์ด๋ ต๋ค.
โ ์ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์์ ํ๊ฑฐ๋ ํน์ ํน์ง์ ์ง์ค๋ ํํ๋ฅผ ๊ฐ์ง ์ ์๋ค
โข
Deep Learning
โฆ
๋ฅ๋ฌ๋์ ๋จธ์ ๋ฌ๋๊ณผ ๋ค๋ฅด๊ฒ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ด ์กด์ฌํ์ง ์๋๋ค.
โฆ
๋ชจ๋ธ์ด raw data๋ก๋ถํฐ ํน์ง ์ถ์ถ
4. Deep Reinforcement Learning
โข
๋ก๋ณดํฑ์ค ๋ถ์ผ
โฆ
State space๊ฐ ์ง์ํจ์์ ์ผ๋ก ๋์ด๋๋ค (curse of dimensionality).
โฆ
์ด๋ DL์ ์ ์ฉํ๊ฒ ๋๋ฉด, ๋์ ์ฐจ์์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์๋์ผ๋ก ๋ฎ์ ์ฐจ์์ ํน์ง์ ์ถ์ถํ ์ ์๋ค.
โฆ
์๋ฅผ ๋ค์ด CNN์ ์ ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ feature vector๋ก ๋ณํํ๊ณ fully connected layer์์ value function์ ๊ณ์ฐํ๋ ๋ฐฉ์์ผ๋ก DRL์ ํ์ฉํ ์ ์๋ค.