Search
๐Ÿ’ช๐Ÿป

Introduction

์ƒ์„ฑ์ผ
2024/07/01 07:29
ํƒœ๊ทธ
๊ฐ•ํ™”ํ•™์Šต
์ž‘์„ฑ์ž

Introduction

1. Machine Learning algorithm categories

๊ธฐ๊ณ„ํ•™์Šต์€ ์›ํ•˜๋Š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ทœ์น™์„ ์ฐพ๋Š” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ž‘์„ฑํ•˜์—ฌ ๋ฐ์ดํ„ฐ์™€ ํ•จ๊ป˜ ์ž…๋ ฅํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ž…๋ ฅ๊ฐ’์„ ์ถœ๋ ฅ(or ์ •๋‹ต) ๊ฐ’์œผ๋กœ mapping ํ•˜๋Š” ํ•จ์ˆ˜๊ฐ€ ํ•™์Šต๋œ๋‹ค. ๊ธฐ๊ณ„ํ•™์Šต์˜ ๋ถ„๋ฅ˜๋Š” ํฌ๊ฒŒ ์ง€๋„ ํ•™์Šต, ๋น„์ง€๋„ ํ•™์Šต, ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ ๋‚˜๋‰œ๋‹ค.
โ€ข
Supervised Learning
์ง€๋„ ํ•™์Šต์€ Label (์ •๋‹ต)์ด ํฌํ•จ๋œ training data๋กœ๋ถ€ํ„ฐ ํ•™์Šต์ด ์ง„ํ–‰๋˜๋ฉฐ ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ๊ทœ์น™์„ ์ฐพ๋Š”๋‹ค. ์ดํ›„ test data๋‚˜ ์ƒˆ๋กœ์šด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์˜ˆ์ธก์„ ์ง„ํ–‰ํ•œ๋‹ค.
โ€ข
Unsupervised Learning
๋น„์ง€๋„ ํ•™์Šต์€ Label์ด ์—†๋Š” training data๋กœ๋ถ€ํ„ฐ ํ•™์Šต์„ ์ง„ํ–‰๋˜๋ฉฐ, ๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ ํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์‹œ๋กœ clustering์ด ์žˆ๋‹ค. ์ง€๋„ํ•™์Šต์— ๋น„ํ•ด ํ•™์Šต์ด ์–ด๋ ต๋‹ค๋Š” ํŠน์ง•์ด ์žˆ๋‹ค.
โ€ข
Reinforcement Learning
๊ฐ•ํ™”ํ•™์Šต์€ sampled data๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, agent๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์–ป๊ฒŒ ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋œ๋‹ค. ํ•™์Šต๊ณผ์ •์—์„œ agent๋Š” ๊ฐ state์—์„œ policy๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ action์„ ์„ ํƒํ•˜๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ reward๋ฅผ ์–ป๋Š”๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ด reward๋ฅผ ์ตœ๋Œ€๋กœ ํ•˜๋Š” policy๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋œ๋‹ค. ์ •๋ฆฌํ•˜์ž๋ฉด policy evaluation๊ณผ policy improvement๊ฐ€ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ์šฉ๋˜๋Š” ๊ฒƒ์ด๋‹ค.
<๊ฐ•ํ™”ํ•™์Šต ๊ณผ์ • ๋„์‹ํ™”>

2. RL์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ 

๋…ธ๋ฉด์—์„œ ๋กœ๋ด‡ ๊ฑท๊ธฐ ์‹œ์Šคํ…œ์„ ํ•™์Šตํ•˜๋ ค๊ณ  ํ•˜๋Š” ๊ฒฝ์šฐ๋ฅผ ๊ฐ€์ •ํ•œ๋‹ค. ์ง€๋„ํ•™์Šต์„ ์ ์šฉํ•œ๋‹ค๋ฉด, ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋Š” ๋กœ๋ด‡์˜ ํ˜„์žฌ ๊ด€์ ˆ ์ƒํƒœ (ex. ๊ด€์ ˆ์˜ ๊ฐ๋„) ์™€ ํ˜„์žฌ ๋…ธ๋ฉด์˜ ๊ตด๊ณก์ด๊ณ  label(์ •๋‹ต๊ฐ’)์€ ๋กœ๋ด‡์ด ๋„˜์–ด์ง€์ง€ ์•Š๊ณ  ์ œ๋Œ€๋กœ ๊ฑท๊ธฐ ์œ„ํ•œ ๋‹ค์Œ ๊ด€์ ˆ ์ƒํƒœ๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. ์ด๋•Œ ๊ฐ๊ฐ์˜ (ํ˜„์žฌ ๊ด€์ ˆ์˜ ๊ฐ๋„, ํ˜„์žฌ ๋…ธ๋ฉด์˜ ์ƒํƒœ)-(์ •๋‹ต ๊ด€์ ˆ ์ƒํƒœ) ์Œ์„ ๋ชจ๋ธ์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋„ฃ์–ด์•ผ ํ•˜๋Š”๋ฐ, ์ด๋ ‡๊ฒŒ ๋˜๋ฉด ๊ฐ€๋Šฅํ•œ ์Œ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ƒ๋‹นํžˆ ๋งŽ์•„์ง€๋ฏ€๋กœ ๋ชจ๋“  ์ƒํƒœ๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ฐ•ํ™”ํ•™์Šต์—์„œ๋Š” action์„ ์•ž์œผ๋กœ ์„ ํƒํ•  ๊ด€์ ˆ์˜ ์ƒํƒœ state๋ฅผ ํ˜„์žฌ ๋…ธ๋ฉด๊ณผ ๊ด€์ ˆ์˜ ์ƒํƒœ๋กœ ์„ค์ •ํ•ด์ฃผ๊ธฐ๋งŒ ํ•œ๋‹ค๋ฉด agent๊ฐ€ ์Šค์Šค๋กœ ๋‹ค์–‘ํ•œ ์‹œ๋„๋ฅผ ํ†ตํ•ด ์ ์ ˆํ•œ action์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ํ•™์Šต์ด ํšจ์œจ์ ์œผ๋กœ ์ด๋ค„์งˆ ์ˆ˜ ์žˆ๋‹ค.

3. Deep Learning

โ€ข
Machine Learning
๋จธ์‹  ๋Ÿฌ๋‹์€ ์ธ๊ฐ„์ด ์ง์ ‘ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค๋Š” ํŠน์ง•์„ ๊ฐ€์ง„๋‹ค. ์ด ๊ณผ์ •์—์„œ ์†Œ๋ชจ๋˜๋Š” ์‹œ๊ฐ„์ด ๊ธธ๊ณ  ์ธ๊ฐ„์ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์™„๋ฒฝํžˆ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ์ „์ฒ˜๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ์™„์ „ํ•˜๊ฑฐ๋‚˜ ํŠน์ • ํŠน์ง•์— ์ง‘์ค‘๋œ ํ˜•ํƒœ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹จ์ˆœํ•œ ์ž‘์—…์— ์ ํ•ฉํ•˜๋‹ค.
โ€ข
Deep Learning
๋”ฅ๋Ÿฌ๋‹์€ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋‹ค๋ฅด๊ฒŒ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์ด ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฉฐ ์ ์šฉ ๊ณผ์ •์—์„œ ๊ณ„์†ํ•ด์„œ raw data๋กœ๋ถ€ํ„ฐ ํŠน์ง• ์ถ”์ถœ์ด ์ด๋ค„์ง„๋‹ค. ๋”ฐ๋ผ์„œ raw data๋ฅผ ๊ทธ๋Œ€๋กœ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ์žฅ์ ์„ ๊ฐ€์ง„๋‹ค. ๋ฌด์—‡๋ณด๋‹ค ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ domain์ด ์—†๋”๋ผ๋„ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹์€ end-to-end ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋ฉฐ ์ด ๊ณผ์ •์—์„œ backpropagation์ด ํ™œ์šฉ๋œ๋‹ค. ์ด๋Š” ๋”ฅ๋Ÿฌ๋‹์˜ ๊ฒฝ์šฐ parameter์˜ ์–‘์ด ๋งŽ์œผ๋ฏ€๋กœ ํšจ์œจ์ ์ธ gradient์˜ ๊ณ„์‚ฐ์„ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค.

4. Deep Reinforcement Learning

RL์ด ๋Œ€ํ‘œ์ ์œผ๋กœ ํ™œ์šฉ๋˜๋Š” ๋กœ๋ณดํ‹ฑ์Šค ๋ถ„์•ผ์—์„œ๋Š” state space๊ฐ€ ์ง€์ˆ˜ํ•จ์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚œ๋‹ค (curse of dimensionality). ์ด๋•Œ DL์„ ์ ์šฉํ•˜๊ฒŒ ๋˜๋ฉด, ๋†’์€ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ž๋™์œผ๋กœ ๋‚ฎ์€ ์ฐจ์›์˜ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— Deep Reinforcement Learning์€ ํšจ๊ณผ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์—ฌ๊ฒจ์ง„๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด CNN์„ ์ ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ feature vector๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  fully connected layer์—์„œ value function์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ DRL์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.