Search
๐Ÿ’ช๐Ÿป

Introduction

์ƒ์„ฑ์ผ
2024/07/01 07:29
ํƒœ๊ทธ
๊ฐ•ํ™”ํ•™์Šต
์ž‘์„ฑ์ž

Introduction

1. Machine Learning algorithm categories

โ€ข
Supervised Learning
โ—ฆ
์ง€๋„ ํ•™์Šต์€ Label (์ •๋‹ต)์ด ํฌํ•จ๋œ training data๋กœ๋ถ€ํ„ฐ ํ•™์Šต์ด ์ง„ํ–‰
โ—ฆ
์ž…๋ ฅ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•œ ๊ทœ์น™์„ ์ฐพ์Œ
โ—ฆ
Test data์— ๋Œ€ํ•ด ์˜ˆ์ธก์„ ์ง„ํ–‰
โ€ข
Unsupervised Learning
โ—ฆ
๋น„์ง€๋„ ํ•™์Šต์€ Label์ด ์—†๋Š” training data๋กœ๋ถ€ํ„ฐ ํ•™์Šต์„ ์ง„ํ–‰
โ—ฆ
๋ฐ์ดํ„ฐ์— ๋‚ด์žฌ๋œ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ž„
โ—ฆ
์˜ˆ) Clustering, PCA
โ€ข
Reinforcement Learning
โ—ฆ
๊ฐ•ํ™”ํ•™์Šต์€ sampled data๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š์œผ๋ฉฐ, agent๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์–ป๊ฒŒ ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ํ•™์Šต ์ง„ํ–‰
โ—ฆ
ํ•™์Šต๊ณผ์ •์—์„œ agent๋Š” ๊ฐ state์—์„œ policy๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ action์„ ์„ ํƒํ•˜๋ฉฐ ๊ทธ ๊ฒฐ๊ณผ reward๋ฅผ ์–ป์Œ
โ—ฆ
์ด reward๋ฅผ ์ตœ๋Œ€๋กœ ํ•˜๋Š” policy๋ฅผ ์ฐพ๋Š” ๊ฒƒ์„ ๋ชฉ์ ์œผ๋กœ ํ•จ

2. RL์„ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ 

โ€ข
๋…ธ๋ฉด์—์„œ ๋กœ๋ด‡ ๊ฑท๊ธฐ ์‹œ์Šคํ…œ ํ•™์Šต ๊ฐ€์ •
โ—ฆ
์ง€๋„ํ•™์Šต
โ–ช
์ž…๋ ฅ ๋ฐ์ดํ„ฐ: ๋กœ๋ด‡์˜ ํ˜„์žฌ ๊ด€์ ˆ ์ƒํƒœ (ex. ๊ด€์ ˆ์˜ ๊ฐ๋„) ์™€ ํ˜„์žฌ ๋…ธ๋ฉด์˜ ๊ตด๊ณก์ด๊ณ 
โ–ช
Label(์ •๋‹ต๊ฐ’)์€ ๋กœ๋ด‡์ด ๋„˜์–ด์ง€์ง€ ์•Š๊ณ  ์ œ๋Œ€๋กœ ๊ฑท๊ธฐ ์œ„ํ•œ ๋‹ค์Œ ๊ด€์ ˆ ์ƒํƒœ
โ–ช
(ํ˜„์žฌ ๊ด€์ ˆ์˜ ๊ฐ๋„, ํ˜„์žฌ ๋…ธ๋ฉด์˜ ์ƒํƒœ)-(์ •๋‹ต ๊ด€์ ˆ ์ƒํƒœ) ์Œ์„ ๋ชจ๋ธ์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋„ฃ์–ด์•ผ ํ•จ
โ‡’ ๊ฐ€๋Šฅํ•œ ์Œ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ƒ๋‹นํžˆ ๋งŽ์•„์ง€๋ฏ€๋กœ ๋ชจ๋“  ์ƒํƒœ๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ํ•™์Šต์„ ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๋‹ค.
โ—ฆ
๊ฐ•ํ™”ํ•™์Šต
โ–ช
action: ์•ž์œผ๋กœ ์„ ํƒํ•  ๊ด€์ ˆ์˜ ์ƒํƒœ
โ–ช
state: ํ˜„์žฌ ๋…ธ๋ฉด๊ณผ ๊ด€์ ˆ์˜ ์ƒํƒœ
โ–ช
agent๊ฐ€ ์Šค์Šค๋กœ ๋‹ค์–‘ํ•œ ์‹œ๋„๋ฅผ ํ†ตํ•ด ์ ์ ˆํ•œ action์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Œ
โ‡’ ํ•™์Šต์ด ํšจ์œจ์ ์œผ๋กœ ์ด๋ค„์งˆ ์ˆ˜ ์žˆ๋‹ค.

3. Deep Learning

โ€ข
Machine Learning
โ—ฆ
๋จธ์‹  ๋Ÿฌ๋‹์€ ์ธ๊ฐ„์ด ์ง์ ‘ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•œ๋‹ค
โ—ฆ
๋‹จ์  : ์ธ๊ฐ„์ด ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์™„๋ฒฝํžˆ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ์–ด๋ ต๋‹ค.
โ‡’ ์ „์ฒ˜๋ฆฌ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถˆ์™„์ „ํ•˜๊ฑฐ๋‚˜ ํŠน์ • ํŠน์ง•์— ์ง‘์ค‘๋œ ํ˜•ํƒœ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋‹ค
โ€ข
Deep Learning
โ—ฆ
๋”ฅ๋Ÿฌ๋‹์€ ๋จธ์‹ ๋Ÿฌ๋‹๊ณผ ๋‹ค๋ฅด๊ฒŒ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์ด ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค.
โ—ฆ
๋ชจ๋ธ์ด raw data๋กœ๋ถ€ํ„ฐ ํŠน์ง• ์ถ”์ถœ

4. Deep Reinforcement Learning

โ€ข
๋กœ๋ณดํ‹ฑ์Šค ๋ถ„์•ผ
โ—ฆ
State space๊ฐ€ ์ง€์ˆ˜ํ•จ์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚œ๋‹ค (curse of dimensionality).
โ—ฆ
์ด๋•Œ DL์„ ์ ์šฉํ•˜๊ฒŒ ๋˜๋ฉด, ๋†’์€ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ž๋™์œผ๋กœ ๋‚ฎ์€ ์ฐจ์›์˜ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋‹ค.
โ—ฆ
์˜ˆ๋ฅผ ๋“ค์–ด CNN์„ ์ ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€๋ฅผ feature vector๋กœ ๋ณ€ํ™˜ํ•˜๊ณ  fully connected layer์—์„œ value function์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ DRL์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.