Search
๐Ÿค–

Multiclass Classification

์ƒ์„ฑ์ผ
2025/05/13 13:07
ํƒœ๊ทธ
๋จธ์‹ ๋Ÿฌ๋‹
๋ฐ์ดํ„ฐ๋งˆ์ด๋‹
์ž‘์„ฑ์ž

1. Multi-Class

โ€ข
์—ฌ๋Ÿฌ๊ฐœ์˜ ์ด์ง„ ๋ถ„๋ฅ˜๊ธฐ(์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ)๋ฅผ ์—ฎ์–ด์„œ ๋‹ค์ค‘ ๋ถ„๋ฅ˜ ๊ฐ€๋Šฅ
โ€ข
๋ฐœ์ƒ ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ์ 
โ—ฆ
๋‹จ์ˆœํžˆ ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ ์—ฌ๋Ÿฌ๊ฐœ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์ค‘ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉด, Class๋ฅผ ๋ช…ํ™•ํžˆ ์ •์˜ํ•  ์ˆ˜ ์—†๋Š” ์˜์—ญ์ด ์ƒ๊ธด๋‹ค.
โ‡’ ์„ ํ˜• ๋ถ„๋ฅ˜๊ธฐ๊ฐ€ ํ•œ ์ ์—์„œ ๋งŒ๋‚˜๋Š” ํ˜•ํƒœ๋กœ ๊ตฌ์„ฑํ•ด์•ผ ํ•จ

2. ๋ถ„๋ฅ˜ ๊ทœ์น™

โ€ข
์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ํ™œ์šฉํ•œ ์ด์ง„ ๋ถ„๋ฅ˜์˜ ๊ฒฝ์šฐ ์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ถ„๋ฅ˜ ๊ทœ์น™์„ ์„ค์ •ํ•˜์—ฌ ๋ถ„๋ฅ˜ ์ง„ํ–‰
โ€ข
๋‹ค์ค‘ ๋ถ„๋ฅ˜์˜ ๊ทœ์น™
โ—ฆ
yk(x)=wTxy_k(x) = w^Tx ์— ๋Œ€ํ•˜์—ฌ ๋งŒ์•ฝ ๋ชจ๋“  jj์— ๋Œ€ํ•ด yk(x)>yj(x)y_k(x) > y_j(x) ๋ผ๋ฉด Class kk๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค. (๋‹จ, jโ‰ kj โ‰  k)
โ—ฆ
๋”ฐ๋ผ์„œ, max(y1(x),y2(x),y3(x))max( y_1(x), y_2(x), y_3(x))์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ xx์˜ Class ์„ค์ •
โ—ฆ
์ด๋•Œ ๊ฐ ์„ ํ˜• ํ•จ์ˆ˜ yiy_i๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ํ•จ์ˆ˜์ž„.
โ—ฆ
์ฆ‰, ๋‹ค์ค‘ ๋ถ„๋ฅ˜์—์„œ๋Š” Class ๊ฐœ์ˆ˜๋งŒํผ ๊ฐ€์ค‘์น˜ ์„ธํŠธ๊ฐ€ ์กด์žฌํ•จ.

3. ๋ถ„๋ฅ˜ ๊ทœ์น™์˜ ์œ ํšจ์„ฑ ์ฆ๋ช…

โ€ข
์œ„์—์„œ ์ •์˜ํ•œ ๋ถ„๋ฅ˜ ๊ทœ์น™์ด ์œ ํšจํ•˜๋ ค๋ฉด, ํ•ด๋‹น ๊ทœ์น™์œผ๋กœ ์„ค์ •๋œ ๊ฒฝ๊ณ„๋Š” ๋ชจ๋‘ Class๋ฅผ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„์ง€์„ ์ˆ˜ ์žˆ์–ด์•ผ ํ•จ.
โ€ข
Class๋ฅผ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•œ๋‹ค๋Š” ๊ฒƒ์€, ๊ฐ™์€ Class ๋‚ด์˜ ๋‘ ๋ฐ์ดํ„ฐ ์‚ฌ์ด์— ์กด์žฌํ•˜๋Š” ๋ฐ์ดํ„ฐ ์—ญ์‹œ ๋™์ผ Class์— ์†ํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•จ.
โ€ข
์ฆ๋ช…

4. ํ–‰๋ ฌ์„ ํ†ตํ•œ ํ‘œํ˜„

โ€ข
K๊ฐœ์˜ Class๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฌธ์ œ์ด๋ฉฐ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ N๊ฐœ๋ผ๊ณ  ํ•  ๋•Œ์˜ ํ–‰๋ ฌ ํ‘œํ˜„
[y00โ‹ฏy0Nโ‹ฎโ‹ฑโ‹ฎyK0โ‹ฏyKN]=[w0,0โ‹ฏw0,dโ‹ฎโ‹ฑโ‹ฎwK,0โ‹ฏwK,d][x00โ‹ฏx0Nโ‹ฎโ‹ฑโ‹ฎxd0โ‹ฏxdN]\begin{bmatrix}y_{00} & \cdots & y_{0N} \\\vdots & \ddots & \vdots \\y_{K0} & \cdots & y_{KN}\end{bmatrix}=\begin{bmatrix}w_{0,0} & \cdots & w_{0,d} \\\vdots & \ddots & \vdots \\w_{K,0} & \cdots & w_{K,d}\end{bmatrix}\begin{bmatrix}x_0^0 & \cdots & x_0^N \\\vdots & \ddots & \vdots \\x_d^0 & \cdots & x_d^N\end{bmatrix}
โ€ข
Inference
โ—ฆ
y^\hat y ํ–‰๋ ฌ์˜ ๊ฐ ์—ด์— ๋Œ€ํ•ด argmaxargmax ์ ์šฉํ•˜์—ฌ ๋ถ„๋ฅ˜ ์ง„ํ–‰

5. One-Hot Encoding

โ€ข
๊ฐ Class๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, i๋ฒˆ์งธ Class๋ฅผ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด i๋ฒˆ์งธ ์›์†Œ๋ฅผ 1๋กœ ๋‚˜๋จธ์ง€๋ฅผ 0์œผ๋กœ ํ•˜์—ฌ ๋ฒ”์ฃผ๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฐฉ๋ฒ•
โ—ฆ
Class๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ์ˆซ์ž๋“ค ์‚ฌ์ด์˜ ์—ฐ์†์„ฑ์„ ์ œ๊ฑฐ
โ€ข
์˜ˆ
โ—ฆ
10๊ฐœ์˜ Class๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ, Class 5์˜ ํ‘œํ˜„
[0,0,0,0,1,0,0,0,0,0][ 0, 0, 0, 0, 1, 0, 0, 0, 0, 0]

6. ํ•™์Šต(LSM)

โ€ข
์˜ค์ฐจ ์ •์˜
โ€ข
Squared-Error
โ€ข
์„ ํ˜•์‹์˜ ๊ฒฐ๊ณผ์— argmaxargmax๋ฅผ ์ ์šฉํ•˜์—ฌ Class ๋ฒˆํ˜ธ๋ฅผ ์ฐพ์•˜์œผ๋ฏ€๋กœ, ํ™•๋ฅ ๊ฐ’์œผ๋กœ Modeling ๋˜์ง€ ์•Š์•„ MLE ๋ถˆ๊ฐ€
โ€ข
LSM ์‚ฌ์šฉ ์‹œ Error๋ฅผ ๊ณผ์žฅํ•˜๋ฉฐ, ๊ฒฐ์ • ๊ฒฝ๊ณ„๊ฐ€ ์™œ๊ณก๋˜๋Š” ๋ฌธ์ œ ๋ฐœ์ƒ ๊ฐ€๋Šฅ

7. ํ™•๋ฅ ๊ฐ’ Mapping

โ€ข
์„ ํ˜• ๋ถ„๋ฅ˜ โ†’ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋กœ ๋„˜์–ด๊ฐ”๋˜ ์•„์ด๋””์–ด์™€ ๋™์ผํ•˜๊ฒŒ, ์„ ํ˜•์‹์˜ ๊ฒฐ๊ณผ๋ฅผ Sigmoid ํ•จ์ˆ˜์— ์ž…๋ ฅํ•˜์—ฌ ํ™•๋ฅ ๊ฐ’์„ ์–ป๋Š” ๊ฒƒ์€?
โ—ฆ
Class ๊ฐ๊ฐ์— ๋Œ€ํ•ด ๋ชจ๋‘ ๋†’์€ ๊ฐ’์„ ์ถœ๋ ฅํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ•จ
โ€ข
Softmax
Softmax(zi)=eziโˆ‘j=1Kezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}
โ—ฆ
๊ฐ Class์— ์†ํ•  ํ™•๋ฅ ์„ ๋ชจ๋‘ ๋”ํ•˜๋ฉด 1์ด ๋˜๋ฉด์„œ๋„, ๊ฐ๊ฐ์˜ Class์— ์†ํ•  ํ™•๋ฅ ์€ 0~1 ์‚ฌ์ด ๊ฐ’์œผ๋กœ Mapping ๋จ
โ—ฆ
K=2K=2 ์ธ ๊ฒฝ์šฐ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์™€ ๋™์ผํ•จ
โ€ข
Softmax ํ•จ์ˆ˜์—์„œ ์ง€์ˆ˜ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ 
โ—ฆ
์„ ํ˜• ํ•จ์ˆ˜์˜ ๊ฒฐ๊ณผ๊ฐ€ ์Œ์ˆ˜์ผ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์ง€์ˆ˜ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•ญ์ƒ ์–‘์ˆ˜๋ฅผ ์ถœ๋ ฅํ•˜๋„๋ก ํ•จ.
โ—ฆ
์„ ํ˜• ํ•จ์ˆ˜์˜ ๊ฒฐ๊ณผ ๊ฐ’๋“ค ๊ฐ๊ฐ์ด ์–ด๋–ค ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š”์ง€๋Š” ๋ชจ๋ฅด๋‚˜, ์ž์—ฐ๊ณ„์˜ ๋Œ€๋ถ€๋ถ„์˜ ๋ถ„ํฌ๊ฐ€ ์ง€์ˆ˜์กฑ์ด๋ฏ€๋กœ ์ง€์ˆ˜ํ•จ์ˆ˜(exp)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ธฐ์กด์˜ ํ™•๋ฅ ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ํ™•๋ฅ  ๊ฐ’์„ ์–ป๋Š” ๊ฒƒ๊ณผ ์œ ์‚ฌํ•œ ํšจ๊ณผ๋ฅผ ๋ณด์ž„.
โ€ข
Softmax ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ์–ป์€ ํ™•๋ฅ  ๊ฐ’์„ ๋ฐ”ํƒ•์œผ๋กœ Cross Entropy๋ฅผ ๋ชฉ์ ํ•จ์ˆ˜๋กœ ํ•˜์—ฌ ์ตœ์ ํ™” ์ง„ํ–‰
โ€ข
์ตœ์ ํ™”์—๋Š”?
โ—ฆ
ํŽธ๋ฏธ๋ถ„, ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•..๋“ฑ๋“ฑ