🤖

Regression

생성일

2025/04/02 09:52

태그

머신러닝

작성자

1. Introduction

•

Supervised Learning

◦

정답 값 yyy를 기반으로 input xxx를 yyy로 mapping 하는 함수 fff를 학습

◦

대표적으로 연속형 정답값을 기반으로 하는 선형 회귀가 있다.

2. Linear Regression

•

단순 선형 회귀분석을 통해, 위 그림과 같이 실 면적 데이터(input)을 집 값으로 mapping하는 함수를 찾고, 새로운 입력 (위의 예에서는 x=750x=750x=750)에 대해 연속형 출력 값의 예측을 진행할 수 있다.

•

Input으로 다양한 입력값을 가질 수 있으며 이 경우 다중회귀라고 한다.

3. 수식으로 표현

•

선형 회귀 표현

◦

f(x)=θ0+θ1x1+θ2x2+θ3x3f(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_3f(x)=θ0​+θ1​x1​+θ2​x2​+θ3​x3​

◦

f(x)=∑j=0dθjxj (x0=1)=yf(x) = \sum^d_{j=0} \theta_j x_j \ (x_0 = 1)= yf(x)=∑j=0d​θj​xj​ (x0​=1)=y 

▪

여기서 θ\thetaθ 와 x,yx, yx,y는 각각 열 벡터이다.

⇒ 정리하자면 입력을 출력으로 mapping 하는 가설 함수

f

를

N

개의 데이터 쌍

(x^{(i)},y^{(i)})

으로부터 학습하는 과정이며 여기서 가설 함수를 찾는다는 것은 그것을 구성하는 parameter를 찾는다는 것이다. 이때 가설 함수

f

는 parameterization 되어있다고 표현하며 이는 parameter를 알면 그 함수를 알 수 있다는 것이다.

4. 학습

•

목적

◦

h(x)=∑j=0dθjxj (x0=1) ≈yh(x)=\sum^d_{j=0} \theta_j x_j \ (x_0 = 1) \ \approx yh(x)=∑j=0d​θj​xj​ (x0​=1) ≈y

◦

가설 함수의 결과가 실제 값과 가까워지도록 θ\thetaθ를 학습한다.

•

목적 함수로 표현

◦

SSE : J(θ)=12∑iN(h(x)−y)2J(\theta) = \frac{1}{2} \sum^N_i (h(x) - y)^2J(θ)=21​∑iN​(h(x)−y)2

▪

데이터 개수 증가 시, Error도 증가하는 경향이 있다.

◦

MSE : J(θ)=1N∑iN(h(x)−y)2J(\theta) = \frac{1}{N} \sum^N_i (h(x) - y)^2J(θ)=N1​∑iN​(h(x)−y)2

◦

RMSE : J(θ)=1N∑iN(h(x)−y)2J(\theta) = \sqrt{\frac{1}{N} \sum^N_i (h(x) - y)^2}J(θ)=N1​∑iN​(h(x)−y)2​

▪

오차의 크기가 일정, 원 데이터와 동일 단위이다.

◦

θ=arg⁡min⁡θJ(θ)\theta = \displaystyle \arg\min_\theta J(\theta)θ=argθmin​J(θ)

⇒ 목적 함수를 최소로 만드는 parameter를 최소제곱법을 통해 찾는다.

•

Convex

◦

목적함수가 convex 함수인 경우 편미분=0를 풀이한다.

▪

convex, concave 함수의 경우 최소/최대값 = 극소/극대값 이므로 편미분을 통해 풀이할 수 있다.

▪

편미분은 모든 parameter에 대한 미분 값이 0이 되도록 진행하여야 한다. 

▪

목적함수가 convex일 때, 모든 변수에 대한 gradient = 0인 지점은 global minimum이기 때문이다.

◦

편미분을 통한 풀이는 parameter 개수가 늘어나면, 계산이 어려워지는 단점이 있으며, 목적함수가 Convex/Concave가 아닌 경우 편미분을 활용하기 어렵다.

◦

 예) 가설함수 : f(x)=θ0+θ1xf(x) = \theta_0 + \theta_1xf(x)=θ0​+θ1​x

▪

∂J(θ)∂θ0=0,∂J(θ)∂θ1=0\frac{\partial \mathcal{J}(\theta)}{\partial \theta_0} = 0 \quad , \quad \frac{\partial \mathcal{J}(\theta)}{\partial \theta_1} = 0∂θ0​∂J(θ)​=0,∂θ1​∂J(θ)​=0 를 통해 풀이

•

Gradient Descent

◦

편미분을 통한 풀이의 단점을 해결하고자 경사하강법을 이용한다. (점진적으로 최소값에 접근하는 방법)

◦

θnew=θold−αdJ(θ)dθ\theta_{\text{new}} = \theta_{\text{old}} - \alpha \frac{d \mathcal{J}(\theta)}{d \theta}θnew​=θold​−αdθdJ(θ)​

▪

임의의 초기값에서 시작하여 gradient vector의 반대 반향으로 θ\thetaθ의 값을 일정량(α\alphaα)만큼 이동하는 과정을 반복하여 최적해를 찾아나가는 방법

▪

이때 gradient vector가 양수라면, θ\thetaθ가 커질 때 함수도 증가하므로 최솟값을 찾기 위해 반대 방향으로 이동시켜야 한다. (반대의 경우도 마찬가지)

▪

Gradient vector = 0 에서 update는 더 이상 진행되지 않는다. 그러므로 만약 목적함수가 Convex라면 그 지점이 최적점이다. 그러나 목적함수가 Convex가 아니라면 최적점이 아닌 지점에 도달할 수 있다.

▪

이를 해결하기 위해 다양한 초깃값을 활용한다.  

▪

α\alphaα (학습률) : 0~1 사이의 값을 가지며, 큰 값으로 설정하면 최적점을 지나칠 수 있다.

◦

위 함수에서 θ0=−1\theta_0 = -1θ0​=−1 시작한다면 극소점에 멈추겠지만,  θ0=3\theta_0 = 3θ0​=3에서 시작한다면 최적점에서 중지할 것이다. 

◦

예) 가설함수 : f(x)=θ0+θ1xf(x) = \theta_0 + \theta_1xf(x)=θ0​+θ1​x, 목적함수 : SSE 인 경우

▪

∂J(θ)∂θ0=∑(h(x)−y)\frac{\partial \mathcal{J}(\theta)}{\partial \theta_0} = \sum(h(x)-y)∂θ0​∂J(θ)​=∑(h(x)−y)

▪

∂J(θ)∂θ1=∑(h(x)−y)x\frac{\partial \mathcal{J}(\theta)}{\partial \theta_1} = \sum(h(x)-y)x∂θ1​∂J(θ)​=∑(h(x)−y)x

6. 다항함수 회귀

•

테일러 급수를 활용하여 Feature와 정답값 사이의 복잡한 함수 관계를 적어도 x=ax=ax=a 근처에서는 유사하도록 다항함수 형태로 근사

•

다중 선형 회귀와 다르게 하나의 Feature를 다양한 방식으로 변환

•

테일러 급수를 사용하면, 어떠한 함수라도 미분이 훨씬 쉬운 형태인 다항함수의 형태로 고쳐 쓸 수 있기 때문에 회귀에서 쓰이는 편

•

테일러 전개를 사용했을 때, exe^xex 함수가 특정 영역(x=0x=0x=0) 근처에서 다항 함수와 유사하다는 것을 알 수 있다.

•

단점

◦

x=ax=ax=a 에서 멀어질수록 근사 성능이 떨어짐.

◦

높은 차수의 다항식으로 근사하는 경우, 과적합 문제 발생 가능