🤖

Kernel Method

생성일

2025/05/22 16:19

태그

머신러닝

작성자

1. Basis function

•

입력값을 다양한 특징 차원으로 확장시키는 함수

•

기존 차원에서 선형 회귀/분류가 불가능한 데이터에 기저 함수를 적용하여 차원을 확장하면 새 차원에서 선형 관계 적용이 가능함

•

기존 공간에서는 비선형적으로 나뉘는 데이터라도 고차원의 특징 공간으로 mapping하면 선형 초평면으로 분리가 가능함

•

기저함수를 적용하는 경우 가중치 update에서 연산량이 급격히 증가함

◦

예) SSE를 목적함수로 사용하는 경우

\frac{\partial E(w)}{\partial w} = \sum_i(t^{(i)} - w^T \phi(x^{(i)}))\phi(x^{(i)})

2. Kernel Method

•

고차원의 기저함수가 적용된 경우 Gradient Descent를 단순화하는 수학적 방식

•

가중치 www가 scalar linear combination으로 표현됨을 수학적 귀납법을 사용하여 증명 

•

w=∑i=1Nuiϕ(x(i))w = \sum^N_{i=1} u_i \phi(x^{(i)})w=∑i=1N​ui​ϕ(x(i)) 

•

www의 update는 scalar update와 같다

•

ui←ui+∑i=1N(ui+α(t(i)−∑j=1Nuj ϕ(x(i))⊤ϕ(x(i))))u_i\leftarrow u_i+ \sum_{i=1}^{N} \left( u_i + \alpha \left( t^{(i)} - \sum_{j=1}^{N} u_j \, \phi(x^{(i)})^\top \phi(x^{(i)}) \right) \right)ui​←ui​+∑i=1N​(ui​+α(t(i)−∑j=1N​uj​ϕ(x(i))⊤ϕ(x(i)))) ; scalar update

•

ϕ(x(i))⊤ϕ(x(i))\phi(x^{(i)})^\top \phi(x^{(i)})ϕ(x(i))⊤ϕ(x(i)) : Kernel 행렬로 정의하여 사전 계산 후 사용

⇒ 커널 방법에서는가중치 벡터의 명시적 업데이트를 피하고 학습 샘플별 스칼라 계수를 업데이트 함으로써 모델을 학습한다. 또한 커널 행렬(Gram matrix)을 미리 계산함으로써 고차원 내적 연산을 효율적으로 처리하여 연산량을 줄일 수 있다.

3. Code

import numpy as np

# 데이터 생성
n_obs, n_feature = 10, 5
X = np.random.randn(n_obs, n_feature)
true_w = np.random.randn(n_feature)
y = X@true_w

# 초기값 설정
w = np.zeros(n_feature)
lr = 0.001
n_iters = 200

# Gradient Descent
for i in range(n_iters):
    y_hat = X@w
    grad = -X.T @ (y - y_hat )
    w += lr*grad

# Kernel Method
# 초기값 설정
w = np.zeros(n_feature)
K = X @ X.T
u = np.zeros(n_obs)

for i in range(n_iters):
    dual = K @ u
    grad_ = -K@(y-dual)
    u += lr*grad_
    
    w_ = X.T @ u
Python
복사