🗃️

Evaluation of Model Performance

생성일

2025/04/01 14:57

태그

데이터마이닝

작성자

Introduction

•

지도 학습에서는 새로운 관측값에 대한 모델의 성능이 중요함.

•

이를 평가하기 위해 일반적으로 데이터를 분할하여 사용하며, 이때 다양한 평가 지표를 적용할 수 있음.

예측 성능 평가

•

예측 정확성은 적합도와 동일한 개념이 아님.

◦

여기서 적합도란, 추정한 모델이 주어진 데이터를 얼마나 잘 설명하는가를 나타내는 값으로, 대표적으로 회귀분석에서 R2R^2R2가 있다.

•

적합된 모델의 예측 성능을 평가하기 위해서는 여러 척도가 사용되며, 각 척도는 검증 데이터를 기반으로 측정된다.

•

Naive Benchmark

◦

아무런 모델도 쓰지 않고, 최소한으로 예측하는 기준선

◦

일반적으로 평균 결과 값을 기준으로 사용한다

▪

새로운 데이터에 대해 모델이 항상 학습 데이터의 평균으로 예측할 때의 오차를 baseline으로 사용하는 것

•

예측 정확성 척도

◦

eie_iei​(예측 오차) = yi−y^iy_i -\hat y_iyi​−y^​i​ 

▪

수치형 결과값을 가지는 경우 모델의 예측과 실제 데이터 사이의 차이로 정의된다.

◦

MAE (평균 절대 오차)

▪

1n∑i=1n∣ei∣\frac{1}{n}\sum^n_{i=1} |e_i|n1​∑i=1n​∣ei​∣

◦

평균 오차

▪

오차의 부호가 유지 됨

▪

평균적으로 예측이 실제 값을 기준으로 미달되는지, 넘어서는지를 나타낸다.

▪

1n∑i=1nei\frac{1}{n}\sum^n_{i=1} e_in1​∑i=1n​ei​

◦

MPE

▪

1n∑i=1nei/yi\frac{1}{n}\sum^n_{i=1} e_i/y_in1​∑i=1n​ei​/yi​

◦

MAPE

▪

1n∑i=1n∣ei/yi∣\frac{1}{n}\sum^n_{i=1} |e_i/y_i|n1​∑i=1n​∣ei​/yi​∣

◦

SSE

▪

12∑i=1nei2\frac{1}{2}\sum^n_{i=1} e_i^221​∑i=1n​ei2​

▪

데이터의 양이 늘면 오차 역시 동시에 늘어난다는 단점이 존재함

◦

MSE

▪

1n∑i=1nei2\frac{1}{n}\sum^n_{i=1} e_i^2n1​∑i=1n​ei2​

◦

RMSE

▪

1n∑i=1nei2\sqrt{\frac{1}{n}\sum^n_{i=1} e_i^2}n1​∑i=1n​ei2​​

▪

데이터 양에 관계없이 오차 크기가 일정하며, 원본 데이터와 동일한 단위

import math
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

df = pd.read_csv('dmba/ToyotaCorolla.csv')

exclude = ('Price', 'ID', "Model", 'Fuel_Type','Color')
predictors = [ i for i in df.columns if i not in exclude]
out = 'Price'

X =df[predictors]
y = df[out]

trn_x, val_x, trn_y, val_y = train_test_split(X, y, test_size=0.4, random_state= 1)

reg = LinearRegression()
reg.fit(trn_x, trn_y)

y = val_y
hat_y = reg.predict(val_x)
e = y - hat_y

#MAE
MAE = abs(e).mean()
MSE = (e**2).mean()
RMSE = math.sqrt(MSE)
Python
복사

•

Train/Validation Error

◦

학습 데이터에서의 오차는 모델의 학습 정도를 나타낸다.

◦

검증 데이터에서의 오차는 모델의 새로운 관측값에서의 성능을 나타낸다.

◦

학습 데이터에서의 오차는 낮으나, 검증 데이터에서의 오차는 높은 경우 → 과적합(Overfitting)

•

Cumulative gains chart and lift chart (연속형)

◦

새로운 관측값에서 누적 예측 값이 가장 큰 관측값들의 부분집합을 찾는 방법

◦

누적 이득 차트

예측값에 따라 높은 값부터 낮은 값 순서로 정렬

누적된 실제 값을 y축 label, 누적된 관측 값의 수를 x축 label로 하여 그래프 작성

비교 대상으로 Naive Benchmark 사용

⇒ 여기서 Naive Benchmark는 입력에 대한 예측이 항상 실제 값의 평균이므로, 누적 이득 차트가 이 대각선에서 멀리 떨어질수록 모델이 높은 결과 값을 가지는 관측값을 적절히 예측하고 있음을 나타낸다.

◦

Lift

▪

각 분위 그룹에 대해 임의의 그룹을 선택해서 얻는 이득에 대한 모델로 선택된 그룹을 통해 얻는 이득의 비

▪

예를 들어 임의의 자동차 57대를 판매하여 얻을 수 있는 금액이 100이고, 모델을 통해 선택된 상위 10% 그룹 (57대)를 판매하여 얻을 수 있는 금액이 200이라면 Lift = 2

▪

이 Lift를 y축으로 그룹의 분위를 x축으로 하여 그린 차트가 Lift chart이다.

분류기 성능의 판단

•

Naive Benchmark

◦

아무런 모델도 쓰지 않고, 최소한으로 예측하는 기준선

◦

주어진 관측값을 다수 클래스로 분류하는 것

•

Confusion matrix

◦

분류기가 특정 데이터셋에 대해 산출하는 정확한 분류와 부정확한 분류를 요약함

◦

일반적으로 행에 예측 정보, 열에 실제 정보를 담는다.

⇒ 새로운 데이터에서의 성능 평가를 위해 검증 데이터에서 계산된 Confusion Matrix를 사용한다.

Accuracy = 1 - err = 1 - (FN+FP)/n

•

분류 경향과 컷오프(threshold)

◦

대다수 분류 알고리즘은 관측값이 각 클래스에 속할 확률을 추정한다.

◦

이 확률을 경향(propensities)라고 부른다.

◦

관심 클래스에 속할 확률이 컷오프(threshold) 값보다 크면 해당 관측값을 그 클래스에 배정한다.

from sklearn.metrics import confusion_matrix

## threshold = 0.5
predicted =['owner' if p>0.5 else 'nonowner' for p in df.Probability]
confusion_matrix(df.Class, predicted)
Python
복사

•

클래스의 중요성이 불균등한 경우의 성능

◦

회사의 재무 상태를 예측하는 경우, 파산할지 예측하는 것이 반대의 경우에 비해 중요하다.

◦

이때는 민감도(Sensitivity/Recall) 과 특이도 (Specificity)를 중심으로 성능을 평가한다.

◦

ROC 곡선은 왼쪽 아래에서 시작하여, threshold 값을 1에서 0으로 줄이면서 {민감도, 특이도} 쌍을 그린 것이다.

▪

일반적으로 x축 상에 1-특이도를 위치시킨다.

▪

따라서 왼쪽 위 모퉁이에 가까운 곡선이 더 좋은 성능을 의미한다.

▪

ROC 곡선의 요약 척도는 AUC이며 1~0.5 사이의 값을 가진다.

⇒ 수학적으로는 0~1 사이의 값이나, 완전 무작위 예측의 경우가 0.5이므로 일반적으로 1~0.5 사이라고 표현함.

◦

Naive Benchmark는 주어진 데이터의 비율로 클래스에 속할 확률을 정의

▪

이 경우 P(y=1)=αP(y=1) = \alphaP(y=1)=α 를 모든 관측값에 배정

▪

Sensitivity=P(y^=1∣y=1)=αSensitivity = P(\hat y =1 | y = 1) = \alphaSensitivity=P(y^​=1∣y=1)=α

▪

Specificity=P(y^=0∣y=0)=1−αSpecificity = P(\hat y=0 | y=0) = 1-\alphaSpecificity=P(y^​=0∣y=0)=1−α

▪

그러므로 ROC 곡선은 직선 형태 

from sklearn.metrics import accuracy_score, roc_curve, auc

df = pd.read_csv('dmba/liftExample.csv')

fpr, tpr, _ = roc_curve(df.actual, df.prob)
roc_auc = auc(fpr, tpr)
Python
복사