🗃️

Introduction

생성일

2025/03/18 16:58

태그

데이터마이닝

작성자

Introduction

•

Datamining Process

◦

목적 결정 → 데이터 수집 → 데이터 탐색 및 정제 → 데이터 마이닝 방법 결정 → 최종 모델 결정 → 성능 평가 → 적용

•

Programming vs Machine Learning

◦

전통적인 프로그래밍은 개발자가 직접 문제 해결을 위한 규칙을 작성하여 컴퓨터에 입력한다. 컴퓨터는 입력되는 데이터에 규칙을 적용하여 출력을 생성한다.

◦

머신러닝은 원하는 출력을 생성하는 규칙을 찾는 알고리즘을 작성하여 데이터와 함께 입력하여 모델을 학습한다. 학습된 모델은 새롭게 주어지는 데이터를 바탕으로 예측/분류 등을 수행한다.

Main idea

•

분류와 예측(회귀)

◦

분류

▪

분류는 각 데이터가 어떤 Class에 속하는지 판단하는 문제이다.

▪

분류 모델 학습은 x(데이터) 를 y(범주)로 적절하게 mapping하는 함수 f를 찾는 과정이다. 

▪

따라서 y=y^y = \hat yy=y^​ 가 되도록 모델을 학습한다.

◦

예측(회귀)

▪

예측(회귀)는 각 데이터가 어떤 연속적인 값에 가까운지를 판단하는 문제이다.

▪

회귀 모델의 학습은 x(데이터) 를 y(연속형)로 적절하게 mapping하는 함수 f를 찾는 과정이다.   

▪

따라서 y−y^y-\hat yy−y^​가 최소가 되도록 모델을 학습한다.

•

연관 규칙과 추천시스템

◦

연관성 분석

▪

어떤 아이템들이 함께 발생하는 경향이 있는가?를 찾는 기법

▪

마트에서는 제품 간 연관성을 분석하여 연관성이 높은 제품을 같은 위치에 진열한다.

◦

추천 시스템-협업 필터링

▪

사용자들의 선호도를 학습해서 개인화된 추천을 하는 기법

▪

A 사용자가 B 사용자와 유사한 취향이라면, B가 본 영화를 A에게 추천

•

데이터 축소와 차원 축소

◦

많은 수이 관측치를 적은 수의 그룹으로 요약하는 과정을 데이터 축소라고 하며, 대표적으로 군집 분석이 있다.

◦

변수의 개수를 줄이는 과정을 차원 축소라 하며, 대표적으로 PCA(주성분 분석)이 있다.

•

데이터 탐색과 시각화

◦

데이터 탐색 시 각 변수의 특징, 변수 사이의 관련성 분석이 가능하다.

◦

예를 들어 데이터 시각화를 통해 이상치 등의 탐색이 가능하다.

•

지도학습과 비지도학습

◦

지도학습

▪

정답 값 y를 기반으로 x를 y로 mapping하는 함수를 학습하는 방법 (함수의 parameter를 찾는 방법)

▪

대표적으로 범주형 정답 값을 가진 분류(로지스틱 회귀, SVM 등)와 연속형 정답 값을 가진 회귀(단순 선형 회귀, 다항 회귀 등)로 구분된다.

◦

비지도학습

▪

입력값 x에 대해서 내재된 구조/패턴을 찾는 것을 목표로 한다.

▪

정답 값이 존재하지 않으며 범주형 출력값(잠재변수)를 가진 Clustering과  연속형 출력값을 가진 PCA로 크게 구분된다.

Preprocessing

•

데이터 구조

◦

일반적으로 데이터는 관측치와 변수로 구성되며 관측치는 행, 변수는 열에 위치한다.

•

Pandas를 활용한 데이터 구조 분석

import pandas as pd

df = pd.read_csv('dmba/WestRoxbury.csv') # 데이터 불러오기
df.shape # 데이터 구조 확인
df.head() # 처음 5개 행 확인
df.describe() # 각종 통계량 요약

df = df.rename(columns={'TOTAL VALUE':'TOTAL_VALUE'}) # 변수명 변경
df.columns = [s.strip().replace(' ','_') for s in df.columns] # 1. 앞 뒤 공백 제거 2. 중간 공백 _로 변경

# 슬라이싱 (동일 결과)
df['TOTAL_VALUE'].iloc[0:10] # iloc (index 기반 접근), loc(변수명 기반 접근)
df.iloc[0:10,0]
df.iloc[0:10].TOTAL_VALUE #변수명에 공백이 없는 경우 사용 가능

# concat (0=rows, 1=columns)
pd.concat([df.iloc[0:5,0:2], df.iloc[0:5,6:8]], axis=1)

# 통계량 확인
df['TOTAL_VALUE'].mean()

# 관측치 개수 (n_obs)
len(df['TOTAL_VALUE'])
Python
복사

•

Dataset Sampling/Data imbalance

자원의 한계로 모델 구축 시 모든 관측치를 사용하지는 않는다. 만약 적은 데이터로도 모든 데이터를 활용했을 때와 같은 효과를 볼 수 있다면, 적은 데이터를 활용하는 것이 효율적이다.

◦

Oversampling & Undersampling

▪

분류 문제의 경우 집단 간 데이터 비중이 불균형할 수 있으며 이 경우 모델 성능 저하가 발생할 수 있다.

▪

Oversampling은 집단 간 비중이 비슷해지도록 비중이 작은 집단에 속하는 관측값을 랜덤으로 재추출하거나 소수 집단에 더 큰 가중치를 주어 추출하는 방식이다. (예. SMOTE)

▪

Undersampling은 비중이 큰 집단에 속하는 관측치를 랜덤으로 제거하는 방식이다.

w = [0.9 if rooms>10 else 0.01 for rooms in df.ROOMS ] # 방이 10개 이상인 경우 가중치 0.9
df.sample(5,weights=w)
Python
복사

◦

Sampling 뿐 아니라 오분류에 가중치를 주어 불균형 문제를 해결할 수 있다.

▪

예를 들어, 사기 거래 탐지에 있어 탐지하지 못하는 경우에 대한 penalty를 더욱 강하게 주어 불균형 문제를 해결할 수 있다.

◦

불균형 문제를 해결해야하는 이유

▪

Accuracy 측면에서 모든 소수 class를 오분류하여도 전체 Accuracy는 높을 수 있다.

•

Variable/obs

◦

변수 종류

▪

연속형/범주형

▪

범주형의 경우 변수 간의 순위가 없는 명목형 변수와 순위로 표현 가능한 순서형 변수로 구분할 수 있다.

df.REMODEL=df.REMODEL.astype('category') # 범주형 변수로 변환
df.REMODEL.cat.categories # 범주 확인
df.REMODEL.dtype
Python
복사

◦

범주형 변수 처리

▪

순서형 변수의 경우 연속형 변수로 간주한다.

▪

범주의 순위가 없다면 가변수(Dummy variable)로 처리하거나, One-hot-encoding을 사용한다.

▪

주로 선형 회귀와 로지스틱 회귀에서는 가변수를 활용하며, 신경망 기반 분류 모델의 경우 One-hot-encoding을 주로 활용한다. 

df = pd.get_dummies(df,prefix_sep = "_", drop_first=True) # 첫 범주를 가변수 생성에서 제거하여 완전공선성 문제 해결
Python
복사

가변수 생성 시 범주 수와 동일한 가변수를 생성할 경우 다른 변수가 나머지 변수의 선형 결합으로 표현될 수 있어 완전 공선성 문제가 발생할 수 있다. 완전 공선성 문제는 특히 회귀분석에서 회귀 계수 추정 시 사용하는

x'x

행렬이 singular matrix가 되어, 계수 추정이 불가한 경우가 생기므로 중요한 문제이다.

◦

변수 선택

▪

모델 구축 시 많은 변수를 사용하는 것이 나은 결과를 보장하지는 않는다.

▪

예를 들어 회귀분석에서는 전진선택법, 후진제거법, 단계선택법 등을 활용하여 모델에 포함될 변수를 결정하며, 가능한 적은 양의 변수를 사용하는 것이 모수 추정에 대한 분산을 감소시킴이 알려져있다.

◦

필요 변수와 관측치 수

▪

통계에서는 ‘파워 계산을 통해 모집단을 잘 설명할 수 있는 적정 표본 수를 알 수 있으나, 데이터 마이닝에서는 모집단을 잘 설명하는 것보다 정확한 분류/예측이 중요하므로 더 많은 관측치를 필요로 한다.

▪

일반적으로 변수당 10개의 관측치로 적정 관측치 개수를 정한다.

▪

Delmaster-Hancock 방법을 이용하여 분류 문제에 필요한 최소 관측치를 6×m×p6 \times m \times p6×m×p로 설정한다. (각각은 Class 개수와 변수 개수)

◦

이상치

▪

기존 데이터들로부터 멀리 떨어진 데이터를 이상치라고 한다.

▪

일반적으로 평균으로부터 표준편차의 세 배가 넘는 범위를 기준으로 한다.

▪

간단한 방법으로는 변수별로 내림차순 정렬/최대값/최소값을 이용하는 것이다.

df['TOTAL_VALUE'].max()
df['TOTAL_VALUE'].min()
df.sort_values(by='TOTAL_VALUE', ascending=False)
Python
복사

◦

결측치

▪

결측치가 있는 경우 해당 관측치 전체를 삭제하거나 평균/중앙값 등을 활용하여 대체한다.

▪

값을 대체하는 경우 실제 데이터보다 분산이 작아지는 문제가 있다.

# 결측치 생성
m_rows = df.sample(10).index
df.loc[m_rows,'BEDROOMS'] = np.nan
print(df['BEDROOMS'].count())

# 결측치 제거
df_new = df.dropna()
print(df_new['BEDROOMS'].count())

# 결측치 중앙값 대체
med = df['BEDROOMS'].median()
df.BEDROOMS = df.BEDROOMS.fillna(value=med)
print(df['BEDROOMS'].count())
Python
복사

◦

표준화

▪

일반적인 데이터 정규화 과정은 각 관측치에서 해당 변수의 평균값을 빼고 표준편차로 나눠 z-score를 얻는 방식으로 진행된다.

▪

모든 변수를 [0,1] 스케일로 변환하는 방법도 존재한다.

▪

정규화/표준화는 각 데이터가 서로 다른 단위 (예. m와 km)로 작성된 경우 반드시 필요한 작업이다.

# pandas 
df1 = pd.read_csv('dmba/WestRoxbury.csv')
df1 = df.rename(columns={'TOTAL VALUE':'TOTAL_VALUE'}) 
df1.columns = [s.strip().replace(' ','_') for s in df.columns]
norm_df = (df1-df1.mean())/df1.std()
norm_df

# scikit-learn
# train data -> fit_transform, validation data -> transform
# validation data에 train data와 같은 수준의 scaling을 적용하기 위함
scaler = StandardScaler()
norm_df = pd.DataFrame(scaler.fit_transform(df1), index= df1.index, columns = df1.columns) #np_array -> pandas
norm_df

# pandas
norm_df = (df1-df1.min())/(df1.max()-df1.min())
norm_df

# scikit-learn
scaler = MinMaxScaler()
norm_df = pd.DataFrame(scaler.fit_transform(df1), index= df1.index, columns = df1.columns)
norm_df
Python
복사

Overfitting/Underfitting

•

Overfitting

◦

Train data error는 낮으나, Test data error가 높은 경우

◦

Low Bais, High Variance

◦

관측치의 수가 변수의 수보다 적을 경우 발생

•

Underfitting

◦

Train data error, Test data error가 높은 경우

◦

High Bais, Low Variance

⇒ 이들을 해결하는 가장 간단한 방법은 데이터 수를 늘리는 것이다.

•

Train/Validation/Test Data

◦

적합한 모델의 성능을 평가할 때, 학습 과정에서 사용한 데이터를 통해 평가한다면, overfitting 문제가 발생할 수 있다.

◦

이를 방지하고자 데이터를 크게 Train/Validation/Test Data으로 랜덤하게 분할하여 사용한다.

◦

여기서 학습 데이터는 모델 구성에 사용하는 데이터이고, 검증 데이터는 학습된 모델의 성능 평가 및 hyperparameter를 결정하는 데 사용한다. 평가 데이터는 새로운 데이터이거나 hyperparameter까지 결정되어 적합된 모델의 성능을 평가하는데 사용된다.

•

Cross-Validation(CV)

◦

모델의 성능을 검증하는 과정에서 모델이 우연히 선택된 test data에서 성능이 높을 가능성이 있다. 또는 데이터 양이 적은 경우 이들을 분할하여 사용하는 방식이 적합하지 않을 수 있다.

◦

CV는 전체 데이터를 중첩되지 않도록 k개의 fold로 나누고 k-1개를 사용해 모델을 구축하고 나머지 1개 fold로 검증하는 과정을 k번 반복한다. 이후 k개의 검증 과정에서의 평균을 통해 모델의 성능을 평가한다.

# Train(60%) Validation(30%) Test(10%)
trn, temp = train_test_split(df, test_size=0.4, random_state=1 )
val, tst = train_test_split(temp, test_size=0.1, random_state=1)
Python
복사

예제: 선형 회귀 분석을 활용한 주택 가격 예측

TAX 변수는 주택 가격이 결정되어야 결정할 수 있는 내용이므로 제외

범주형 변수의 가변수 변환

연속형 변수의 예측 문제이고, 정답이 있는 데이터이므로 회귀분석을 활용

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LinearRegression


df = pd.read_csv('dmba/WestRoxbury.csv')

df = df.rename(columns={'TOTAL VALUE':'TOTAL_VALUE'})
df.columns = [s.strip().replace(' ','_') for s in df.columns]

df = pd.get_dummies(df,prefix_sep = "_", drop_first=True)

ex_col = ['TOTAL_VALUE','TAX']
pre = [i for i in df.columns if i not in ex_col]
out = 'TOTAL_VALUE'

x = df[pre]
y = df[out]
trn_x,tst_x,trn_y, tst_y  = train_test_split(x,y,test_size=0.3, random_state=1)

model = LinearRegression()
model.fit(trn_x,trn_y)

pred = model.predict(tst_x)

# MAE
mae = metrics.mean_absolute_error(tst_y, pred)

# MSE
mse = metrics.mean_squared_error(tst_y, pred)

# RMSE
rmse = mse ** 0.5

print(f'MAE: {mae}, MSE: {mse}, RMSE: {rmse}')
Python
복사