본문 바로가기
ADsP

[ADsP] 12. 데이터마이닝

by Point-Nemo 2026. 2. 4.

1. 데이터 마이닝의 이해

(1) 데이터 마이닝이란

- 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 함

- 머신러닝을 구현하기 위한 바탕이 됨

 

(2) 통계분석과 데이터 마이닝의 차이

- 데이터 마이닝은 굳이 가설과 검정을 하지 않아도 됨 (규칙이나 패턴을 찾아내는 것이 중요)

- 규칙이나 패턴을 통해 예측이나 설명을 하는 것이 데이터 마이닝의 주 목적 (인사이트 발견)

 

2. 데이터 마이닝의 종류

(1) 데이터 마이닝 방법에 따른 분류

a. 지도학습

- 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것 (입력 출력 모두 필요)

- ex) 회귀, 분류

 

b. 비지도학습

- 정답을 알려주지 않고 학습하는 것 (숨겨진 패턴을 찾아내기) (종속 변수 X)

- ex) 군집, 연관, 차원축소

 

(2) 데이터 마이닝 분석 목적에 따른 분류

a. 분류 분석

- 로지스틱 회귀분석, 의사결정나무, 앙상블 분석, 인공신경망, k-nn

 

b. 군집 분석

- k-평균 군집

 

c. 연관분석

- 장바구니 분석 (ex.맥주를 사는 고객은 기저귀를 살 가능성이 높다)

 

3. 데이터 마이닝의 프로세스

(1) 목적 정의

(2) 데이터 준비

(3) 데이터 가공

(4) 데이터 마이닝 기법 적용

(5) 검증

 

4. 데이터 분할의 이해

(1) 데이터 분할

- train / valid / test로 50% / 30% / 20% 분할함

 

(2) 과적합과 과소적합

- 과적합: 데이터가 훈련 데이터에 너무 많이 최적화되어 모델이 복잡해지고, 실제 데이터에 대한 예측력이 떨어짐

- 릿지, 라쏘, 엘라스틱 넷 등으로 해결 시도

 

5. 데이터 분할을 통한 검증

(1) 홀드아웃

- 가장 보편적인 데이터 분할을 통한 검증 방법

- 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식

- 일반적으로 학습데이터는 80%, 테스트데이터는 20%로 설정

 

(2) K-Fold 교차검증

- 전체 데이터셋을 k개의 집단으로 구분한 뒤, k-1개를 훈련용(train) 데이터로, 나머지 1개를 평가용(test) 데이터로 사용

- 과적합 및 과소적합을 모두 방지할 수 있지만, 데이터가 적을 경우에는 어렵고, 모델 훈련에 많은 시간이 소모됨

 

(3) 부트스트랩

- 랜덤하게 반복추출하여 모델의 성능을 개선하는 방법 (복원추출, 중복허용)

- 오버샘플링 혹은 언더샘플링과 같은 문제가 잇을 때 사용하며, 과적합 가능성을 낮춤

 

(4) 계층별 K-Fold 교차 검증 

- 불균형 데이터 분류 문제에서 사용하는 방법으로, 각 폴드가 가지는 분포가 유사하도록 폴드를 추출함

(참, 거짓을 분류하고자 할 때 기존 K-Fold 방식은 한 폴드에 거짓이 하나도 포함되어있지 않을 수 있는데, 이런 경우를 방지)

'ADsP' 카테고리의 다른 글

[ADsP] 14. 군집분석  (0) 2026.02.05
[ADsP] 13. 분류 분석  (0) 2026.02.04
[ADsP] 11. 시계열 분석  (0) 2026.02.03
[ADsP] 10. 다변량 분석  (0) 2026.02.03