1. 데이터 마이닝의 이해
(1) 데이터 마이닝이란
- 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 함
- 머신러닝을 구현하기 위한 바탕이 됨
(2) 통계분석과 데이터 마이닝의 차이
- 데이터 마이닝은 굳이 가설과 검정을 하지 않아도 됨 (규칙이나 패턴을 찾아내는 것이 중요)
- 규칙이나 패턴을 통해 예측이나 설명을 하는 것이 데이터 마이닝의 주 목적 (인사이트 발견)
2. 데이터 마이닝의 종류
(1) 데이터 마이닝 방법에 따른 분류
a. 지도학습
- 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것 (입력 출력 모두 필요)
- ex) 회귀, 분류
b. 비지도학습
- 정답을 알려주지 않고 학습하는 것 (숨겨진 패턴을 찾아내기) (종속 변수 X)
- ex) 군집, 연관, 차원축소
(2) 데이터 마이닝 분석 목적에 따른 분류
a. 분류 분석
- 로지스틱 회귀분석, 의사결정나무, 앙상블 분석, 인공신경망, k-nn
b. 군집 분석
- k-평균 군집
c. 연관분석
- 장바구니 분석 (ex.맥주를 사는 고객은 기저귀를 살 가능성이 높다)
3. 데이터 마이닝의 프로세스
(1) 목적 정의
(2) 데이터 준비
(3) 데이터 가공
(4) 데이터 마이닝 기법 적용
(5) 검증
4. 데이터 분할의 이해
(1) 데이터 분할
- train / valid / test로 50% / 30% / 20% 분할함
(2) 과적합과 과소적합
- 과적합: 데이터가 훈련 데이터에 너무 많이 최적화되어 모델이 복잡해지고, 실제 데이터에 대한 예측력이 떨어짐
- 릿지, 라쏘, 엘라스틱 넷 등으로 해결 시도
5. 데이터 분할을 통한 검증
(1) 홀드아웃
- 가장 보편적인 데이터 분할을 통한 검증 방법
- 전체 데이터를 랜덤하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식
- 일반적으로 학습데이터는 80%, 테스트데이터는 20%로 설정
(2) K-Fold 교차검증
- 전체 데이터셋을 k개의 집단으로 구분한 뒤, k-1개를 훈련용(train) 데이터로, 나머지 1개를 평가용(test) 데이터로 사용
- 과적합 및 과소적합을 모두 방지할 수 있지만, 데이터가 적을 경우에는 어렵고, 모델 훈련에 많은 시간이 소모됨
(3) 부트스트랩
- 랜덤하게 반복추출하여 모델의 성능을 개선하는 방법 (복원추출, 중복허용)
- 오버샘플링 혹은 언더샘플링과 같은 문제가 잇을 때 사용하며, 과적합 가능성을 낮춤
(4) 계층별 K-Fold 교차 검증
- 불균형 데이터 분류 문제에서 사용하는 방법으로, 각 폴드가 가지는 분포가 유사하도록 폴드를 추출함
(참, 거짓을 분류하고자 할 때 기존 K-Fold 방식은 한 폴드에 거짓이 하나도 포함되어있지 않을 수 있는데, 이런 경우를 방지)
'ADsP' 카테고리의 다른 글
| [ADsP] 14. 군집분석 (0) | 2026.02.05 |
|---|---|
| [ADsP] 13. 분류 분석 (0) | 2026.02.04 |
| [ADsP] 11. 시계열 분석 (0) | 2026.02.03 |
| [ADsP] 10. 다변량 분석 (0) | 2026.02.03 |