1. 연관분석의 개요
- 장바구니 분석으로도 불리며, 고객들의 패턴을 분석하여 의미 있는 규칙을 찾아내는 분석
- 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가할 수 있음
- 너무 세분화된 품목으로 연관 규칙을 찾으면 의미없는 분석이 될 수 있음
2. 연관분석의 측도
(0) 구매율
- 해당 단일 품목이 포함된 거래 수 / 전체 거래 수
- P(A) or P(B)
(1) 지지도
- P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
(2) 신뢰도
- 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률
- 신뢰도(A->B) = P(B|A) = P(A ∩ B) / P(A)
(지지도 / 구매율)
(3) 향상도
- 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비, 품목 A가 구매될 때 품목 B가 구매될 확률
- A와 B의 향상도: P(A ∩ B) / P(A) * P(B)
- 향상도가 1보다 크다면 품목 A가 구매될 때 품목 B가 구매될 확률이 증가 (양의 상관관계)
- (신뢰도 / 구매율)
3. 연관분석의 알고리즘
(1) apriori
- 가능한 모든 경우의 수를 탐색하는 연관분석은 아이템의 수가 증가할수록 계산 시간과 복잡도가 기하급수적으로 증가
- aporiori 알고리즘은 지지도를 사용해 빈발 아이템 집합을 판별하고 계산의 복잡도를 감소시킴
(2) apriori 절차
- 계산량 증가와 의미 없는 결과 도출 문제를 해결하고자 최소지지도 개념을 도입했으나, 여전히 많은 계산량을 필요로 함
step1) 최소 지지도 설정
step2) 최소 지지도보다 큰 지지도를 갖는 단일 품목 선별
step3) 찾은 단일 품목으로 생성되는 연관 규칙 중 최소 지지도 이상의 연관 규칙을 찾음
step4) 위 과정을 반복하며 3가지 이상의 품목에 대한 연관 규칙을 생성
(3) FP-Growth 알고리즘
- 지지도가 낮은 품목부터 지지도가 높은 품목 순으로 차츰 올라가면서 빈도수가 높은 아이템 집합을 생성하는 상향식 알고리즘
- apriori 알고리즘보다 속도가 빠르며, 연산 비용이 저렴함
4. 연관분석의 특징
- 품목 세분화에 대한 어려움이 있음 (탄산음료를 콜라/사이다 등으로 세분화할지)
| 장점 | 단점 |
| - 결과가 단순하고 분명함(IF ~ THEN~) - 분석을 위한 계산이 간단 - 목적 변수가 없으므로 데이터 탐색을 위해 사용 가능 |
- 품목 세분화에 어려움이 있음 - 품목 수의 증가는 기하급수적인 계산량의 증가를 초래 - 거래가 발생하지 않은 품목에 대해서는 분석이 불가능 |
'ADsP' 카테고리의 다른 글
| [ADsP] 14. 군집분석 (0) | 2026.02.05 |
|---|---|
| [ADsP] 13. 분류 분석 (0) | 2026.02.04 |
| [ADsP] 12. 데이터마이닝 (0) | 2026.02.04 |
| [ADsP] 11. 시계열 분석 (0) | 2026.02.03 |