[ADsP] 14. 군집분석

1. 군집분석 개요

- 비지도학습 중 하나인 군집분석은 여러변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석을 활용하여 각 군집에 대한 특징을 파악하는 기법

- 관측치의 유사성을 측정하기 위해 거리측도나 유사성 측도(코사인 거리, 상관계수) 사용

2. 거리 측도

(1) 변수가 연속형일 때

- 유클리디안 거리: 두 점 사이의 가장 짧은 거리 (가로지를 수 있음)

- 맨하튼 거리: 두 점 사이를 가로지르지 않고 길을 따라갔을 때의 최단 거리

- 체비셰프 거리: 변수 간 거리 차이 중 최댓값을 데이터 간 거리로 정의

- 표준화 거리: 유클리디안 거리에서 변수 간 단위의 차이로 특정 변수가 거리 측정에 기여 못하는 것을 표준편차로 나눔으로써 해결

- 마할라노비스 거리: 표준화 거리가 고려하지 못한 상관성까지 고려한 거리

- 민코프스키 거리: 유클리디안 거리와 맨하튼 거리를 한번에 표현한 거리 (m=1일 땐 맨하튼 m=2일땐 유클리디안)

(2) 변수가 범주형일 때

- 단순 일치 계수: 두 객체 i와 j간의 상이성을 불일치 비율로 계산, p는 변수의 총 개수 m은 같은 상태의 변수의 수

( d(i,j) = m / p )

- 자카드 지수: 두 집합 사이의 유사도를 측정하는 지표로서, 두 집합이 같으면 1, 완전히 다르면 0

( J(X,Y) = n(A교B) / n(A합B) )

- 자카드 거리: 1에서 자카드 지수를 뺀 값, 완전히 멀면 1이 됨

- 코사인 유사도: 문서의 유사도를 측정하기 위한 지표로서, 크기가 아닌 방향성을 측정하는 지표 (-1 ~ +1)

- 코사인 거리: 1에서 코사인 유사도를 뺸 값

3. 계층적 군집분석

(1) 개요

- 개별 관측치 간의 거리를 계산해서 가장 가까운 관측치부터 결합해나가면서 계층적 트리 구조를 형성하고, 군집화

- 병합적 방법: 각 데이터를 하나의 군집으로 간주하고 순차적으로 병합 (대표적)

- 분할적 방법: 전체 데이터를 하나의 군집으로 간주하고 각각의 관측치가 하나의 군집이 될 때까지 분할

(2) 군집 간의 거리

https://velog.io/@dnddl9368/ADsP-22.-%EA%B5%B0%EC%A7%91%EB%B6%84%EC%84%9D

(3) 비계층적 군집분석

a. k-means

- 군집의 수(k개)를 사전에 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할

- 각각의 군집 k개를 설명할 변수의 값을 임의로 설정하거나 변수 중 k개를 선택하는데, 이때 생성된 k개의 데이터를 seed라고 함

b. k-means 군집의 방법

step1) 군집의 수 초깃값을 설정하고 변수의 값을 임의로 설정 or 변수 중 k개 선택

step2) 각 데이터를 가장 가까운 seed로 할당

step3) 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 seed 설정

step4) 새로운 seed를 중심으로 군집을 재할당

step5) 각 군집의 중심이 변하지 않을 때까지 3,4번의 과정을 반복

c. k-means 군집의 특징

장점	단점
- 분석 기법의 적용이 단순하고 빠름 - 다양한 데이터에서 사용 가능	- 초기값 k개의 설정이 어려움 - 결과의 해석에 어려움이 있음 - 변수들이 연속형이어야 함 - 안정된 군집은 보장하나 최적을 보장하진 않음 - 이상값에 민감하게 반응 (그래서 중앙값을 사용하기도)

(4) DBSCAN

- 대부분의 군집분석 알고리즘은 데이터의 분포가 볼록하지 않을 경우 효과적으로 군집 형성이 안 됨

- DBSCAN 알고리즘은 밀도 기반 군집분석의 방법으로, 군집의 형태에 구애받지 않아 데이터의 분포가 기하학적이고 노이즈가 포함된 데이터셋에 대해서도 효과적으로 군집을 형성할 수 있고, 초기 군집의 수를 설정할 필요가 없음

4. 혼합 분포 군집

(1) 개요

- 모형 기반의 군집 방법으로 관측된 데이터들은 여러 개의 확률분포로부터 추출되었다는 가정하에 같은 확률분포에서 추출된 데이터들끼리 군집화를 함

- 데이터들이 몇 개의 확률분포로 구성되어 있는지, 각각 분포의 모수와 확률분포가 전체 데이터에서 차지하는 비중(가중치)을 찾는 것이 혼합 분포 군집의 핵심

(2) EM 알고리즘 (기댓값 최대화)

- 모수와 가중치를 추정하는 방법으로 사용

- 확률모델의 최대가능도를 갖는 모수와 함께 확률모델의 가중치를 추정

- 각 데이터가 어느 분포에서 추출된 데이터인지 각 집단으로부터 기댓값을 구할 수 있음

- 이때 추정된 기댓값을 활용하여 로그-가능도 함수가 최대로 되게하는 모수를 찾을 수 있음

5. 자기조직화지도 (SOM)

(1) 개요

- 코호넨 맵이라고도 불리며, 인공신경망 기반 차원 축소와 군집화를 동시에 수행 가능

- 다차원 데이터를 축소해 저차원의 지도를 생성하고 이를 통해 데이터를 가시화하는 데 유용

- 입력 공간의 속성을 보존하는 특징이 있어, 유사한 데이터는 2차원 격자에서도 가깝게 표현됨

(2) 구성

- 은닉층이 없이 j개의 데이터를 입력받는 입력층과 이를 n개의 노드로 표현하고자 하는 경쟁층으로 구성되어 있으며, 입력층의 모든 데이터는 경쟁층의 모든 노드와 완전연결되어 있음

- 각 학습 단계마다 임의의 프로토타입 벡터와의 거리를 유클리디안 거리에 의해 계산하고 비교함

(3) 과정

- 초기 학습률(a0)과 임의의 값의 가중치 행렬, 경쟁층의 노드 개수를 지정

- 입력 벡터를 제시하고 가중치 행렬에 의해 가장 가까운 노드에 나타냄

- 입력 벡터에 대한 승자노드가 입력 벡터를 더 잘 나타내도록 학습률을 사용하여 가중치를 재조정

- 2단계로 돌아가서 반복하여 모든 입력 벡터를 승자노드에 나타냄, 모든 입력 벡터가 승자노드에 표시되는 과정을 1회의 iteration(반복)이라 함

- 일정 반복 수에 도달할 때까지 반복

(4) 특성

장점	단점
- 역전파 알고리즘을 사용하지 않는 순전파 방식으로 속도가 빠름 - 저차원의 지도로 형상화되어 이해가 쉬움 - 패턴 발견 및 이미지 분석에서 성능이 우수 - 입력 데이터의 속성을 그대로 보존	- 초기 학습률 및 초기 가중치에 많은 영향을 받음 - 경쟁층의 이상적인 노드의 개수를 결정하기 어려움

'ADsP' 카테고리의 다른 글

[ADsP] 15. 연관분석 (0)	2026.02.05
[ADsP] 13. 분류 분석 (0)	2026.02.04
[ADsP] 12. 데이터마이닝 (0)	2026.02.04
[ADsP] 11. 시계열 분석 (0)	2026.02.03

포인트 니모

[ADsP] 14. 군집분석

'ADsP' 카테고리의 다른 글

티스토리툴바

[ADsP] 14. 군집분석

'ADsP' 카테고리의 다른 글

관련글

티스토리툴바