본문 바로가기

ADsP17

[ADsP] 15. 연관분석 1. 연관분석의 개요- 장바구니 분석으로도 불리며, 고객들의 패턴을 분석하여 의미 있는 규칙을 찾아내는 분석- 품목의 수가 증가하면 분석 계산이 기하급수적으로 증가할 수 있음 - 너무 세분화된 품목으로 연관 규칙을 찾으면 의미없는 분석이 될 수 있음 2. 연관분석의 측도(0) 구매율- 해당 단일 품목이 포함된 거래 수 / 전체 거래 수- P(A) or P(B) (1) 지지도- P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수 (2) 신뢰도- 어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률- 신뢰도(A->B) = P(B|A) = P(A ∩ B) / P(A) (지지도 / 구매율) (3) 향상도- 품목 A가 주어지지 않았을 때 품목 B가 구매될 확률 대비, 품목 A가 구.. 2026. 2. 5.
[ADsP] 14. 군집분석 1. 군집분석 개요- 비지도학습 중 하나인 군집분석은 여러변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석을 활용하여 각 군집에 대한 특징을 파악하는 기법- 관측치의 유사성을 측정하기 위해 거리측도나 유사성 측도(코사인 거리, 상관계수) 사용 2. 거리 측도(1) 변수가 연속형일 때- 유클리디안 거리: 두 점 사이의 가장 짧은 거리 (가로지를 수 있음)- 맨하튼 거리: 두 점 사이를 가로지르지 않고 길을 따라갔을 때의 최단 거리- 체비셰프 거리: 변수 간 거리 차이 중 최댓값을 데이터 간 거리로 정의- 표준화 거리: 유클리디안 거리에서 변수 간 단위의 차이로 특정 변수가 거리 측정에 기여 못하는 것을 표준편차로 나눔으로써 해결- 마할라노비스 거리: 표준화.. 2026. 2. 5.
[ADsP] 13. 분류 분석 1. 로지스틱 회귀분석 개요(1) 로지스틱 회귀분석- 종속변수가 범주형일 경우에 사용하는 분류 분석 (2) 로지스틱 회귀분석의 변수- 종속변수가 이진이어야 하며, 세 개 이상의 집단을 분류할 땐 다중 로지스틱 회귀분석이라 함- 독립변수가 연속형이면서 종속변수가 범주형일 때 사용 가능- 종속변수는 확률값으로 반환됨 2. 로지스틱 회귀분석의 알고리즘(1) 오즈- 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값 (2) 로짓변환- 오즈는 양수값이며, 그래프는 비대칭성을 띠기에 이러한 한계를 극복하기 위해 오즈에 로그값을 취하는 것 (= 로짓)- 범위가 무한대로 확장되며, 로짓값의 그래프는 성공확률 0.5를 기준으로 대칭 형태를 띰 (3) 시그모이드 함수- 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수.. 2026. 2. 4.
[ADsP] 12. 데이터마이닝 1. 데이터 마이닝의 이해(1) 데이터 마이닝이란- 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 함- 머신러닝을 구현하기 위한 바탕이 됨 (2) 통계분석과 데이터 마이닝의 차이- 데이터 마이닝은 굳이 가설과 검정을 하지 않아도 됨 (규칙이나 패턴을 찾아내는 것이 중요)- 규칙이나 패턴을 통해 예측이나 설명을 하는 것이 데이터 마이닝의 주 목적 (인사이트 발견) 2. 데이터 마이닝의 종류(1) 데이터 마이닝 방법에 따른 분류a. 지도학습- 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것 (입력 출력 모두 필요)- ex) 회귀, 분류 b. 비지도학습- 정답을 알려주지 않고 학습하는 것 (숨겨진 패턴을 찾아내기) (종속 변수 X)- ex) 군.. 2026. 2. 4.
[ADsP] 11. 시계열 분석 1. 시계열 분석 개요(1) 시계열 분석의 개념a. 개념- 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석 방법 b. 시계열 자료의 자기상관성- 주식, 기온 등의 시계열 자료는 자기상관성을 지님 (ex.이전의 주식가격이 그 이후의 주식가격에 영향을 미침)- 서로 이웃하는 자료끼리 일종의 상관관계를 가짐- 공분산은 두 개의 확률 변수의 선형관계를 나타내기에 공분산이 0이라면 자기상관성이 없는 독립적인 확률변수가 됨- 하지만, 대부분의 시계열 자료는 자기상관성을 가지기에 공분산이 0이 아님 c. 시계열 분석의 자료- 대부분의 시계열 자료는 비정상성 자료- 하지만, 분석을 수행하려면 시계열이 정상성 자료여야 하므로, 비정상성일 경우 변환을 해야함 (2) 시계열 자료의 정상성 조.. 2026. 2. 3.
[ADsP] 10. 다변량 분석 1. 다차원 척도법(MDS)(1) 개요a. 개념- 다차원 척도법은 객체 간의 근접성을 시각화하는 통계기법으로, 군집분석과 유사함- 객체들 사이의 유사성/비유사성을 측정하여 원래의 차원보다 낮은 차원의 공간에 군집분석처럼 점으로 표현- 데이터를 축소하는 목적, 유클리디안 거리행렬 사용 b. 측도- 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 측정하기 위해 stress 척도를 사용- stress 값은 0~1 사이의 값을 가지고, 값이 낮을수록 적합도가 높음 (0.05 이내면 적합도가 좋은 편) (2) 종류a. 계량적 MDS- 구간척도, 비율척도- 유클리디안 거리 행렬- cmdscale 함수 사용 b. 비계량적 MDS- 서열척도- 서열척도를 거리속성값으로 변환하여 사용- isoMDS 함수 사용.. 2026. 2. 3.