본문 바로가기
ADsP

[ADsP] 9. 회귀분석

by Point-Nemo 2026. 2. 2.

1. 최적의 회귀 방정식을 도출하기 위한 방법

(1) 변수 선택법

- 부분집합법: 가능한 모든 모델을 고려하여 가장 좋은 모델을 선정하는 방법 (변수가 적을 때 효과적) (임베디드 = 라쏘, 릿지 등)

- 단계적 변수선택법: 일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 회귀방정식을 도출, 전진선택법, 후진제거법, 단계선택법 등이 있음

2. 변수 선택에 사용되는 성능지표

(1) 벌점화 방식의 AIC와 BIC

- 회귀모형은 변수의 수가 증가할수록 편향은 작아지고 분산은 커진다

- 그렇기에 변수의 수가 많아 복잡해진 모형에 벌점, 일종의 페널티를 주어 최적 회귀방정식을 도출하고자하는 방법이다

 

(2) AIC

- 모델의 성능지표로서 MSE에 변수의 수만큼 페널티를 주는 지표

- 일반적으로 회귀분석에서 모델 선택할 때 많이 쓰이는 지표

 

(3) BIC

- AIC의 단점인 표본(n)이 커질 때 부정확하다는 단점을 보완한 지표

- 변수의 개수가 많을수록 AIC보다 더 큰 페널티를 주기 때문에, 변수의 개수가 적은 모형이 우선이라면 BIC를 참고

 

(4) 멜로우 Cp

- Cp 값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가

- Cp 값은 adjusted_r_squared 및 AIC와 밀접한 관련이 있음

- 모든 변수가 다 포함되었을 경우 Cp값은 p값과 같아짐 -> 좋은 모델은 Cp > p, 나쁜 모델은 Cp < p

3. 단계적 변수 선택법

(1) 전진선택법

- 설명력이 가장 높은 변수부터 시작해 하나씩 모형에 추가하는 방법 

- 상관계수의 절댓값이 가장 큰 변수에 대해 F 검정을 통해 유의하지 않은 변수부터는 변수를 추가하지 않음

- 벌점이 줄어들 때까지만 변수 추가

 

(2) 후진제거법

- 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법

- 상관계수의 절댓값이 가장 작은 변수에 대해 F 검정을 실시하고, 가장 적은 영향을 주는 변수부터 하나씩 제거

- 현재 모형보다 벌점이 작은 변수를 제거 (모든 변수가 포함된 모형에서부터 시작)

 

(3) 단계별 방법

- 전진선택법과 후진제거법을 보완한 방법으로, 변수를 추가할 때 예상되는 벌점 값과 이미 추가된 변수가 제거될 때 예상되는 벌점값이 가장 작도록 만들어나가는 방법

4. 고급 회귀분석

(1) 정규화 선형회귀

a. 정규화 선형회귀

- 회귀분석시 과적합이 발생하면 계수의 크기가 과도하게 증가하는 경향이 있음 따라서 이를 방지하기 위해 계수의 크기를 제한하는 방법을 사용하는데, 이를 정규화 선형회귀라고 함

 

b. 종류

- 라쏘: L1 규제, 가중치들의 절대값의 합을 최소화하는 것을 제약조건으로 추가하며 일부 가중치 파라미터를 0으로 만듦

- 릿지: L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하며 가중치 파라미터는 0이 되지 않음

- 엘라스틱넷: 라쏘와 릿지를 결합한 모델 

 

(2) 일반화 선형회귀(GLM)

a. 개념

- 회귀분석 시 종속변수가 범주형 자료거나 정규성을 만족하지 못하는 경우 종속변수를 적절한 함수 f(x)로 정의한 다음, 이 함수 f(x)와 독립변수를 선형 결합하여 회귀분석을 실시하는 것

 

b. 구성요소

- 확률 요소: 종속변수의 확률분포를 규정하는 성분

- 선형 예측자: 종속변수의 기댓값을 정의하는 독립변수들 간의 선형 결합

- 연결 함수: 확률 요소와 선형 예측자를 연결하는 함수

 

c. 일반화 선형회귀의 종류

- 로지스틱 회귀: 종속 변수가 0/1인 경우로, 분류 분석 방법으로 분류

- 포아송 회귀: 특정 시간 동안 발생한 사건의 건수에 대한 도수 자료(count)일 때 사용, 최대 가능도 추정(MLE)로 모수 추정

 

(3) 더빈 왓슨 검정

- 오차항의 독립성을 검정하는 방법 

- 통계량 값이 2에 가까울수록 오차항의 자기상관이 없음 (0에 가깝다면 양, 4에 가깝다면 음)

'ADsP' 카테고리의 다른 글

[ADsP] 11. 시계열 분석  (0) 2026.02.03
[ADsP] 10. 다변량 분석  (0) 2026.02.03
[ADsP] 8. 기초통계  (0) 2026.02.02
[ADsP] 7. 통계의 이해  (0) 2026.02.02