1. 최적의 회귀 방정식을 도출하기 위한 방법
(1) 변수 선택법
- 부분집합법: 가능한 모든 모델을 고려하여 가장 좋은 모델을 선정하는 방법 (변수가 적을 때 효과적) (임베디드 = 라쏘, 릿지 등)
- 단계적 변수선택법: 일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 회귀방정식을 도출, 전진선택법, 후진제거법, 단계선택법 등이 있음
2. 변수 선택에 사용되는 성능지표
(1) 벌점화 방식의 AIC와 BIC
- 회귀모형은 변수의 수가 증가할수록 편향은 작아지고 분산은 커진다
- 그렇기에 변수의 수가 많아 복잡해진 모형에 벌점, 일종의 페널티를 주어 최적 회귀방정식을 도출하고자하는 방법이다
(2) AIC
- 모델의 성능지표로서 MSE에 변수의 수만큼 페널티를 주는 지표
- 일반적으로 회귀분석에서 모델 선택할 때 많이 쓰이는 지표
(3) BIC
- AIC의 단점인 표본(n)이 커질 때 부정확하다는 단점을 보완한 지표
- 변수의 개수가 많을수록 AIC보다 더 큰 페널티를 주기 때문에, 변수의 개수가 적은 모형이 우선이라면 BIC를 참고
(4) 멜로우 Cp
- Cp 값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가
- Cp 값은 adjusted_r_squared 및 AIC와 밀접한 관련이 있음
- 모든 변수가 다 포함되었을 경우 Cp값은 p값과 같아짐 -> 좋은 모델은 Cp > p, 나쁜 모델은 Cp < p
3. 단계적 변수 선택법
(1) 전진선택법
- 설명력이 가장 높은 변수부터 시작해 하나씩 모형에 추가하는 방법
- 상관계수의 절댓값이 가장 큰 변수에 대해 F 검정을 통해 유의하지 않은 변수부터는 변수를 추가하지 않음
- 벌점이 줄어들 때까지만 변수 추가
(2) 후진제거법
- 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법
- 상관계수의 절댓값이 가장 작은 변수에 대해 F 검정을 실시하고, 가장 적은 영향을 주는 변수부터 하나씩 제거
- 현재 모형보다 벌점이 작은 변수를 제거 (모든 변수가 포함된 모형에서부터 시작)
(3) 단계별 방법
- 전진선택법과 후진제거법을 보완한 방법으로, 변수를 추가할 때 예상되는 벌점 값과 이미 추가된 변수가 제거될 때 예상되는 벌점값이 가장 작도록 만들어나가는 방법
4. 고급 회귀분석
(1) 정규화 선형회귀
a. 정규화 선형회귀
- 회귀분석시 과적합이 발생하면 계수의 크기가 과도하게 증가하는 경향이 있음 따라서 이를 방지하기 위해 계수의 크기를 제한하는 방법을 사용하는데, 이를 정규화 선형회귀라고 함
b. 종류
- 라쏘: L1 규제, 가중치들의 절대값의 합을 최소화하는 것을 제약조건으로 추가하며 일부 가중치 파라미터를 0으로 만듦
- 릿지: L2 규제, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하며 가중치 파라미터는 0이 되지 않음
- 엘라스틱넷: 라쏘와 릿지를 결합한 모델
(2) 일반화 선형회귀(GLM)
a. 개념
- 회귀분석 시 종속변수가 범주형 자료거나 정규성을 만족하지 못하는 경우 종속변수를 적절한 함수 f(x)로 정의한 다음, 이 함수 f(x)와 독립변수를 선형 결합하여 회귀분석을 실시하는 것
b. 구성요소
- 확률 요소: 종속변수의 확률분포를 규정하는 성분
- 선형 예측자: 종속변수의 기댓값을 정의하는 독립변수들 간의 선형 결합
- 연결 함수: 확률 요소와 선형 예측자를 연결하는 함수
c. 일반화 선형회귀의 종류
- 로지스틱 회귀: 종속 변수가 0/1인 경우로, 분류 분석 방법으로 분류
- 포아송 회귀: 특정 시간 동안 발생한 사건의 건수에 대한 도수 자료(count)일 때 사용, 최대 가능도 추정(MLE)로 모수 추정
(3) 더빈 왓슨 검정
- 오차항의 독립성을 검정하는 방법
- 통계량 값이 2에 가까울수록 오차항의 자기상관이 없음 (0에 가깝다면 양, 4에 가깝다면 음)
'ADsP' 카테고리의 다른 글
| [ADsP] 11. 시계열 분석 (0) | 2026.02.03 |
|---|---|
| [ADsP] 10. 다변량 분석 (0) | 2026.02.03 |
| [ADsP] 8. 기초통계 (0) | 2026.02.02 |
| [ADsP] 7. 통계의 이해 (0) | 2026.02.02 |