본문 바로가기
통계학

[통계학] 통계 중요 개념 정리

by Point-Nemo 2025. 9. 18.

1. Population parameter(s)

- 모수: 모집단의 특성을 나타내는 수치 (ex. 모집단의 평균, 분산 등) 


2. Sample estimate(s)

- 추정량: 표본으로부터 계산된 값으로, 모수를 추론하기 위해 사용됨 (ex. 표본평균, 표본분산 등)


3. Sampling (and random sampling)

- 모집단에서 표본을 선택하는 과정 

- 랜덤 샘플링의 경우, 모집단의 개체가 표본으로 뽑힐 동일한 확률을 갖도록 표본을 추출하는 방법


4. Null hypothesis (H0)

- 영가설: 관측된 결과가 차이가 없다, 우연에 불과하다


5. Alternative hypothesis (H1)

- 대립가설: 관측된 결과엔 유의미한 무언가가 있다, 우연에 의해 발생된 게 아니다


6. Type-1 error

- 1종오류: 영가설이 참이지만, 영가설을 기각하는 오류 

(ex. 코로나 증상이 발현된 환자를 진찰하는 의사 입장에서, 그 증상은 우연에 불과하지만(코로나가 아니지만), 유의미한 차이가 있다 즉, 코로나로 잘못 진단하는 경우)

- 실제론 거짓이지만, 모델이 참으로 분류하는 경우 (분류모형)


7. Type-2 error

- 2종오류: 영가설이 거짓이지만, 영가설을 기각하지 않는 오류

(ex. 코로나 증상이 발현된 환자를 진찰하는 의사 입장에서, 그 증상은 유의미한 증상이지만(코로나이지만), 코로나가 아니라고 잘못 진단하는 경우)

- 실제론 참이지만, 모델이 거짓으로 분류하는 경우 (분류모형)


8. False positive

- 1종오류와 같음

- 실제론 음성(negative)이지만, 양성(positive)으로 판단하는 것

- 음성이라는 것이 유의미한 차이가 없다 즉, 영가설이 참이라는 의미를 담고 있기에 1종오류와 연결되는 것


9. False negative

- 2종오류

- 실제론 양성(positive)이지만, 음성(negative)으로 판단하는 것

- 양성 = 유의미한 차이가 있다 = 영가설이 거짓이다


10. Confidence level (not the same thing with the confidence intervals)

- 신뢰수준: 영가설을 올바르게 기각하거나 기각하지 못한 경우의 비율, 가설 검정의 신뢰도

- 1-a로 나타나며, a = 0.05인 경우, 결과를 95% 확률로 신뢰가능하다는 뜻


11. Significance level (aka. alpha)

- 유의수준: 1종오류를 범할 확률, 영가설을 기각할 기준(임계값)

- a = 0.05라면 실제로 영가설이 참인데도 이를 기각할 확률이 5%라는 것 


12. p-value

- 영가설이 참이라고 가정했을 때, 관측값들이 극단적으로 나올 확률

- p-value가 유의수준 a보다 작다면 관측 결과가 영가설 하에서는 매우 드물다 -> 영가설 기각

- 정규분포 하에서 꼬리 부분 영역의 확률

- 이렇게 극단적인 차이, 즉, H0이 말하는 우연히 나타나는 값이 나올 확률이 적으니 영가설을 기각


13. Resampling with or without replacement

- 복원 재추출: 기존에 쓰였던 표본을 제거하지 않고 그대로 포함시킨 채 재추출 진행 (편향x)

- 비복원 재추출: 기존에 쓰였던 표본을 제거하고, 재추출 진행 (편향 발생)


14. Variance vs. Variation

- Variation: 변화 변동, 값들이 얼마나 달라지는지/흩어져있는지 등을 표현하는 것

- Variance: Variation을 수치화한 것, 자료가 평균으로부터 떨어져있는 정도

 

15. Variance of parameters

- 모수의 분산: 모수가 가질 수 있는 변동성, 현실에선 모수의 분산을 거의 알 수 없음

- 상수 즉, 고정된 숫자임 변동하지 않아 항상 Variance of parameters = 0


16. Variance of estimates

- 추정치의 분산: 표본 데이터들의 변동성

- 샘플을 뽑을 때마다 달라짐, 즉 변수이며, 변동성은 항상 0보다 크게 나타남


17. Standard error

- 추정량이 표본마다 얼마나 변동할 수 있는지를 나타내는 척도

- 추정치의 불확실성