1. Population parameter(s)
- 모수: 모집단의 특성을 나타내는 수치 (ex. 모집단의 평균, 분산 등)
2. Sample estimate(s)
- 추정량: 표본으로부터 계산된 값으로, 모수를 추론하기 위해 사용됨 (ex. 표본평균, 표본분산 등)
3. Sampling (and random sampling)
- 모집단에서 표본을 선택하는 과정
- 랜덤 샘플링의 경우, 모집단의 개체가 표본으로 뽑힐 동일한 확률을 갖도록 표본을 추출하는 방법
4. Null hypothesis (H0)
- 영가설: 관측된 결과가 차이가 없다, 우연에 불과하다
5. Alternative hypothesis (H1)
- 대립가설: 관측된 결과엔 유의미한 무언가가 있다, 우연에 의해 발생된 게 아니다
6. Type-1 error
- 1종오류: 영가설이 참이지만, 영가설을 기각하는 오류
(ex. 코로나 증상이 발현된 환자를 진찰하는 의사 입장에서, 그 증상은 우연에 불과하지만(코로나가 아니지만), 유의미한 차이가 있다 즉, 코로나로 잘못 진단하는 경우)
- 실제론 거짓이지만, 모델이 참으로 분류하는 경우 (분류모형)
7. Type-2 error
- 2종오류: 영가설이 거짓이지만, 영가설을 기각하지 않는 오류
(ex. 코로나 증상이 발현된 환자를 진찰하는 의사 입장에서, 그 증상은 유의미한 증상이지만(코로나이지만), 코로나가 아니라고 잘못 진단하는 경우)
- 실제론 참이지만, 모델이 거짓으로 분류하는 경우 (분류모형)
8. False positive
- 1종오류와 같음
- 실제론 음성(negative)이지만, 양성(positive)으로 판단하는 것
- 음성이라는 것이 유의미한 차이가 없다 즉, 영가설이 참이라는 의미를 담고 있기에 1종오류와 연결되는 것
9. False negative
- 2종오류
- 실제론 양성(positive)이지만, 음성(negative)으로 판단하는 것
- 양성 = 유의미한 차이가 있다 = 영가설이 거짓이다
10. Confidence level (not the same thing with the confidence intervals)
- 신뢰수준: 영가설을 올바르게 기각하거나 기각하지 못한 경우의 비율, 가설 검정의 신뢰도
- 1-a로 나타나며, a = 0.05인 경우, 결과를 95% 확률로 신뢰가능하다는 뜻
11. Significance level (aka. alpha)
- 유의수준: 1종오류를 범할 확률, 영가설을 기각할 기준(임계값)
- a = 0.05라면 실제로 영가설이 참인데도 이를 기각할 확률이 5%라는 것
12. p-value
- 영가설이 참이라고 가정했을 때, 관측값들이 극단적으로 나올 확률
- p-value가 유의수준 a보다 작다면 관측 결과가 영가설 하에서는 매우 드물다 -> 영가설 기각
- 정규분포 하에서 꼬리 부분 영역의 확률
- 이렇게 극단적인 차이, 즉, H0이 말하는 우연히 나타나는 값이 나올 확률이 적으니 영가설을 기각
13. Resampling with or without replacement
- 복원 재추출: 기존에 쓰였던 표본을 제거하지 않고 그대로 포함시킨 채 재추출 진행 (편향x)
- 비복원 재추출: 기존에 쓰였던 표본을 제거하고, 재추출 진행 (편향 발생)
14. Variance vs. Variation
- Variation: 변화 변동, 값들이 얼마나 달라지는지/흩어져있는지 등을 표현하는 것
- Variance: Variation을 수치화한 것, 자료가 평균으로부터 떨어져있는 정도
15. Variance of parameters
- 모수의 분산: 모수가 가질 수 있는 변동성, 현실에선 모수의 분산을 거의 알 수 없음
- 상수 즉, 고정된 숫자임 변동하지 않아 항상 Variance of parameters = 0
16. Variance of estimates
- 추정치의 분산: 표본 데이터들의 변동성
- 샘플을 뽑을 때마다 달라짐, 즉 변수이며, 변동성은 항상 0보다 크게 나타남
17. Standard error
- 추정량이 표본마다 얼마나 변동할 수 있는지를 나타내는 척도
- 추정치의 불확실성
'통계학' 카테고리의 다른 글
| [통계학] 10장 - 이항공식 (4) | 2025.03.15 |
|---|---|
| [통계학] 9장 - 확률이란 무엇인가 (4) | 2025.02.04 |
| [통계학] 8장 - 회귀직선 (7) | 2024.12.14 |
| [통계학] 데이터 사이언스 인터뷰를 위해 필수적으로 알아둬야 할 통계적 개념 (13) | 2024.12.11 |