본문 바로가기
ADsP

[ADsP] 7. 통계의 이해

by Point-Nemo 2026. 2. 2.

1. 표본추출 방법

(1) 단순 랜덤 추출법

(2) 계통 추출법

- 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법 

- N개의 모집단에서 K개씩 n개의 구간으로 나눈 뒤, 첫 구간에서 하나를 임의로 선택하고 K개씩 띄어서 표본을 추출

https://jennainsight.tistory.com/entry/%ED%86%B5%EA%B3%84-%ED%91%9C%EB%B3%B8%EC%B6%94%EC%B6%9C%EB%B0%A9%EB%B2%95-%EB%8B%A8%EC%88%9C%EB%9E%9C%EB%8D%A4-%EA%B3%84%ED%86%B5%EC%B6%94%EC%B6%9C%EB%B2%95-%EC%A7%91%EB%9D%BD%EC%B6%94%EC%B6%9C%EB%B2%95-%EC%B8%B5%ED%99%94%EC%B6%94%EC%B6%9C%EB%B2%95-%EC%B0%A8%EC%9D%B4%EC%A0%90

 

(3) 집락(군집) 추출법

- 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의해 선택된 집락의 데이터를 표본으로 사용

- 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적

 

(4) 층화 추출법

- 데이터를 여러 집락으로 구분하지만, 각 집락은 서로 이질적이며, 군집 내 데이터들은 서로 동질적

 

2. 측정과 척도

질적 척도 명목척도   성별, 지역
순서척도(서열척도) 명목척도이면서 서열 관계를 갖는 자료 선호도, 학년, 신용도
양적 척도 구간척도(등간척도) 양을 측정할 수 있으며, 두 구간 사이에 의미가 있는 자료 온도, 지수
비율척도 구간척도이면서 절대적 기준 0이 존재해 사칙연산 O 신장, 무게, 점수, 가격

 

 

3. 기술통계와 추리 통계

- 기술통계: 표본 자체의 속성이나 특징을 파악하는 데 중점을 두는 데이터 분석 통계 (요약/조직화/단순화)

- 추론통계: 수집한 데이터를 바탕으로 추론 및 예측하는 통계 기법 (추정/가설)

 

4. 확률과 확률분포 

(1) 독립사건과 배반사건

- 독립사건: 한 사건이 발생했을 때 다른 사건에 영향을 주지 않는 사건

- 배반사건: 동시에 일어날 수 없는 사건 (교집합이 없는 경우)

 

(2) 확률변수와 확률분포, 확률함수

- 확률변수: 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수

- 확률분포: 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하는지 보여주는 분포

(이산확률분포의 확률함수를 확률질량함수, 연속확률분포의 확률함수를 확률밀도함수라 함)

 

5. 이산확률분포

(1) 베르누이 분포

(2) 이항 분포: n번의 베르누이 시행에서 k번 성공할 확률의 분포

(3) 기하 분포: 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포

(4) 다항 분포: 이항 분포의 확장으로, 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포

(5) 포아송 분포: 단위 시간/공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포

(6) 이산확률변수: 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수

 

6. 연속확률분포

(1) 균일 분포: X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포

(2) 정규 분포 

(3) t-분포: 모표준편차 모를 때 사용

(4) 카이제곱분포

(5) F분포: 등분산 검정 및 분산분석에서 사용

(6) 연속확률변수: 확률변수가 취할 수 있는 값이 어떤 특정 구간 전체에 해당하여 그 수를 셀 수 없는 변수

 

7. 통계 개념

(1) 첨도와 왜도

- 첨도: 확률분포의 뾰족한 정도, 3에 가까울수록 정규분포 모양

- 왜도: 확률분포의 비대칭 정도, 왜도값이 0인 경우엔 정규분포와 유사 (평균=중앙값=최빈값)

 

(2) 공분산

- 확률변수 X와 Y의 상관 정도 (값이 100이면 알 수 없음, 단위 독립적X)

- 상관계수: 공분산의 문제를 해결

 

8. 추정과 가설검정

(1) 모수의 추정

- 궁극적으로 알고 싶은 값인 '모수'를 추정

 

(2) 점추정

- 모집단의 모수, 특히 모평균을 '하나의 특정한 값'이라고 예측하는 것 

- 모평균의 불편추정량은 표본평균

 

(3) 구간추정

- 모수가 특정한 구간 안에 존재할 것이라 예상하는 것, 신뢰수준 사용

 

(4) 1종오류와 2종오류

- 1종오류: 귀무가설이 사실인데도 불구하고 귀무가설을 기각

- 2종오류: 귀무가설이 사실이 아님에도 불구하고 귀무가설을 채택

 

(5) 검정통계량

- 귀무가설의 채택 여부를 판단하기 위하여 표본조사를 실시했을 때, 표본들로부터 얻을 수 있는 값

 

(6) 기각역

- 귀무가설을 기각하게 될 검정통계량의 영역, 검정통계량이 기각역에 있으면 귀무가설을 기각

 

(7) 유의수준

- 1종오류의 확률

 

(8) 유의확률

- p-value: 귀무가설이 참이라고 가정했을 때, 관측값 혹은 그보다 더 극단적인 값이 나올 확률

 

(9) 모수검정 vs 비모수검정

- 모수검정은 표본이 정규성을 갖는다는 모수적 특성을 이용하는 통계방법 (표본의 정규성 필수)

- 비모수 검정은 정규성 검정에 통과하지 못하거나, 표본 군집당 10명 미만의 소규모 실험에서 사용 (순위합검정), 모수의 분포에 대해 어떠한 가정도 하지 않음

모수검정 비모수검정
등간척도, 비율척도 명목척도, 서열척도
평균 중앙값
피어슨 상관계수 스피어만 상관계수
t-test, anova 부호 검정, 윌콕슨 부호 순위 검정, 맨-휘트니 검정 등

'ADsP' 카테고리의 다른 글

[ADsP] 9. 회귀분석  (0) 2026.02.02
[ADsP] 8. 기초통계  (0) 2026.02.02
[ADsP] 6. 데이터 마트 & 데이터 탐색  (1) 2026.02.01
[ADsP] 5. R  (0) 2026.01.31