1. 단위변환
화씨로 표시된 기온(F)를 섭씨 표시된 기온(C)로 변환시키는 공식은 다음과 같다. 이처럼 상수를 더하거나, 빼거나, 곱하거나, 나누는 변환을 일반적으로 단위변환이라고 한다. 단위변환 가운데, 평균을 빼주고 표준편차로 나누어 주는 변환을 표준화(standardization)라고 부른다. 표준화된 변수는 평균이 0이고 표준편차가 1이다.
어떤 상수를 자료의 모든 수에 더하면 평균은 그 상수만큼 증가하지만 표준편차는 변하지 않는다. 평균 주위로 퍼진 정도는 변하지 않기 때문이다. 반면 자료의 모든 수에 어떤 상수를 곱하게 된다면 평균과 표준편차는 그 상수만큼 곱한 값으로 변한다.
변수 X가 평균이 μ이고 표준편차가 σ인 하나의 분포를 따른다고 가정했을 때, X를 표준화하여 얻은 변수 Z = (X - μ) / σ는 평균이 0이고 표준편차가 1인 분포를 따르게 된다.
[ 1, 3, 4, 4, 5 ,7 ]
위와 같은 자료가 있을 때, 평균은 4고, 표준편차는 2이다. 해당 자료를 표준화하게 되면
[ -1.5, -0.5, 0, 0, 0.5, 1.5 ]
다음과 같이 나타나며, 해당 숫자들은 평균이 0이고 표준편차가 1이다.
위의 그림은 서로 다른 자료들을 표준화 한 결과를 보여준다. 좌측의 두 자료 모두 표준화를 했을 때 동일한 값들이 얻어지게 되는데, 표준화된 표준단위로 표시된 값들은 측정단위에 영향을 받지 않는다. 즉, 측정단위가 다른 자료들을 비교할 때 각각의 자료를 표준화하게 되면 보다 편리한 비교가 가능해진다.
관측된 자료를 이용하여 그린 히스토그램을 경험적 히스토그램(empirical histogram)이라고 부른다. 또한, 경험적 히스토그램을 평가하거나 근사시킬 기준 중 하나로 정규분포곡선이 있다.
2. 정규분포곡선
정규분포(normal distribution)곡선은 아돌프 케틀레(Adolphe Quetelet, 1796-1874)에 의해 하나의 이상적인 히스토그램으로 인정받았다. 즉, 경험적 히스토그램을 비교할 하나의 기준으로 정규분포곡선을 이용한 것이다.
평균이 μ이고 표준편차가 σ인 정규분포곡선의 식은 다음과 같이 나타난다.
여기서 f(x)는 확률밀도함수(probability density function)라고 부른다. 이는 밀도단위를 써서 연속 확률 변수의 분포를 나타내는 함수로, 특정 구간 내에서의 확률을 구할 수 있다. 가로축을 x로 세로축을 f(x)로 두고, (x, f(x))의 관계를 그림으로 그리면 평균이 μ이고 표준편차가 σ인 정규분포곡선의 그래프가 얻어진다.
이때 μ는 모평균(population mean), σ는 모표준편차(population standard deviation)라고 부른다. 해당 정규분포는 자료로부터 얻어낸 히스토그램이 아니라, 실제 자료의 분포를 근사 시켜줄 하나의 모형이기 때문에 모집단의 개념을 갖는다.
평균이 0, 표준편차가 1인 정규분포는 표준정규분포(standard normal distribution)라고 하며, 확률변수 Z가 표준정규분포를 따를 때, 이를 Z ~ N(0,1)로 표시한다.
(1) 68-95-99.7 법칙
68-95-99.7 법칙이란 3장의 68-95 법칙을 확장한 것으로, 표준정규분포에서
● -1부터 1까지의 구간에 속한 표준정규분포곡선 아래 영역의 넓이는 약 68%이다. (± 1σ)
● -2부터 2까지의 구간에 속한 표준정규분포곡선 아래 영역의 넓이는 약 95%이다. (± 2σ)
● -3부터 3까지의 구간에 속한 표준정규분포곡선 아래 영역의 넓이는 약 99.7%이다. (± 3σ)
표준정규분포는 평균이 0이고 표준편차가 1이기 때문에 숫자로 표현이 가능해진 것이다.
(2) 정규분포곡선의 성질
위에서 언급했던 f(x)는 평균이 μ이고 표준편차가 σ인 정규분포의 확률밀도함수이다. 하나의 확률변수 X가 이런 f(x)를 확률밀도함수로 갖는다고 할 때, X는 평균이 μ이고 표준편차가 σ인 정규분포를 따르는 확률변수라고 한다. 또한 X ~ N(μ, σ^2)으로 표기한다.
정규분포곡선의 대표적인 성질은 다음과 같다.
① 평균을 중심으로 좌우 대칭이다.(symmetric)
② 종 모양을 띤다.(bell-shaped)
③ 봉우리가 하나이다.(single-peaked)
정규분포곡선은 평균과 표준편차에 의해 그 모양이 완벽하게 묘사된다. 평균과 표준편차가 달라지더라도 중심과 퍼진 정도는 달라지지만 전반적인 모양은 변하지 않기에 정규분포곡선은 단 하나뿐이다.
(3) 표준단위 변환
많은 히스토그램은 그 전반적인 모양이 정규분포곡선의 모양과 비슷하다. 이때 히스토그램 상호간 세로축의 좌표값을 비교하기 위해선 가로축의 단위를 각각 표준단위로 바꾸어 주어야한다.(평균을 뺀 후 표준편차로 나누는 과정)
[162.2cm, 141.8cm, 155.4cm]
2007년 국민건강영양조사에 따르면 우리 나라 여성의 평균키는 155.4cm이고 표준편차는 6.8cm이다. 위의 값을 표준단위로 변환하게 되면,
[ (162.2 - 155.4) / 6.8 ], [ (141.8 - 155.4) / 6.8 ], [ (155.4 - 155.4) / 6.8]
↓
[ 1, -2, 0 ]
다음과 같은 표준단위 값을 구할 수 있다. 즉, 162.2cm인 여성은 평균보다 1SD(표준편차)만큼 키가 큰 것이고, 141.8cm인 여성은 평균보다 2SD만큼 키가 작은 것이다.
(4) 정규분포로의 근사
가로축의 윗 부분이 표준단위로, 162.2cm는 1에, 141.8cm는 -2에, 155.4cm는 0에 대응된다. 음영된 부분은 평균으로부터 1표준편차 내의 부분인데, 해당 부분의 히스토그램은 표준정규분포 곡선보다 높거나 낮은 영역이 있긴 하지만, 대체로 상쇄된다.
즉, 히스토그램 아래 음영으로 표시된 부분의 넓이는 대체로 표준정규분포곡선 아래 -1과 +1 사이의 넓이와 비슷하고, 해당 넓이가 약 68%가 되는 것이다. 같은 원리로 2표준편차 내의 부분은 표준정규분포곡선의 -2와 +2 사이의 넓이와 비슷하며 해당 넓이가 약 95%가 된다.
정규분포곡선을 이용하면 어떤 구간 내에 속한 숫자의 비율을 근사적으로 쉽게 알아낼 수 있다. 구간을 표준단위로 변환한 후, 표준정규분포곡선으로부터 대응되는 영역의 넓이를 구하면 된다. 해당 과정을 정규분포로의 근사(normal approximation)라고 말하며, 이러한 근사적 계산은 원래 히스토그램의 모양이 정규분포에 가까울수록 보다 정확하다.
3. 표준정규분포곡선 아래의 영역 찾기
해당 표는 표준정규분포곡선 아래 영역의 넓이를 나타내는 표이다. 좌측의 행(z 값)은 소숫점 첫째 자리까지를 나타내며, 상단의 열들은 소숫점 둘째 자리를 나타낸다. 0부터 1사이에 있는 넓이를 알기 위해선 z값이 1.00에 해당하는 값을 찾는다. 이는 1.0의 행과 0.00의 열이 만나는 지점에 위치한 값이다. 해당 값은 0.3413으로, 0과 1사이 영역의 넓이는 34.13%라는 걸 알 수 있다.
즉 위의 그림에서 0과 1사이 음영 부분의 넓이가 34.13%라는 것이다. 만약 -2와 1사이의 넓이를 알고 싶다면, 표준정규분포표에서 z값이 2.00인 지점의 값과 z값이 1.00인 지점의 값을 더해주면 된다. 표준정규분포곡선이 평균을 중심으로 좌우대칭이기 때문에 0부터 2사이의 넓이와 -2부터 0사이의 넓이는 동일하다.
4. 자료에 대한 정규 근사
자료의 히스토그램을 정규분포곡선으로 근사시키는 방법을 알아보자.
● 예시 문제) 2007년 국민건강영양조사에서 남성의 키는 평균이 168.7cm, 표준편차가 8.9cm이다. 이때 150.9cm와 177.6cm 사이의 키를 가진 남성의 비율을 정규분포곡선을 이용해 구하라.
① 원하는 구간을 표시한다.
② 가로축에 평균을 표시하고 구간의 값을 표준단위로 변환한다.(평균을 뺀 후 표준편차로 나누는 작업)
③ 표준정규분포표를 이용하여 표준단위로 표시된 구간에 해당하는 영역의 값을 구한다.
이 과정들을 거치면 해당 구간의 비율이 표준정규분포에서 -2와 1사이의 넓이인 82%와 유사하다는 것을 알 수 있다. 이 구간에 속해있는 자료의 실제 비율은 약 84.1%로 나타났는데, 정규근사를 통해 비교적 정확한 추정치를 얻었다는 것을 알 수 있다.
많은 히스토그램은 정규분포곡선과 비슷한 모양을 갖는다. 이러한 경우에는평균과 표준편차가 좋은 요약 통계량(summary statistic)이 된다. 중심을 나타내는 평균과 평균으로부터 퍼진 정도를 나타내는 표준편차만으로 히스토그램에 대한 모든 정보가 요약될 수 있기 때문이다. 하지만 이는 히스토그램의 모양이 정규분포곡선과 비슷할 때만 그렇다. 만약 히스토그램의 모양이 정규분포곡선의 모양과 비슷하지 않은 경우에는 평균과 표준편차가 좋은 요약 통계량이라고 할 수 없다.
5. 백분위수
많은 히스토그램이 정규분포곡선과 유사하지만, 다른 많은 히스토그램은 정규분포곡선과 다르다. 대표적으로 소득의 히스토그램이 그렇다. 해당 자료는 정규분포곡선을 따르지 않기에 평균과 표준편차만으로 자료를 요약하기엔 충분하지 않다.
위의 히스토그램은 2008년 가구별 연간소득으로, 평균이 약 3,486만원이며 표준편차가 약 1,829만원이다. 해당 자료는 좌측에 대부분의 자료가 분포되어있다. 즉 오른쪽으로 꼬리가 치우친 right-skewed 히스토그램이다. 고소득으로 갈수록 해당하는 사람들의 비율이 적어져 다음과 같은 히스토그램이 나타나게 되는 것이다.
이러한 히스토그램에선 백분위수(percentile)의 개념이 유용하다. 제1백분위수부터 제99백분위수까지 총 99개의 백분위수가 하나의 히스토그램을 백 개의 균등한 영역으로 나누게 된다.
백분위 | 백분위수(만원/년) |
1 | 589.5 |
10 | 1484.7 |
25 | 2242.8 |
50 | 3254.1 |
75 | 4438.5 |
90 | 5687.3 |
99 | 8887.9 |
해당 표를 보면 제1백분위수는 589.5이다. 이는 1%의 가정이 연간 589만 5천원 미만의 소득을 벌고 나머지의 가정은 그 이상의 소득을 번다는 뜻이다. 제10백분위수는 1484.7로, 10%의 가정이 연간 1484만 7천원 미만의 소득을 올리며 90%의 가정은 그 이상의 소득을 올린다.
6. 사분위수와 상자그림
(1) 사분위수
백분위수 가운데 제25백분위수, 제50백분위수, 제75백분위수를 특별히 제1사분위수, 제2사분위수, 제3사분위수라고 부른다. 해당 사분위수(quartile)들은 히스토그램 아래의 면적을 사등분하는 세 개의 경계점을 이룬다. 제 50백분위수는 제2사분위수이며 동시에 중앙값이 된다.
사분위수 범위(interquartile range)는 (제3사분위수) - (제1사분위수)로 정의되며, 히스토그램에서 중앙의 자료 50%가 속하는 구간을 의미한다. 자료가 퍼져 있을수록 사분위수 범위는 더욱 큰 값을 가지며, 표준편차와 달리 일부의 극단적인 값에 영향을 크게 받지 않는다.
(2) 상자그림
자료를 요약할 때 종종 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값 등 다섯 개 숫자를 사용한다. 이를 다섯 숫자 요약(five numbers summary)라고 부른다. 상자그림(box plot)은 이 다섯 숫자를 그림으로 나타내준다.
상자그림에서 상자는 세 개의 사분위수를 나타낸다. 아래쪽 경계선은 제1사분위수, 중앙선은 중앙값인 제2사분위수, 위쪽 경계선은 제3사분위수를 나타낸다. 상자의 세로 길이는 제3사분위수와 제1사분위수의 차이로서 사분위수 범위가 된다. 상자의 아래 끈은 제10백분위수, 상자의 위 끈은 제90백분위수를 표시한다. 즉, 해당 그래프를 벗어난 값들은 상위10%와 하위10%값이 되는 것이다.
소득 분포의 꼬리가 오른쪽으로 늘어져있던 것처럼, 해당 상자그림도 위로 늘어져 있음을 알 수 있다. 상자그림은 특히 여러개의 분포를 비교할 때 유용하다.
다음은 우리나라 증권거래소에 상장된 종목의 주간수익률 분포이다. 중앙값 수익률을 봤을 때 KOSPI 지수의 중앙값을 웃도는 종목도 있고, 그렇지 못한 종목도 잇다. 두 개 종목만 따로 뽑아 2008년 지표를 살펴보자.
수익률 중앙값을 보면 POSCO가 삼성전자보다 미세하게 더 높다. 사분위수 범위를 보면 POSCO가 삼성전자보다 투자위험도 더 컸음을 알 수 있다.(사분위수 범위가 클수록 높은 변동성과 불확실성을 가지기 때문이다)
상자 끈의 아래 위 점들은 제10백분위수보다 작거나 제90백분위수보다 큰 값들로(상위 10%와 하위 10% 값), 주간 수익률의 범위를 나타낸다. POSCO의 경우 최대 +40%에서 최소 -20%까지 주간수익률이 실현되었다. 즉, 주식에 투자하여 한 주만에 40%를 벌 수도 있었고, 20%를 잃을 수도 있었다는 것이다.
7. 백분위수와 정규분포곡선
히스토그램이 정규분포곡선을 따를 떄 표준정규분포표를 통해 백분위수를 구하는 방법을 살펴보자.
● 예시 문제) 2009년도 1학기 한 대학에서 통계학을 수강한 학생들의 중간고사 성적은 50점 만점에 평균이 27.93이고 표준편차가 8.52였다. 점수분포는 정규분포에 가까웠다. 이때 상위 5%에 해당하는 학생의 점수를 추정하라.
상위 5%는 하위 95%로, 제 95백분위수를 구하라는 문제이다.
① 제95백분위수가 평균보다 표준편차 단위로 큰 정도를 z로 표현한다.
② 표준정규분포표로부터 z=1.65일 때 0과 1.65 사이의 영역의 넓이가 약 45%임을 알 수 있고, z값이 1.65보다 크다면 상위 5%임을 알 수 있다.
③ 즉, 통계학 중간고사 점수가 제95백분위수이기 위해서는 평균보다 1.65 * SD(standard deviation) 만큼 높은 점수를 받아야 한다.
④ 27.03 + 14.06(1.65 * 8.52) = 41.99로 해당 점수를 받아야 상위 5%에 해당하게 된다.
백분위와 백분위수를 혼동해서는 안 된다. 백분위수는 원래 자료상의 값을 뜻하는 반면 백분위는 퍼센트 비율로서 밑으로부터의 순위를 나타낸다. 제95백분위수는 41.99점이고, 41.99점은 백분위로 환산하면 95%이다. 즉, 하위95%를 의미한다.
※ 표준화는 평균을 뺀 후 표준편차로 나눠준다. 즉, 표준화된 단위는 평균보다 몇 SD 만큼 큰지 나타낸 것과 같다.
ex) 평균이 5이고 표준편차가 2일 때, 9라는 값은 평균보다 2 표준편차만큼 크며, 표준화를 했을 시, (9-5)/2 = 2라는 결과가 나타난다.
* 해당 글은 류근관 저서의 <통계학> 제 3판의 내용을 바탕으로 합니다 *
'통계학' 카테고리의 다른 글
[통계학] 6장 - 회귀분석 (5) | 2024.12.04 |
---|---|
[통계학] 5장 - 상관관계 (5) | 2024.11.28 |
[통계학] 3장 - 평균과 표준편차 (0) | 2024.11.22 |
[통계학] 2장 - 히스토그램 (9) | 2024.11.20 |