1. 자료의 정리
한 야구 선수의 연도별 홈런수 표가 다음과 같이 있다고 하자. 이때 해당 표를 다양한 방법으로 시각화할 수 있다.
(1) 시계열 그림(time-series plot)
(2) 줄기 - 잎 그림(stem-and-leaf plot)
측정값의 앞자리를 줄기, 뒷자리를 잎으로 나눠 표시하는 방법
(3) 히스토그램(histogram)
줄기별로 잎의 개수를 나타내는 방법으로, 줄기-잎 그림을 왼쪽으로 90도 회전한 그림과 같다.
(4) 파이 도표(pie chart)
파이 조각의 크기로 자료의 구성비를 표시하는 방법
2. 히스토그램 예시
(1) 계급구간(class interval, bins)
블록의 밑변을 이루고 있는 구간을 계급구간이라고 한다. 0원-50만원, 100만원-150만원, 500만원-600만원 등이 계급구간이 된다.
(2) 해석방법
월소득이 100만원부터 150만원 사이인 근로자 가구의 비율을 알고 싶을 때, 블록의 높이인 y 값을 본다.이로부터 전체 가구 중 대략 7%가 100만원 이상 150만원 미만의 월소득을 올리는 것으로 파악된다.
반면, 100만원 이상 150만원 미만의 소득을 얻는 가구와 500만원 이상 600만원 미만의 소득을 갖는 가구 중 어느 쪽이 더 많은지 비교할 땐, 100만원-150만원 구간에서 블록이 더 높으나 500만원-600만원 구간에서 블록의 밑변이 더 넓기 때문에 블록의 면적을 계산해야만 두 구간의 가구 수 비교가 가능하다.
-> 히스토그램에서는 블록의 면적이 비율을 나타낸다.
3. 히스토그램 그리기
(1) 분포표(distribution table) 작성
① 표본가구의 소득자료를 소득 구간에 따라 분류하고, 각 계급구간에 속하는 가구의 수를 센다.
② 구간별 가구의 수를 전체 가구수로 나눈다. (소득구간별 가구의 구성비율)
③ 이때, 구간별 가구의 수를 도수(frequency) 또는 빈도라 하고, 구간별 구성비율을 상대도수(relative frequency) 또는 상대빈도라고 부른다.
2007년도 우리나라 근로자 가구의 월소득 분포
소득구간 | 비율(%) |
0만원-50만원 | 1 |
50만원-100만원 | 4 |
100만원-150만원 | 7 |
150만원-200만원 | 9 |
200만원-300만원 | 22 |
300만원-400만원 | 21 |
400만원-500만원 | 14 |
500만원-600만원 | 8 |
600만원-1000만원 | 14 |
(2) 계급구간(class interval) 설정
① 자료가 밀집된 곳에서는 자료를 잘게 나누어 계급국나을 좁게 하며 자료가 듬성듬성한 곳에서는 계급구간을 넓게 잡는다.
② 계급구간의 수는 자료가 증가함에 따라 증가시키되, 각 계급구간마다 어느 정도의 자료는 확보되도록 한다.
③ 대표적으론 스터지스 공식인 1+3.3log(n)을 활용해 계급구간의 수를 결정한다. ※ n은 관측치의 수
④ 구간을 설정한 뒤엔 구간의 경계점에 해당하는 자료를 어떻게 처리할지 정해둔다.
※ 가족수와 같은 이산변수(2명, 3명, 4명,,,,)의 자료에선 신경쓰지 않아도 된다. 윗 자료는 좌측 경계점에 속하는 자료는 해당구간에 포함시켰다.
(3) 가로축 그리기
(4) 블록 그리기
① 계급 구간의 폭이 다른 경우, 구간별 비율을 블록의 높이로 삼으면 폭이 넓은 블록의 면적이 과대 평가된다. 그렇기에 가로축을 50만원 단위로 나눈 후, 각각의 계급구간이 몇 개의 부분구간(sub-interval)을 포함하는지 조사한다.
② 각 계급구간에 속한 자료의 비율을 그 계급구간 내에 있는 부분구간의 수(폭)로 나눈다. 해당 값을 블록의 높이로 삼으면, 비로소 비율은 블록의 면적으로 표시된다.
③ 600만원 이상 구간의 경우 8개의 부분구간이 나왔기 때문에 (14/8 = 1.75)의 계산을 통해 해당 구간의 높이가 설정됐다.
(5) 히스토그램 세로축에 대한 해석
세로축은 각각의 부분구간에 속하는 자료의 비율을 의미한다. 예를들어 500만원-600만원 구간에서 블록의 높이가 4라는 것은 해당 구간에 속해있는 폭 50만원의 구간 각각에 4%의 자료가 포함되어 있다는 의미이다. 즉, 구간 전체에는 8%의 자료가 포함되어 있다.
4. 밀도단위(density scale)
히스토그램에서 각 블록의 면적은 해당 구간에 속하는 자료의 비율을 뜻하며, 히스토그램에서의 높이는 밀도, 즉 가로축의 단위구간 당 속한 자료의 비율을 나타낸다. [그림 2-8]의 100만원-150만원 구간과, 500만원-600만원 구간을 예로 들었을 때, 블록의 높이는 100만원-150만원 구간이 더 높아 밀도는 해당 구간에서 더 크지만, 블록의 면적은 500만원-600만원 구간에서 더 넓으므로 이 구간에 더 많은 비율의 근로자 가구가 속하게 된다.
※ 인구 밀도는 한국이 더 높지만, 전체 인구는 미국이 더 많은 것과 같은 이치
밀도는 자료의 비율이기에 세로축에 밀도 단위가 사용되는 경우, 히스토그램의 전체 넓이는 100%가 된다.
● 예시 문제) 그림은 어느 도시의 가구소득을 나타내는 히스토그램의 일부분이다. 약 몇 %의 가구가 150만원-250만원 사이의 소득을 얻고 있는가?
-> 해당 그래프에선 블록의 높이가 2이므로 150-250만원 구간에 포함되어 있는 10만원 단위의 10개 구간에는 각각 2%씩의 가구가 속해있다. 그러므로 150만원-250만원 구간에 속하는 가구는 전체 가구 중 20%(2 * 10)를 차지하게 된다.
* 해당 글은 류근관 저서의 <통계학> 제 3판의 내용을 바탕으로 합니다 *
'통계학' 카테고리의 다른 글
[통계학] 6장 - 회귀분석 (5) | 2024.12.04 |
---|---|
[통계학] 5장 - 상관관계 (5) | 2024.11.28 |
[통계학] 4장 - 정규분포로의 근사 (2) | 2024.11.24 |
[통계학] 3장 - 평균과 표준편차 (0) | 2024.11.22 |