본문 바로가기
통계학

[통계학] 2장 - 히스토그램

by Point-Nemo 2024. 11. 20.

1. 자료의 정리

한 야구 선수의 연도별 홈런수 표가 다음과 같이 있다고 하자. 이때 해당 표를 다양한 방법으로 시각화할 수 있다.

 

   

(1)  시계열 그림(time-series plot)

출장 경기수가 적었던 1925년도의 데이터는 제외하기로 한다.

                                             

   

 

(2) 줄기 - 잎 그림(stem-and-leaf plot)

측정값의 앞자리를 줄기, 뒷자리를 잎으로 나눠 표시하는 방법

22, 34, 35, 41, 41, 46 등이 모여 줄기 -잎을 이룬다.

 

 

 

(3) 히스토그램(histogram) 

줄기별로 잎의 개수를 나타내는 방법으로, 줄기-잎 그림을 왼쪽으로 90도 회전한 그림과 같다.

줄기별로 잎의 개수를 나타내주는 그림이 바로 히스토그램이다.

                                              

 

   

(4) 파이 도표(pie chart)

파이 조각의 크기로 자료의 구성비를 표시하는 방법

조각의 크기가 곧 해당 구간의 비율이 된다.

 

 

 

2. 히스토그램 예시

가로축은 50만원 단위의 눈금으로 나뉘어져 있으며 0원부터 1000만원까지 표시되어 있다.

 

   

 

(1) 계급구간(class interval, bins)

블록의 밑변을 이루고 있는 구간을 계급구간이라고 한다.  0원-50만원, 100만원-150만원, 500만원-600만원 등이 계급구간이 된다.

 

(2) 해석방법

월소득이 100만원부터 150만원 사이인 근로자 가구의 비율을 알고 싶을 때, 블록의 높이인 y 값을 본다.이로부터 전체 가구 중 대략 7%가 100만원 이상 150만원 미만의 월소득을 올리는 것으로 파악된다.

 

반면, 100만원 이상 150만원 미만의 소득을 얻는 가구와 500만원 이상 600만원 미만의 소득을 갖는 가구 중 어느 쪽이 더 많은지 비교할 땐, 100만원-150만원 구간에서 블록이 더 높으나 500만원-600만원 구간에서 블록의 밑변이 더 넓기 때문에 블록의 면적을  계산해야만 두 구간의 가구 수 비교가 가능하다. 

 

-> 히스토그램에서는 블록의 면적이 비율을 나타낸다.

 

3. 히스토그램 그리기

(1) 분포표(distribution table) 작성 

① 표본가구의 소득자료를 소득 구간에 따라 분류하고, 각 계급구간에 속하는 가구의 수를 센다.

② 구간별 가구의 수를 전체 가구수로 나눈다. (소득구간별 가구의 구성비율)

③ 이때, 구간별 가구의 수를 도수(frequency) 또는 빈도라 하고, 구간별 구성비율을 상대도수(relative frequency) 또는 상대빈도라고 부른다. 

 

 

2007년도 우리나라 근로자 가구의 월소득 분포

소득구간 비율(%)
0만원-50만원 1
50만원-100만원 4
100만원-150만원 7
150만원-200만원 9
200만원-300만원 22
300만원-400만원 21
400만원-500만원 14
500만원-600만원 8
600만원-1000만원 14

 

   

(2) 계급구간(class interval) 설정

① 자료가 밀집된 곳에서는 자료를 잘게 나누어 계급국나을 좁게 하며 자료가 듬성듬성한 곳에서는 계급구간을 넓게 잡는다.

② 계급구간의 수는 자료가 증가함에 따라 증가시키되, 각 계급구간마다 어느 정도의 자료는 확보되도록 한다. 

③ 대표적으론 스터지스 공식인 1+3.3log(n)을 활용해 계급구간의 수를 결정한다. ※ n은 관측치의 수

④ 구간을 설정한 뒤엔 구간의 경계점에 해당하는 자료를 어떻게 처리할지 정해둔다.

※ 가족수와 같은 이산변수(2명, 3명, 4명,,,,)의 자료에선 신경쓰지 않아도 된다. 윗 자료는 좌측 경계점에 속하는 자료는 해당구간에 포함시켰다.

 

(3) 가로축 그리기

실제 구간의 폭에 비례한 가로축 설정

 

 

(4) 블록 그리기

600만원-1000만원 구간의 폭을 유의하며 그린다.

 

       

계급 구간의 폭이 다른 경우, 구간별 비율을 블록의 높이로 삼으면 폭이 넓은 블록의 면적이 과대 평가된다. 그렇기에 가로축을 50만원 단위로 나눈 후, 각각의 계급구간이 몇 개의 부분구간(sub-interval)을 포함하는지 조사한다.

② 각 계급구간에 속한 자료의 비율을 그 계급구간 내에 있는 부분구간의 수(폭)로 나눈다. 해당 값을 블록의 높이로 삼으면, 비로소 비율은 블록의 면적으로 표시된다.

③ 600만원 이상 구간의 경우 8개의 부분구간이 나왔기 때문에 (14/8 = 1.75)의 계산을 통해 해당 구간의 높이가 설정됐다.

 

(5) 히스토그램 세로축에 대한 해석

세로축은 각각의 부분구간에 속하는 자료의 비율을 의미한다. 예를들어 500만원-600만원 구간에서 블록의 높이가 4라는 것은 해당 구간에 속해있는 폭 50만원의 구간 각각에 4%의 자료가 포함되어 있다는 의미이다. 즉, 구간 전체에는 8%의 자료가 포함되어 있다.

 

4. 밀도단위(density scale)

히스토그램에서 각 블록의 면적은 해당 구간에 속하는 자료의 비율을 뜻하며, 히스토그램에서의 높이밀도, 즉 가로축의 단위구간 당 속한 자료의 비율을 나타낸다. [그림 2-8]의 100만원-150만원 구간과, 500만원-600만원 구간을 예로 들었을 때, 블록의 높이는 100만원-150만원 구간이 더 높아 밀도는 해당 구간에서 더 크지만, 블록의 면적은 500만원-600만원 구간에서 더 넓으므로 이 구간에 더 많은 비율의 근로자 가구가 속하게 된다. 

 

※ 인구 밀도는 한국이 더 높지만, 전체 인구는 미국이 더 많은 것과 같은 이치

 

밀도는 자료의 비율이기에 세로축에 밀도 단위가 사용되는 경우, 히스토그램의 전체 넓이는 100%가 된다.

 

 

● 예시 문제) 그림은 어느 도시의 가구소득을 나타내는 히스토그램의 일부분이다. 약 몇 %의 가구가 150만원-250만원 사이의 소득을 얻고 있는가?

10만원 단위의 가구소득 히스토그램

 

-> 해당 그래프에선 블록의 높이가 2이므로 150-250만원 구간에 포함되어 있는 10만원 단위의 10개 구간에는 각각 2%씩의 가구가 속해있다. 그러므로 150만원-250만원 구간에 속하는 가구는 전체 가구 중 20%(2 * 10)를 차지하게 된다. 

 

 

* 해당 글은 류근관 저서의 <통계학> 제 3판의 내용을 바탕으로 합니다 *

'통계학' 카테고리의 다른 글

[통계학] 6장 - 회귀분석  (5) 2024.12.04
[통계학] 5장 - 상관관계  (5) 2024.11.28
[통계학] 4장 - 정규분포로의 근사  (2) 2024.11.24
[통계학] 3장 - 평균과 표준편차  (0) 2024.11.22