히스토그램 (Histogram)
히스토그램은 어떠한 변수에 대해서 구간별 빈도수를 나타낸 그래프다. 위의 예제는 0부터 20까지의 범위를 10개의 구간 혹은 빈(bin) 으로 나누고 각 빈에 대해서 변수 x의 빈도수를 그린 히스토그램이다. 여기서 알 수 있듯이 히스토그램의 특성은 다음과 같이 볼 수 있다.
- 변수를 보고자 하는 범위: [0,20)
- 구간을 나누는 방식: 10개의 빈
- 분포를 보고자 하는 변수: x
일반적인 경우 히스토그램의 빈을 나눌 때 동일한 간격으로 나누기 때문에 빈의 개수가 중요해진다. 또 표본의 크기가 한정적일 수록 변수 분포의 경향을 보기가 어려워 지는데 이때 각 빈의 넓이가 중요해진다. 가령 앞선 예제의 히스토그램을 그릴 때 10개의 빈이 아닌 4개, 혹은 50개의 빈으로 나누었을 경우 다음과 같은 결과가 나온다.
변수 x의 분포가 정규분포(Gaussian Distribution)였다고 가정해 보자. 그림 2의 경우 x의 분포가 약 3개의 빈에 걸쳐서 나타나는데 이를 두고 경향을 이야기하기에는 분포가 드러나는 구간이 너무 적다. 정규분포를 히스토그램을 통해서 직관적으로 판단할 수 있으려면 10개 이상의 빈에서 분포가 드러나야 한다. 그림 3의 경우 x의 분포가 들쑥날쑥 하기 때문에 형태를 판단할 수 없다. 표본의 크기가 작은 이유도 있겠지만 히스토그램을 그릴 때 빈의 크기를 적절하게 설정하지 못하였기 때문이기도 하다. 우리가 히스토그램을 그리는 이유는 직관적으로 분포의 경향을 파악 할 수 있도록 하기 위함이다. 표본의 크기가 충분히 크다면 그림을 어떻게 그려도 상관이 없겠지만 현실에서는 표본 추출에 제한사항이 많기 때문에 이를 인지하고 정보전달을 확실히 하도록 노력해야 한다.
용어
ROOT 히스토그램을 설명하기 위한 용어를 소개한다.
- 빈, Bin: 히스토그램의 한 구간.
- Bin Content: 빈에 들어있는 값. 빈에 들어가는 값이 정수가 아닌 경우도 있기때문에 '빈도수'는 정확하지 않은 설명이다.
- Statistics Box: 히스토그램 통계 수치를 나타내는 창. 위 그림들에서 오른, 위쪽에 위치하는 상자를 말한다. 위치와 내용은 변경할 수 있다. 일반적으로 히스토그램의 이름, Entries, Mean, Std Dev 가 표시된다. 줄여서 Stats로 표시한다.
- 엔트리, Entry: 변수 입력. 히스토그램에 입력한 총 입력 개수를 total entries 라고 한다. statistics 상자에 볼 수 있는 Entries가 이에 해당한다.
- 이름, Name: 위 그림에는 볼 수 없지만 히스토그램은 고유한 이름을 가지고 있다. 같은 프로그램 안에서 서로 다른 히스토그램은 이름으로 구분하기 때문에 같은 이름을 사용하지 않도록 하자. 같은 이름을 사용할 경우 이미 사용하고 있던 히스토그램의 정보가 없어지는 일이 발생한다. 일반적으로 Statistics box의 맨 위에 표시된다.
- 타이틀, Title: 타이틀은 히스토그램의 간단한 설명으로 볼 수 있다. 없어도 상관없으며 일반적으로 히스토그램 그림 위에 표시된다.