이번 포스팅에서는 분산도의 종류 및 특징에 대해 살펴보겠습니다.
주어진 자료의 특성을 완전하게 기술하게 이해하기 위해서는 산출평균, 중앙치 등의 중심경향치와 함께 각 관측치들이 서로 얼마나 밀집 또는 분산되어 있는가를 알아야 합니다.
통계적 분석이 필요한 이유 중 하나는 자료의 변동성입니다. 자료에 변동이 없다면, 즉 모든 관측치가 똑같다면 통계적 분석을 거치지 않고도 자명한 결론을 얻을 수 있습니다.
변동이 적을수록 자료에서 얻은 대표치의 신뢰도는 높아집니다. 관측치들의 퍼진 정도, 즉 분산도를 측정하기 위한 통계량은 범위, 사분편차, 분산과 표준편차, 변동계수, 왜도, 첨도가 있습니다. 각각의 특징에 대해 알아보겠습니다.
먼저 범위입니다.
범위
범위란 주어진 자료에서 가장 큰 값과 가장 작은 값의 차이를 의미하며, 분산도를 알아보는 방법 중 가장 손쉽게 값을 구할 수 있는 방법입니다.
다만 범위의 계산은 매우 간단하나, 이를 이용하여 자료의 분산도를 나타내기에는 몇 가지 문제점이 있습니다.
첫째, 범위는 자료에 포함된 관측치 수가 몇 개이든 간에 오직 두 개의 관측치만을 사용합니다. 두 개 이외의 관측치의 특징을 나타낼 수 없습니다.
두번째, 분산도가 의미 있는 정보로 그 역할을 하기 위해서는 각 관측치들이 중심경향치로부터 얼마나 떨어져 있는가를 나타내 주어야 하나, 범위의 경우 중심경향치를 전혀 고려하지 않습니다.
즉, 산술평균을 중심으로 하는 분산도에 차이가 있어도 범위는 이에 관한 구분을 전혀 하지 못하는 단점이 있습니다. 이를 보완하기 위하여 고안된 분산도의 측정이 뒤에서 설명할 표준편차입니다.
범위는 계산이 용이하다는 장점이 있으나 자료에 예외적으로 크거나 작은 관측치가 있으면 범위는 이들에 의해 결정되어 불안정하다는 단점이 있습니다.
그러므로, 표본의 크기가 그다지 크지 않을 때 사용됩니다. 범위가 가장 많이 사용되는 적용분야는 품질관리입니다.
다음은 사분편차입니다.
사분편차
관측치를 크기 순서로 늘어놓을 때 중앙에 오는 값을 중앙치라 합니다. 같은 개념으로 4분의 1에 해당하는 값을 Q1, 4분의 3에 해당하는 값을 Q3로 정의하면, 중앙치는 Q2에 해당합니다.
여기서 사분편차 Q = Q3 – Q1 로 정의합니다. 사분편차를 분산도로 사용하려면 자료의 수가 비교적 많아 Q1과 Q3가 안정적이어야 합니다.
범위는 예외적으로 크거나 작은 값의 영향을 크게 받아 불안정하다는 단점이 있으나, 사분편차는 극단적인 관측치의 영향을 받지 않으므로 보다 안정된 척도라 할 수 있습니다. 중심경향치로 중앙치가 사용될 때 분산도의 척도로 사분편차를 많이 이용합니다.
다음은 분산과 표준편차입니다.
분산과 표준편차
분산은 산술평균과 각 관측치 간의 차이를 제곱한 후 그 평균을 계산한 값입니다. 분산은 범위와 달리 모든 관측치를 이용하여 계산하며, 단순히 얼마나 퍼져 있는가를 나타내기보다는 평균에서 얼마나 떨어져 있는가를 알려줍니다.
따라서, 분산은 0보다 작을 수 없으며, 분산이 0인 경우에는 모든 관측치가 평균과 같은 값을 가지고 있다는 것을 의미합니다.
일반적으로 표본을 추출하여 모집단의 특성을 알아보고자 하는 경우, 표본의 분산은 표본의 평균과 각 관측치 간 차이의 제고합을 총 관측치수로 나누지 않고 (총 관측치수 – 1)로 나눕니다.
표본의 분산은 그 자체로 의미를 갖는다기보다는 모집단의 분산을 추정하기 위한 도구의 역할을 하게 되는데, (총 관측치수 – 1)로 나누어 표본의 분산을 계산하게 되면 모집단의 분산을 보다 정확하게 추정한다는 것이 이론적으로 증명되어 있습니다.
표준편차는 단순히 분산의 제곱근을 의미합니다. 분산은 제곱값의 평균이므로 측정의 단위가 원자료와 달라집니다.
그래서 제곱근을 취하여 측정단위를 같게 만든 것이 표준편차입니다. 표준편차는 분산과 마찬가지로 각 관측치가 평균으로부터 얼마나 떨어져 있는가를 알려줍니다.
다음은 변동계수에 대해 알아보겠습니다.
변동계수
범위, 표준편차 등은 표본자료의 중심경향치 크기를 고려하지 않는 분산도이므로 절대적 척도라고 합니다.
일반적으로 대푯값이 큰 자료의 표준편차는 대푯값이 작은 자료의 표준편차보다 크게 되는 경향이 있어, 대푯값이 서로 다른 두 자료의 분산도를 표준편차의 크기만으로 비교하는 데에는 무리가 있습니다.
이러한 단점을 보완하여 대푯값의 크기를 감안하여 분산도를 측정하는 척도가 변동계수(CV, coefficient of variation)입니다. 변동계수는 산술평균에 대한 표준편차의 비율로 계산하며, 표준편차계수 또는 변이계수라고도 부릅니다.
다음은 왜도입니다.
왜도
왜도는 분포의 비대칭정도, 즉 분포가 기울어진 방향과 정도를 나타내는 양입니다. 도수분포도가 최빈치를 기준으로 왼쪽보다 오른쪽으로 길게 뻗어 있으면 우측 왜도 또는 양의 왜도라 하고, 그 반대의 경우는 좌측왜도 또는 음의 왜도라고 합니다. 양의 왜도일 때는 평균이 최빈치보다 오른쪽에 있고, 음의 왜도일 때는 반대로 최빈치보다 왼쪽에 있습니다.
마지막으로 첨도입니다.
첨도
첨도는 분포도가 얼마나 중심에 집중되어 있는가, 다시 말해 분포의 중심이 얼마나 뾰족한가를 측정하기 위한 개념입니다.
지금까지 분산도의 종류와 특징에 대해 알아봤습니다.
감사합니다.
'(1) 통계개념' 카테고리의 다른 글
정규분포 이해 및 실생활 활용 (0) | 2024.01.14 |
---|---|
통계적 가설검정 의미와 절차 (0) | 2024.01.14 |
중심경향치 종류, 특징, 선택 (0) | 2024.01.13 |
통계분석 관련 자료(DATA) 종류 (0) | 2024.01.13 |
통계적 분석 절차 (2) | 2024.01.13 |