안녕하세요. 이번 포스팅에서는 통계적 분석 절차에 대해 살펴보겠습니다.
의사결정에 필요한 정보를 수집할 목적으로 통계적 방법을 활용할 때, 우리가 수행하는 통계적 분석작업은 설계, 탐색, 추정, 가설검정으로 구분할 수 있습니다.
먼저 설계단계는 다음과 같습니다.
1. 설계단계
통계적 분석을 위해서는 자료수집을 위한 설계가 필요합니다. 통계분석에 사용하는 자료를 수집하는 방법은 표본조사, 실험계획, 과거실적자료로 나누어 볼 수 있습니다.
표본조사는 시장수요 파악, 신제품 설계, 경쟁력 확보를 위한 전략수립 등의 목적으로 조사할 경우에 필요한 자료를 확보하기 위한 방법입니다.
실험계획은 화학공장의 공정최적화, 품질 원가 등 표준설정을 위한 효과적 방법으로 자연과학 분야에서 사용빈도가 높습니다.
과거실적자료는 경제주체의 과거 실제 활동상태를 기록한 자료입니다. 사회과학 분야에서 주로 접하는 자료로, 관심변수 이외의 다른 변수에 의한 효과를 많이 포함하고 있습니다.
자료 수집을 위한 설계단계에서는 수집할 자료의 유용성과 자료수집에 필요한 비용을 고려해서 설계해야 합니다.
시간과 비용을 투입하여 수집한 자료에서 중요한 조사목적에 대한 해답을 얻을 수 없다면 잘못된 설계입니다. 좋은 설계는 꼭 필요한 내용의 자료를 꼭 필요한 양만큼 확보하는 것입니다.
다음은 탐색단계에 대해 알아보겠습니다.
2. 탐색단계
자료가 확보되면, 그 내용을 개략적으로 검사하여 자료의 용도에 적합한지를 확인해야 합니다.
탐색단계에서는 자료에 우리가 기대했던 관계가 실제로 존재하는가를 밝힘으로써 계획한 분석법의 유효성을 확인하고, 자료에서 예기치 않은 중요한 구조를 발견하였다면, 사전에 계획한 분석기법은 다른 대안으로 바뀌어야 합니다.
이 과정에서 우리는 흔히 관심변수의 대표치와 분포를 살펴봅니다. 모든 통계적 분석은 컴퓨터에 들어간 투입자료가 좋을 때에만 유효한 결과를 얻을 수 있습니다.
그러므로, 탐색단계에서는 자료에 오류가 있으면 수정하고, 분석기법으로는 무엇이 적합한지를 평가하여 최선을 방법을 선택합니다. 또한 선택한 분석기법의 유효성도 확인해야 합니다.
다음은 추정단계입니다.
3. 추정단계
통계학의 중요한 관심사항은 우리가 알지 못하는 미지수를 추정하는 것이고, 또 다른 목적은 둘 또는 그 이상 집단 간의 차이를 확인하는 것입니다.
미지수의 추정에서 우리가 할 수 있는 최선은 하나의 가장 그럴듯한 추측 치를 얻는 것입니다.
신뢰성이 높은 자료가 있을 때 우리는 통계적 방법으로 자료 전체에 대한 가장 그럴듯한 모습을 보여준다는 점에서 좋은 추정치를 얻을 수 있습니다.
모든 통계적 추정치는 많은 가능성 중에서 가장 그럴듯한 하나의 추정치이므로 틀릴 수도 있다는 것을 이해해야 합니다.
이러한 목적의 척도가 신뢰구간입니다. 신뢰구간은 추측치의 불확실한 정도를 나타내는 것으로 미지수의 상한과 하한을 표시합니다.
다음 분기의 매출이 500억 원으로 기대된다는 평가도 어느 정도 유용한 정보가 됩니다. 그러나, 매출이 최소 450억 원 이상 최고 550억 원 사이가 될 가능성이 95%라고 한다면 다음 분기의 매출액 규모에 대한 이해를 더 높일 수 있습니다.
다음은 마지막 단계인 가설검정입니다.
4. 가설검정
불확실한 상황에서 두 개의 가능성 중에서 하나를 선택하는 것을 가설검정이라고 합니다.
증명되어 있지 않은 모든 주장은 가설이며, 가설검정은 자신의 주장과 그 반대의 주장 중 어느 것이 더 타당한가를 통계적으로 확인하는 방법입니다.
그러므로, 통계학에서 다루는 가설은 통계적으로 평가할 수 있어야 하며, 이러한 가설을 통계적 가설이라고 합니다.
가설은 하나의 주장이므로 사실이 아닐 수도 있습니다. 통계적 검정을 통해서 가설을 수용하거나 기각하는 결정을 합니다. 그러나 이것은 가설을 증명하는 것이 아닙니다. 그러므로, 가설에 맞지 않는 하나의 현상을 찾았다고 통계적 가설을 기각할 수 없습니다.
가설에 부합하는 현상의 발생가능성이 가설과 반대되는 현상의 발생가능성보다 ‘충분히’ 높으면 그 가설을 틀렸다고 할 수 없습니다.
문제는 ‘어느 정도를 충분하다고 할 수 있는가?’입니다. 이 질문에 답하기 위해서는 분석에 사용된 자료의 분포적 특성을 알아야 합니다. 이러한 목적으로 우리는 조사표본의 대표성, 표본통계량의 분포 등을 이해해야 합니다.
이상으로 통계적 분석 절차에 대해 살펴보았습니다.
감사합니다.
함께보면 도움 되는 글
통계분석 관련 자료(DATA) 종류
통계분석에서는 여러 가지 형태의 자료가 이용되며, 자료의 형태에 따라 적용되는 분석기법도 다양합니다. 분석자료(data set)는 다수의 관측대상들로 구성되는데, 각 관측대상은 분석자료의 기
wmhb.kr
중심경향치의 특징과 선택
임의로 선정한 다섯 명의 키가 각각 165cm, 168cm, 171cm, 175cm, 179cm 일 경우 이들 다섯 명의 키를 하나의 대표적 수치로 나타내고 싶다면 얼마로 하는 것이 전체적 경향을 잘 나타낸다고 할 수 있을까
wmhb.kr
분산도 종류 및 계산
주어진 자료의 특성을 완전하게 기술하게 이해하기 위해서는 산출평균, 중앙치 등의 중심경향치와 함께 각 관측치들이 서로 얼마나 밀집 또는 분산되어 있는가를 알아야 합니다. 통계적 분석이
wmhb.kr
통계적 가설검정의 의미와 절차
가설의 검정은 통계적 추론에 있어 가장 중요한 영역으로, 표본자료에서 얻은 통계량을 이용하여 모집단의 특성인 모수에 대한 정보를 분석하는 과정이라고 할 수 있습니다. 즉, 표본자료를 이
wmhb.kr
정규분포 이해 및 활용
정규분포는 통계학에서 가장 대표적인 연속 확률분포이며, 가장 많이 사용됩니다. 정규분의 모양이 종 모양 형태이기 때문에 종형분포라고 불리기도 하며, 가우스분포라고 합니다. 통계조사의
wmhb.kr
표본추출 이해
무작위 표본추출 귀납적 추론과정에서는 해당 모집단의 모수를 추정량을 통해 추정하게 되는데 그 추정이 얼마나 정확할 것인가 하는 문제는 추출된 표본이 얼마나 좋은 표본인가에 따라 결정
wmhb.kr
인구 관련 통계학 이해(1)
인구 증가율 인구 증가율은 특정 지역의 인구가 일정기간 증가하는 비율을 의미하며, 출생자 수에서 사망자 수를 차감한 후, 이 수를 전체 인구수로 나누어 계산합니다. 한 국가가 계속 성장하
wmhb.kr
인구 관련 통계학 이해(2)
도시화율 도시화율은 도시 지역에 거주하는 인구의 비율을 의미합니다. 도시화율은 보통 높은 인구 밀도, 문화, 경제활동이 집중되어 나타납니다. 이 비율은 국가의 개발 수준의 척도로 사용되
wmhb.kr
통계학의 기원 및 일상 생활에서의 통계학
통계학의 기원 통게학은 17세기에 들어서며 학문으로 확립되었지만, 그 이전부터 고대 로마, 중국, 바빌로니아 등에서 인구 조사 등 간단한 통계가 행해졌습니다. 고대 로마제국의 초대 황제 아
wmhb.kr
효과적인 자료수집 방법
조사의 내용이나 목적이 다양해도 본질적으로 대부분의 조사는 전체(모집단)를 모두 조사하지는 않습니다. 전체의 일부인 표본만 조사해 전체를 예측합니다. 다시 말하면 대부분의 조사에서는
wmhb.kr
모수와 비모수 통계분석방법
모수통계분석방법 모집단의 분포 또는 검정통계량의 표본분포를 안다는 가정에서 그 적합성이 성립되는 분석방법들을 모수통계분석방법이라 부릅니다. 검정통계량의 표본분포를 알 수 없는
wmhb.kr
로또 당첨 확률 계산과 1등 당첨자 수 적정성 확인
이번 포스팅에서는 로또 등위결정방법, 당첨확률 및 당첨금 배분 구조와 로또 당첨확률 계산 방법, 1등 당첨자 수의 적정성을 확인하겠습니다. 로또는 ㈜동행복권에서 운영하고 있으며, 총당첨
wmhb.kr
'(1) 통계개념' 카테고리의 다른 글
정규분포 이해 및 실생활 활용 (0) | 2024.01.14 |
---|---|
통계적 가설검정 의미와 절차 (0) | 2024.01.14 |
분산도 종류 및 특징 (0) | 2024.01.13 |
중심경향치 종류, 특징, 선택 (0) | 2024.01.13 |
통계분석 관련 자료(DATA) 종류 (0) | 2024.01.13 |