2. 통계학의 개요
Chapter 2 . 통계학의 개요
1. 모집단과 표본
통계학은 모집단과 표본 간의 관계를 이용하여 데이터의 특성을 이해하고 모집단에 대한 추론을 수행하는 학문입니다. 따라서, 모집단과 표본 간의 관계는 통계학의 시작이라고 말할 수 있습니다.
(1) 모집단 : 관심의 대상이 되는 집단
모집단은 조사하고자 하는 전체 개체 또는 현상의 집합을 의미합니다.
모집단은 보통 크기가 매우 크거나 접근하기 어려운 경우가 많기 때문에, 모집단의 특성을 직접 파악하기 어렵습니다.
(2) 표본 : 모집단으로부터 선택된 일부의 개체
표본은 모집단에서 추출한 일부 개체 또는 현상의 집합을 의미합니다.
표본은 모집단을 대표할 수 있는 일부 데이터를 포함하고 있으며, 모집단의 특성을 추론하기 위해 사용됩니다.
표본은 모집단의 특성을 파악하는 데에 활용되는 중요한 도구입니다.
(3) 모집단과 표본의 관계
통계학은 관심 또는 연구의 대상인 모집단의 특성을 파악하기 위해,
모집단으로부터 일부의 자료(표본)를 수집하고,
수집된 표본을 정리, 요약, 분석하여 표본의 특성을 파악한 후,
표본의 특성을 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 제공하는 학문입니다.
모집단과 표본 간의 관계를 이해하고 통계적 기법을 적용하여 모집단에 대한 결론을 도출하는 것이 통계학의 주요 목표입니다.
예를 들어, 대통령 선거 전에 각 후보별 지지율에 대한 여론조사를 한다고 할 때, 모집단은 선거인 명부 유권자 전체가 될 것이고 표본은 여론조사에 참여한 유권자가 될 것입니다.
모집단 전체를 조사하는 것이 가장 정확하겠지만, 모집단이 너무 클 경우 시간과 비용이 많이 들기 때문에 표본을 뽑아 조사하게 됩니다.
위 그림은 모집단과 표본의 관계를 보여 주고 있습니다.
관심의 대상이 모집단, 모집단의 특성이 모수인데, 모집단을 여러가지 이유로 다 분석을 할 수 없기 때문에 자료를 뽑아서 일부의 자료를 분석하게 됩니다. 여기서 뽑힌 자료가 표본이고, 뽑힌 자료를 가지고 계산해내는 각종 수치들이 통계량입니다. 이 표본의 통계량을 분석하여 다시 모집단을 추론하게 됩니다.
2. 통계학의 종류
통계학은 크게 두 가지로 분류할 수 있습니다.
(1) 기술 통계학 (Descriptive Statistics)
- 자료를 변수 별로 따로따로 또는 관계되는 변수끼리 묶어서 요약하는 것 입니다.
- 데이터의 특성과 패턴을 요약하고 설명하는 데 초점을 두고 있습니다.
- 데이터의 중심 경향성(평균, 중앙값, 최빈값)과 변이성(표준편차, 분산,범위)을 계산하여 데이터의 대략적인 특성을 파악합니다.
- 데이터의 분포, 모양, 이상치 등을 시각화하여 데이터의 특징을 이해하고 설명합니다.
- 데이터의 요약 통계량, 그래프, 표 등을 사용하여 데이터를 알기 쉽게 전달합니다.
(2) 추론 통계학 (Inferential Statistics)
- 정리된 자료에 담긴 의미를 해석하여 미지의 세계에 대해 추론하는 것 입니다.
- 추론통계학은 표본 데이터를 분석하여 모집단의 특성과 관련된 결론을 도출하는 데 초점을 맞춘다.
- 표본 데이터를 사용하여 모집단의 특성(모수)에 대한 추정, 가설 검정, 신뢰구간 등의 통계적 추론을 수행한다.
- 통계적 모델링을 통해 데이터의 관계와 인과관계를 탐구하고 예측을 수행한다.
- 표본의 선택, 추정 방법, 가정 등에 따라 모집단에 대한 확률적인 추론을 수행한다.
기술통계학이 묘사하는 작업이라면 추론통계학은 묘사한 것을 새기는 작업이라 할 수 있습니다.
자료가 엄청나게 쌓여가고 있는데 분석이 안 된 상태로 방치되어 있거나 아니면 제대로 모르는 사람이 잘못 분석하거나 하는 자료들이 많습니다. 즉 원석을 다듬어야 다이아몬드가 되듯이 자료도 잘 분석해야 정보가 되는 것입니다.
기술통계학은 데이터의 특성을 요약하고 설명하는 데 초점을 맞추며,
추론통계학은 표본 데이터를 통해 모집단의 특성에 대한 추론을 수행하는 데 초점을 맞추고 있습니다.
기술통계학은 데이터의 특징을 파악하고 설명하는 데 도움을 주며,
추론통계학은 표본을 사용하여 모집단에 대한 결론을 도출하는 데 사용합니다.
(3) 확률
확률은 기술통계학과 추론통계학을 연결하는 핵심적인 개념입니다.
여기서 확률은 사건이 발생할 가능성을 수치적으로 나타내는 도구로 사용됩니다.
기술통계학에서는 확률을 사용하여 데이터의 분포와 특성을 요약하고 설명합니다. 예를 들어, 주어진 데이터에서 특정 사건이 발생할 확률을 계산하여 데이터의 특징을 설명하거나, 데이터를 특정 분포로 가정하여 분석하는 등에 확률을 활용합니다. 이를 통해 데이터의 분포 형태, 중심 경향성, 분산 등을 알 수 있습니다.
추론통계학에서는 확률을 사용하여 표본 데이터로부터 모집단의 특성을 추론합니다. 표본 데이터를 통해 모집단의 특성에 대한 가설을 세우고 검정하거나, 표본 데이터를 사용하여 모집단의 특성을 추정하는 등의 작업을 수행할 때 확률을 활용합니다. 확률은 표본과 모집단 간의 관계를 설명하고, 표본을 통해 모집단의 특성을 추론하는 데에 필수적인 도구로 사용됩니다.
따라서, 확률은 기술통계학과 추론통계학을 연결하는 역할을 합니다.
기술통계학에서는 데이터의 분포와 특성을 설명하기 위해 확률을 사용하고,
추론통계학에서는 확률을 통해 표본과 모집단 간의 관계를 설명하고 모집단의 특성을 추론하는 데에 활용합니다.
즉, 확률을 통해 통계학은 데이터를 이해하고 해석하는 기술통계학과 불확실성을 다루며 모집단을 추론하는 추론통계학 사이를 연결하는 역할을 수행합니다.
통상 통계학의 공부 순서는 기술통계학,확률, 추론통계학 순으로 하는 경우가 많습니다.
모집단,표본과 기술통계,추론통계간의 관계는 아래와 같이 나타낼 수 있습니다.
3. 전통적인 통계학과 데이터 사이언스를 위한 통계학
전통적인 통계학과 데이터 사이언스를 위한 통계학은 몇 가지 측면에서 차이가 있습니다.
(1) 내용의 차이
전통적인 통계학 과목은 자료의 소개와 요약 통계량, 확률과 확률분포, 표본분포, 검정 방법 등을 다룹니다. 이러한 과목은 통계학의 기본 개념과 이론, 통계적 기법과 추론 방법을 학습하는 데 초점을 두고 있습니다.
데이터 사이언스를 위한 통계학은 실제 문제를 통해 데이터 분석에 직접적으로 활용되는 내용에 집중합니다. 데이터 시각화와 탐색적 자료 분석, 불확실성의 근거 제시를 위한 확률 이론, 모형과 알고리즘 등에 중점을 두고 있습니다.
(2) 동기와 목적의 차이
전통적인 통계학은 통계 이론과 기법의 이해를 중심으로 합니다. 통계학을 공부하는 주된 목적은 모집단의 특성을 파악하고, 통계적 추론을 통해 결론을 도출하는 것 입니다.
데이터 사이언스를 위한 통계학은 실제 문제에 데이터를 적용하여 인사이트를 얻는 것을 목표로 합니다. 데이터 사이언스는 데이터를 통해 지식을 발견하고, 예측과 판단에 활용하는 것을 중요하게 여깁니다.
(3) 방법론의 차이
전통적인 통계학은 가설검정, 추정, 회귀분석 등의 통계적 기법을 사용합니다. 이러한 기법은 표본을 통해 모집단에 대한 추론을 수행하는 데에 활용됩니다.
데이터 사이언스는 데이터를 수집, 전처리, 시각화, 모델링, 예측 등 다양한 과정을 통해 분석합니다. 통계학은 이러한 데이터 분석과정에서도 확률 이론을 기반으로 한 불확실성의 근거 제시와 예측에 관한 추론을 수행하는 데에 활용됩니다.
요약하자면, 전통적인 통계학은 통계 이론과 기법에 중점을 두고 있으며, 모집단에 대한 추론과 통계적 추정을 다룹니다. 반면, 데이터 사이언스를 위한 통계학은 실제 문제에 데이터를 적용하여 인사이트를 얻는 것을 목표로 합니다. 데이터 시각화, 탐색적 자료 분석, 예측과 모델링 등의 과정에서 확률 이론과 통계적 기법을 활용합니다.