생각 작업실 The atelier of thinking

53. 표집분포와 확률표본 그리고 통계량 본문

통계학 이야기

53. 표집분포와 확률표본 그리고 통계량

knowledge-seeker 2023. 11. 16. 22:09

Chapter 53. 표집분포와 확률표본 그리고 통계량

 

1. 확률표본(Random Sample)

 

(1) 확률표본이란

 

확률표본은 모집단에서 무작위로 추출한 표본으로, 각각의 표본은 동일한 확률로 추출된다는 특징을 가지고 있습니다. 이를 통해 표본이 모집단을 대표하고 있다고 가정할 수 있으며, 통계적 추론을 할 때 이를 이용하여 모집단의 특성을 추정하거나 가설 검정을 수행합니다. 즉, 확률표본은 통계적 추론의 첫 걸음입니다.

 

확률표본은 모집단에서 추출한 표본으로, 이를 통해 확률분포를 추정할 수 있다. 확률분포는 확률표본으로부터 구한 통계량의 분포를 의미한다. 

예를 들어, 키에 대한 모집단 분포를 추정하기 위해 무작위로 표본을 추출할 때, 이를 통해 추정한 통계량인 평균과 표준편차를 이용하여 정규분포를 추정할 수 있다. 이러한 정규분포는 확률표본에서 얻은 통계량을 중심으로 분포하게 됩니다.

 

따라서, 확률표본과 확률분포는 서로 밀접한 관련이 있으며, 확률표본에서 추출한 통계량을 이용하여 확률분포를 추정할 수 있습니다.

확률분포를 통해 확률변수가 어떤 값을 취할 확률을 구할 수 있고, 확률표본은 확률분포에서 추출한 하나의 값으로 확률분포를 통해 어떤 값이 추출될 확률을 구할 수 있습니다.

 

(2) 확률표본 추출

 

확률표본은 확률을 통계량으로 바꾸는 단계에 필요한 부분입니다.

확률표본은 모집단에서 무작위로 선택되어진 관측값을 말합니다.

확률표본이 만족해야 할 요소는 서로 독립이고 동일한 분포를 따른다고 가정합니다.

  ( independent and identically distributed - iid )

 

 정규분포에서 확률표본을 추출한 경우 아래와 같이 표현합니다.

 

$$ X_1,X_2,...,X_n \overset{\mathrm{iid}}{\sim} N(\mu , \sigma^2) $$

 

(3) 확률표본의 성질

 

독립이기 때문에 결합분포는 각각의 주변분포 곱으로 표시합니다.

 

$$ f_{X_1,X_2,...,X_n} (x_1,x_2, ..., x_n) = f_{X_1}(x_1) \cdot \cdot \cdot f_{X_n}(x_n) = \prod_{i=1}^{n} f_{X_i}(x_i) $$

 

동일한 분포를 따르기 때문에 동일한 확률질량(밀도)함수를 가집니다.

 

$$ \prod_{i=1}^n f_{X_i}(x_i) = \prod_{i=1}^n f(x_i) $$

 

$ X_1,X_2, ..., X_n$ 이 확률표본이고, $X \sim f(x)$ 이면, 결합분포는 아래와 같습니다.

 

$$ f_{X_1,X_2,...,X_n} (x_1,x_2, ..., x_n)  = \prod_{i=1}^{n} f(x_i) $$

 

◈ 예제 : 윷놀이

 

윷이 젖혀지면 1, 업어지면 0 이라 한다고 했을 때, 윷을 4번 던졌을 때, 이 확률분포의 결합확률질량함수는 ?

 

각 회차마다의 확률변수는 베르누이 분포를 따릅니다.

즉, $X_i \sim B(1,p) $ 로 표현할 수 있으며, 이 때의 확률질량함수는 $f(x)=p^x(1-p)^{1-x} , x=0,1 $ 입니다.

 

윷 4개를 던졌을 때, 각각의 윷은 독립이고 별개이며 확률은 같습니다.

따라서, 확률표본은 아래와 같이 표현할 수 있습니다.

 

$$ X_1,X_2,X_3,X_4 \overset{\mathrm{iid}}{\sim} B(1 , p) $$

 

즉, 서로 독립이고 동일한 분포를 따릅니다. 이 때, 확률표본의 결합확률질량함수는 아래와 같습니다.

 

$$ f_{X_1,X_2,X_3,X_4} (x_1,x_2, x_3, x_4)  = \prod_{i=1}^{4}p^{x_i}(1-p)^{1-x_i} $$

 

 

2. 통계량(Statistics)

 

(1) 통계량과 모수

 

확률분포로부터 추출된 확률표본에 대해 계산 가능한 함수를 통계량이라고 합니다.

통계량은 데이터의 특성을 요약하거나 추정하는 데 사용되며, 확률분포를 이용하여 계산됩니다.

예를 들어, 평균, 분산, 상관계수,회귀계수 등이 대표적인 통계량입니다.

통계량은 관측가능한 표본의 함수를 말하는 데 관측 가능하다는 것은 미지의 모수를 포함하지 않음을 의미합니다.

모수란 모집단의 수치적 특성을 말합니다. 

 

예를 들면, 전교생이 20,000명인 어느 대학교 학생들 키의 평균을 알아보려고 했을 때, 전교생 20,000명 모두 키를 재고난 후 산출한 평균은 모수이고, 50명의 학생을 뽑아 키를 재고 산출한 평균은 통계량이라 할 수 있습니다.

이 때 50명의 학생 키 평균이 170cm 이었다고 해도, 또 다른 50명을 새롭게 뽑아 키 평균을 내면 똑같이 170cm일 것이라는 기대는 할 수 없을 겁니다.

 

(2) 추정량(Estimator)과 추정치(추정값)(Estimated Value)

 

확률표본에서 얻은 데이터를 이용하여 모수에 대한 정보를 추정하고자 할 때, 그 추정에 사용되는 통계량을 추정량(estimator)이라고 합니다.

추정량은 확률표본으로부터 계산되는 함수로 정의되며, 추정량을 이용하여 모수에 대한 추정치를 계산할 수 잇습니다.

추정량은 모수를 추정하기 위해 사용하는 공식이나 방법론이며, 추정치는 해당 공식이나 방법론을 적용하여 계산된 값입니다.

예를 들어, 확률표본의 평균을 이용하여 모평균을 추정할 경우에 평균은 추정량이 되고 그 추정량에 확률분포에서 계산된 신뢰구간이나 신뢰도 등을 반영하여 구한 값이 추정치가 되는 것입니다.

 

추정치는 추정량에 따라 달라지게 되며, 추정량을 통해 구한 추정치의 정확성과 신뢰성을 검증할 수 있습니다.

 

$ X_1,X_2,...,X_n \overset{\mathrm{iid}}{\sim} N(\mu , \sigma^2) $ 일 때, $\sigma^2$을 알고 있다고 가정할 때, 추정량과 추정치는 아래와 같이 표현할 수 있습니다.

추정량 $ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i$ 로 표현하고 이 때는 추출 전이므로 확률변수(대문자로 표시)입니다.

추정값은 $ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$ 로 표현하고 이 때는 추출 후이므로 상수입니다.

 

3. 표집분포 (Sampling Distribution)

(1) 표집분포란?

 

표집분포는 통계량의 (모집단) 확률분포입니다.

통계량의 값은 표본 추출 때마다 바뀌게 됩니다. 즉, 통계량은 확률변수가 됩니다. 확률분포는 확률변수가 특정값을 가질 확률을 말합니다.

n개의 크기를 가지는 표본을 모집단에서 반복해서 추출하여 나온 통계량의 확률분포가 표집분포입니다. 결국 표집분포는 모집단의 확률분포를 나타냅니다.

 

(2) 표집분포를 구하는 방법

 

 먼저 모든 가능한 표본의 경우를 나열합니다.

 각 표본에 대하여 통계량의 값을 계산합니다.

 얻어진 통계량의 값 중에서 서로 다른 값을 나열하고, 같은 값을 가지는 통계량의 개수를 세어 확률을 정합니다.

 

(3) 표집분포를 사용하는 이유

 

 표본에서 얻은 정보를 이용하여 모집단에 대한 추론을 하기 위해서는 표본에서 얻은 통계량을 이용하여 모집단의 모수를 추정하거나, 두 개 이상의 모집단 간의 차이를 비교하는 등의 통계적 가설검정을 수행해야 합니다. 이 때, 표본에서 얻은 통계량이나 검정통계량 등이 얼마나 변동성을 가지는지를 알아야 합니다.

 

하지만 모집단의 모수를 알 수 없기 때문에 이론적으로 표본에서 추출한 모든 표본에 대해 통계량을 계산할 수는 없습니다. 따라서, 표본에서 얻은 통계량이나 검정통계량 등이 어느 정도의 변동성을 가지는지에 대한 정보를 이용하여 추론을 하게 됩니다. 이 때, 표본에서 얻은 통계량의 분포를 표집분포라고 부르며, 표집분포를 이용하여 통계적 추론을 수행합니다.

 

표집분포는 모집단에서 표본을 추출하는 과정에서 생기는 불확실성을 반영하여, 표본에서 얻은 통계량이 모집단에서 어떤 값을 가질 확률분포를 의미합니다. 이를 이용하여 추론을 하면, 표본에서 얻은 통계량의 신뢰성이나 유의성 등을 평가할 수 있습니다. 따라서, 표집분포를 활용하는 것은 통계적 추론에 있어서 꼭 필요한 부분입니다.