생각 작업실 The atelier of thinking

60. 통계적 추론(추론 통계학)의 개요 본문

통계학 이야기

60. 통계적 추론(추론 통계학)의 개요

knowledge-seeker 2023. 12. 22. 22:16

Chapter 60. 통계적 추론의 개요

 

1. 통계적 추론(추론 통계학)

 

통계학의 개요에서 아래의 그림으로 통계학을 표현하였습니다.

 

통계적 추론 혹은 추론 통계학은 표본으로부터 모집단이 무엇인지를 추론하는 것이라 할 수 있습니다.

 

 

통계적 추론을 통하여 얻어진 모집단은 처음 표본을 추출했던 모집단과는 정확히 일치하지 않을 수 있습니다.

하지만, 통계적 추론은 모집단 II를 처음 관심을 가졌던 모집단 I과 거의 같게 만드는 과정이라고 말할 수 있습니다.

 

통계학을 크게 아래와 같이 분류하였습니다.

 

 

 

통계적 추론(추론 통계학)은 조건에 따라 아래와 같이 분류할 수 있습니다.

 

 (1) 모집단에 대한 가정 여부에 따른 분류 :  모수적 방법 vs 비모수적 방법

 (2) 모수처리 방식에 따른 분류 : 빈도주의(Frequentist) vs 베이지안(Bayesian)

 (3) 추론 목적에 따른 분류 : 추정 vs 가설검정

 

※ 추론 통계학을 영어로 Inferential Statistics 이고 통계적 추론은 Statistical Inference로 같은 의미 입니다.


 

2. 모집단에 대한 분포 가정 여부에 따른 통계적 추론의 분류

 

(1) 모수적 추론(Parametric Inference)

 

 모수적 추론은 모집단의 확률 분포에 대한 특정한 가정을 하고, 이 분포의 모수(parameter)를 추정하고 검정하는 추론 방법입니다. 즉, 모집단의 분포에 대한 가정이 필요하며, 분포의 형태가 정확하게 알려져 있을 때 적용가능합니다.

 

 모수적 추론은 정규분포, 이항분포, T-분포, 카이제곱 분포 등을 이용하여 분석합니다. 대표적으로 평균 검정, 분산 검정, 상관관계 검정 등이 있습니다.

 

예를 들면, 정규분포를 따른다고 가정한다면, 모수인 평균과 분산을 추정하고 이 추정된 모수를 사용하여 가설 검정이나 신뢰구간을 계산합니다.

 

(2) 비모수적 추론(Nonparametric Inference)

 

비모수적 추론은 모집단의 분포를 가정하지 않고, 분포의 형태와 모수를 추정하지 않고 직접 표본 데이터를 이용하여 추론하는 방법입니다. 모집단이 어떤 분포를 따르는지 모르는 경우에 적용가능합니다.

 

비모수적 추론은 순위검정,부호검정,분위수 검정 등을 이용하여 분석합니다. 주로 이상점이 있는 경우에 사용됩니다.

다양한 형태의 통계량들을 고려할 수 있고 이들 통계량의 성질을 유도하고 이를 기반으로 통계적 추론을 실시하게 됩니다. 따라서 유도 과정이 어려운 경우가 많습니다.

 

예를 들면, 데이터를 크기에 따라 순위 또는 순서를 정하고 순위를 사용하여 중앙값,분위수, 순위 함 등 비모수적 통계량을 계산합니다.

 

 

모집단의 분포가 정규분포 등 알려져 있는 경우에는 모수적 추론을 사용하는 것이 적절하며, 모집단의 분포를 알 수 없거나 비대칭적인 경우에는 비모수적 추론을 사용하는 것이 더 적절하다고 할 수 있습니다. 또한 적용하고자 하는 문제와 데이터에 따라 적절한 추론 방법을 선택하여 사용해야 합니다.

 


 

3. 모수 처리 방식에 따른 통계적 추론의 분류

 

통계적 추론은 관측된 데이터로부터 모집단의 특성을 파악하고 결론을 도출하는 방법으로 모수적 방법과 비모수적 방법으로 나눌 수 있습니다. 이 모수적 방법은 빈도주의적 방법과 베이지안 방법이 있습니다.

 

 (1) 빈도주의적 추론(Frequentist Inference)

 

 빈도주의적 추론은 데이터가 주어진 상황에서 모집단의 모수가 어떤 값일 것인지에 대한 불확실성을 측정합니다. 이 방법은 모집단에서 얻은 표본의 빈도(또는 확률)를 사용하여 추론을 수행합니다.

 

 모수적 방법 중 가장 흔하게 사용되는 방법으로 표본의 분포에 대한 가정이 필요합니다. 추론 결과가 유의확률 등의 확률 개념을 이용하여 표현되며, 이에 따라 가설이 기각될 지를 결정합니다. 이 때 모수는 상수(constant, fixed value)로 가정합니다.

 

(2) 베이지안 추론(Bayesian Inference)

 

 베이지안 추론은 확률을 사건이 발생하는 불확실성의 정도로 간주합니다. 사전확률과 사후확률을 사용하여 모수에 대한 불확실성을 업데이트 합니다.

 

 관심 있는 모집단 특성에 대하여 사전 분포를 정의하고, 이를 갱신하여 사후 분포를 추론하는 방법입니다. 추론 결과가 확률로 표현되며, 이는 사전 분포와 데이터의 결합 확률 및 정규화 상수를 이용하여 계산됩니다.

 

여기서 사전분포란 표본수집 전 모수의 분포를 말하며, 사후분포는 표본수집 후 업데이트 된 모수의 분포를 말합니다.  빈도주의적 추론에서 모수는 상수로 가정하지만 베이지안 추론에서는 모수가 미지의 값으로 간주하기 때문에 확률변수가 되므로 확률분포에 관심을 가지게 됩니다.

 

 

 

빈도주의적 추론은 데이터를 중심으로 모수에 대한 불확실성을 측정하는데 강조를 두며, 베이지안 방법은 사전 정보와 데이터를 결합하여 불확실성을 처리합니다.

 


4. 추론 목적에 따른 통계적 추론의 분류

 

통계적 추론은 데이터로 부터 모집단에 대한 정보를 얻기 위한 방법으로, 추론 목적에 따라 추정과 가설검정으로 분류할 수 있습니다.

 

 

(1) 추정 (Estimation)

 

 추정이란 모집단의 모수에 대한 값을 알아내기 위한 방법입니다.

추정은 점추정과 구간추정으로 나눌 수 있습니다.

 

  ▶ 점추정(Point  estimation)

 추정하고자 하는 모수를 하나의 값으로 추정하는 방법입니다. 예를 들어, 모평균의 추정치로 표본평균을 사용하는 것입니다.

 

  ▶ 구간추정(Interval estimation)

  추정하고자 하는 모수가 포함될 가능성이 높은 구간을 추정하는 방법입니다. 예를 들어, 모평균의 구간추정을 하면서 신뢰구간을 계산하는 것입니다.

 

 추정은 모집단의 특성을 파악하기위해 표본 데이터를 사용하여 모수를 추정하는데 활용됩니다.

 

(2) 가설검정 (Hypothesis Testing)

 

 가설검정은 주어진 가설에 대해 데이터를 사용하여 통계적으로 검증하는 것을 의미합니다. 특히, 모집단의 특성에 대한 가설을 설정하고 이를 검정하는 데 사용됩니다.

가설검정은 귀무가설과 대립가설을 설정하고, 귀무가설이 기각되면 대립가설을 채택합니다.

 

▶ 귀무가설(Null hypothesis)

  검증하고자 하는 가설로 보통은 모집단에 대한 기존의 믿음이나 주장을 담고 있습니다.

 

▶ 대립가설(Alternative hypothesis)

   귀무가설을 기각하게 되면 채택할 가설입니다. 대립가설은 귀무가설과 모순되는 내용을 담고 있습니다.

 

가설검정에서는 유의수준과 검정통계량 등의 개념이 사용됩니다. 검정통계량은 표본에서 계산된 값으로, 귀무가설이 참인 경우에 따른 분포를 이용하여 p-value를 계산합니다. p-value가 유의수준보다 작으면 귀무가설을 기각하고, 그렇지 않으면 귀무가설을 채택합니다.

 

가설검정은 주로 새로운 이론이나 가설을 테스트하거나, 기존의 가정에 대한 통계적 근거를 찾기 위해 사용됩니다. 가설이 기각되면 새로운 관찰이나 이론이 받아들여 집니다.

 

 

추정은 모수의 값을 추정하고, 가설검정은 모수에 대한 가설을 검증합니다.