생각 작업실 The atelier of thinking

82. 분산분석(ANOVA)이란 본문

통계학 이야기

82. 분산분석(ANOVA)이란

knowledge-seeker 2024. 6. 25. 15:57

Chapter 82. 분산분석(ANOVA) 이란

 

1. 분산분석 개요

 

분산분석(ANOVA, Analysis of Variance)은 세 개 이상의 그룹 간의 평균 차이를 비교하는 통계적 기법입니다.

앞서 두 그룹의 평균 차이 비교는 T검정을 사용하여 추론하였으나 세 그룹 이상의 평균 차이 비교에는 분산분석을 사용합니다.

 

 

 

분산분석(ANOVA)은 영국의 통계학자인 Ronald A. Fisher에 의해 개발되었습니다. Fisher는 1918년에 제안된 분산분석 방법을 통해 여러 그룹 간의 평균 차이를 비교하는 효과적인 통계적 기법을 개발했습니다. Fisher의 분산분석은 그 후 통계학과 다양한 분야에서 널리 사용되어 왔습니다.

분산분석의 핵심 개념은 여러 그룹 간의 평균 차이를 검정하는 것이지만, 이 방법이 각 그룹의 데이터에 대한 분산을 분석하여 그룹 간의 차이를 평가한다는 개념에 근거합니다.
분산분석은 그룹 간의 평균 차이를 평가하기 위해 각 그룹 내의 변동과 그룹 간의 변동을 비교합니다.

따라서 이름은 "분산"에 해당하는 내용에서 유래하지만, 실제로는 평균 차이를 검정하는 데 사용됩니다. 이러한 분산분석 방법은 그룹 간의 평균 차이를 비교하는 데 효과적이며, 그룹 간의 변동성에 따라서 그룹 간의 차이를 평가하는 방법으로서 널리 사용됩니다.

 


2. 분산분석의 주요 용어

 

(1) 반응변수(Response Variable) 또는 종속변수(Dependent Variable)

 

  연구에서 측정하거나 관찰하는 주요 관심 대상입니다. 보통 연속형 데이터이며, 그룹 간의 차이를 비교하려는 대상입니다.

 

(2) 설명변수(Explanatory Variable) 또는 독립변수(Independent Variable)

 

반응변수에 영향을 미치는 변수입니다. 다른 그룹 간의 평균 차이를 설명하고자 하는 변수입니다.

설명변수(독립변수)는 변수의 특성에 따라 공변량과 요인으로 분류해 볼 수 있습니다.

 

① 요인(Factor)

 

범주형 변수로, 실험에서 조작할 수 있는 변수를 나타냅니다.
주로 처리 또는 그룹을 나타냅니다. 요인은 두 개 이상의 수준을 가질 수 있습니다.
예를 들어, 약물 투여 여부(약물 투여 그룹 vs. 플레이스보 그룹)나 교육 수준(고졸 vs. 대학 졸업 vs. 대학원 졸업) 등이 요인의 예입니다.

 

② 공변량(Covariate)

 

연속형 변수로, 실험 결과에 영향을 줄 수 있는 다른 변수를 나타냅니다.
주로 반응변수와 관련이 있는 다른 변수를 공변량으로 사용합니다.
예를 들어, 나이, 체질량 지수(BMI), 초기 증상의 심각도 등이 공변량의 예입니다.

요인과 공변량은 주로 실험의 설계와 관련이 있습니다. 요인은 실험자가 직접 조작할 수 있는 범주형 변수이며, 실험 그룹을 나타냅니다. 반면에 공변량은 실험의 결과에 영향을 줄 수 있는 다른 변수를 나타내며, 실험자가 직접 조작할 수 없습니다.

분산분석(ANOVA)에서 요인과 공변량은 모두 처리 또는 그룹 간의 차이를 설명하는데 사용됩니다. 요인은 그룹 간의 평균 차이를 나타내고, 공변량은 추가적인 변동을 설명하여 실험 결과의 정확성을 높이는 데 도움이 될 수 있습니다.

 

(3) 처리(Treatment 또는 Factor)

 

실험에서 조작할 수 있는 조건 또는 범주입니다. 일반적으로 그룹을 나타냅니다. 예를 들어, 약물 투여 여부, 교육 수준, 또는 광고 형식 등이 될 수 있습니다.

 

(4) 효과(Effect)

 

처리 또는 다른 요인들이 반응변수에 미치는 영향을 나타냅니다. 그룹 간의 평균 차이를 설명하는데 사용됩니다.

 

 

◈ 예제 : 약물 치료의 효과를 조사하는 경우


  ★ 반응변수: 환자의 건강 상태 (예: 혈압, 혈당 농도)
  ★ 설명변수: 약물 투여 여부 (약물 투여 그룹 vs. 위약 그룹)
  ★ 처리: 약물 투여 여부 (약물 투여 그룹 vs. 위약 그룹)
  ★ 효과: 약물 투여의 건강 상태에 대한 영향

분산분석은 이러한 요인들 간의 관계를 분석하여 그룹 간의 차이가 우연적인지 혹은 실제 효과가 있는지를 판단하는데 사용됩니다.

 


 

3. 분산분석의 종류

 

분산분석(ANOVA)은 여러 가지 형태와 목적에 따라 세부적으로 분류될 수 있습니다. 가장 일반적으로 사용되는 분류 방법으로 반응변수(종속변수)의 수에 따라, 설명변수(독립변수)의 수에 따라 분류할 수 있습니다.

우선 반응변수(종속변수)의 수에 따라 분류하면,

 

 

(1) 단일변량분산분석(Univariate Analysis of Variance, ANOVA)

 

반응변수(종속변수)가 하나인 경우에 적용됩니다. 주로 하나의 설명변수(요인)에 대한 여러 수준 간의 평균 차이를 비교하는 데 사용됩니다.

예를 들어, 한 가지 요인(예: 비료 종류)에 따라 여러 그룹(예: 비료 A, B, C)의 평균 수확량을 비교하는 경우에 단일변량분산분석을 사용할 수 있습니다.

 

(2) 다변량분산분석(Multivariate Analysis of Variance, MANOVA)

 

반응변수(종속변수)가 둘 이상인 경우에 적용됩니다. 여러 반응변수(종속변수) 간의 상호작용이나 효과를 검정하기 위해 사용됩니다. 반응변수(종속변수)들 간의 상관관계나 중복되는 정보를 고려하여 종속변수들 간의 차이를 분석합니다.

예를 들어, 비료 종류에 따라 수확량과 식물의 키라는 두 종속변수 간의 차이를 동시에 분석하는 경우에 다변량분산분석을 사용할 수 있습니다.

따라서 종속변수의 수를 기준으로 단일변량분산분석과 다변량분산분석을 구분합니다. 종속변수의 수와 데이터의 특성에 맞게 적절한 분석 방법을 선택하여 데이터를 분석해야 합니다.

 


4. 단일변량 분산분석 (Univariate Analysis of Variance, ANOVA)

 

단일변량분산분석은 설명변수(독립변수)의 수에 따라 아래와 같이 분류할 수 있습니다.

 

 

(1) 일원배치 분산분석(One-Way ANOVA)

 

한 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인의 각 수준(그룹) 간의 반응(종속)변수의 평균 차이를 비교합니다.
예를 들어, 비료 종류에 따른 작물 수확량을 비교하는 경우에 사용됩니다.

 

(2) 이원배치 분산분석(Two-Way ANOVA)

 

두 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인들의 각 수준 조합에 대한 종속변수의 평균 차이를 비교합니다.
예를 들어, 비료 종류와 작물 종류에 따른 수확량을 비교하는 경우에 사용됩니다.

 

(3) 다원배치 분산분석(Multi-Way ANOVA)

 

세 개 이상의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 각 요인의 각 수준 조합에 대한 종속변수의 평균 차이를 비교합니다.
예를 들어, 비료 종류, 작물 종류, 작물 생장기간에 따른 수확량을 비교하는 경우에 사용됩니다.

이렇게 설명(독립)변수(요인)의 수에 따라 단일변량분산분석을 일원배치분석, 이원배치분석, 다원배치분석으로 분류할 수 있습니다. 데이터의 설계와 구조에 따라 적절한 분석 방법을 선택하여 사용해야 합니다.