생각 작업실 The atelier of thinking

5. 자료 수집 - 통계적 실험과 관측 연구 본문

통계학 이야기

5. 자료 수집 - 통계적 실험과 관측 연구

knowledge-seeker 2023. 8. 22. 13:46

Chapter 5. 자료 수집

 

 

자료수집은 통계분석의 첫걸음입니다.

통계 자료 수집의 대표적인 세 가지 방법은 통계적 실험, 관측연구, 표본조사 입니다.

 


1. 통계적 실험 (Statistical Experiment)

 

통계적 실험이 사용되는 경우는 연구자가 실험 조건을 조작하여 원인과 결과 사이의 관계를 밝히는 것을 목적으로 하는 실험 방법입니다. 이를 통해 원하는 요인의 영향을 분석하고 추론 할 수 있습니다.

 

예를 들어, 비만과 운동의 관계 분석을 목적으로 실험을 한다면,

 

  1. 문제 설정 : 연구자가 비만과 운동 간의 관계를 조사하고자 한다고 가정합니다.
  2. 계획 : 연구자는 두 개의 실험 그룹을 설정합니다. 하나는 일반적인 활동 수준을 유지하는 그룹(A 그룹), 다른 하나는 더 많은 운동을 하는 그룹(B 그룹)입니다.
  3. 조작 : A 그룹은 현재 활동 수준을 유지하도록 하고, B 그룹은 일주일에 3번 이상 운동하도록 조작합니다.
  4. 측정 : 일정기간 동안 두 그룹의 참가자들의 체중 변화를 측정합니다.
  5. 분석 : 실험 종료 후 두 그룹의 평균 체중 변화를 비교하여 운동이 체중 감량에 미치는 영향을 분석합니다.
  6. 결과해석 : 만약 B 그룹이 A 그룹에 비해 통계적으로 유의미한 체중 감량을 보였다면, " 더 많은 운동을 하는 그룹에서 체중 감량이 더 크게 나타났다"와 같은 결론을 도출할 수 있습니다.

 

이 예시에서 통계적 실험은 연구자가 운동이 체중 감량에 미치는 영향을 정확하게 파악하기 위해 실험 조건을 조작하고 결과를 분석하는데 사용되었습니다. 

 

통계적 실험은 연구자가 실험 참가자를 임의로 다양한 조건하에 배치하여 설명변수와 반응변수 사이의 인과성(causality)을 조사하는 것입니다. 단, 모든 다른 조건은 같게하고 변수만 다르게 설정해야 올바른 결과를 얻을 수 있습니다.

 

다시한번 강조하자면, 자료 수집에 가장 우선시 되는 것은 올바른 방법을 사용해야 한다는 것입니다. 자료 수집이 잘못되면 아무리 훌륭한 통계분석을 하여도 원하는 정보를 얻을 수 없고 왜곡된 정보로 인하여 잘못된 결정을 내릴 수 있습니다.

 

따라서 실험에서 올바른 정보를 얻기 위한 몇 가지 안전장치가 있습니다.

 

 (1) 실험에서 집단 배정의 원리

       무작위 배정 (Randomized control)을 원칙으로 합니다. 예를 들어 확률에 의존한 무작위 배정, 또는 동전던지기 등을 이용하여 실험자의 의도와 무관하게 배정하는 것을 원칙으로 합니다.

 

 (2) 처리집단(Treatment)과 통제집단(Control)으로 구분하여 진행합니다.

 

 (3) 이중 눈가림(double blindness)

        피실험자가 본인이 처리를 받았는지 안 받았는지 모르게 조치하여 피험자의 심리적 효과 내지 위약효과(Placebo effect)를 통제하고, 또한 실험자가 피실험자의 소속집단을 모르게 조치하여 실험자가 피험자의 반응을 해석할 때 자의성이 개입되지 않도록 해야 합니다.

 

 

◈ 예제 : 솔크백신 임상실험

 

통계적 실험의 대표적인 것이 임상실험 입니다. 

1954년 솔크백신 임상실험 결과는 통제가 잘 된 경우와 통제가 안 된 경우를 보여주는 대표적인 예시입니다.

 

1954년 미국 보건국은 특정 지역의 초등학교 1~3학년 학생들을 임상실험 대상으로 선정하였습니다. 검증되지 않은 백신이므로 부모의 동의가 필수적이었습니다.

 

(1) 무작위 통제가 안 된 실험

 

 

 

 

1,3학년은 통제집단으로 2학년 학생 중 부모가 동의한 경우를 처리집단, 투약거부한 경우는 대조군으로 배정하였습니다. 언뜻보면 적절해보이지만, 처리집단과 통제집단은 모두 같은 표본에서 무작위로 추출되어야 하는데,  그렇지 못했습니다. 

 

 소아마비는 위생성 질병으로 유아기에 지나치게 위생적인 환경에서 자란 아이들은 세균에 대한 적절한 저항력이 없어 소아마비에 더 취약하다는 것을 알게 되었습니다. 백신접종에 동의한 부모들은 고소득층이 많았고 환경이 좋은 곳에서 자란 아이들이 소아마비에 걸릴 확률이 더 높은 상황에서 백신접종 여부에 따라 처리집단과 대조군으로 나눈 것은 백신효과를 저평가하는 결과를 낳게 되었습니다.

 

(2) 무작위 통제된 실험

 

 

 

생활 환경에 의한 차이를 방지하기 위하여 부모가 동의한 아이들을 무작위로 처리집단과 통제집단으로 나누고 이중 눈가림으로  아이들이 백신을 맞았는지 플라시보(식염수)를 맞았는지 알지 못하게하여 심리적인 원인에 의한 플라세보 효과도 통제하였습니다.

 

(3) 실험 결과 

 

주 : 발병률은 10만명당 발병환자수를 의미함.      출처 : J.M.Tanner,et al., Statistics, 3rd ed., p.12

 

 

무작위 통제가 안 된 실험에서는 25:54 로 백신효과로 발병률이 54% 줄어든 것으로 나타나지만, 통제가 잘 된 결과는 71:28로 백신효과로 발병률이 61% 줄어든 것으로 나타남을 알 수 있다. 통제된 실험에서 백신 효과가 더 좋은 것을 알 수 있습니다.

 

이 소아마비 백신은 1955년 승인되었고 이 후 5년 동안 소아마비 발병률을 90% 감소시켰다고 합니다. 이 백신을 만든 솔크 박사는 백신 제조법을 무료로 공개하면서, 특허를 내지 않은 이유를 "특허는 없다. 태양에도 특허를 낼건가?"라고 답했다고 합니다. 정말 태양 같은 분인 듯 합니다.


 

2. 관측 연구 (Observational Study)

 

 

 관측연구는 실험과 달리 조작하지 않고 이미 존재하는 데이터를 수집하여 분석하는 방법입니다. 관측연구에서는 전향적 연구와 후향적 연구로 구분할 수 있습니다.

 

 

 

또한, 관측연구에서는 연구자가 자료를 관측하면서 수집하는 경우로 자료의 생성과정에 전혀 관여하지 않습니다. 이 경우 설명변수와 반응변수의 연관성을 밝히는데 초점을 둡니다. 하지만, 연관성이 인과성을 의미하는 것은 아닙니다.

 

 

(1)  전향적 연구 (prospective study)

 

   전향적 연구는 현재부터 미래로 향하여 데이터를 수집하고 분석하는 방법입니다.

 연구의 시작부터 미래까지 일어나는 사건을 관찰하며 데이터를 수집합니다. 연구자가 대상자를 추적 관찰하면서 관련 정보를 얻습니다. 연구의 목적에 따라 장기간 혹은 단기간의 데이터 수집이 이루어 질 수 있습니다.

 

예를 들어, 질병의 발병을 예측하기 위해 특정 요인들과 발병 사이의 관계를 파악하거나, 특정 노출 요인이 앞으로의 결과에 어떤 영향을 미칠지를 예측하는 데 사용됩니다.

 호흡기질환 혹은 암을 연구를 하기 위하여 117,000명의 간호사를 대상으로 비만 정도를 기준으로 위험군과 일반군으로 나눈 후 두 그룹간의 질병 발병률을 비교할 수 있습니다.

이 경우는 실험과 관측연구 모두에서 사용됩니다.

 

◈ 예제 : 심근 경색을 예방하는 약의 효능을 위한 임상실험

 

   심근경색을 예방하는 약의 효능을 알아보기 위해 임상시험을 실시하였습니다. 대상은 심장질환이 있는 8,341명의 중년 남성이었으며, 랜덤화를 통해서 이 중 5,552명은 실험군에 2,789명은 대조군에 배정되었습니다.

 

  위약과 심근경색예방약(colfibrate)을 각각 실험군과 대조군에 속한 사람들에게 복용할 것을 권하고 5년 후에 사망률을 조사한 결과 실험군에서는 20%, 대조군에서는 21%의 사망률을 보였습니다.

 

  약이 효능이 없는 이유 중 하나로 실험군과 대조군 소속환자들이 약을 꾸준히 복용하지 않았다는 점이 지적되엇습니다.  약을 꾸준히 복용하는 사람(Adherers)과 그렇지 않은 사람을 나누어서 임상시험결과를 보고한 결과는 다음과 같습니다.

 

 

 

  실험군과 대조군 사이의 사망률은 차이가 없지만 양 그룹 모두 약을 꾸준히 복용하는 사람들의 사망률이 낮음을 알 수 있습니다. 이 연구는 임상실험이기 때문에 통계적 실험이지만, 약을 복용하는 습관여부와 사망률의 관계에 관한 부분은 관측연구라 할 수 있습니다.

 

이 연구의 결론은

 

 1. Colfibrate는 효능이 없다. - 통계적 실험 결과

 2. 약을 꾸준히 복용하는 사람과 그렇지 않은 사람들은 여러가지 면에서 다르다. - 관측연구 결과

 

약을 꾸준히 복용하는 사람들이 일반적으로 건강관리에 신경을 쓰는 편이기 때문에 보이는 현상일 수 있습니다.

 

 (2) 후향적 연구 (Retrospective Study)

 

후향적 연구는 이미 발생한 사건들의 데이터를 수집하고 분석하는 방법입니다. 과거 데이터나 기록을 분석하여 연구를 수행합니다. 이미 일어난 이에 대한 정보를 얻는 연구를 말합니다.

연구가 시작한 시점에서 이미 결과가 나타난 상태이므로 전향적 연구에 비해 상대적으로 빠르게 결과를 얻을 수 있습니다.

 

예를 들어, 특정 질병이나 이벤트의 원인을 찾기 위해 이미 발생한 사례들을 조사하고 비교하는 데 사용됩니다.

폐암 환자들을 대상으로 과거 흡연 여부를 알아볼 수 있습니다.

 

◈ 예제 : 흡연이 폐암을 유발하는가?

 

 흡연이 폐암에 미치는 영향을 알고 싶다고 이 연구를 수행하기 위한 실험 설계가 가능할까요?

 

  만약 실험 설계를 한다면, 10세 아동 1,000명을 실험대상으로 모집한 후, randomization을 통해서 절반을 실험군, 나머지 절반을 대조군에 활당한 후 실험군에 속한 아동에서 흡연을 하게 한 수 10년간 추적 관찰하여 실험군과 대조군의 폐암 발병률을 비교하면 가능합니다.

 

그러나, 이 실험은 윤리적으로 가능하지 않은 전향적 연구이므로 실제로 다음과 같은 후향적 연구를 진행합니다.

 

 폐암환자 500명과 일반인 500명에게 흡연 여부를 물어봅니다. 이 경우 폐암 환자의 흡연율과 비교하게 할 수 있지만, 우리가 원하는 것은 흡연자 중 폐암 발병률과 비흡연자의 폐암 발병률의 비교입니다.

 

이 문제를 해결하기 위해 오즈비의 개념이 등장합니다.

 

오즈비는 두 집단 간의 사건 발생 비율을 비교하는 통계적 지표입니다.

 

  • 흡연그룹의 오즈 = 페암 발생자수 / 페암 미발생자수 
  • 비흡연그룹의 오즈 = 페암 발생자수 / 페암 미발생자수
  • 오즈비 = 흡연그룹의 오즈/비흡연그룹의 오즈

 

이 때 오즈비가 1보다 크면 흡연과 폐암 발생과 양의 상관관계가 있을 가능성이 높습니다.

 


 

'통계학 이야기' 카테고리의 다른 글

7. 자료 수집 : 표본 추출 방법  (1) 2023.08.22
6. 자료 수집 - 표본 추출 (Sampling)  (0) 2023.08.22
4. 통계분석과 자료 (Data)  (0) 2023.08.22
3. 통계 분석 이란 ?  (0) 2023.08.07
2. 통계학의 개요  (0) 2023.08.01