일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 오블완
- html
- 통계학
- 티스토리챌린지
- 가설검정
- 고정효과모형
- 글쓰기
- 추정
- r
- 분산분석
- 회귀분석
- version 1
- 해운업
- 변량효과모형
- 경제학
- 반복없음
- 확률
- 정규분포
- css
- 데이터 과학
- version 2
- 반복있음
- 산점도
- 에세이
- 변동분해
- 이원배치 분산분석
- 인공지능
- 혼합효과모형
- JavaScript
- 이항분포
- Today
- Total
생각 작업실 The atelier of thinking
출구조사와 표본추출 본문
20일차
출구조사와 표본추출
언제부터 였던가? 정확히 기억이 나진 않지만 선거때마다 투표시간이 끝나면 방송사 개표방송에서 “5, 4, 3, 2, 1” 하며 카운트 다운과 함께 당선 예측을 한다. 개표 방송을 보면서 예측한 대로 결과가 맞는지 틀리는지 지켜보는 것도 나름 보는 재미를 느끼게 해준다. 방송사에서 이러한 당선 예측을 어떻게 하는 것일까?
당선 예측은 기본적으로 투표 당일 출구조사 데이터를 근거로 한다. 이 출구조사는 한국방송협회 산하 방송사공동예측조사위원회(KEP)에서 한국리서치, 코리아리서치, 입소스 등 3개기관에 의뢰하여 수행한다. 투표 당일 오전 6시부터 오후 6시까지 전국 2000여개 투표소에서 약 50만명을 조사한다. 이렇게 나온 조사 결과를 근거로 각 방송사에서 자체 분석하여 당선예측을 한다.
이 때 조사 대상자들은 어떻게 선정할까?
지난 2024년 4월에 치러진 22대 국회의원 선거의 경우에, KEP에 따르면 "통상 한 선거구에 평균 55개 정도 투표소가 있고, 그 중에 랜덤하게 7~8개 투표소를 뽑고, 해당 투표소에서 투표를 마치고 나오는 사람들 중 매 5번째 사람을 대상으로 조사를 한다.” 고 밝혔다. 이렇게 조사 대상을 선정하는 것은 “조사하는 사람들의 생각이나 의도 등이 들어가지 않고 체계적으로 뽑기 위한 것"이라고 설명했다.
이렇게 조사 대상을 선정하는 방법을 통계학에서 계통표본추출(Systematic Sampling)이라 한다. 계통표본추출은 표집틀에서 처음 1 ~ k 번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k번째에 해당되는 단위들을 표본으로 추출하는 방법이다. 이렇게 뽑는 이유는 생각이나 의도가 들어간 표본을 뽑는 것을 방지하기 위함이다.
위 그림에서 모집단은 500, 표본은 50 이다. 표집틀은 3으로 끝나는 것으로 한 것이다. 그렇게 3,13,...,493을 선택하게 된다.
표본을 추출하는 이유는 전수조사를 할 수 없을 때나 전수조사를 하기에는 비용이나 시간이 너무 많이 필요할 때이다. 하지만 표본은 모집단에 대한 대표성을 가지고 있어야 한다. 이렇게 대표성을 갖게 하기 위하여 통계학에서는 여러 표본 추출 방법을 제시하고 있다.
표본 추출 방법은 확률을 알 수 있는지 여부에 따라 확률 표본 추출과 비확률 표본 추출로 나눠 볼 수 있겠다.
확률 표본 추출은 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 추출법이다. 표본추출틀 (sampling frame, 표집틀) 필요하며, 특정한 표본이 선정될 확률을 토대로 추정오차를 확률개념을 이용하여 과학적으로 설명한다. 출구 조사에서 “투표를 마치고 나오는 사람들 중 매 5번째 사람”이 표집틀이다. 세부 종류로는 단순확률추출, 계통추출, 집락추출, 층화추출 등이 있습니다.
비확률 표본 추출은 모집단의 대상자가 표본으로 선택될 수 있는 기회가 균등하게 이루어지지 못하여, 특정 표본이 선정될 확률을 알 수 없을 때 사용한다. 추론결과의 정확도(precision)가 낮은 편이지만, 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용된다. 종류로는 편의(convenience)추출, 유의(purposive)추출, 할당(quota)추출 등이 있다. 포털사이트 등에서 하는 인터넷 설문조사는 대표적인 편의추출 방법이다.
지금 언급한 표본추출방법이 전부는 아니다. 표본추출방법의 가장 핵심은 대표성이다. 대표성을 갖지 못하면 잘못된 결과를 얻게 된다. 대표성을 확보하기 위한 추출방법에 대한 연구는 계속해서 이뤄지고 있다. 예를 들어 출구조사가 맞지 않았을 때는 실패 요인을 분석하고 다시 수정해서 조사방법을 바꾸는 작업을 계속한다. 이번 22대 국회의원 선거의 출구조사와 예측조사에서 지상파 3사는 좋은 성과를 내지 못했다. 그 원인으로 30%가 넘은 사전투표에 대한 조사가 제대로 반영하지 못한 것을 꼽고 있다. 즉 표본이 대표성을 충분히 반영하지 못한 것이다. 방송3사는 향후 사전투표를 반영하기 위한 방안을 모색하겠다고 한다. 계속적인 피드백과 수정을 통해서 좋은 결과를 얻고자 하는 것이다.
참고 : 표본추출방법 정리
2023.07.18 - [통계학 이야기] - 7. 자료 수집 : 표본 추출 방법
7. 자료 수집 : 표본 추출 방법
Chapter 7. 자료 수집 - 표본 추출 방법 모집단에서 표본을 추출하는 방법을 아래와 같이 나눴지만 결국 궁극적인 목표는 대표성을 가질 수 있게 표본을 추출하는 방법을 찾는 것입니다. 1. 확률(임
thinking-atelier.tistory.com
'생각노트' 카테고리의 다른 글
인터넷 속으로의 여행 (6) | 2024.10.23 |
---|---|
경제학의 문을 여는 마법 주문: “한계” (4) | 2024.10.22 |
디스토피아의 정점 : 터미네이터(Terminator)와 매트릭스(Matrix) (5) | 2024.10.19 |
이미테이션 게임(Imitation Game) : 인공지능의 시작 (4) | 2024.10.17 |
에디터 프로그램 (4) | 2024.10.16 |