일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 이항분포
- 가설검정
- r
- css
- version 1
- 확률
- version 2
- 변량효과모형
- 혼합효과모형
- 이원배치 분산분석
- 변동분해
- 글쓰기
- 추정
- 반복없음
- 티스토리챌린지
- 반복있음
- 정규분포
- 통계학
- 두 평균의 비교
- 경제학
- 분산분석
- html
- 에세이
- 산점도
- 오블완
- JavaScript
- 고정효과모형
- 인공지능
- 데이터 과학
- 회귀분석
- Today
- Total
생각 작업실 The atelier of thinking
8. 자료 수집 - 표본 편의(Sampling Bias) 본문
Chapter 8. 자료 수집 - 표본 편의 (Sampling Bias)
1. 표본 편의(Sampling Bias)
통계 분석의 첫 번째 단계는 원하는 정보를 얻기 위해 자료, 즉 데이터를 수집하는 것입니다. 수집하는 방법으로 실험, 관측연구, 표본조사 등이 있는데, 자료 수집에 가장 중요한 것은 올바른 방법으로 얻어야 한다는 것입니다. 올바른 자료가 수집되었는지 확인해 보는 것이 필요합니다.
통계학에서 "bias" 는 편향을 나타내는 개념으로 사용됩니다. 편향은 측정값이나 추정값이 실제값으로부터 얼마나 벗어났는지, 즉 정확하지 않은 경향이 얼마나 존재하는지를 나타내는 통계적인 개념입니다. 통계분석에서 bias를 관리하고 줄이는 것이 신뢰성 있는 결과를 얻기 위한 매우 중요한 과정 중 하나입니다.
표본편의(Sampling Bias)는 통계적인 실험이나 조사에서 발생하는 편향 중 하나로 표본이 모집단을 대표하지 못하고 특정 부분을 지나치게 반영하는 경우를 나타냅니다. 이는 표본이 모집단을 골고루 대표하지 않을 때 발생하며, 이로 인해 얻은 결과가 모집단에 대한 편견이나 왜곡을 갖게 될 수 있습니다.
표본편의는 주로 다음과 같은 상황에서 발생할 수 있습니다.
(1) 무응답편의(Non-response Bias)
임의로 뽑힌 사람 중 일부만 대답하는 경우 전체모집단을 대표한다고 할 수 없습니다.
(2) 자원 응답 편의(Voluntary Response Bias)
원하는 사람만 답변을 한 경우 전체를 대표한다고 보기 어렵습니다. 예를 들면 웹 설문조사나 학생들이 개설한 자체 강의평가 웹사이트 등이 그러한 경우라 볼 수 있습니다.
(3) 선택 편의(Selection Bias)
편리한 표본을 선택하는 경우, 예를 들어 직접 접근이 가능한 사람들만을 조사하는 경우 등이 있을 수 있습니다. 이 경우 표본이 모집단을 대표하지 않을 수 있습니다.
선택편의의 대표적인 사례는 리터러리 다이제스트의 1936년 미국 대통령선거 예측을 들 수 있습니다/
목표모집단은 유권자 전체이지만, 연구모집단, 즉 리터러리 다이제스트의 조사대상은 독자, 자동차소유자, 전화번호 소유자였습니다. 이 그룹은 대공황 시기의 고소득층에 속했으며, 고소득층은 공화당을 압도적으로 지지하는 경향이 있었습니다. 결과적으로 연구모집단이 목표모집단을 대표하지 못했던 탓에 잘못된 선거예측을 하게 된 것입니다.
표본편의가 발생하면 결과가 왜곡되거나 일반화하기 어려울 수 있으며, 이로 인해 잘못된 결론이 도출될 수 있습니다. 표본을 선택할 때는 모집단을 대표할 수 있는 방식으로 무작위 표본 추출이나 적절한 층화 추출 등을 사용하여 표본편의를 최소화하고 신뢰성 있는 결과를 얻을 수 있도록 노력해야 합니다.
2. 귀납적 추론의 4 단계
수집한 자료(Data)가 올바른 데이터인지 확인하기 위한 방법으로 귀납적 추론을 사용해 볼 수 있습니다.
귀납적 추론이란 특정한 사례나 관찰을 통해 일반적인 법칙이나 패턴을 도출하거나 추론하는 과정을 의미합니다. 이방식은 관찰된 데이터나 사례를 바탕으로 일반적인 규칙이나 법칙을 유추하려는 과정으로, 특정한 사례나 데이터에서 얻은 정보를 일반적으로 적용하는 것을 목표로 합니다.
(1) 데이터(Data)
귀납적 추론의 시작점은 관찰된 데이터 입니다. 데이터는 현상이나 사건의 정보를 수치나 기호로 나타낸 것으로, 분석하고자 하는 주제와 관련된 정보를 담고 있습니다.
(2) 표본 (Sample)
통계적 추론에서 데이터의 일부분을 표본이라고 합니다. 표본은 전체 모집단을 대표하는 작은 집합으로 모집단의 특성을 추론하는 데 사용됩니다. 올바른 표본 추출 방법을 사용하여 모집단을 대표하도록 표본을 선택해야 합니다.
데이터가 표본으로 가는 단계에서 데이터가 가져야 할 특성은 다음과 같습니다.
데이터 자체의 변동이 작고 반복 가능해야 합니다.
알고자 하는 항목에 대해 어떤 편의도 없이 정확히 측정하고 있어야 합니다.
예를 들면 같은 내용을 알고자 하는 설문조사에서 설문을 어떻게 구성하는가에 따라 답이 달라진다면 위의 첫번째 특성인 반복 가능의 원칙에 어긋나는 것입니다.
" 참정권 확대를 위해 선거연령을 낮추는데 동의하는가? "
" 학습권을 침해할 우려가 있는 고등학생에게도 선거권을 주어야 하는가?"
위 두 질문은 같은 내용에 관한 일반 국민들의 의사를 물어보는 것이지만, 설문조사 결과는 판이하게 다를 수 있습니다.
(3) 연구모집단 (study population)
연구모집단은 특정 연구나 조사의 관심 대상이 되는 모든 개체 또는 사례의 집합을 의미합니다. 표본은 연구모집단에서 선택된 작은 부분집합이며, 연구 결과를 전체 연구모집단에 일반화하는 것이 목표입니다.
표본이 연구모집단의 대표성을 가질 경우 내적타당성을 지닌다고 합니다. 즉 임의추출과 같은 방법으로 표본을 뽑아서 연구 모집단의 대표성을 유지하도록 해야 합니다.
(4) 목적모집단 (target population)
목적모집단은 연구의 목적에 따라 선택된 연구모집단의 하위 집합을 의미합니다. 예를 들어, 특정 나이 그붑이나 특정 지역의 주민 등을 목적모집단으로 선택할 수 있습니다. 목적모집단을 명확히 정의하는 것은 추론의 정확성을 향상시키는 데 중요합니다.
연구모집단과 목적모집단이 일치한다면 문제가 없지만, 연구모집단과 목적모집단이 정확히 일치하지 않을 경우 연구모집단의 결과를 목적모집단으로 확장할 수 있는 경우가 있습니다. 이렇게 확장할 수 있는 경우에 외적타당성을 가지고 있다고 합니다.
예를 들면 성인 남성(연구모집단)을 대상으로 신약에 대한 임상시험을 진행한 결과를 전 국민에 대한 결과로 확대 해석하는 경우를 생각해 볼 수 있습니다. 만약 전 국민으로 확장할 수 있는 외적타당성이 있다면 확장할 수 있지만,, 그렇지 않은 경우는 확장할 수 없습니다.
앞서 선택편의의 예시였던 리터러리 다이제스트의 1936년 미국 대통령선거 예측에서는 결과적으로 연구모집단이었던 독자, 자동차소유자, 전화번호 소유자 등은 목표모집단이었던 전체 유권자를 대표하지 못했던 탓에 즉, 외적타당성이 없었던 탓에 잘못된 선거예측을 하게 된 것입니다.
◈ 귀납적 추론 4 단걔 예시 영국에서 얼마나 많은 범죄가 일어나는가?
이 질문에 답변하기 위해서 두 가지 데이터를 고려할 수 있습니다.
1. 영국-웨일스 범죄 설문조사
2. 경찰 범죄보고서
1. 영국-웨일스 범죄 설문조사
(1) 1 단계(자료) → 2단계 (표본) : 응답자가 진실을 말하지 않을 경우를 고려해야 합니다.
(2) 2단계 (표본) → 3단계 (연구모집단) : 표본이 실제로 연구모집단을 대표하는 지 여부를 고려해야 합니다.
(3) 3단계 (연구모집단) → 4단계(목표모집단) : 연구모집단에는 16세미만과 공동시설 거주자들이 제외되어 있는데 이것이 전체로 확장하는데 문제없는지 검토해야 합니다.
2. 경찰범죄보고서
경찰 범죄보고서의 경우 표본이 연구모집단과 동일하지만 피해자가 보고하지 않은 범죄 혹은 경찰이 기록하지 않은 범죄가 있기 때문에 외적타당성을 가지고 있지 않습니다. 결론적으로 경찰 범죄보고서는 이러한 문제 때문에 영국에서 국가지정통계목록에서 제외되었다고 합니다.
'통계학 이야기' 카테고리의 다른 글
10. 자료 정리 (1) | 2023.08.28 |
---|---|
9. 자료의 분류와 특성 (0) | 2023.08.25 |
7. 자료 수집 : 표본 추출 방법 (1) | 2023.08.22 |
6. 자료 수집 - 표본 추출 (Sampling) (0) | 2023.08.22 |
5. 자료 수집 - 통계적 실험과 관측 연구 (0) | 2023.08.22 |