일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 회귀분석
- JavaScript
- css
- 가설검정
- 오블완
- 반복있음
- 데이터 과학
- 에세이
- 이항분포
- 혼합효과모형
- html
- 추정
- 이원배치 분산분석
- version 2
- 인공지능
- 티스토리챌린지
- 정규분포
- 분산분석
- 통계학
- 확률
- 글쓰기
- 고정효과모형
- r
- 경제학
- 산점도
- version 1
- 두 평균의 비교
- 변동분해
- 변량효과모형
- 반복없음
- Today
- Total
생각 작업실 The atelier of thinking
빅데이터 시대에서 데이터 수집: 관측 연구 본문
28일차
빅데이터 시대에서 데이터 수집: 관측 연구
우리가 통계 분석을 할 때는 데이터를 모으는 것부터 시작합니다. 데이터 수집의 방법으로는 통계적 실험, 관측연구, 표본조사가 있다. 통계적 실험은 인과 관계를 파악하거나 결과에 미치는 역향을 확인하기 위해 의도적으로 조작된 조건에서 데이터를 수집하는 방법이다. 그리고 표본조사는 모집단에서 일부 표본을 추출하여 해당 표본을 대상으로 데이터를 수집하는 방법이다.
관측 연구는 통계적 실험과 달리 연구자가 환경이나 조작하지 않고 자연스럽게 일어나는 현상을 관찰하여 데이터를 수집하는 방법이다. 빅데이터 시대에서 다른 두 가지 방법의 수집 방법보다 관측 연구의 중요성이 확대되었다. 빅데이터는 방대한 양의 데이터를 실시간으로 수집하고 저장한다. 관측 연구는 자연스럽게 발생하는 대규모 데이터를 활용하여 인간 행동, 사회적 트렌드, 질병의 발병 패턴 등을 파악할 수 있게 해준다. 예를 들어, SNS 데이터나 검색 기록을 활용한 건강 트렌드 분석이나 소비자 행동 관찰을 통한 마케팅 연구 등이 빅데이터 기반의 관측 연구로 진행된다.
구글 독감 경보(Google Flu Trends)
관측 연구와 빅데이터의 결합을 보여주는 대표적인 사례로 구글 독감 경보(Google Flu Trends, GFT)가 있다. 구글 독감 경보는 2008년에 질병 확산을 신속하게 모니터링하고 예측하기 위해 구글이 개발한 프로젝트였다. 당시 질병 통제 예방 센터(CDC)의 독감 확산 예측이 1~2 주 정도의 지연을 겪었다. 구글은 독감 관련 검색어 데이터를 통해 독감 확산을 보다 실시간에 가깝게 분석하는 것이 목적이었다. 기본 아이디어는 사람들이 독감 증상이 나타났을 때 검색 엔진을 통해 증상, 치료, 예방 정보 등을 검색한다는 점에서 착안한 것이다. 구글은 사람들이 독감 증상이나 독감 치료법 등 특정 키워드로 검색하는 빈도 데이터를 수집했고, 이를 CDC의 독감 감염 통계와 비교해 관련성을 분석했다. 예를 들어, 뉴욕에서 "독감 증상"과 같은 검색어 빈도가 높아지면 구글은 뉴욕의 독감 확산이 시작되었다고 판단하는 방식이다. 구글 독감 경보는 빅데이터와 관측 연구의 혁신적인 조합으로 기존 공공 데이터 수집보다 빠르게 결과를 제공하였다.
하지만 구글 독감 경보는 정확도 문제로 인해 약점이 드러났다. 특정시기 예를 들어 한 해 겨울 독감이 예년보다 경미하거나 다른 감염병에 대한 우려가 동시에 높아질 경우 독감과 무관한 검색도 늘어나며 예측에 혼란이 발생했다. 이후 구글은 독감 경보를 종료했다. 하지만, 구글 독감 경보는 여전히 빅데이터 기반 공중 보건 연구와 데이터 예측 기술의 발전에 영향을 준 사례로 평가된다.
관측 연구의 두 가지 방법
관측 연구는 연구시작 시점을 기준으로 전향적 연구(Prospective Study)와 후향적 연구(Retrospective Study)로 구분 할 수 있다.
전향적 연구는 현재부터 미래로 향하여 데이터를 수집하고 분석하는 방법이다. 연구의 시작부터 미래까지 일어나는 사건을 관찰하며 데이터를 수집한다. 연구자가 대상자를 추적 관찰하면서 관련 정보를 얻는다. 연구의 목적에 따라 장기간 혹은 단기간의 데이터 수집이 이루어질 수 있다.
후향적 연구는 이미 발생한 사건들의 데이터를 수집하고 분것하는 방법이다. 관거 데이터나 기록을 분석하여 연구를 수행한다. 이미 일어난 이에 대한 정보를 얻는 연구를 말한다. 연구가 시작한 시점에서 이미 결과가 나타난 상태이므로 전향적 연구에 비해 상대적으로 빠르게 결과를 얻을 수 있다. 구글 독감 경보는 사람들이 과거에 검색한 데이터를 바탕으로 한 후향적 연구 방식을 사용하여 독감의 확산을 예측하는 시스템을 개발한 사례로 볼 수 있다.
'생각노트' 카테고리의 다른 글
코딩(Coding) (7) | 2024.11.09 |
---|---|
21세기 러다이트 운동: 할리우드 파업 2023 (3) | 2024.11.07 |
배추 값에서 배우는 경제의 순환 (8) | 2024.11.04 |
월말 평가 – 2024년 10월 31일 (4) | 2024.10.31 |
"태양에도 특허를 낼 수 있습니까?" (1) | 2024.10.28 |