생각 작업실 The atelier of thinking

빅데이터 시대에서 데이터 수집: 관측 연구 본문

생각노트

빅데이터 시대에서 데이터 수집: 관측 연구

knowledge-seeker 2024. 11. 5. 22:40

28일차

 

빅데이터 시대에서 데이터 수집: 관측 연구

 

우리가 통계 분석을 할 때는 데이터를 모으는 것부터 시작합니다. 데이터 수집의 방법으로는 통계적 실험, 관측연구, 표본조사가 있다. 통계적 실험은 인과 관계를 파악하거나 결과에 미치는 역향을 확인하기 위해 의도적으로 조작된 조건에서 데이터를 수집하는 방법이다. 그리고 표본조사는 모집단에서 일부 표본을 추출하여 해당 표본을 대상으로 데이터를 수집하는 방법이다.

 

관측 연구는 통계적 실험과 달리 연구자가 환경이나 조작하지 않고 자연스럽게 일어나는 현상을 관찰하여 데이터를 수집하는 방법이다. 빅데이터 시대에서 다른 두 가지 방법의 수집 방법보다 관측 연구의 중요성이 확대되었다. 빅데이터는 방대한 양의 데이터를 실시간으로 수집하고 저장한다. 관측 연구는 자연스럽게 발생하는 대규모 데이터를 활용하여 인간 행동, 사회적 트렌드, 질병의 발병 패턴 등을 파악할 수 있게 해준다. 예를 들어, SNS 데이터나 검색 기록을 활용한 건강 트렌드 분석이나 소비자 행동 관찰을 통한 마케팅 연구 등이 빅데이터 기반의 관측 연구로 진행된다.

 

구글 독감 경보(Google Flu Trends)

 

관측 연구와 빅데이터의 결합을 보여주는 대표적인 사례로 구글 독감 경보(Google Flu Trends, GFT)가 있다. 구글 독감 경보는 2008년에 질병 확산을 신속하게 모니터링하고 예측하기 위해 구글이 개발한 프로젝트였다. 당시 질병 통제 예방 센터(CDC)의 독감 확산 예측이 1~2 주 정도의 지연을 겪었다. 구글은 독감 관련 검색어 데이터를 통해 독감 확산을 보다 실시간에 가깝게 분석하는 것이 목적이었다. 기본 아이디어는 사람들이 독감 증상이 나타났을 때 검색 엔진을 통해 증상, 치료, 예방 정보 등을 검색한다는 점에서 착안한 것이다. 구글은 사람들이 독감 증상이나 독감 치료법 등 특정 키워드로 검색하는 빈도 데이터를 수집했고, 이를 CDC의 독감 감염 통계와 비교해 관련성을 분석했다. 예를 들어, 뉴욕에서 "독감 증상"과 같은 검색어 빈도가 높아지면 구글은 뉴욕의 독감 확산이 시작되었다고 판단하는 방식이다. 구글 독감 경보는 빅데이터와 관측 연구의 혁신적인 조합으로 기존 공공 데이터 수집보다 빠르게 결과를 제공하였다.

 

출처 : 중앙일보

 

하지만 구글 독감 경보는 정확도 문제로 인해 약점이 드러났다. 특정시기 예를 들어 한 해 겨울 독감이 예년보다 경미하거나 다른 감염병에 대한 우려가 동시에 높아질 경우 독감과 무관한 검색도 늘어나며 예측에 혼란이 발생했다. 이후 구글은 독감 경보를 종료했다. 하지만, 구글 독감 경보는 여전히 빅데이터 기반 공중 보건 연구와 데이터 예측 기술의 발전에 영향을 준 사례로 평가된다.

 

관측 연구의 두 가지 방법

 

 

관측 연구는 연구시작 시점을 기준으로 전향적 연구(Prospective Study)와 후향적 연구(Retrospective Study)로 구분 할 수 있다.

 

전향적 연구는 현재부터 미래로 향하여 데이터를 수집하고 분석하는 방법이다. 연구의 시작부터 미래까지 일어나는 사건을 관찰하며 데이터를 수집한다. 연구자가 대상자를 추적 관찰하면서 관련 정보를 얻는다. 연구의 목적에 따라 장기간 혹은 단기간의 데이터 수집이 이루어질 수 있다.

 

후향적 연구는 이미 발생한 사건들의 데이터를 수집하고 분것하는 방법이다. 관거 데이터나 기록을 분석하여 연구를 수행한다. 이미 일어난 이에 대한 정보를 얻는 연구를 말한다. 연구가 시작한 시점에서 이미 결과가 나타난 상태이므로 전향적 연구에 비해 상대적으로 빠르게 결과를 얻을 수 있다. 구글 독감 경보는 사람들이 과거에 검색한 데이터를 바탕으로 한 후향적 연구 방식을 사용하여 독감의 확산을 예측하는 시스템을 개발한 사례로 볼 수 있다.