생각 작업실 The atelier of thinking

데이터가 많다는 것이 좋기만 한 것일까? 본문

생각노트

데이터가 많다는 것이 좋기만 한 것일까?

knowledge-seeker 2024. 10. 7. 16:06

11일차

 

데이터가 많다는 것이 좋기만 한 것일까?

 

 

   빅데이터를 넘어선 메가 빅데이터 시대에 우리는 데이터가 넘쳐나는 환경 속에서 살고 있다. 인공지능의 급속한 발전 역시 데이터의 폭발적인 증가와 깊은 연관이 있다고 한다. 그런데 단순히 데이터의 양이 많다고 해서 무조건 좋은 것일까? 라는 질문을 해본다. 아마도 무조건은 아닐 것이다. 중요한 것은 "적합한 데이터"이냐 아니냐의 문제이다. 내가 알고자 하는 주제에 관련된 필요한 데이터가 충분히 많아야만 그 데이터는 의미가 있다. 만약 주제에 맞지 않는 불필요한 데이터가 포함된다면, 이는 공간만 차지하는 데이터 쓰레기에 불과할 것이다. 따라서 데이터가 많다는 것은 잠재적 장점이 될 수 있지만, 궁극적으로 중요한 것은 데이터의 질과 적합성이다.

 

통계학에서 자주 언급되는 대표적인 사례 중 하나로 1936년 미국 대통령 선거 여론조사가 있다. 1936년 대통령 선거에는, 공화당의 랜던(Landon) 후보와 민주당의 루즈벨트(Roosevelt) 후보가 맞붙었다.

 

의례히 선거를 앞두고 많은 매체가 누가 당선될지를 예측했다. 그중에서도 리터러리 다이제스트(Literary Digest)라는 잡지는 약 236만 명을 대상으로 여론조사를 시행해 랜던 후보의 당선을 예측했다. 반면, 갤럽(Gallup)은 5만 명을 조사해 루즈벨트 후보가 당선될 것이라고 예측했다.

 

결과적으로, 루즈벨트가 63%로 당선되었고, 갤럽의 예측이 정확했던 반면, 리터러리 다이제스트는 실패했다.  갤럽의 승리로 돌아갔다. 그 당시에 규모가 큰 잡지사와 신생 회사간의 대결구도로 다윗과 골리앗의 싸음이라고 관심이 컸다고 한다. 이후에 리터러리 다이제스트는 쇠락의 길을 걸었고 갤럽은 급성장하며 오늘날 여론 조사의 대명사가 되었다.

 

 

 


                                                                         공화당의 랜던(Landon)      민주당의 루즈벨트(Roosevelt)                                                   
리터러리 다이제스트(Literary Digest)                        57%                                  43%

    갤럽(Gallup)                                                                 44%                                   56%  

 

 

그런데 왜 이런 결과가 나왔을까?

 

리터러리 다이제스트는 236만 명을, 갤럽은 5만 명을 조사하였다. 조사한 사람 수를 데이터라 했을 때 리터러리 다이제스트의 데이터가 갤럽보다 약 5배가량 많았음에도 왜 이런 결과가 나왔을까 하는 의문이 들 것이다. 훨씬 더 많은 데이터를 가지고 있었음에도 훨씬 적은 데이터를 분석한 결과보다 못한 이유는 무엇일까?

 

리터러리 다이제스트는 방대한 데이터를 수집했지만, 잘못된 표본 계획으로 인해 실패했다. 조사 대상을 잡지 구독자, 전화 및 자동차 보유자로 한정했는데, 당시 이러한 집단은 고소득층으로, 유권자 전체를 대표하지 못했다. 반면, 갤럽은 무작위로 표본을 추출하여 고소득층뿐만 아니라 다양한 사회 계층의 목소리를 반영할 수 있었다. 이 사례는 데이터가 많다고 해서 무조건 좋은 것이 아니라 데이터의 질과 적합성이 중요하다는 점을 잘 보여준다.

 

PPDAC Circle 프레임워크의 관점에서 보았을 때, 특히 Plan 단계의 중요성을 알려주는 사례다. Plan 단계는 문제 해결을 위해 어떤 분석 방법을 사용할지, 어떠한 데이터를 수집할지를 결정하는 핵심 단계이다. 리터러리 다이제스트는 데이터를 수집하는 방법에 초점을 맞추었지만, 표본의 대표성을 고려하지 않았다. 그 결과, 수집된 데이터는 일부 집단만을 대변할 뿐 전체 유권자의 의견을 반영하지 못했다.

 

PPDAC Circle에서 Plan 단계가 중요한 이유는 문제를 해결하기 위한 적절한 설계가 이루어져야 하기 때문이다. 계획이 잘못되면, 이후에 데이터를 얼마나 많이 수집하든, 분석을 얼마나 잘하든 결과는 왜곡될 수밖에 없다. 리터러리 다이제스트는 데이터를 수집하는 데 있어 큰 문제는 없었지만, 처음부터 잘못된 계획으로 인해 결국 잘못된 결론에 도달했다. 이처럼 Plan 단계는 건물의 설계도와도 같은 역할을 한다. 올바른 설계가 이루어져야 그에 따른 분석과 결과도 신뢰할 수 있다.

 

데이터가 많다는 것 보다 궁극적으로 중요한 것은 데이터의 질과 적합성이다. 그리고 적합성을 얻기 위해서는 올바른 계획이 필요하다.