생각 작업실 The atelier of thinking

통계학? 아니 데이터 과학! 본문

생각노트

통계학? 아니 데이터 과학!

knowledge-seeker 2024. 9. 26. 20:56

2일차

 

통계학? 아니 데이터 과학!

 

최근 인공지능, 빅데이터, 4차 산업혁명과 더불어 같이 언급되는 말 중에는 데이터 과학도 있다. 하지만 데이터 과학은 인공지능, 빅데이터 보다는 상대적으로 덜 알려져 있어 보인다. 내가 데이터 과학(Data Science)에 대하여 알게 된 것은 통계학을 공부하면서 였다. 데이터 과학은 직관적으로 데이터를 다루는 과학일 거라 미뤄 짐작할 수 있다. 그렇다면 전통적으로 데이터를 다루던 학문인 통계학과는 어떤 관계일까?

 

먼저, 위키피디아에서 각각의 정의를 찾아봤습니다.

 

 

 

통계학(statistics)은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 분야이다.”

 

 

 

 

 

 

데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한

데이터로부터 지식과 인사이트를 추출하는 과정에서 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야다.

데이터 과학은 데이터를 통해 실제 현상을 이해하고 분석하며 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다.”

 

 

 

데이터 과학은 통계학과 다른 과학적 방법론(기계학습, 프로그래밍)의 융합한 개념이라 할 수 있다. 통계학은 데이터 과학의 한 축을 담당하고 있는 것으로 보인다.

 

전통적으로 생각하는 통계학과 현재의 데이터 과학내에서의 통계학은 어떤 차이가 있을까? 아니 차이라기 보다는 과거 통계학이 현재 얼마나 업그레이드 되었는지를 확인해 보는 것이라 할 수 있다.

 

먼저 학습 내용 측면에서 살펴보면, 전통적 통계학 과목은 자료의 소개와 요약 통계량, 확률과 확률분포, 표본분포, 검정 방법 등 방법론을 학습하는 데 초점을 두고 있었다고 볼 수 있다. 반면 데이터 과학내의 통계학, 즉 현재의 통계학은 실제 문제를 통해 데이터 분석에 직접적으로 활용되는 내용에 집중한다. 데이터 시각화와 탐색적 자료 분석, 불확실성의 근거 제시를 위한 확률 이론, 모형과 알고리즘 등에 더 중점을 두고 있다. 현재의 통계학은  방법론에 멈추는 것이 아니라 실질적인 활용으로 확장된 것이다.

 

동기와 목적 측면에서 본다면, 전통적인 통계학은 통계 이론과 기법의 이해를 중심으로 합니다. 통계학을 공부하는 주된 목적은 모집단의 특성을 파악하고, 통계적 추론을 통해 결론을 도출하는 것이다. 데이터 과학을 위한 통계학은 실제 문제에 데이터를 적용하여 인사이트를 얻는 것을 목표로 한다. 데이터 과학에서의 통계학은 데이터를 통해 지식을 발견하고, 예측과 판단에 활용하는 것을 중요하게 여긴다.

 

도출 방법에서 보면, 전통적인 통계학은 가설검정, 추정, 회귀분석 등의 통계적 기법을 사용한다. 이러한 기법은 표본을 통해 모집단에 대한 추론을 수행하는 데에 활용한다. 데이터 과학은 데이터를 수집, 전처리, 시각화, 모델링, 예측 등 다양한 과정을 통해 분석한다. 통계학은 이러한 데이터 분석과정에서도 확률 이론을 기반으로 한 불확실성의 근거 제시와 예측에 관한 추론을 수행하는 데에 활용된다.

 

요약하자면, 전통적인 통계학은 통계 이론과 기법에 중점을 두고 있으며, 모집단에 대한 추론과 통계적 추정을 다룬다, 반면, 데이터 과학을 위한 통계학은 실제 문제에 데이터를 적용하여 인사이트를 얻는 것을 목표로 한다. 데이터 시각화, 탐색적 자료 분석, 예측과 모델링 등의 과정에서 확률 이론과 통계적 기법을 활용한다. 그렇다고 전통적인 통계학과 데이터 과학내의 통계학을 다른 개념으로 보기는 어렵다. 데이터 과학을 위해서는 먼저 전통적인 통계학에서 다루는 개념을 알고 있어야 한다. 즉 전통적인 통계학은 데이터 과학을 위한 통계학의 이론적 배경을 제공한다. 데이터 과학내에서 통계학은 이론적 측면에서 하나의 큰 기둥 역할을 하고 있다. 여기에 인공지능 기술과 응용분야에 대한 인사이트 등이 더해지면 데이터 과학이 완성되는 것이라 할 수 있다.

 

앞으로 통계학이 아닌 데이터 과학이라 불러도 무방할 것이다.