일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 인공지능
- 확률
- 통계학
- 반복있음
- html
- 산점도
- 두 평균의 비교
- version 1
- 에세이
- 회귀분석
- 정규분포
- 고정효과모형
- JavaScript
- 분산분석
- 가설검정
- 혼합효과모형
- 경제학
- 오블완
- 데이터 과학
- 이항분포
- 글쓰기
- 추정
- r
- 변동분해
- 티스토리챌린지
- 이원배치 분산분석
- 반복없음
- css
- 모평균에 대한 통계적추론
- 변량효과모형
- Today
- Total
생각 작업실 The atelier of thinking
데이터 분석과 통계 분석의 시작 본문
6일차
데이터 분석과 통계 분석의 시작
"데이터 과학을 한다." , "통계학을 한다." 라는 말보다는 "데이터를 분석한다.", "통계 분석을 한다." 라는 말이 훨씬 익숙하게 들린다. 데이터 과학의 한 부분이 통계학이듯, 데이터 분석의 한 부분이 통계 분석이다. 조금 더 구체적으로 본다면 데이터 분석은 정형 데이터와 비정형 데이터를 모두 포함한다. 예를 들어 소셜 미디어 텍스크 데이터, 이미지 등 매우 다양한 데이터 유형이 포함된다. 반면 통계 분석은 주로 정형 데이터에 적용되며, 수치형 데이터, 범주형 데이터 등 정리된 데이터에 대한 분석을 한다.
데이터 과학과 통계학은 모두 데이터를 이해하고 활용하기 위해 분석을 핵심 과정으로 삼고 있다. 또한 분석과정을 통하여 이 과정을 통해 가설을 검증하고, 패턴을 발견하며, 의사결정을 지원한다. 따라서 통계분석과 데이터 분석의 시작점은 문제 인식에서부터 출발한다. 문제를 인식한 후에는 가설을 세우고, 그 가설을 검증하기 위해 데이터를 수집·분석하여 결론을 도출하고 행동으로 이어지는 것이 데이터 분석의 핵심 과정이다. 문제를 정확히 설정하고 가설을 잘 세웠다면, 데이터 분석의 절반을 성공한 것과 다름없다. 이는 시작이 반이라는 말처럼 매우 중요한 단계이다.
문제 인식 후에 가설 설정의 중요성을 보여주는 대표적인 연구로, 네이처에 발표된 '지구상에 얼마나 많은 나무가 있을까?'라는 연구가 있다. 이 연구의 핵심 가설은 ‘지구상에 있는 나무의 개수는 얼마인가?’였지만, 여기서 중요한 것은 ‘나무’의 정의다. 연구는 '사람 가슴 높이에서 잰 나무줄기의 지름이 10㎝ 이상인 식물'을 나무로 정의했다. 이처럼 연구의 성공 여부는 문제에 대한 정확한 정의와 가설 설정에 달려 있다.
또한 정성적 평가에서 가설을 설정하는 것은 더욱 어렵다. 예를 들어, '직원 교육을 통해 고객 서비스가 개선되었는가?'라는 가설을 설정할 때, ‘서비스 개선’의 정의는 매우 주관적일 수 있다. 소비자가 느끼는 주관적 평가를 객관적 수치로 변환하는 작업이 쉽지 않기 때문이다. 대체로 고객 서비스 만족도 설문 조사를 통해 데이터를 얻지만, 여전히 주관성을 완전히 배제하기는 어렵다.
이미 우리는 우리 주변에서 데이터 과학, 데이터 분석을 하고 있다. 대표적인 예로 인터넷 쇼핑이 있다. 이미 많은 사람들이 수많은 제품과 다양한 선택지 속에서 우리는 최선의 선택을 하기 위해 많은 정보를 탐색하고 비교를 본능적으로 하고 있다. 이러한 행동을 데이터 분석이라 말할 수 있다. 하지만 그 과정이 항상 쉽지만은 않다. 제품의 품질을 평가하고 적정한 가격을 찾아내는 일은 때때로 매우 혼란스럽고 복잡하게 느껴지곤 한다. 그렇다면 데이터를 이용해 좀 더 체계적이고 과학적인 접근을 통해 이 문제를 해결할 수는 없을까?
먼저, 문제 인식 부분을 살펴보자. 인터넷 쇼핑에서 나의 주요 목표는 "최고의 품질을 가진 제품을 합리적인 가격에 구매하는 것"이다. 다양한 제품 중에서 어떤 것이 나에게 적합한지, 그리고 언제 사는 것이 가장 경제적인지를 판단하는 데 도움을 주는 데이터가 무엇일까 고민하게 된다. 가격, 평점, 리뷰 등 여러 가지 요소가 있지만 이 정보들이 쏟아지는 상황에서 효율적으로 제품을 선택하는 것은 어려울 수 있다.
문제 인식에서 핵심은 품질과 가격이라 했을 때 이를 기준으로 가설을 설정할 수 있다. 예를 들어, "평점이 4.5 이상이고 가격이 10% 이상 할인된 제품은 가장 합리적인 선택일 것이다"라는 가설을 세울 수 있다. 혹은 리뷰 분석을 통하여 "좋아요" 가 10개 이상이고 가격이 10% 이항 할인된 제품을 선택하는 가설을 세울 수 있다. 이후 이 가설을 검증하기 위해 내가 수집한 데이터를 통해 해당 조건에 맞는 제품을 찾아보고, 실제로 그 제품이 좋은 구매인지 확인한다. 만약 가설이 옳다면, 이는 내 쇼핑 전략에 적용할 만한 중요한 기준이 된다.
문제를 인식하고 정확한 가설을 세우는 것은 쉽지 않지만, 이 과정이 성공적으로 이루어진다면 데이터 분석의 방향이 명확 해지며 문제 해결도 수월해질 것이다. 따라서 문제 인식후 가설 설정은 데이터 분석에서 가장 중요한 첫걸음이다.
'생각노트' 카테고리의 다른 글
경제학, 선택의 과학 (2) | 2024.10.02 |
---|---|
스페이스 오페라(Space Opera) (4) | 2024.10.01 |
인공지능(AI)과 함께 살아가기 (5) | 2024.09.29 |
데이터 문해력과 통계학, 데이터 과학 (3) | 2024.09.28 |
나이팅게일은 데이터 과학자(Data Scientist)였다. (0) | 2024.09.27 |