일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 회귀분석
- html
- 티스토리챌린지
- 데이터 과학
- 반복있음
- r
- 고정효과모형
- 글쓰기
- 변량효과모형
- 에세이
- 이항분포
- 이원배치 분산분석
- 분산분석
- 통계학
- 오블완
- 추정
- 산점도
- 정규분포
- 변동분해
- 경제학
- 해운업
- 반복없음
- JavaScript
- 확률
- 혼합효과모형
- 가설검정
- version 1
- version 2
- 인공지능
- css
- Today
- Total
생각 작업실 The atelier of thinking
3. 통계 분석 이란 ? 본문
Chapter 3. 통계분석 이란?
1. 데이터 문해력과 통계학
데이터 문해력(Data Literacy)한국은 문맹률이 낮기 때문에 글을 읽고 쓸 수 있다는 것이지만, 문장을 이해하는 능력인 문해력은 상당히 떨어진다고 알려져 있습니다. 여기에 덧붙여서 '데이터 문해력' 이란 말이 나왔습니다.
현대 사회는 정보의 홍수시대라고합니다. 지금 현재 뉴욕타임즈 같은 경우 보면 굉장히 신문이 두꺼운데, 그 신문 전체에 나오는 양이 18세기 영국 성인 남성이 평생 동안 소비하는 정보의 양이었다고 합니다. 그래서 요즘은 인포데믹이라는 말을 쓰고 있습니다.
즉, 데이터가 너무 많아서 문제라는 것입니다.주어진 정보를 가지고 똑바로 이해나는 능력인 데이터 문해력이 굉장히 중요해진 시대입니다. 실제로 통계분석을 할 수 있는 능력을 함양하는 것도 중요하지만, 주어진 데이터를 가지고 제대로 이해하는 것도 중요합니다.
통계학에 대해서 그런 데이터 문해력을 기르는 것도 과정의 목표이기도 합니다. 그 첫단계가 통계분석이라 할 수 있습니다.
2. 통계학과 통계 분석
통계분석은 통계학의 핵심적인 부분 하나입니다.
통계분석은 통계학의 이론과 방법을 실제 데이터에 적용하여 유의미한 정보를 도출하는 과정을 말합니다.
즉, 통계분석은 데이터를 수집,요약,분석하여 패턴과 특성을 파악하고, 이를 통해 결론을 도출하는 방법론을 의미합니다. 이러한 통계분석을 통하여 문제해결과 의사결정을 돕는 역할을 합니다.
(1) PPDAC
통계분석은 여러가지 방법이 있습니다.
그 중 현재 통계교육이 가장 잘 이루어진다고 하는 뉴질랜드의 교육체계에서 나온 통계분석 5 단계 PPDAC에 대하여 알아보고자 합니다.
PPDAC 란 Problem - Plan - Data - Analysis - Conclusion 의 5 단계를 말합니다.
① Problem : 데이터에 대한 문제 의식을 제기하여 나의 가설을 세운다.
② Plan : 가설을 확인 할 조사 계획을 세운다.
③ Data : 조사 계획을 토대로 데이터를 수집한다.
④ Analysis : 얻은 데이터를 기반으로 통계적인 분석을 실행한다.
⑤ Conclusion : 분석 결과를 정리한다. 우리가 세운 가설이 옳은 지 확인하고 결과에 따라서 새로운 문제를 찾고 가설을 설정한다.
정리하자면, " 지금 먼저 문제를 정의를 한 다음에, 그 문제에 대해서 자료를 어떻게 수집하고, 어떻게 분석할지 계획을 세운다. 실제 자료 수집을 하고, 그 자료 수집 과정에 보면 사실은 소위 말하는 Raw Data의 경우에는 굉장히 지저분하게 되어 있기 때문에 데이터를 가지고 cleaning 하는 작업이 필요하기도 하다. 그런 단계를 거친 다음에 최종적으로 분석이 들어가고, 그 다음에 결론을 통해서 원래 물어봤던 질문에 대한 대답을 하게된다." 과정을 거치게 됩니다.
★ 그림 : 데이터 탐정
출처 : https://new.censusatschool.org.nz/resource/data-detective-poster/
3. PPDAC 적용 예제
네이처에 발표되었던 논문으로 " 지구상에는 얼마나 많은 나무가 있을까 ?" 가 이 연구의 목표였다고 합니다.
출처 : https://www.nature.com/articles/nature14967
이 논문 내용을 PPDAC를 적용하여 살펴보겠습니다.
(1) Problem 단계
제 1단계인 Problem에서 세운 가설은 "나무가 얼마나 많을까?" 입니다.
어찌보면 간단한 부분처럼 보이지만, 여기서 중요한 부분은 나무의 정의입니다.
나무란 무엇인가?
나무라는 게 사실은 사람마다 기준이 다를 수 있습니다. “어떤 사람은 이 정도면 나무라고 하는데, 이거는 너무 작은 거야.” 이렇게 얘기를 할 수가 있습니다. 그래서 보편적으로 나무를 정의하면 ‘사람 가슴 높이에서 잰 나무줄기의 지름이 충분히 크고 딱딱한 줄기를 가진 식물’ 이게 나무입니다.
그런데 여기에서도 보면 ‘지름이 충분히 크고’라고 했으니까, 이게 기준이 또 있어야합니다.
그리고 어느 정도가 되어야 충분히 큰 건가? 했는데, 대부분의 나라에서는 10㎝를 가지고 기준으로 삼고 있습니다. 즉, 지름이 10㎝이상 되면 나무고요. 그 미만이면 나무라고 하지 않습니다.
그러니까 나무의 정의를 엄밀하게 해야 됩니다. 그래서 10㎝ 이상인 식물들만 나무라고 하고, 이렇게 정의된 나무들의 개수를 헤아리는 것이 이 연구의 목적입니다.
그래서 Problem 단계에서는 문제를 좀 더 구체화하는 것이 필요합니다.
실질적으로 분석을 하기 위해서 또는 자료를 모으기 위해서는 좀 더 엄밀하게 문제를 정의해야 됩니다.
(2) Plan 단계
두번째 Plan 단계에서는 어떤 자료를 수집해서 그 자료를 어떻게 분석해 나갈 것인가에 대한 계획을 세우는 단계입니다.
이 연구에서 나무를 가지고 어떻게 측정할 것인가? 의 문제점은 딱딱한 줄기를 가진 식물을 하나하나 측정하는 것은 불가능하다는 것입니다.
따라서, 이 연구에서는 다음과 같은 방법으로 자료 수집 계획을 세웠습니다.
① 지리적, 기후적으로 유사한 일련의 지역들(biome) 별로 나무의 개수를 센 후 지역별로 단위면적당 나무 숫자의 평균을 구하고 지역별 GIS 관련 변수들의 정보도 수집한다.
② 위성사진을 이용하여 각 유형별 지역(biome)이 지구 전체에서 차지하고 있는 면적을 추정한다.
(3) Data 단계
세번째 Data 단계에서는 2단계 Plan 단계에서의 계획을 실행하여 실제로 자료를 수집하게 됩니다.
이 연구에서는 다양한 international forestry database를 사용하여 약 43만군데의 tree density 측정 결과와 관련된 GIS 변수를 수집하였습니다.
위 그림에서 짙은 색으로 갈수록 나무들이 좀 더 밀도가 높다는 것을 나타내고 있습니다.
위 그래프는 각 유형별 단위면적당 나무의 수로 가로축은 나무의 밀집도, 세로축은 세분화된 지역으로 표시하고 있습니다. 각 지역별로 나무의 밀집도가 차이가 있는 것을 알 수 있습니다.
(4) Analysis 단계
네번째 단계는 Analysis(분석) 단계에서는 Data 단계에서 수집한 자료를 통계적인 분석을 실행합니다.
이 연구에서 Data 단계에서 수집한 자료가 전체 자료는 아니기 때문에 조사되지 않은 자료는 추정을 해야합니다.
여기서는 최종 수집한 자료를 바탕으로 통계모형(음이항 회귀분석)을 이용하여 전체 나무의 수 추정하였습니다.
지역별로 조사된 자료를 바탕으로 측정하지 못한 부분을 추정하게 되는데, 기후,강수량 등 을 기반으로 나무 density를 추정하게 됩니다.
(5) Conclusion 단계
마지막 단계는 Conclusion(결론) 단계는 분석결과를 정리하고 처음 세운 가설에 답을 하게됩니다.
이 연구의 가설은 " 지구상에는 얼마나 많은 나무가 있을까 ?" 였습니다.
연구 결과는 전체 나무의 숫자는 약 3조 400억 그루에 오차범위 +/- 1,000억 그루라고 합니다.
실제로 이 연구가 있기 전에는 아마존에서만 알려지 나무의 개수가 3조 정도라고 믿었었다고 합니다. 즉 전세계 나무의 수는 이 결과 수치의 2배 가량의 나무가 있다고 생각했다고 합니다.
이 연구에서는 매년 150억 그루의 나무가 지구상에서 잘려 나가는 것으로 추정하고 있으며, 인류문명이 시작한 이래 지구상 나무의 46%가 사라졌다고 추정하고 있습니다.
자료분석, 통계분석을 할 때, PPDAC (Problem - Plan - Data - Analysis - Conclusion) 의 5 단계 방법은 좋은 가이드가 될 것입니다.
'통계학 이야기' 카테고리의 다른 글
5. 자료 수집 - 통계적 실험과 관측 연구 (0) | 2023.08.22 |
---|---|
4. 통계분석과 자료 (Data) (0) | 2023.08.22 |
2. 통계학의 개요 (0) | 2023.08.01 |
1. 통계학 이란 ? (0) | 2023.08.01 |
0. 들어가면서 (0) | 2023.08.01 |