생각 작업실 The atelier of thinking

12. 데이터 시각화의 중요성을 알려주는 사례 본문

통계학 이야기

12. 데이터 시각화의 중요성을 알려주는 사례

knowledge-seeker 2023. 8. 28. 11:30

Chapter 12. 데이터 시각화의 중요성을 알려주는 사례

 

1. 데이터 시각화가 중요한 이유

 

(1) 빅 데이터(Big Data)

 

빅 데이터(Big Data)란 디지털 환경에서 발생하는 대량의 모든 데이더를 말합니다.

 

요즘은 매일 2조5천억 바이트의 빅 데이터가 생성된다고 합니다. 페이스북에서는 하루 300페타바이트 이상의 정보가 저장되고 공유된다고 합니다. 또한 전 세계에서 하루에 500억 건 이상의 트윗을 사용하고 있다고 합니다. 이것이 어느 정도 크기인지 가늠조차 되지 않습니다.

 

뉴욕타임즈가 하루에 싣는 정보의 양은 17세기 영국의 평범한 사람이 평생 소비하는 정보의 양과 비슷하다.(Wurman,S.A.(1987). Information Anxiety, New York : Doubleday)

는 말이 1987년도에 나온 이야기 입니다. 지금의 정보량은 과연 어느 정도 일까요?

 

Google 검색 및 온라인 쇼핑 습과과 같은 활동 데이터, 텍스트, 스마트폰, 커뮤니케이션 및 대화, 모든 사진과 비디오를 통해 수집한 센서 데이터 등을 생각해보면 지금은 소위 정보의 홍수란 말이 부족하다 느껴 "인포팬데믹"이란 말까지 생겨났다고 합니다.

이러한 정보의 홍수, 인포팬데믹에서 유용한 정보를 추려내는 것이 보다 중요한 시점이 되었습니다.

또한 전달자 입장에서는 효율적인 정보전달이 중요하게 되었습니다. 

 

따라서 직관적인 정보전달에 효과적인 시각화의 중요성이 점점 높아지고 있습니다.

 

(2) 인포그래픽(Infographic)

 

인포그래픽은 정보를 시각적으로 전달하는 방법 중 하나로, 그래픽 디자인과 정보를 결합하여 복잡한 데이터나 정보를 간결하고 명확하게 표현하는 시각화 수단입니다.

 

인포그래픽은 숫자, 텍스트, 그림, 차트, 그래프, 아이콘 등을 조합하여 보기 쉽고 이해하기 쉬운 형태로 제작되며, 복잡한 정보나 데이터를 직관적으로 이해할 수 있도록 도와줍니다.

 

인포그래픽의 목적을 정리해보면,

  ① 정보 전달과 공유

     복잡한 정보나 데이터를 시각화하여 보다 명확하게 전달하고 공유할 수 있습니다.

  ② 데이터 분석 및 해석

      데이터의 패턴이나 추세를 시각화하여 빠르게 분석하고 이해할 수 있습니다.

  ③ 주제나 이슈 강조

      특정 주제나 이슈를 강조하여 활용할 수 있습니다.

  ④ 관심 유발

       시각적으로 흥미로운 디자인으로 제작하면 사람들의 관심을 끌 수 있습니다.

  ⑤ 복잡한 정보 간소화

       복잡한 정보를 단순화하여 알기 쉽게 표현할 수 있습니다.

 

인포그래픽은 보고서, 프레젠테이션, 웹사이트, 소셜 미디어 등 다양한 매체에서 사용될 수 있습니다. 데이터 사이언스나 비즈니스 분야에서는 분석 결과를 시각적으로 전달하기 위해 인포그래픽을 활용하는 경우가 많습니다. 데이터의 특성과 내용을 고려하여 효과적인 인포그래픽을 디자인하고 활용하는 것은 정보 전달과 이해를 돕는 중요한 도구입니다.

 

2. 성공적인 시각화 사례

 

(1) 나폴레옹의 러시아 진격지도 (1812.6~1813.1)

출처 : https://en.wikipedia.org/wiki/Charles_Joseph_Minard

 

Charles Joseph Minard - Wikipedia

From Wikipedia, the free encyclopedia French civil engineer (1781–1870) Charles Joseph Minard (; French: [minaʁ]; 27 March 1781 – 24 October 1870) was a French civil engineer recognized for his significant contribution in the field of information gra

en.wikipedia.org

 

사를 조셉 미나르(Charles Joseph Minarad, 1781~1870)가 그림으로 표시한 나폴레옹의 러시아 원정 상황입니다. 그는 토목공학 및 통계의 인포그래픽 분야 발전에 크게 기여한 프랑스 토목 기술자라고 알려져 있습니다.

 

위 그림은 통계학에서 뿐만 아니라 인포그래픽 관련 책에서도 항상 인용되고 있습니다.

 

색상의 명도(짙은색/옅은색), 선 굵기 등을 이용하여 전쟁 당시 병력의 숫자를 묘사하여 하나의 그림 안에 많은 정보를 담고 있습니다.

 

위 그림에는 6가지 정보 즉, 병력크기, 지리정보,이동거리, 방향,온도,날짜를 한 눈에 표현하고 있습니다.

 

  ① 병력크기 : 연갈색과 검은색 경로선의 굵기는 해당 지점에서의 병력 수를 의미합니다. 원정을 출발하던 초기에는 42만 대군이므로 매우 굵게 표시되지만, 갈수록 줄어드는 것을 볼 수 있습니다. 선의 굵기는 병력수에 대응되도록 비율에 맞게 정확히 그렸다고 합니다. 1만 명을 1mm굵기로 표시했다고 밝히고 있습니다.

 

 지리정보 : 연갈색과 검은색 경로선은 실제 지도를 반영하여 만들었다고 합니다. 왼쪽(서쪽)은 폴란드와 러시아 의 국경을 이루던 네만 강을 시작하고 있으며, 오른쪽(동쪽) 끝은 모스크바 입니다.

 

방향 :  진격과정에서는 상대적으로 긍정적인 색깔로, 퇴각하는 것은 부정적인 시커먼 색깔로 표현하여 방향을 구분하였습니다.

 

이동거리, 날짜 및 온도 : 검은색 밴드 아래에는 퇴각할 때의 날짜 및  그 날의 온도도 표기함으로써 열악했던 환경을 표현하고 있습니다. 날짜가 표기된 지역을 보면서 이동거리를 알 수 있습니다.

 

이 인포그래픽은 데이터 시각화의 예술적인 측면과 정보전달의 효율성을 결합하여, 역사적 사건을 통해 데이터의 힘을 보여주는 좋은 사례 중 하나로 평가받고 있습니다.

 

 

(2) 나이팅게일의 로즈 다이어그램

출처 : https://en.wikipedia.org/wiki/Florence_Nightingale

 

Florence Nightingale - Wikipedia

From Wikipedia, the free encyclopedia English social reformer, statistician, and founder of modern nursing Florence Nightingale OM RRC DStJ (; 12 May 1820 – 13 August 1910) was an English social reformer, statistician and the founder of modern nursing. N

en.wikipedia.org

 

플로렌스 나이팅게일 (Florence Nightinggale, 1820~1910)은 백의의 천사라는 말로 표현되는 간호사하면 떠오르는 떠오르는 이름이 아마도 "나이팅게일" 일 것입니다. 나이팅게일은 간호사로서 뿐만 아니라 통계학자로서도 훌륭한 업적이 있습니다.

 

1850년대 크림 전쟁중 군인들이 전투 중 입은 부상으로 사망하는 경우보다 불결한 병원 환경에 의해서 사망하는 경우가 더 많았다고 합니다. 나이팅게일은 이러한 사실을 널리 알리기 위해 로즈 다이어그램을 고안했다고 합니다.

 

위 그림 로즈 다이어그램은,

1854년 4월부터 1856년 3월까지 크림전쟁 이스트 지역에서 사망한 병사들의 사인(부상,질병,기타원인)을 분류하여 정리한 것입니다.

각 원인별 사망자 수를 면적 및 색으로 표시하였습니다. 부상으로 사망한 경우 빨간색(red), 질병으로 사망한 경우는 파란색(blue), 기타 원인으로 사망한 경우는 검은색(black)으로 구분하여 표현하였습니다.

위 그림에서 보듯이 대다수의 사망원인은 파란색인 질병임을 쉽게 알 수 있습니다.

 

로즈 다이어그램은 나이팅게일이 병원환경개선 필요성을 정치인이나 고위 공무원들을 설득할 때 근거자료로 활용하였다고 합니다. 이 후 병원 환경이 개선되었고 사망자 수가 대폭 감소하였다고 합니다.

 

나이팅게일은 통계학적 공로를 인정받아 1859년 여성최초로 영국 왕립 통계학회 회원과 이후 미국통계학회 명예회원으로 선출되었다고 합니다.

 

나이팅게일의 로즈 다이어그램은 데이터 시각화의 강력한 예시로서, 복잡한 데이터를 직관적으로 이해할 수 있는 형태로 변환하고 의사 결정에 활용하는 데 성공한 사례로 평가되며, 데이터 시각화의 역사와 중요성을 상징하는 작품 중 하나로 꼽히고 있습니다.

 

 

 

(3) 존 스노우 박사의 콜레라 지도

 

출처 :  https://en.wikipedia.org/wiki/1854_Broad_Street_cholera_outbreak

 

1854 Broad Street cholera outbreak - Wikipedia

Severe outbreak of cholera that occurred in London in 1854 The Broad Street cholera outbreak (or Golden Square outbreak) was a severe outbreak of cholera that occurred in 1854 near Broad Street (now Broadwick Street) in Soho, London, England, and occurred

en.wikipedia.org

존 스노우(John Anow, 1818~1858) 는 영국 빅토리아 시대 의사로서 역학의 시초라고 합니다.

19세기 중반까지 유럽인 등은 콜레라가 나쁜 공기에 의해 발생한다고 믿었다고 합니다.

이 가설을 의심하던 영국의 젊은 존 스노우가 1854년 런던에서 발생한 콜레라가 대규모로 발생하여 많은 사람들이 사망하였을 때, 당시 의학적인 이해와 지리적인 영향 등을 고려하여 원인을 찾아보려던 스노우는 지도를 이용하여 우병 지점과 물원을 연결하고자 하였습니다. 그 는 콜레라 환자들의 발생지점을 지도 ㅜ이에 표시하고, 지하수 펌프의 위치도 마크하여 비교 분석하였습니다.

 

스노우의 지도 분석 결과, 콜레라 환자들의 발생지점이 특정 지하수 펌프 주변에 집중되어 있음을 발견하였습니다. 이를 통해 물과의 관련성을 강조하고, 특정 지하수 펌프가 콜레라의 원인이 되었을 가능성을 제시하였습니다. 이로써 스노우는 콜레라의 전파 매커니즘을 처음으로 제대로 이해하고 예방책을 제시하는 데 큰 역할을 하였습니다.

 

이 존 스노우의 콜레라 지도는 데이터 분석과 지도 시각화의 중요성을 보여주는 사례로, 지리적 정보와 데이터를 결합하여 복잡한 문제를 해결하는 데 활용되는 예시 중 하나로 평가받고 있습니다.

 

 

(4) Gapminder Tools - 한스 로슬링

 

출처 :  https://www.gapminder.org/tools/#$model$markers$bubble$encoding$trail$data$filter$markers$kor=1800;;;;;;;;&chart-type=bubbles&url=v1

 

Gapminder Tools

Animated global statistics that everyone can understand

www.gapminder.org

 

한스 고슬링(Hans Rosling, 1948~2017)은 스웨덴 의사이자 통계학자입니다. 카롤린트카의과대학교 교수로 재직하였고, 트렌달라이저(Trendalyzer)를 개발한 비영리 벤처 갭마인더 재단의 공동설립자이기도 합니다. 빅데이터를 가장 잘 활용하는 보건 통계학자로 알려져 있습니다. 

 

한스 로슬링의 TED 강연모음

 

https://www.ted.com/search?q=hans+rosling

 

hans rosling | Search Results | TED

Conferences TED Conferences, past, present, and future

www.ted.com

 

▶ Gapminder

 

갭마인더는 스웨덴의 비영리 통계분석 서비스입니다. 유엔의 데이터를 바탕으로 한 인구 예측, 부의 이동 등에 관한 연구논문과 통계정보를 공유합니다.

최근 데이터 시각화의 잘 된 표본으로 많이 언급되고 있습니다.

http://www.gapminder.org

 

Gapminder

 

www.gapminder.org

 

'통계학 이야기' 카테고리의 다른 글

14-1. R 을 이용한 자료 요약  (0) 2023.08.31
13. R 과 R Studio  (0) 2023.08.29
11. 자료의 요약  (0) 2023.08.28
10. 자료 정리  (1) 2023.08.28
9. 자료의 분류와 특성  (0) 2023.08.25