생각 작업실 The atelier of thinking

11. 자료의 요약 본문

통계학 이야기

11. 자료의 요약

knowledge-seeker 2023. 8. 28. 11:29

Chapter 11. 자료의 요약

 

1. 자료를 요약 정리해야 하는 이유

 

자료를 요약 정리해야 하는 이유에 대하여 아래와 같습니다.

 

(1) 자료의 양이 많아지면 분석하기 힘들어지기 때문에 자료를 간결하게 요약 정리하여 쉽게 파악할 수 있게 하여야 합니다.

(2) 요약된 자료를 통해 추세나 분포 등의 패턴을 파악할 수 있습니다.

(3) 요약된 자료를 통해 자료의 특성이나 경향성을 파악할 수 있으며, 이를 통해 문제의 원인을 분석하고 개선점을 도출할 수 있습니다.

(4) 요약된 자료는 의사결정에 도움을 주고, 효율적인 의사결정을 가능하게 합니다.

(5) 요약된 자료는 다른 사람들과 공유하기 쉬우므로 의사소통에도 용이합니다.

 

2. 기술통계학 (Descriptive Statistics)

 

기술통계학(Descriptive Statistics)은 주어진 자료를 표현하거나 요약하여 관찰된 데이터의 특성을 파악하는 통계분야입니다. 이는 데이터의 분포, 중심 경향성, 산포도, 모양 등을 분석하여 데이터의 특징을 요약하고 시각화 하는 과정입니다.

 

기술통계학은 데이터의 특성 파악과 시각화를 통해 인사이트를 얻을 때 사용되며, 추론통계학에서 통계적 가설 검정 및 추정 등의 분석을 수행하기 전에 기본적인 이해를 제공합니다.

 

자료를 요약정리하는 것은 기술통계학의 주요한 역할 중 하나입니다.

기술통계학은 데이터를 요약하고 이를 이해하기 쉽게 표현하는 것을 목적으로 합니다. 이를 통해 데이터에서 나타나는 패턴과 특징을 파악하고, 문제를 발견하고 해결하는 데 도움을 줍니다.

 

자료를 요약 정리하는 방법은 크게 수치를 이용하는 방법과 그래프를 이용하는 방법이 있습니다.

 

3. 수치를 이용하는 방법

 

 자료의 특성에 따라 요약 정리하는 방법도 달라진다.

일변량 자료와 다변량 자료로 나눈 뒤 각 자료를 각각 범주형 자료와 수치형 자료로 분류하여 요약 정리하는 방법은 아래와 같습니다.

 

(1) 일변량 자료 : 하나의 변수만 있는 자료

 

① 범주형 자료

 

  ⓐ 도수분포표 

       하나의 변수에 대한 자료를 정리하기 위해 사용하며, 빈도수 또는 백분율로 표현합니다.

        (빈도수 : 각 범주가 나타나는 빈도를 세는 것, 백분율 : 각 범주가 나타나는 비율을 백분율로 표현)

  ⓑ 분포척도

       데이터의 분포를 파악하기 위한 척도 (대푯값, 퍼진 정도 등)

  ⓒ 최빈값

      데이터 중 가장 빈번하게 나타나는 값을 말합니다.

 

② 수치형 자료

 

   ⓐ 평균 (mean)

       데이터의 총합을 개수로 나눈 값으로 데이터의 중심 경향성을 파악하는 데 사용합니다.

   ⓑ 중앙값(median)

       전체 데이터를 크기순으로 정렬했을 때 가운데 위치한 값으로, 데이터의 중심 경향성을 파악하는 데 사용합니다.

   ⓒ 최빈값

      데이터 중 가장 빈번하게 나타나는 값을 말합니다.

   ⓓ 분산 (variance)

      데이터가 흩어진 정도를 나타내는 값으로 평균과의 차이를 제곱한 값의 평균을 나타냅니다.

   ⓔ 표준편차 (standard distance)

      데이터가 흩어진 정도를 나타내는 값으로 분산의 제곱근 값을 나타냅니다.

    ⓕ 범위 (range)

        데이터의 최대값과 최소값의 차이를 나타내는 값입니다.

    ⓖ 분위수 및 사분위수

        데이터를 크기순으로 정렬했을 때 중간값과 중앙값을 기준으로 나눈 값으로 데이터 분포를 파악하는 데 사용합니다.

    ⓗ 분포

        데이터 값이 나타나는 경향을 나타내는 값입니다. 정규분포, 왜도, 첨도 등으로 나타냅니다.

 

(2) 다변량 자료 : 2개 이상의 변수가 있는 자료

 

 ① 범주형 자료

    ⓐ 분할표

       두 개 이상의 변수 간의 관계를 나타내기 위해 사용합니다.

       도수분포표와 마찬가지로 빈도수 또는 백분율로 표현합니다.

        (빈도수 : 각 범주가 나타나는 빈도를 세는 것, 백분율 : 각 범주가 나타나는 비율을 백분율로 표현)

    

  ② 수치형 자료

 

     ⓐ 공분산

         두 변수 간의 관계를 나타내는 통계량으로, 두 변수가 함께 변하는 정도를 나타냅니다.

      ⓑ 상관관계

         두 변수간의 선형적인 관계를 측정하는 통계량으로, 두 변수 사이의 관계가 어떤 모양으로 나타나는지를 알려줍니다. -1에서 1사이의 값을 갖습니다.

 

4. 그래프를 이용하는 방법

 

 (1) 그래프를 이용한 자료 요약의 장점

 

     시각화를 통해 직관적인 이해 

        그래프를 보면 숫자로 표현된 자료보다 쉽게 이해할 수 있습니다. 시각적으로 자료의 분포, 패턴, 경향성 등을 한눈에 파악할 수 있습니다.

    정보 전달의 간결성 

         그래프를 사용하면 자료를 간결하게 전달할 수 잆습니다. 긴 표나 글로 표현하기 어려운 정보를 그래프로 보여주면, 정보의 전달이 더욱 간결하고 명확합니다.

     ③ 자료 비교 용이성

          그래프는 다양한 자료를 쉽게 비교할 수 있습니다. 두 개 이상의 그래프를 함께보면 자료들의 차이점을 더욱 명확하게 파악할 수 있습니다.

    ④ 인상적인 자료 제시

         적절한 그래프를 사용하면, 특히 발표나 보고서에서 자료를 더욱 인상적으로 제시할 수 있습니다. 이는 자료의 효과적인 전달과 기억에 큰 도움이 됩니다.

    ⑤ 자료 분석의 도움

        그래프를 보면, 자료를 보다 체계적으로 분석하고 이해할 수 있습니다. 자료를 시각화하면 놓치기 쉬운 패넡이나 경향성을 파악할 수 있습니다.

 

(2) 그래프 종류

 

 대부분 사람들은 숫자나 수식을 설명할 때보다 그림과 같은 시각적 방법을 이용하면 이해를 잘하는 경향이 있습니다. 따라서, 통계자료를 직관적인 설명으로 그래프가 유용합니다. 다만, 자료의 특성에 따라 사용하는 그래프를 달리해야 합니다.

 

    ① (꺾은)선 그래프 

        (꺾은)선 그래프는 시계열 자료 등 연속적인 자료를 표현할 때 효과적입니다.

         주가 변동을 선 그래프로 표현하는 것이 대표적입니다.

 

        ☞ 주가 변동 그래프

    ② 막대 그래프(Bar Chart)

        막대 그래프는 범주자료를 비교할 때 유용하게 사용할 수 있습니다.

           ☞ 파이 판매량 비교

  ③ 원도표 (Pie Chart)

      원도표 (Pie Chart)는 각 범주가 전체 데이터에서 차지하는 비율을 파악하고자 할 때 유용합니다.

        ☞ 파이별 판매량 비율

  ④ 히스토그램(Histogram)

       히스토그램은 수치자료 특히 연속형 자료의 분포형태를 표시합니다.

                        계급의 상대도수를 사각형의 면적으로 표시합니다. 즉 전체면적은 1 입니다.

                        높이 = 상대도수 / 계급구간길이 = 밀도(density)

 

  ⑤ 줄기-잎 그림(stem-and-leaf plot)

      관측값의 정보를 그대로 간직하면서 자료의 분포를 알려주는 그래프입니다.

  ⑥ 상자그림(Box Plot)

      상자그림은 분위수를 표현하는 그래프입니다. 왼쪽부터 최소값,1분위수,2분위수(중앙값),3분위수, 최대값을 표시합니다.

 

'통계학 이야기' 카테고리의 다른 글

13. R 과 R Studio  (0) 2023.08.29
12. 데이터 시각화의 중요성을 알려주는 사례  (1) 2023.08.28
10. 자료 정리  (1) 2023.08.28
9. 자료의 분류와 특성  (0) 2023.08.25
8. 자료 수집 - 표본 편의(Sampling Bias)  (0) 2023.08.25