일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 오블완
- 두 평균의 비교
- version 1
- 글쓰기
- JavaScript
- 티스토리챌린지
- 고정효과모형
- 에세이
- css
- 반복없음
- 인공지능
- 변량효과모형
- 산점도
- 데이터 과학
- version 2
- 회귀분석
- 이항분포
- 이원배치 분산분석
- 통계학
- r
- 분산분석
- 가설검정
- 정규분포
- 추정
- 혼합효과모형
- 반복있음
- 경제학
- html
- 확률
- 변동분해
- Today
- Total
생각 작업실 The atelier of thinking
9. 자료의 분류와 특성 본문
Chapter 9. 자료의 분류와 특성
1. 자료(Data)의 정의
자료(Data)는 문자, 숫자,소리, 그림, 영상, 단어 등의 형태로된 의미 단위입니다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 됩니다. 자료(Data)와 정보(Information)는 서로 교환되어 사용하는 경우가 많지만 자료와 정보의 의미는 다르다고 할 수 있습니다.
자료는 숫자, 문자, 기호 등으로 이루어진 형태를 가질 수 있으며, 연속적인 값이 경우 연속자료(continuous data), d이산적인 값인 경우 이산자료(discrete data)로 구분할 수 있습니다. 이러한 자료를 수집하고 분석함으로써 문제를 해결하고 결론을 도출하는데 사용됩니다.
모집단은 큰 데이터 집합이라 할 수 있고, 표본은 모집단으로부터 얻은 데이터의 부분집합을 의미합니다.
즉, 데이터는 가장 기본적인 개념으로서 세포의 역할을 한다고 볼 수 있습니다. 자료 또는 데이터라 불리우는 이것이 통계학의 가장 기초라 볼 수 있습니다.
2. 자료의 분류
통계학에서 자료를 분류하는 이유는 자료의 특성에 따라 적용할 수 있는 통계분석 방법이 달라지기 때문입니다. 즉, 보다 정확한 자료분석을 위해서 자료를 분류한다고 할 수 있습니다. 분석하고자 하는 자료가 분석방법에서 가정한 조건을 얼마나 만족하는지에 따라 어떤 분석방법을 쓸 지를 결정하게 됩니다.
따라서, 자료의 속성에 따른 분류가 필요하지만, 자료의 분류는 절대적인 것은 아닙니다. 자료는 한 가지 유형에 속해 있는 것이 아니라 여러 유형을 한꺼번에 가지고 있는 경우가 있습니다.
(1) 변수에 따른 자료의 분류
변수(Variable)란 주어진 상황에 따라 다른 값을 가지는 측정치라고 정의할 수 있습니다.
① 일변량 자료 (univariate data) : 하나의 변수만 있는 자료.
자료가 단 하나의 변수로 이루어져 있는 경우를 말합니다.
예를 들어 신체검사 자료에서 키, 혈압, 나이 등이 있을 때 각 항목을 각각의 변수로 따로 분석하는 것을 말합니다. 이러한 경우 자료를 요약하고 분석하는 방법으로는 기술통계량을 사용합니다.
② 다변량 자료(multivariate data) : 여러 개의 변수로 이루어진 자료
둘 이상의 변수가 서로 관련되어 있는 경우를 말합니다.
예를 들어 여러 사람의 키,체중,나이 등을 동시에 분석하는 것을 말합니다. 다변량 자료를 요약하고 분석하는 방법으로는 상관관계 등이 변수들 간의 관련성을 살펴보는 것을 목적으로 합니다.
(2) 분석목적 관점에 따른 자료의 분류
① 범주형 자료
범주형 변수(categorical variable)는 2개 이상의 범주(category)를 값으로 가지는 변수를 의미하며 다음과 같은 경우를 범주형 변수로 정의할 수 있습니다.
- 순서가 없는 범주 : 국적, 성별
- 순서가 있는 범주 : 군인계급(이병<일병<상병<병장)
- 일련의 그룹으로 묶인 숫자들 : BMI 기준 비만측도 (정상의 경우 18.5<BMI<22.9)
이를 세분하여 분류하면 명목(형)자료(Nominal Data)와 순서자료(Ordinal Data)로 구분할 수 있습니다.
명목(형)자료(Nominal Data)는 순서가 없는 범주로 숫자로 바꾸어도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 범주를 표시하는 것을 말합니다. 예를 들어, 혈액형, 주민번호의 성별표시(남자 1,3 , 여자 2,4) 등이 명목자료라 할 수 있습니다.
순서자료(Ordinal Data)는 순서가 있는 범주로 범주의 순서가 상대 비교가 가능한 자료를 말합니다. 예를 들어, 비만도(저체중,정상,과체중,비만,고도비만), 선호도(매우좋음, 좋음, 보통, 나쁨, 매우나쁨), 학점 등이 순서자료라 할 수 있습니다.
범주화를 통해 수치형 자료를 순서자료로 바꿀 수도 있습니다.
② 수치형 자료
수치형 자료는 셀 수 있는 형태의 이산자료(discrete data)와 연속적인 속성을 가지는 연속자료(continuous data)로 나눌 수 있습니다.
이산자료(discrete data)의 특징은,
- 셀 수 있는 형태의 자료 (countable data)
- 값이 정수
- 예 : 충치 수, 교통사고 건수, 자녀의 수 등
- 범주형 자료의 발생빈도
연속자료(continuous data)의 특징은,
- 연속적인 속성을 가지는 자료
- 값이 실수인 경우
- 예 : 신장, 체중, 시간 등
- 연속자료는 대부분 이산화를 통해 절사된 형태로 표시
③ 자료 유형에 따른 분석 방법
범주형 자료는 주로 빈도수나 백분율로 요약하여 분석합니다.
명목형 자료는 각 범주의 빈도수와 백분율을 구하며, 순서형 자료는 각 범주의 빈도수와 백분율 뿐 아니라 상대적인 위치 개념도 함께 고려하여 분석합니다. 이 때, 명목형 자료와 순서형 자료의 빈도수나 백분율 차이는 매우 작기 때문에 카이제곱검정이나 범주형 자료의 평균 차이를 검정하는 분석방법 등을 사용할 수 있습니다.
수치형 자료는 기술통계량(평균, 분산, 표준편차, 중앙값 등)을 이용하여 요약하고, 히스토그램이나 상자그림과 같은 그래프로 시각화하여 분석합니다. 또한, 수치형 자료의 평균 차이 검정, 분산분석, 회귀분석 등의 분석방법을 사용할 수 있습니다.
(3) 변수의 종류에 따른 자료의 분류
① 양적(quantitative) 변수 : 나이, 가족의 구성원 수, 가구 소득 등 양으로 표현할 수 있는 자료
→ 양적 자료
② 질적(qualitative) 변수 : 혼인상태, 취업여부 등
→ 질적 자료 일반적으로 질적자료도 통계처리 목적상 수치로 코딩하여 사용
③ 이산(discrete) 변수 : 셀 수 있는 형태의 자료로 정수 값을 가지는 자료
→ 이산자료
④ 연속(continuous) 변수 : 연속적인 형태의 자료로 실수 값을 가지는 자료
→ 연속자료
※ 연속자료는 컴퓨터를 통해 숫자를 표현하면 이론상 언제나 이산적일 수 밖에 없습니다. 현실적으로는 어떠한 연속변수도 이산적으로 근사시켜 표현할 수 밖에 없습니다. 이 때 그 근사의 정확도를 얼마로 할 것인가가 문제의 본질입니다.
(4) 척도 종류에 따른 자료의 분류
① 명목척도(nominal scale)
척도의 명칭만 의미가 있음
예 : 결혼 상태에 대한 코드 : { 미혼=1, 기혼=2, 이혼=3, 사별=4 }
② 순서척도(ordinal scale)
명칭 및 순서가 의미를 지님
예 : 성적등급 : { poor=1 , fair=2, good=3, very good=4, excellent=5 }
③ 간격척도(interval scale)
명칭, 순서 및 간격이 의미를 지님.
예 : 온도
④ 비율척도(ratio scale)
명칭, 순서, 간격 및 배율 모두 의미를 지님
이들 척도의 경우 이른바 "절대적 원점(absolute zero point)"이 정의됨.
예 : 키, 몸무게, 재산 등
(5) 시점 관점에서 분류한 자료의 유형
① 횡단면 자료(cross-sectional data)
한 시점에서 여러 개체를 관측한 자료.
예 : 경제활동 인구조사, 대통령 국정 운영 지지도
② 시계열 자료(time-series data)
한 개체를 여러 시점에 걸쳐 관측한 자료.
예 : 1970년~2020년 1인당 GDP변화, 10년간 주가 변동 추이
③ 패널 자료(panel data) 또는 종적 자료(longitudinal data)
횡단면과 시계열의 특성을 결합하여 여러 개체를 여러 시점에 걸쳐 관측한 자료.
국내외 각종 패널자료들이 많이 쌓이고 있으면 정보량 또한 많이 있다.
예 : 신용카드 보유자의 월별 업종별 지출액 패널 자료
통신회사(전화,인터넷)가 보유한 개인별 통신 사용 자료
전기 등 각종 공과금의 월별 지출액 자료
은행의 기업/가계별 대출 및 사후 관리 자료
기업의 신용등급 변화 자료
'통계학 이야기' 카테고리의 다른 글
11. 자료의 요약 (0) | 2023.08.28 |
---|---|
10. 자료 정리 (1) | 2023.08.28 |
8. 자료 수집 - 표본 편의(Sampling Bias) (0) | 2023.08.25 |
7. 자료 수집 : 표본 추출 방법 (1) | 2023.08.22 |
6. 자료 수집 - 표본 추출 (Sampling) (0) | 2023.08.22 |