일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 이원배치 분산분석
- html
- 변량효과모형
- 산점도
- 오블완
- 경제학
- 혼합효과모형
- version 2
- 반복있음
- 글쓰기
- 회귀분석
- 추정
- 티스토리챌린지
- 분산분석
- 이항분포
- 변동분해
- 인공지능
- version 1
- css
- r
- 데이터 과학
- 확률
- JavaScript
- 통계학
- 정규분포
- 반복없음
- 고정효과모형
- 에세이
- 가설검정
- 두 평균의 비교
- Today
- Total
생각 작업실 The atelier of thinking
15. 수치 자료의 중심 - 평균, 중앙값, 최빈값 본문
일변량 자료 요약
(1) 수치형 - 평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 분위수 등
(2) 범주형 - 도수분포표 (빈도수, 백분율)
다변량 자료 요약
(1) 수치형 - 공분산, 상관관계
(2) 범주형 - 분할표 (빈도수, 백분율)
Chapter 15. 수치자료의 중심 - 평균, 중앙값, 최빈값
1. 일변량 자료에 대한 수치적 기술통계
위 자료는 신체검사 결과를 나타내고 있는 자료입니다.
위 자료에서 일변량 자료란 성, 연령, 신장, 체중 등 각각의 변수를 한 항목으로 구분한 것을 말합니다.
예를 들어 신장이란 변수 하나에 대한 평균을 구할 수 있지만, 신장과 체중, 두 개의 변수를 합쳐서 평균을 구하는 것은 오히려 자료 요약에 있어서 혼선을 줄 수 있읍니다.
두 개의 자료, 즉 다변량 자료에 대한 요약은 두 변수간의 공분산, 상관계수 등으로 두 변수의 관계를 나타내는 것을 주 목적으로 합니다.
위 자료에서 성, 비만도, 혈액형은 범주형 자료 입니다. 이런 범주형 자료는 자료 요약시 평균을 구할 수가 없습니다. 즉, 자료의 특성에 따라 요약 방법을 달리 해야합니다.
평균, 분산 등은 일변량이고 수치자료에 사용할 수 통계량(요약값) 입니다.
위 자료에서 여기에 적용되는 변수는 연령, 신장, 체중, 충치 등 입니다.
2. 일변량 수치 자료 요약 방법
일변량 수치 자료 요약 방법을 크게 중심을 나타내는 값과 흩어진 정도를 나타내는 값으로 구분해 볼 수 있습니다.
중심을 나타내는 대표적인 통계량(요약값)은 평균, 중앙값,최빈값이 있습니다.
흩어진 정도을 나타내는 대표적인 통계량(요약값)은 분산, 표준편차, 범위, 분위수, 분포 등이 있습니다.
3. 평균
평균(mean)은 자료의 총합을 자료의 개수로 나눈 값으로서, 자료의 대푯값을 나타내는 대표적인 방법 중 하나입니다. 가장 많이 사용하는 중심위치 통계값은 평균이라 할 수 있습니다.
평균을 계산하는 방법에 따라 아래와 같이 나눌 수 있습니다.
산술평균(Arithmetic mean) : 자료의 총합을 자료의 개수로 나눈 값
기하평균 (Geometric mean) : 자료의 곱을 자료의 개수 제곱근으로 나눈 값
조화평균 : 자료의 개수를 자료의 각 항의 역수의 총합으로 나눈 값
가중평균 : 자료의 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
각각의 평균은 자료의 특성에 따라 적합한 평균이 다르게 적용될 수 있습니다.
예를 들어, 상대적인 크기나 비율의 차이가 중요한 경우에는 기하평균이나 조화평균을 사용하는 것이 적절할 수 있고, 자료의 가중치가 있는 경우에는 가중평균을 사용합니다. 일반적으로 가장 많이 사용되는 것은 산술평균이라고 할 수 있습니다. 통계학에서는 모집단의 특성을 알기 위한 표본을 추출하는 것에 관심이 많기 때문에 표본평균, 표본분산 등 표본이라는 말을 앞에 붙여 사용하기도 합니다.
각각의 평균을 수식으로 표현해보면,
(1) 산술평균 (Arithmetic mean)
▶ 표본평균 (Sample mean)
표본평균은 표본의 합을 표본크기로 나눈 값입니다. 즉, 산술평균입니다.
모집단의 평균은 모평균이라 부르며, 둘을 구분하여 사용합니다.
표본평균의 일반식
$$ \bar{x} = \frac{x_1+x_2+ ... + x_n}{n} = \frac{1}{n} \sum_{i=1}^n x_i $$
평균은 무게중심이기도 합니다.
▶ 표본비율 (Sample proportion)
모집단에서 추출한 표본들이 어떤 특징을 가지는 것들의 비율입니다.
i 번째 관측값이 어떤 범주에 속하면 값을 1로 아니면 0 이라 표시한다면,
이 때 y 는 해당범주에 포함된 표본의 수를 나타냅니다.
표본비율의 일반식
즉, 표본비율 = 표본평균 임을 알 수 있습니다.
(2) 기하평균 (Geometric mean)
기하평균은 자료의 곱을 자료의 개수 제곱근으로 나눈 값으로 곱셈으로 계산하는 값에서의 평균을 계산하고자 할 때 산술평균이 아닌 기하평균을 사용합니다.
(3) 조화평균 (Harmonic mean)
주어진 수들의 역수들의 산술평균을 말합니다. 평균적인 변화율을 구할 때에 주로 사용됩니다.
◈ 예제 ◈
절반의 거리를 시속 60km로 달리고 남은 절반의 거리를 시속 40km로 달릴 때 평균 속도는 ?
: 거리 = 속도 X 시간 이므로, 거리를 y 로, 시속 60km로 달렸을 때의 시간을 t1, 시속 40km로 달렸을 때의 시간을 t2라 했을 때,
(4) 가중평균 (Weighted mean)
자료의 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값을 말합니다.
수치자료에 가중치를 더해 구한 평균값입니다.
4. 중앙값 (median)
가장 많이 사용하는 중심위치 통계값은 평균입니다. 그러나 평균은 이상점에 따라 크게 영향을 받는 경우가 있습니다. 이러한 경우에 평균을 대체하여 사용할 수 있는 대체 중심위치 통계값으로 중앙값이 있습니다.
(1) 표본중앙값(Sample median, 표본중위수)
절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수를 말합니다.
중앙값은 n 이 홀수이면 (n+1)/2 번째 숫자입니다.
중앙값은 n이 짝수이면 n/2번째 숫자와 (n+1)/2번째 숫자의 평균으로 정의합니다.
일반식으로 표현하면,
(2) 표본절사평균 (Sample trimmed mean)
표본평균과 표본중앙값의 장점을 취합해 만듣 것이 표본절사평균입니다.
a% 표본절사평균이란 순서통계량에서 하위 a%부터 상위 a%까지의 자료를 이용하여 표본평균을 계산합니다.
가장 쉽게 접할 수 있는 예시는 체조나 피겨스케이팅 등의 채점을 할 때 최대값과 최소값을 제외한 나머지 점수를 평균을 냅니다. 이런 방식으로 평균을 내는 것을 절사평균이라 합니다. 절사평균은 이상점을 제외할 수 있는 장점이 있습니다.
일반식으로 표현하면,
5. 최빈값
최빈값이란 자료중 빈도가 가장 많은 값을 말합니다. 최빈값은 여러 개가 나올 수 있습니다.
다만 연속자료의 경우에는 최빈값이 없을 수도 있습니다.
'통계학 이야기' 카테고리의 다른 글
17. R을 이용한 수치자료의 중심 구하기 (1) | 2023.09.09 |
---|---|
16. 수치 자료의 중심 - 평균의 한계 (0) | 2023.09.06 |
14-2. R 을 이용한 자료 요약 (0) | 2023.09.01 |
14-1. R 을 이용한 자료 요약 (0) | 2023.08.31 |
13. R 과 R Studio (0) | 2023.08.29 |