일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- JavaScript
- 에세이
- 추정
- 티스토리챌린지
- 회귀분석
- 경제학
- css
- 글쓰기
- 변량효과모형
- version 1
- html
- 분산분석
- 인공지능
- 데이터 과학
- 산점도
- r
- 정규분포
- version 2
- 가설검정
- 이원배치 분산분석
- 반복없음
- 통계학
- 고정효과모형
- 이항분포
- 확률
- 반복있음
- 변동분해
- 오블완
- 두 평균의 비교
- 혼합효과모형
- Today
- Total
목록통계학 이야기 (109)
생각 작업실 The atelier of thinking
Chapter 27. R을 이용한 산점도, 공분산, 상관관계 구하기 지난 회차에 다변량의 기술통계인 산점도,공분산, 상관관계 등에 대해서 알아봤습니다. 2023.09.22 - [통계학 이야기] - 26. 다변량 자료의 기술 통계 - 공분산, 상관관계 & 산점도 26. 다변량 자료의 기술 통계 - 공분산, 상관관계 & 산점도 Chapter 26. 다변량 자료의 기술통계 앞서 다변량 변수(자료) 형태는 아래와 같이 나눠봤습니다. 경우 X Y (1) 범주형 자료 범주형 자료 (2) 범주형 자료 수치형 자료 (3) 수치형 자료 범주형 자료 (4) 수 thinking-atelier.tistory.com 지난 회차에 올림픽 100미터 우승 기록에 대한 산점도를 그려봤었습니다. 이번에는 R을 이용하여 남녀 구분한 산..
Chapter 26. 다변량 자료의 기술통계 앞서 다변량 변수(자료) 형태는 아래와 같이 나눠봤습니다. 경우 X Y (1) 범주형 자료 범주형 자료 (2) 범주형 자료 수치형 자료 (3) 수치형 자료 범주형 자료 (4) 수치형 자료 수치형 자료 1. 산점도(Scatter Plot) 다변량 자료의 분석목적이 "관계"에 대한 분석도구로 가장 많이 사용되는 것은 산점도와 상관계수입니다. 두 변수의 값을 각각 x축과 y축을 이용하여 표시나 그림을 산점도(Scatter Plot)라고 합니다. (1) 자료구조와 분석목적 ▶ 구조 : 수치자료 + 수치자료(+...+수치자료) 각각의 관측개체에 대해 두 변수의 값은 순서쌍(x,y)...으로 표시 ▶ 목적 : 수치 변수들 간의 관계를 유도 순서쌍 자료를 2차원 평면상에 ..
Chapter 25. R을 이용한 범주형 자료 요약 지난 회차에 범주형 자료 요약에 대해 알아봤습니다. 지난 회차에서 살펴봤던 스마트폰 모델 선호도 자료를 R을 이용하여 분할표와 그래프를 그려보겠습니다. ◈ 예제 : 세 가지 스마트폰 모델에 대한 남녀별로 선호도 비교 1. 자료 불러오기 위 자료는 CSV(Comma-Separated Value) 파일로 이루어져 있습니다. R에서는 파일의 종류에 따라 불러들이는 함수가 따로 있습니다. CSV 파일을 불러오는 함수는 read.csv( ) 입니다. smart 여기서는 table( ) 함수 사용 (3) attach( ) 함수 사용하기 attach(smart) table(gender,model) detach(smart) model gender A B C 남자 35..
Chapter 24. 범주형 자료 요약 1. 범주형 자료란 범주형 자료는 각각의 데이터가 명목상의 범주(category) 또는 서열상의 범주(ordinal) 중 하나에 속하는 자료를 말합니다. 명목형 자료는 분류를 목적으로 하며, 서열형 자료는 순서를 가지고 있는 범주형 자료입니다. 예를 들어, 성별, 혈액형, 종교, 결혼여부 등은 명목형 자료이고, 학년, 선호도, 군대계급 등은 서열형 자료입니다.범주형 자료를 정리할 때 변수가 하나일 때는 도수분포표를 이용하고 변수가 2개 이상일 때는 분할표를 사용합니다. 2. 도수분포표 (Frequency Table) (1) 도수분포표 도수분포표는 각 범주에 몇 개의 관측개체가 있는지를 정리한 표입니다. 도수는 범주에 속한 관측개체의 수를 의미합니다. (=빈도) 상..
Chapter 23. R을 이용하여 왜도, 첨도 구하기 지난 회차에서 자료 분포의 형태를 나타내는 측도인 왜도와 첨도에 대해서 알아봤습니다. 2023.09.18 - [통계학 이야기] - 22. 수치자료의 형태 - 왜도, 첨도 22. 수치자료의 형태 - 왜도, 첨도 Chapter 22. 수치자료의 형태 - 왜도, 첨도 1. 분포의 형태 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정합니다. 즉 자료의 분포형태가 정규분포를 따른다고 가정합 thinking-atelier.tistory.com R을 이용해서 왜도와 첨도를 구해보겠습니다. 1. 자료 불러오기 자료는 17. R을 이용한 수치자료의 중심에서 사용했던 취업률 자료를 사용하겠습니다. ◈ 대학 정보 공시 : 취업률 자..
Chapter 22. 수치자료의 형태 - 왜도, 첨도 1. 분포의 형태 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정합니다. 즉 자료의 분포형태가 정규분포를 따른다고 가정합니다. 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받습니다. 자료의 분포 형태에 대한 측도, 자료가 모집단의 가정을 만족하는지에 확인이 필요한데, 여기에 사용하는 것이 왜도와 첨도이다. 왜도는 데이터의 분포가 얼마나 비대칭인지를 측정하는 지표입니다. 첨도는 데이터 분포의 꼬리부분이 얼마나 뾰족한지를 측정하는 지표입니다. 이렇게 데이터의 분포를 측정하고 이해하는 것은 더 정확하고 신뢰할 수 있는 데이터 분석을 위한 중요한 단계입니다. 데이터의 분포 형태에 따라 어..
Chapter 21. R을 이용한 표준화 - 표준점수 구하기 지난 회차에서 정규분포를 표준 정규 분포로 만들기 위해 필요한 표준화에 대해 알아봤습니다. 2023.09.13 - [통계학 이야기] - 20. 수치자료의 형태 - 정규분포 20. 수치자료의 형태 - 정규분포 Chapter 20. 수치자료의 형태 - 정규분포 1. 분포의 형태 분포란 자료가 어떤 값들을 가지고 나타나는지를 보여주는 방법입니다. 자료 분포의 형태를 보면 보다 많은 정보를 얻을 수 있습니다. 따라 thinking-atelier.tistory.com 주변에서 접하게되는 표준화의 예제가 수능 표준 점수가 아닌가 싶습니다. 아래 예제를 통해 R을 이용하여 표준점수와 등급을 구해보겠습니다. ◈ 예제 : 수능 표준 점수와 등급 구하기 학생 A..
Chapter 20. 수치자료의 형태 - 정규분포 1. 분포의 형태 분포란 자료가 어떤 값들을 가지고 나타나는지를 보여주는 방법입니다. 자료 분포의 형태를 보면 보다 많은 정보를 얻을 수 있습니다. 따라서 분포 형태를 알아보는 것이 중요합니다. 많은 통계분석 방법은 모집단이 중심위치를 기준으로 대칭(symmetric)이라고 가정합니다. 분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받습니다. 자료의 분포 형태에 대한 측도를 통하여 자료가 모집단의 가정을 만족하는지에 확인합니다. 2. 분포의 형태 예시 분포의 형태는 크게 대칭 분포와 비대칭 분포로 나눌 수 있습니다. 대칭 분포의 대표적인 것으로는 정규분포가 있습니다. 이 분포는 평균을 중심으로 좌우 대칭의 종모양를 그립니다..
Chapter 19. R을 이용한 수치자료의 산포 구하기 R을 이용하여 범위,IQR,분산,표준편차 등 수치자료의 산포(퍼짐)를 구해보겠습니다. 지난 18회차에 수치자료의 산포에 대해 알아봤습니다. 2023.09.11 - [통계학 이야기] - 18. 수치자료의 산포 - 분산, 표준편차,분위수 18. 수치자료의 산포 - 분산, 표준편차,분위수 Chapter 18. 수치자료의 산포 1. 산포 (dispersion, 퍼짐) 산포란 자료들이 얼마나 퍼져 있는지를 나타내는 측도입니다. 중심위치와 더불어 일변량 수치형 자료요약의 한 축을 담당합니다. 데이터의 중 thinking-atelier.tistory.com 1. 자료 불러오기 ◈ 예제 : 어느 고등학교 수학 중간고사 점수 (27명) [ 98,75,46,80,7..
Chapter 18. 수치자료의 산포 1. 산포 (dispersion, 퍼짐) 산포란 자료들이 얼마나 퍼져 있는지를 나타내는 측도입니다. 중심위치와 더불어 일변량 수치형 자료요약의 한 축을 담당합니다. 데이터의 중앙을 나타내는 대표값과 더불어 데이터가 얼마나 퍼져 있는지 여부를 제시하는 값은 자료의 요약에 필수적인 요소입니다. 대표적으로 퍼짐을 나타내는 통계량은 다음과 같습니다. (1) 범위 : 최대값과 최소값 차이를 말합니다. (2) IQR : Q3 - Q1 , 여기서 Q1과 Q3는 1 사분위수(하위 50% 데이터의 중앙값)와 3 사분위수(상위 50% 데이터의 중앙값)를 말합니다. (3) 분산 : 각 데이터가 평균에서 떨어진 거리의 제곱에 대한 평균을 말합니다. (4) 표준편차 : 분산의 제곱근을 말합..