일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 글쓰기
- 가설검정
- 정규분포
- 혼합효과모형
- 이항분포
- 산점도
- html
- css
- version 1
- 회귀분석
- JavaScript
- 오블완
- 데이터 과학
- version 2
- 두 평균의 비교
- 티스토리챌린지
- 고정효과모형
- 반복없음
- r
- 통계학
- 이원배치 분산분석
- 추정
- 경제학
- 확률
- 분산분석
- 에세이
- 변동분해
- 인공지능
- 반복있음
- 변량효과모형
- Today
- Total
목록통계학 이야기 (109)
생각 작업실 The atelier of thinking
Chapter 107. R을 이용한 회귀분석 예측값 구하기 데이터 과학에서의 통계학에서 통계프로그램의 역할은 점점 더 커지고 있습니다. 이제 더이상 계산기 조차 사용하지 않습니다. 특히 시간측면에서의 효율성에서 통계프로그램은 필수적 요소입니다. 통계학 공부를 할 때 이론과 더불어 실습을 함께 한다면 더욱 효과가 좋습니다. R은 통계학에서 가장 많이 사용하는 프로그램입니다. 이번 회차에는 앞서 살펴봤던 회귀분석 예측값을 R을 이용하여 구해보겠습니다. 1. 자료 불러오기 ◈ 예제 : 올림픽 100m 우승 기록 Andrew Tatem 등이 2004년 9월 Nature지에 발표한 논문에서 발췌한 것입니다. 1896~2004년까지의 남자와 여자의 육상 100m 우승 기록을 분석한 자료 입니다. 그 자료에 2..
Chapter 106. 회귀분석 - 예측값과 관측값 1. 예측값과 관측값 회귀분석에서 예측값이란 회귀분석 모델이 분석해서 예측한 값을 말합니다. 관측값은 실제 데이터에서 직접 수집하거나 측정한 값입니다. 그리고 예측값과 관측값의 차이를 잔차라고 한다. 이 잔차가 작을 수록 회귀분석 모델의 성능이 좋다고 말할 수 있다. 회귀분석의 목적은 예측값과 관측값의 차이를 최소화하는 모델을 만드는 것이다. 단순선형 회귀모형은 아래와 같습니다. $$Y_i = \beta_0 + \beta_1x_i + \epsilon_i$$$$ \epsilon_i \sim iid N(0,\sigma^2)$$ 위 모형을 그림으로 나타내면, 아래와 같습니다. ① 은 최소제곱법을 이용하여 구한 직선입니다.② 는 ① 선상위의 값으로 예측값을..
Chapter 105. 회귀 계수에 대한 통계적 추론 앞선 회차에서 회귀분석에서의 통계적 추론에 대해서 알아봤습니다. 2024.08.22 - [통계학 이야기] - 104. 회귀분석에서의 통계적 추론 104. 회귀분석에서의 통계적 추론Chapter 104. 회귀분석에서의 통계적 추론 1. 회귀분석에서의 통계적 추론 회귀분석의 핵심은 "변수간의 관계"를 나타내는 것입니다. 앞서 단순선형회귀모형으로 선형 회귀식을 구해봤습니다. 선thinking-atelier.tistory.com 회귀분석에서의 통계적 추론이란 주로 회귀 모델의 기울기와 절편 (회귀 계수) 및 잔차에 대하여 추론하는 것입니다. 이번 회차에서는 회귀분석에서의 통계적 추론 중에서 회귀 계수에 대해서 알아보고자 합니다. 회귀 계수란 기울기와 절..
Chapter 104. 회귀분석에서의 통계적 추론 1. 회귀분석에서의 통계적 추론 회귀분석의 핵심은 "변수간의 관계"를 나타내는 것입니다. 앞서 단순선형회귀모형으로 선형 회귀식을 구해봤습니다. 선형 회귀식은 두 변수의 관계를 선으로 단순하게 나타내는 방법입니다. 하지만, 이렇게 구한 선형 회귀식은 두 변수간의 관계를 100% 완전히 반영할 수 없습니다. 따라서, 이 선형 회귀식이 유의한지 여부를 확인할 필요가 있습니다. 회귀분석 모델에서 나온 선형 회귀식이 유의한지 여부를 확인하기 위해서는 통계적 추론이 필요합니다. 통계적 추론을 통하여 회귀 계수의 유의성을 평가하고, 모델이 데이터를 얼마나 잘 설명하는지 등을 판단할 수 있고, 회귀모델이 적절하게 데이터를 설명하는지 여부를 확인할 수 있습니다. 회..
Chapter 103. R을 이용한 회귀분석(Regression Analysis) 1. 자료 불러오기 ◈ 예제 : 올림픽 100미터 우승 기록 Andrew Tatem 등이 2004년 9월 Nature에 발표한 논문으로, 1896~2004년까지의 남자와 여자의 육상 100m 우승 기록을 분석한 자료입니다. 그 자료에 2016년까지 자료를 추가하였습니다. 연도우승기록연도우승기록연도우승기록남자여자남자여자남자여자189612 193610.311.519889.9210.54190011 194810.311.919929.9610.82190411 195210.411.519969.8410.94190810.8 195610.511.520009.8710.75191610.8 196010.211.020049.8510.93192010..
Chapter 102. 단순선형 회귀모형(Simple Lienar Regression Model) 1. 단순선형 회귀모형(Simple Lienar Regression Model) (1) 정의 단순선형 회귀모형이란 설명변수(독립변수)가 하나인 회귀모형을 말합니다. $$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$$$ \epsilon_i \sim iid N(0, \sigma^2)$$설명변수(독립변수) x는 조절 가능한 상수로 가정합니다. 예를들어, 광고비(x)에 따른 판매량(Y)의 관계에서 광고비는 회사에서 결정 가능한 상수로 가정합니다. 또한, 일조량(x)에 따른 수확량(Y)의 관계에서 조정할 수 없는 일조량은 관측된 값으로 주어진 값으로 처리하여 상수로 가정할 수 있습..
Chapter 101. 회귀분석(Regression Analysis)이란 1. 회귀분석 정의 회귀분석은 독립 변수와 종속 변수 간의 관계를 모델링하고 예측하기 위해 사용되는 통계적 기법입니다. 주어진 데이터를 사용하여 독립 변수의 값을 통해 종속 변수의 값을 예측하거나 설명하는데 사용됩니다. 일반적으로 회귀분석은 선형 관계를 모델링하는 데 사용되지만, 경우에 따라 비선형 관계도 모델링할 수 있습니다. 회귀분석에서는 독립 변수들과 종속 변수 간의 관계를 특정한 함수 형태로 모델링하고, 이 모델을 사용하여 독립 변수의 변화가 종속 변수에 미치는 영향을 분석합니다. 회귀분석은 예측, 인과 관계 파악, 변수 간 관계 이해 등 다양한 목적으로 활용됩니다. 종속 변수와 독립 변수가 하나인 경우에는 단순 회귀분석을,..
Chapter 100. R을 이용한 이원배치 분산분석 이번회차에는 R을 이용하여 반복이 있는 이원배치 분산분석을 정리해보고자 합니다. 1. 데이터 소개 ◈ 예제 : 배터리의 전압 차이 배터리의 최대 전압이 양극의 물질과 설치장소의 온도에 따라 차이가 있는지 알아보고자 합니다. battery Voltage Material Temperature1 130 1 502 155 1 503 74 1 504 180 1 505 34 1 656 40 1 657 80 1..
Chapter 99. 반복이 있는 이원배치 분산분석 III 이원배치 분산분석은 두 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인들의 각 수준 조합에 대한 종속변수의 평균 차이를 비교합니다.요인(설명변수,독립변수)이 두 개이고 각 처리(수준)에 하나의 관측값(반응변수,종속변수)이 있는 경우 각 요인의 처리 효과를 확인하기 위한 모형을 설정합니다. 반복이 있는 이원배치 분산분석의 모형식은 아래와 같습니다. $$Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + \epsilon_{ijk}$$ 각 항은 아래와 같습니다. $\mu :$ 전체평균$\epsilon_{ijk} : $ 오차, $\epsilon_{ijk} \sim N(0, \sigm..
Chapter 98. 반복이 있는 이원배치 분산분석 II이원배치 분산분석은 두 개의 설명(독립)변수(요인)가 있는 경우에 적용됩니다. 이 요인들의 각 수준 조합에 대한 종속변수의 평균 차이를 비교합니다. 요인(설명변수,독립변수)이 두 개이고 각 처리(수준)에 하나의 관측값(반응변수,종속변수)이 있는 경우 각 요인의 처리 효과를 확인하기 위한 모형을 설정합니다. 반복이 있는 이원배치 분산분석의 모형식은 아래와 같습니다. $$Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + \epsilon_{ijk}$$ 각 항은 아래와 같습니다. $\mu :$ 전체평균$\epsilon_{ijk} : $ 오차, $\epsilon_{ijk} \sim N(0, \sigma..