일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 추정
- 반복있음
- 인공지능
- 가설검정
- 이원배치 분산분석
- 티스토리챌린지
- 이항분포
- 데이터 과학
- 글쓰기
- html
- 확률
- 모평균에 대한 통계적추론
- 경제학
- 통계학
- 고정효과모형
- 에세이
- 분산분석
- 두 평균의 비교
- 오블완
- 혼합효과모형
- 정규분포
- 변동분해
- version 1
- JavaScript
- 산점도
- 반복없음
- 변량효과모형
- r
- 회귀분석
- css
- Today
- Total
생각 작업실 The atelier of thinking
101. 회귀분석(Regression Analysis)이란 본문
Chapter 101. 회귀분석(Regression Analysis)이란
1. 회귀분석 정의
회귀분석은 독립 변수와 종속 변수 간의 관계를 모델링하고 예측하기 위해 사용되는 통계적 기법입니다. 주어진 데이터를 사용하여 독립 변수의 값을 통해 종속 변수의 값을 예측하거나 설명하는데 사용됩니다. 일반적으로 회귀분석은 선형 관계를 모델링하는 데 사용되지만, 경우에 따라 비선형 관계도 모델링할 수 있습니다.
회귀분석에서는 독립 변수들과 종속 변수 간의 관계를 특정한 함수 형태로 모델링하고, 이 모델을 사용하여 독립 변수의 변화가 종속 변수에 미치는 영향을 분석합니다. 회귀분석은 예측, 인과 관계 파악, 변수 간 관계 이해 등 다양한 목적으로 활용됩니다. 종속 변수와 독립 변수가 하나인 경우에는 단순 회귀분석을, 여러 개의 독립 변수가 있는 경우에는 다중 회귀분석을 사용합니다.
회귀분석의 핵심은 "변수 간의 관계" 입니다.
2. 다변량 자료에 대한 분석
다변량 자료란 변수가 2개 이상이라는 것을 의미합니다.
다변량 자료를 분석할 때는 일변량 자료 분석과는 분석 목적이 다릅니다. 일변량 자료 분석에는 평균,분산 등 기술통계량을 사용하지만, 다변량 자료에서는 각각의 평균,분산 등에 대한 비교, 관계, 분류하는 방법으로 분석합니다.
앞서 보았던, 두집단의 비교, 분산분석 등은 다변량 자료의 비교에 관련 분석도구라고 할 수 있습니다. 이번회차에 살펴볼 회귀분석은 관계를 분석하는 도구라 할 수 있습니다.
관계 분석하는 데에는 산점도와 상관분석(공분산,상관계수)도 유용한 도구입니다.
(1) 변수들 간의 관계에서의 주요 관심사
① 변수들 간 관계가 있는가 ?
② 있다면 어떤 관계가 있는가 ?
③ 관계가 어느 정도가 되는가 ?
④ 관계를 식으로 표시할 수 있는가 ?
⑤ 관계식을 유도할 수 있는가 ?
⑥ 유도된 관계식을 통해 다른 값을 예측할 수 있는가?
위 관심사 중에서 ①,②,③ 은 산점도와 상관분석으로 파악할 수 있습니다.
하지만, ④,⑤,⑥은 산점도와 상관분석으로는 한계점이 있습니다. 이를 파악하기 위해서는 회귀모형이 필요합니다. 분석목적이 관계유도 및 예측인 대표적인 모형이 회귀모형입니다.
◈ 산점도와 상관분석
자세한 내용은 아래를 참조하시기 바랍니다.
2023.09.22 - [통계학 이야기] - 26. 다변량 자료의 기술 통계 - 공분산, 상관관계 & 산점도
3. 회귀모형(Regression Model)
통계모형은 현산이나 데이터를 설명하거나 예측하기 위해 사용되는 수학적인 모델입니다.
회귀분석에 사용하는 통계모형이 회귀모형이라 할 수 있습니다.
회귀모형은 종속변수와 독립변수 간의 관계를 나타내는 수학적인 모델입니다. 종속변수는 예측하려는 변수이고, 독립변수는 종속변수에 영향을 미치는 변수입니다. 회귀모형은 종속변수와 독립변수 간의 관계를 설명하기 위해 사용되며, 이를 통해 독립변수의 변화가 종속변수에 어떤 영향을 미치는지 이해할 수 있습니다.
왼쪽 그림은 통계모형 기본개념을 나타낸 것입니다.
회귀모형도 같은 개념입니다.
X (input) ⇒ F(x) ⇒ Y(Output)
입력변수 X 를 설명변수(explanatory) 혹은 독립변수(Independent) 라 합니다. 입력변수가 양적변수일 때는 공변량(covaiage)이라 하고 질적변수일 때는 요인(factor)라 부릅니다.
출력변수 Y는 반응변수(repsonse) 혹은 종속변수(dependent)라 합니다.
동일한 입력변수 X에 대해 출력변수 Y는 다른 값을 가질 수 있습니다.
예를들어, 광고비와 판매량의 관계, 공부량과 시험성적의 관계, 비료량,강수량,기온,일조랭과 수확량의 관계 등을 분석할 때 회귀모형을 사용합니다.
4. 선형회귀모형(Linear Regression Model)
선형회귀모형은 종속변수와 독립변수 간의 관계를 선형적으로 모델링하는 회귀모형입니다. 즉, 종속변수와 독립변수 사이의 관계를 직선으로 나타냅니다.
일반적으로 선형회귀모형은 다음과 같이 표현됩니다
$$Y_i = \beta_0 + \beta_1 x_{i1}+\beta_2 x_{i2}+ ... +\beta_p x_{ip} + \epsilon_i$$
▶ $\beta$ : 회귀계수 (regression coefficients)
관계식은 회귀계수 $\beta$ 에 대해 선형을 나타냅니다. 각 독립변수의 변화량이 종속변수에 미치는 영향을 나타냅니다.
- 선형과 비선형의 구분은 미분을 통하여 알 수 있습니다.
▶ $\epsilon$ : 오차 (error)
모형으로 설명이 안되는 부분입니다.
오차에 특정 패턴이 있으면 모형화 할 수 있는 부분이 남아 있습니다.
통계적 추론을 위한 가정은 아래와 같습니다.
$$\epsilon_1, \epsilon_2, ... , \epsilon \sim iid N(0, \sigma^2) $$
선형회귀모형은 주어진 데이터에 가장 적합한 선형 관계를 찾아내고, 독립변수들의 값이 주어졌을 때 종속변수를 예측하거나 독립변수들 간의 상대적인 영향을 분석하는 데 사용됩니다. 종속변수와 독립변수 간의 관계가 선형이 아닌 경우 비선형 회귀모형이 사용될 수 있습니다.
'통계학 이야기' 카테고리의 다른 글
103. R을 이용한 회귀분석 (0) | 2024.08.06 |
---|---|
102. 단순선형 회귀모형 (1) | 2024.07.26 |
100. R을 이용한 이원배치 분산분석 (2) | 2024.07.24 |
99. 반복이 있는 이원배치 분산분석 III (0) | 2024.07.22 |
98. 반복이 있는 이원배치 분산분석 II (0) | 2024.07.18 |