일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 확률
- 분산분석
- JavaScript
- 에세이
- 산점도
- 이항분포
- 변량효과모형
- css
- 경제학
- 오블완
- 데이터 과학
- 인공지능
- 글쓰기
- html
- 티스토리챌린지
- 가설검정
- 회귀분석
- version 2
- version 1
- 반복있음
- 반복없음
- 해운업
- 변동분해
- 정규분포
- r
- 고정효과모형
- 통계학
- 이원배치 분산분석
- 혼합효과모형
- 추정
- Today
- Total
목록통계학 (20)
생각 작업실 The atelier of thinking

62일차 고전적 확률 vs 조건부 확률 고전적 확률은 이론적인 확률로 균일한 조건 아래에서 각 사건의 확률을 계산하는 방법입니다. 각 사건이 발생할 가능성이 동일하다고 가정합니다. 공정한 주사위나 동전 던지기와 같이 각 결과가 동일한 확률을 가질 때 적용됩니다.반면 조건부 확률은 특정 조건 아래에서 사건의 확률을 계산하는 방법입니다. 이전 사건이 발생했다는 조건 하에 새로운 사건이 발생할 확률을 계산합니다. 즉 조건부 확률은 주어진 조건에서 사건이 발생할 확률을 나타냅니다. 고전적 확률은 이론적으로 가능한 결과의 수를 전체 가능한 결과의 수로 나누어 계산하는 것에 중점을 두며, 각 결과가 동일한 확률을 가정합니다. 반면 조건부 확률은 이전 사건이 발생했다는 조건하에 새로운 사건의 확률을 계산하는 것에 중..

60일차 확률의 기원 확률은 불확실성을 측정하는 도구라 할 수 있습니다. 확률이라는 개념이 도박으로 부터 시작되었다는 사실을 알았을 때, 놀라운 일은 아니었습니다. 도박만큼 불확실한 것은 없으니까요. 확률에 대한 개념은 도박의 승률에 관한 질문으로부터 시작했다고 합니다. 17세기 프랑스 귀족인 슈발리에 드 메레(Chevalier de Mere)는 당시 유명한 도박사였습니다. 그는 도박에서 발생한 문제에 대해 고민하였습니다. 주사위 게임 중에 “주사위를 4번 던져서 적어도 한 번 6이 나올 확률” 과 “주사위 두 개를 24번 던져서 적어도 한 번 두 주사위 모두 6이 나올 확률”을 비교하는 문제였습니다. 드 메레는 경험적으로 두 확률이 같다고 생각했지만, 실제 계산 결과는 달랐습니다. 두 사람이 게임을 ..

48일차확률의 공리(Axiom): 수학의 비밀을 푸는 첫 번째 열쇠 공리(Axiom)의 정의와 역할 "두 점을 지나는 직석은 오직 하나뿐이다" 라는 내용은 초등학교 5학년 수학에 나온다고 한다. 이 명제는 유클리드 기하학에서 증명 없이 받아들여지는 공리(Axiom)이다. '공리'라는 말이 낯설 수도 있다. 공리는 한자로 표기하면 ' 公理'이다. 뜻 풀이를 하자면, 많은 사람이나 사회에 널리 통용되는 진라라는 의미이다. 이를 수학적으로 말하면, 공리는 증명 없이 참으로 받아들이는 가장 기본적인 명제이다. 즉, 더 이상 증명할 필요 없이 스스로 진리인 것으로 간주되는 명제를 의미한다. 마치 건물의 기초와 같이, 수학의 모든 정리와 증명은 이러한 공리를 바탕으로 이루어 진다. 공리는 너무 당연하게 여겨지는 내..
47일차 오케스트라의 지휘자: 다변량 자료의 관계 분석 도구 연결된 사회에서의 데이터 분석의 중요성 숫자로 이루어진 보물섬, 그것이 바로 현대 사회의 데이터이다. 이 데이터라는 보물섬을 탐험하는 데 필요한 지도가 바로 통계학이다. 그 중에서도 여러 변수를 동시에 다루는 다변량 자료의 분석은 이 보물섬의 가장 귀중한 보물이자, 연결된 사회에서 꼭 필요한 존재라 할 수 잇다. 변수 하나를 분석하는 것도 중요하지만, 현대 사회는 서로 연결되어 있으며, 이러한 연결성은 변수 간의 상호작용을 통해 나타난다. 따라서 다변량 자료의 분석은 변수간의 상호작용을 이해하고, 이를 바탕으로 사회의 변화와 발전을 예측을 가능하게 해준다. 다변량 자료의 기술통계는 마치 오케스트라의 지휘자와 같다. 여러 악기가 함께 어우러져 아..

43일차 분류로 시작하는 통계 분석의 여정 아마도 통계학을 공부하는 사람들 대부분의 목적은 "데이터 분석 잘하기" 일 것이다. 그런 탓인지 나는 회귀분석, 분산분석 등 "분석"이란 말이 들어가 통계 기법을 빨리 배우고 싶은 마음이 앞섰다. 무언가 공부를 한다는 것은 건물을 짓는 것과 같다. 건축물을 짓는 데 기초공사는 지반을 다지고 철근을 세우는 것이다. 지반을 제대로 다지지 않으면 건물이 무너지기 쉽고, 철근을 제대로 세우지 않으면 건물이 불안정하다. 마찬가지로 통계학 공부에서도 기초공사가 중요하다. 내가 생각하는 통계분석의 기초 중에 하나가 데이터를 분류하는 것이다. 통계 분석의 시작은 언제나 데이터를 분류하는 것에서 출발한다. 복잡하게 얽힌 데이터의 혼란 속에서 질서를 찾아내는 첫걸음은 데이터를 성..

Chapter 107. R을 이용한 회귀분석 예측값 구하기 데이터 과학에서의 통계학에서 통계프로그램의 역할은 점점 더 커지고 있습니다. 이제 더이상 계산기 조차 사용하지 않습니다. 특히 시간측면에서의 효율성에서 통계프로그램은 필수적 요소입니다. 통계학 공부를 할 때 이론과 더불어 실습을 함께 한다면 더욱 효과가 좋습니다. R은 통계학에서 가장 많이 사용하는 프로그램입니다. 이번 회차에는 앞서 살펴봤던 회귀분석 예측값을 R을 이용하여 구해보겠습니다. 1. 자료 불러오기 ◈ 예제 : 올림픽 100m 우승 기록 Andrew Tatem 등이 2004년 9월 Nature지에 발표한 논문에서 발췌한 것입니다. 1896~2004년까지의 남자와 여자의 육상 100m 우승 기록을 분석한 자료 입니다. 그 자료에 2..

38일차 확률 곡선 위의 세상: 평균과 분산으로 그려내 정규분포 정규분포(Normal Distribution) 란 평균, 분산, 확률은 통계학의 기초이며, 이 3가지 개념만 확실히 이해한다면 통계학의 대부분을 이해할 수 있을 것이라 말했다. 이것을 증명할 첫번째 근거가 지금부터 소개할 정규분포다. 정규분포는 평균을 중심으로 좌우 대칭(Symmetric)인 종모양(bell-shaped)의 곡선으로 봉우리가 하나(Single-peaked)라는 특징을 가지고 있다. 정규분포는 평균과 분산, 확률의 개념이 조화를 이루어 정의할 수 있다. 정규분포는 대칭형 종 모양의 분포로, 중심 위치를 결정하는 값이 평균이다. 평균은 데이터의 중심으로 나타내며, 정규분포에서는 곧 데이터가 가장 밀집된 위치를 의미한다. 평균..

37일차 확률은 혼란 속에 빛을 찾아가는 지도 우리가 사는 세상은 불확실성으로 가득 차 있다. 코로나 19는 세상 누구도 예측할 수 없었고, 어느 수험생도 대학 수학 능력 시험의 난이도를 미리 알 수는 없다. 불확실성을 없애는 것은 사실 불가능하다. 차라리 불확실성을 받아들이고 대비하는 것이 훨씬 좋은 방법이다. 불확실성을 관리하려면 먼저 측정을 할 수 있어야 한다. 이런 불확실성을 측정하는데 쓰이는 도구가 확률이다. 확률은 불확실성을 수치화 한다. 수치화를 통해 측정을 할 수 있다. 확률은 데이터 과학의 핵심이다. 데이터를 통해 사건의 확률을 구하고 이를 기반으로 준비하는 것이 불확실성을 극복하는 방법이다. 확률과 통계 확률은 통계와 함께 다닌다. 고등학교에서 배우는 "확통"과목, 즉 "확률과 통..

35일차 평균 너머의 진실 - 분산이 말하는 숨겨진 진실 평균과 분산 : 데이터를 이해하는 열쇠 우리가 살아가는 세상은 수많은 데이터로 이루어져 있다. 학교 시험 점수, 날씨 정보, 스포츠 기록, 심지어 소셜 미디어에서 받은 좋아요 개수까지 모두 데이터이다. 이러한 데이터를 어떻게 이해하고 활용할 수 있을까? 통계학에서는 평균과 분산이라는 두 가지 개념이 데이터를 해독하는 열쇠 역할을 한다. 데이터가 아무리 많다고 해도 적절한 처리를 하지 않은 것은 아무런 의미 없는 숫자들의 나열에 불과하다. 통계학에서 데이터 요약을 위해 실행하는 방법은 중심 위치를 찾는 것이다. 그 중 가장 흔하게 사용하는 것이 평균이다. 하지만 중심값으로 모집단의 특성을 다 나타낼 수는 없다. 데이터는 한 곳에 모여있지 않고 퍼져있..

Chapter 106. 회귀분석 - 예측값과 관측값 1. 예측값과 관측값 회귀분석에서 예측값이란 회귀분석 모델이 분석해서 예측한 값을 말합니다. 관측값은 실제 데이터에서 직접 수집하거나 측정한 값입니다. 그리고 예측값과 관측값의 차이를 잔차라고 한다. 이 잔차가 작을 수록 회귀분석 모델의 성능이 좋다고 말할 수 있다. 회귀분석의 목적은 예측값과 관측값의 차이를 최소화하는 모델을 만드는 것이다. 단순선형 회귀모형은 아래와 같습니다. Yi=β0+β1xi+ϵiϵi∼iidN(0,σ2) 위 모형을 그림으로 나타내면, 아래와 같습니다. ① 은 최소제곱법을 이용하여 구한 직선입니다.② 는 ① 선상위의 값으로 예측값을..