일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 통계학
- 인공지능
- version 2
- 에세이
- 고정효과모형
- 반복없음
- version 1
- 가설검정
- 분산분석
- html
- 변동분해
- 정규분포
- 이원배치 분산분석
- 추정
- 경제학
- css
- 혼합효과모형
- 확률
- 오블완
- 이항분포
- 반복있음
- 글쓰기
- 해운업
- 회귀분석
- JavaScript
- 산점도
- 티스토리챌린지
- r
- 변량효과모형
- 데이터 과학
- Today
- Total
목록전체 글 (210)
생각 작업실 The atelier of thinking

38일차 확률 곡선 위의 세상: 평균과 분산으로 그려내 정규분포 정규분포(Normal Distribution) 란 평균, 분산, 확률은 통계학의 기초이며, 이 3가지 개념만 확실히 이해한다면 통계학의 대부분을 이해할 수 있을 것이라 말했다. 이것을 증명할 첫번째 근거가 지금부터 소개할 정규분포다. 정규분포는 평균을 중심으로 좌우 대칭(Symmetric)인 종모양(bell-shaped)의 곡선으로 봉우리가 하나(Single-peaked)라는 특징을 가지고 있다. 정규분포는 평균과 분산, 확률의 개념이 조화를 이루어 정의할 수 있다. 정규분포는 대칭형 종 모양의 분포로, 중심 위치를 결정하는 값이 평균이다. 평균은 데이터의 중심으로 나타내며, 정규분포에서는 곧 데이터가 가장 밀집된 위치를 의미한다. 평균..

37일차 확률은 혼란 속에 빛을 찾아가는 지도 우리가 사는 세상은 불확실성으로 가득 차 있다. 코로나 19는 세상 누구도 예측할 수 없었고, 어느 수험생도 대학 수학 능력 시험의 난이도를 미리 알 수는 없다. 불확실성을 없애는 것은 사실 불가능하다. 차라리 불확실성을 받아들이고 대비하는 것이 훨씬 좋은 방법이다. 불확실성을 관리하려면 먼저 측정을 할 수 있어야 한다. 이런 불확실성을 측정하는데 쓰이는 도구가 확률이다. 확률은 불확실성을 수치화 한다. 수치화를 통해 측정을 할 수 있다. 확률은 데이터 과학의 핵심이다. 데이터를 통해 사건의 확률을 구하고 이를 기반으로 준비하는 것이 불확실성을 극복하는 방법이다. 확률과 통계 확률은 통계와 함께 다닌다. 고등학교에서 배우는 "확통"과목, 즉 "확률과 통..
36일차 나름대로 열심히 쓰고 있어요. 요즘 내가 하고 있는 일이다. 글쓰기를 잘하고 싶어 나름대로 열심히 쓰고 있기는 한데, 자꾸 벽에 부딪히고 있다. 에세이 한 편 쓰기가 힘들다. 그 동안 공부했던 내용이 쓸거리로 충분할 것이라 생각했는데, 막상 이를 에세이로 쓰려고 하면 어디서 부터 시작해야 할 지 막막하다. 그래서 무엇이 문제일까 원인을 찾아보고자 을 다시 정독하며, 마음에 와 닿는 내용은 베껴 쓰기를 하며 읽고 있다. 본문 중에 "내키는 대로 쓰기만 해서는 독이 되는 글쓰기를 강화할 뿐입니다." 라는 문장은 나의 뼈를 때렸다. 난 혹시 지난 두 달간 독이 되는 글쓰기를 한 것은 아닌가 하는 생각이 들었다. 나는 돈이 되는 글쓰기를 쓰고 싶다. 그렇게 하기 위해서는 어떻게 해야 하는가에 대하여 고..

35일차 평균 너머의 진실 - 분산이 말하는 숨겨진 진실 평균과 분산 : 데이터를 이해하는 열쇠 우리가 살아가는 세상은 수많은 데이터로 이루어져 있다. 학교 시험 점수, 날씨 정보, 스포츠 기록, 심지어 소셜 미디어에서 받은 좋아요 개수까지 모두 데이터이다. 이러한 데이터를 어떻게 이해하고 활용할 수 있을까? 통계학에서는 평균과 분산이라는 두 가지 개념이 데이터를 해독하는 열쇠 역할을 한다. 데이터가 아무리 많다고 해도 적절한 처리를 하지 않은 것은 아무런 의미 없는 숫자들의 나열에 불과하다. 통계학에서 데이터 요약을 위해 실행하는 방법은 중심 위치를 찾는 것이다. 그 중 가장 흔하게 사용하는 것이 평균이다. 하지만 중심값으로 모집단의 특성을 다 나타낼 수는 없다. 데이터는 한 곳에 모여있지 않고 퍼져있..

Chapter 106. 회귀분석 - 예측값과 관측값 1. 예측값과 관측값 회귀분석에서 예측값이란 회귀분석 모델이 분석해서 예측한 값을 말합니다. 관측값은 실제 데이터에서 직접 수집하거나 측정한 값입니다. 그리고 예측값과 관측값의 차이를 잔차라고 한다. 이 잔차가 작을 수록 회귀분석 모델의 성능이 좋다고 말할 수 있다. 회귀분석의 목적은 예측값과 관측값의 차이를 최소화하는 모델을 만드는 것이다. 단순선형 회귀모형은 아래와 같습니다. Yi=β0+β1xi+ϵiϵi∼iidN(0,σ2) 위 모형을 그림으로 나타내면, 아래와 같습니다. ① 은 최소제곱법을 이용하여 구한 직선입니다.② 는 ① 선상위의 값으로 예측값을..