일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 가설검정
- css
- 에세이
- 정규분포
- 확률
- 인공지능
- 데이터 과학
- 두 평균의 비교
- 변동분해
- version 2
- 반복없음
- 추정
- version 1
- 분산분석
- 티스토리챌린지
- 반복있음
- 산점도
- 이항분포
- 오블완
- 글쓰기
- 경제학
- 혼합효과모형
- r
- 회귀분석
- 통계학
- JavaScript
- 고정효과모형
- 이원배치 분산분석
- html
- 변량효과모형
- Today
- Total
목록통계학 이야기 (109)
생각 작업실 The atelier of thinking
Chapter 17. R을 이용한 수치자료의 중심 구하기 R을 이용하여 평균, 중앙값, 최빈값 등 수치자료의 중심을 구해보겠습니다. 지난 15회차에 수치자료의 중심에 대해 알아봤습니다. 2023.09.05 - [통계학 이야기] - 15. 수치 자료의 중심 - 평균, 중앙값, 최빈값 15. 수치 자료의 중심 - 평균, 중앙값, 최빈값 일변량 자료 요약 (1) 수치형 - 평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율) 다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할 thinking-atelier.tistory.com 1. 자료 불러오기 ◈ 대학 정보 공시 취업률 자료 위 자료는 통계학 관련 42개 학과의 취업률을 나타내..
Chapter 16. 수치 자료의 중심 - 평균의 한계 1. 평균의 한계 평균은 데이터의 중심을 대표하는 대표값 중 하나이지만, 모든 경우에서 좋은 대표값이 될 수는 없습니다. 평균이 한계를 보이는 때는 다음과 같습니다. (1) 이상점(outlier)에 민감합니다. 이상치는 데이터 집합의 값 중에서 다른 값들과 동떨어져 있는 값으로, 평균을 구할 때 이상치가 포함되면 평균 값이 크게 영향을 받게 됩니다. (2) 분포의 형태에 따라 왜곡될 수 있습니다. 데이터가 한쪽 방향을 치우쳐져 있거나, 두 개 이상의 그룹으로 나뉘어져 있을 경우에는 평균이 전체 데이터의 대표값이 아닐 수 있습니다. (3) 비교할 때 주의가 필요합니다. 두 집단의 평균을 비교할 때에는 데이터 분포의 형태와 이상치의 영향을 고려해야 합니..
일변량 자료 요약 (1) 수치형 - 평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 분위수 등 (2) 범주형 - 도수분포표 (빈도수, 백분율)다변량 자료 요약 (1) 수치형 - 공분산, 상관관계 (2) 범주형 - 분할표 (빈도수, 백분율) Chapter 15. 수치자료의 중심 - 평균, 중앙값, 최빈값 1. 일변량 자료에 대한 수치적 기술통계위 자료는 신체검사 결과를 나타내고 있는 자료입니다.위 자료에서 일변량 자료란 성, 연령, 신장, 체중 등 각각의 변수를 한 항목으로 구분한 것을 말합니다. 예를 들어 신장이란 변수 하나에 대한 평균을 구할 수 있지만, 신장과 체중, 두 개의 변수를 합쳐서 평균을 구하는 것은 오히려 자료 요약에 있어서 혼선을 줄 수 있읍니다. 두 개의 자료, 즉 다변량 자료..
Chapter 14. R을 이용한 자료 요약 지난 회차에 이어 R을 이용하여 자료를 요약하는 법을 알아보겠습니다. 자료요약은 지난 11회차에 간단히 알아봤습니다. 2023.08.28 - [통계학 이야기] - 11. 자료의 요약 11. 자료의 요약 Chapter 11. 자료의 요약 1. 자료를 요약 정리해야 하는 이유 자료를 요약 정리해야 하는 이유에 대하여 아래와 같습니다. (1) 자료의 양이 많아지면 분석하기 힘들어지기 때문에 자료를 간결하게 요 thinking-atelier.tistory.com 아래의 자료를 이용하여 히스토그램과 줄기-잎 그래프를 그려보고자 합니다. ◈ 대학 정보 공시 취업률 자료 위 자료는 통계학 관련 42개 학과의 취업률을 나타내고 있습니다. 최소 취업률은 19.6%, 최대취업률..
Chapter 14. R을 이용한 자료 요약 R을 이용하여 자료를 요약하는 법을 알아보겠습니다. 자료요약은 지난 11회차에 간단히 알아봤습니다. 2023.08.28 - [통계학 이야기] - 11. 자료의 요약 11. 자료의 요약 Chapter 11. 자료의 요약 1. 자료를 요약 정리해야 하는 이유 자료를 요약 정리해야 하는 이유에 대하여 아래와 같습니다. (1) 자료의 양이 많아지면 분석하기 힘들어지기 때문에 자료를 간결하게 요 thinking-atelier.tistory.com 아래의 자료를 수치와 그래프를 이용하여 정리하고자 합니다. ◈ 파이 판매량 자료 9월 한달간 판매된 파이를 팔릴 때마다 기록한 자료입니다. 가장 기본적인 txt 파일 자료입니다. 1. 자료 불러오기 R 에서 직접 자료를 입력할..
Chapter 13. R 과 R Studio 1. R (1) R 이란 ? 요즘 통계학에서는 R과 같은 통계프로그램의 중요도가 더욱 높아지고 있습니다. R은 통계학과 데이터 분석 분야에서 널리 사용되는 강력한 프로그래밍 언어로, 데이터 처리, 시각화, 통계 모델링, 머신러닝 등 다양한 기능을 제공합니다. 이에 따라 R은 많은 통계학자, 데이터 과학자, 연구자들 사이에서 광범위하게 사용되고 있습니다. R의 인기는 다양한 이유로 설명될 수 있습니다. 첫째, R은 오픈 소스이며 무료로 사용할 수 있습니다. 이는 사용자들에게 접근성과 유연성을 제공하며, 통계학 및 데이터 분석 분야에 대한 더 많은 사람들이 참여하고 기여할 수 있는 환경을 조성합니다. 둘째, R은 풍부한 패키지와 라이브러리 생태계를 갖추고 있습니다..
Chapter 12. 데이터 시각화의 중요성을 알려주는 사례 1. 데이터 시각화가 중요한 이유 (1) 빅 데이터(Big Data) 빅 데이터(Big Data)란 디지털 환경에서 발생하는 대량의 모든 데이더를 말합니다. 요즘은 매일 2조5천억 바이트의 빅 데이터가 생성된다고 합니다. 페이스북에서는 하루 300페타바이트 이상의 정보가 저장되고 공유된다고 합니다. 또한 전 세계에서 하루에 500억 건 이상의 트윗을 사용하고 있다고 합니다. 이것이 어느 정도 크기인지 가늠조차 되지 않습니다. 뉴욕타임즈가 하루에 싣는 정보의 양은 17세기 영국의 평범한 사람이 평생 소비하는 정보의 양과 비슷하다.(Wurman,S.A.(1987). Information Anxiety, New York : Doubleday) 는 말..
Chapter 11. 자료의 요약 1. 자료를 요약 정리해야 하는 이유 자료를 요약 정리해야 하는 이유에 대하여 아래와 같습니다. (1) 자료의 양이 많아지면 분석하기 힘들어지기 때문에 자료를 간결하게 요약 정리하여 쉽게 파악할 수 있게 하여야 합니다. (2) 요약된 자료를 통해 추세나 분포 등의 패턴을 파악할 수 있습니다. (3) 요약된 자료를 통해 자료의 특성이나 경향성을 파악할 수 있으며, 이를 통해 문제의 원인을 분석하고 개선점을 도출할 수 있습니다. (4) 요약된 자료는 의사결정에 도움을 주고, 효율적인 의사결정을 가능하게 합니다. (5) 요약된 자료는 다른 사람들과 공유하기 쉬우므로 의사소통에도 용이합니다. 2. 기술통계학 (Descriptive Statistics) 기술통계학(Descript..
Chapter 10. 자료 정리 자료 정리는 데이터를 수집한 후에 이를 보다 구조화되고 분석에 용이하게 만드는 과정을 말합니다. 이 단계는 데이터 분석의 성공을 위해 매우 중요한 단계로, 수집한 데이터의 다양한 형태와 혼재된 정보를 체계적으로 다루고 처리함으로써 의미있는 결과를 얻을 수 있도록 도와줍니다. 1. 데이터 정리 과정 (1) 데이터 변수별 분류 수집한 데이터를 각각의 변수로 분류합니다. 각 변수는 관측값을 나타내며, 예를 들어 키, 몸무게, 나이 등이 변수가 될 수 있습니다. (2) 데이터 정제 불완전하거나 잘못된 데이터를 식별하고 처리합니다. 결측치, 이상치, 중복된 데이터 등을 확인하여 이상값을 보정하거나 삭제하는 등의 작업이 이루어집니다. (3) 데이터 구조화 정리된 데이터를 테이블, 스..
Chapter 9. 자료의 분류와 특성 1. 자료(Data)의 정의 자료(Data)는 문자, 숫자,소리, 그림, 영상, 단어 등의 형태로된 의미 단위입니다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 됩니다. 자료(Data)와 정보(Information)는 서로 교환되어 사용하는 경우가 많지만 자료와 정보의 의미는 다르다고 할 수 있습니다. 자료는 숫자, 문자, 기호 등으로 이루어진 형태를 가질 수 있으며, 연속적인 값이 경우 연속자료(continuous data), d이산적인 값인 경우 이산자료(discrete data)로 구분할 수 있습니다. 이러한 자료를 수집하고 분석함으로써 문제를 해결하고 결론을 도출하는데 사용됩니다. 모집단은 큰 데이터 집합이라 할 수 ..