생각 작업실 The atelier of thinking

오케스트라의 지휘자: 다변량 자료의 관계 분석 도구 본문

생각노트

오케스트라의 지휘자: 다변량 자료의 관계 분석 도구

knowledge-seeker 2024. 12. 19. 13:23

47일차

 

오케스트라의 지휘자: 다변량 자료의 관계 분석 도구

 

연결된 사회에서의 데이터 분석의 중요성

 

숫자로 이루어진 보물섬, 그것이 바로 현대 사회의 데이터이다. 이 데이터라는 보물섬을 탐험하는 데 필요한 지도가 바로 통계학이다. 그 중에서도 여러 변수를 동시에 다루는 다변량 자료의 분석은 이 보물섬의 가장 귀중한 보물이자, 연결된 사회에서 꼭 필요한 존재라 할 수 잇다. 변수 하나를 분석하는 것도 중요하지만, 현대 사회는 서로 연결되어 있으며, 이러한 연결성은 변수 간의 상호작용을 통해 나타난다. 따라서 다변량 자료의 분석은 변수간의 상호작용을 이해하고, 이를 바탕으로 사회의 변화와 발전을 예측을 가능하게 해준다.

 

다변량 자료의 기술통계는 마치 오케스트라의 지휘자와 같다. 여러 악기가 함께 어우러져 아름다운 하모니를 만들어내는 오케스트라처럼, 여러 변수를 동시에 다루며 변수들의 특성을 파악하고 변수 간의 관계를 이해하는 데 사용된다. 대표적인 다변량 자료의 기술통계로는 비교, 관계, 분류 등이 있으며, 이러한 기술통계는 오케스트라의 지휘자처럼 변수들의 조화를 이끌어낸다.

 

비교는 그룹 간의 평균, 분산, 최댓값, 최솟값 등을 비교하여 그룹 간의 차이를 파악한다. 관계는 변수 간의 상관관계나 회귀분석 등을 통해 변수 간의 연관성을 파악한다. 분류는 비슷한 성질의 것들을 그룹화하는 과정으로, 머신러닝 알고리즘의 기초가 된다.

 

관계분석: 산점도, 공분산, 상관계수

 

관계 분석은 변수 간의 연관성을 파악하는 것으로, 이를 위해 산점도, 공분산, 상관계수 등의 도구가 사용된다. 이 도구들은 마치 보물지도와 같아서, 변수 간의 관계를 시각적으로 나타내고, 수학적으로 분석하여 보물을 찾을 수 있도록 도와준다.

 

산점도는 두 변수 간의 관계를 시각적으로 나타내는 그래프로, 마치 두 개의 나침반과 같다. 나침반이 북쪽을 가리키듯, 산점도는 두 변수 간의 관계의 방향을 알려준다.

 

공분산은 두 변수 사이의 관계를 나타내는 지표 중 하나로, 두 변수의 함께 움직이는 경향을 측정한다. 공분산의 부호는 두 변수 간의 관계를 나타낸다. 공분산의 문제점은 측정 단위에 영향을 받기 때문에 그 값 자체로 선형관계의 정도를 알 수 없다는 점이다.

 

상관계수는 앞선 공분산의 문제점을 보완하기 위해 고안되었다. 즉 두 변수간의 선형관계의 강도와 방향을 나타내는 지표이다. 상관계수는 -1에서 1사이의 값을 가진다. 상관계수는 공분산을 각 변수의 표준편차로 나눈 것이므로 단위에 영향을 받지 않는다.

 

산점도는 두 변수가 어떻게 위치하고 있는지 보여주고, 공분산은 두 변수가 어떻게 함께 움직이는지를 알려주고, 상관계수는 두 변수가 얼마나 관련이 있는지를 알려준다고 할 수 있다.

 

상관계수와 인과관계

 

상관계수는 두 변수간에 직선관계가 있는지를 나타낼 뿐 인과관계를 나타내는 것은 아니다.

 

예를 들면, 휴대전화 보급률과 기대수명 사이에는 매우 높은 양의 상관관계가 있다. 이 결과를 보면 마치 휴대전화 보급이 기대수명을 늘리는 마법의 열쇠처럼 보인다. 하지만, 정말 그럴까? 여기에는 숨겨진 비밀이 잇다.

 

이 비밀의 열쇠는 바로 잠복변수(luking variable)이다. 잠복변수란 두 변수에 영향을 주는 제 3의 변수를 말한다. 이 연구에서는 연도(시간의 흐름)가 휴대전화 보급률을 늘리고 기대수명을 높이는 중요한 변수일 수 있다. 즉, 시간이 지남에 따라 기술이 발전하고 생활 환경이 개선되면서 휴대전화 보급률과 기대 수명이 함께 증가한 것일 수 있다. 이러한 현상을 허위상관(spurious correlation)이라고 부르며, 이를 고려하지 않고 단순히 두 변수 간의 상관관계만을 분석하는 것은 보물섬에서 길을 잃는 것과 같다.

 

따라서, 정확한 분석을 위해서는 잠복변수를 찾아내고 이를 통제해야 한다. 이를 통해 두 변수 간의 진정한 관계를 파악할 수 있으며, 이를 바탕으로 보물섬에서 올바른 길을 찾을 수 있다.

 


 

다변량 자료의 기술통계는 보물섬을 탐험하는 데 필요한 지도와 같으며, 산점도, 공분산, 상관계수는 보물지도 속의 나침반과 척도, 온도계와 같다. 이 도구들을 활용하여 보물섬을 탐험하듯, 데이터를 분석하면 보물섬의 가장 귀중한 보물을 찾을 수 있을 것이다. 이 보물을 통해 우리는 보다 정확하고 합리적인 결정을 내릴 수 있을 것이다.