생각 작업실 The atelier of thinking

10. 자료 정리 본문

통계학 이야기

10. 자료 정리

knowledge-seeker 2023. 8. 28. 11:29

Chapter 10. 자료 정리

자료 정리는 데이터를 수집한 후에 이를 보다 구조화되고 분석에 용이하게 만드는 과정을 말합니다.

이 단계는 데이터 분석의 성공을 위해 매우 중요한 단계로, 수집한 데이터의 다양한 형태와 혼재된 정보를 체계적으로 다루고 처리함으로써 의미있는 결과를 얻을 수 있도록 도와줍니다.

 


1. 데이터 정리 과정

 

(1) 데이터 변수별 분류

 

 수집한 데이터를 각각의 변수로 분류합니다.

각 변수는 관측값을 나타내며, 예를 들어 키, 몸무게, 나이 등이 변수가 될 수 있습니다.

 

(2) 데이터 정제

 

불완전하거나 잘못된 데이터를 식별하고 처리합니다.

결측치, 이상치, 중복된 데이터 등을 확인하여 이상값을 보정하거나 삭제하는 등의 작업이 이루어집니다.

 

(3) 데이터 구조화

 

정리된 데이터를 테이블, 스프레드시트 등의 형태로 구조화합니다.

각 변수를 열로, 각 관측값을 행으로 나타내며, 이렇게 정리된 형태는 데이터 분석을 위한 기반이 됩니다.

 

(4) 데이터 형식 표준화 

 

 데이터의 형식을 통일시켜 분석에 일관성을 부여합니다.

예를 들어 날짜를 동일한 형식으로 표기하거나 범주형 변수의 값들을 일관된 이름으로 변경하는 작업이 여기에 포함됩니다.

 

이렇게 정리된 자료는 자료 요약을 통하여 자료의 특성을 파악하게 됩니다.

제대로 정리되지 못한 자료는 프로그램을 통한 분석을 할 때 에러를 발생시키는 경우가 많습니다.


2. 데이터 전처리 - 데이터 정제

 

요즘 데이터 과학 분야에서 데이터 정리와 특히 데이터 전처리의 역할이 더욱 높아지고 있습니다.

 

데이터 과학은 빅데이터 시대의 도래로 많은 양의 데이터를 다루고 분석하는 과정에서 인사이트를 도출하고 의사결정에 활용하는 핵심분야입니다. 그런데 많은 양의 데이터를 다루는 것만으로는 부족하며, 데이터의 질과 정확성 역시 매우 중요합니다.

 

데이터 정리와 전처리는 데이터 과학의 성공을 위한 기반이라고 할 수 있습니다.

원천 데이터는 종종 복잡하고 불완전한 형태를 띠며, 이를 그대로 분석에 활용하면 정확한 결과를 얻기 어렵습니다. 따라서 데이터 정리 단계에서는 결측치 처리, 이상치 제거, 중복 데이터 처리 등을 통해 데이터의 신뢰성을 높이고 분석에 적합한 형태로 만들어야 합니다.

 

데이터를 구조화하고 형식을 표준화하여 일관성을 유지하며, 변수 선택과 스케일링 등의 작업을 통해 분석에 적합한 형태로 가공합니다. 또한 데이터의 차원 축소나 특징 추출과 같은 작업을 통해 더 의미 있는 정보를 추출할 수 있습니다.

 

(1) 분석결과의 신뢰성 확보

 

(2) 시간과 비용절감 

   데이터 정리와 전처리를 철저하게 수행하면 분석 작업을 진행하는 데 필요한 시간과 비용을 절감할 수 있습니다. 오류를 찾는 데 시간을 소비하지 않아도 되기 때문입니다.

 

 (3) 유의미한 인사이트 도출

    깨끗하고 일관된 데이터는 통계적 기법이나 머신 러닝 알고리즘을 적용할 때 더 유의미한 인사이트를 도출할 수 있도록 도와줍니다.

 

 (4) 의사결정에 활용 가능한 정보 생성 

    데이터 전처리를 통해 데이터의 특징을 더 잘 드러낼 수 있고, 이를 바탕으로 비즈니스 의사결정에 활용할 수 있는 정보를 생성할 수 있습니다.

 

따라서 데이터 과학에서 데이터 정리와 전처리 작업에 충분한 시간과 노력을 투자하는 것이 필수적입니다. 좋은 품질의 데이터를 가지고 분석을 시작하는 것은 더 나은 결과를 얻기 위한 핵심단계라고 할 수 있습니다. 머신러닝 및 각종 분석 프로그램을 통한 통계 분석의 시작은 올바른 데이터 정리부터라고 할 수 있습니다.

 

빅데이터를 효과적으로 활용하기 위해서는 데이터의 정리와 구조화가 그 어느 때보다 중요한 역할을 하고 있습니다. 이로 인해 데이터 정리의 중요성은 이전보다 더욱 부각되었습니다.

 

빅데이터 시대에서는 데이터 정리가 데이터 분석의 첫 걸음이자 가장 중요한 과정이라고 할 수 있습니다. 데이터의 양과 다양성이 커질수록 데이터 정리의 중요성도 더욱 높아지며, 효과적인 데이터 정리를 통해 정확한 분석과 의사결정을 이끌어내는 것이 미래를 선도하는 열쇠일 것입니다.

 


3. 스프레드시트에서 내가 알아야할 12가지

자료를 정리할 때 가장 많이 사용하는 것이 엑셀과 같은 스프레드시트 프로그램일 것입니다. 하지만, 잘못 사용할 경우 발생하는 결과에 따라 실행하게 되면 엄청난 손실을 끼칠 수도 있습니다.

 

아래의 내용은 스프레드시트를 사용시 유의해야 할 사항을 "Broman and Woo, (2018). Data Organization in Spreadsheets, The American Statistician, 72, 2-10." 에서 발췌한 것입니다. (출처 : Data Organization in Spreadsheet  )

 

자료분석은 별도의 프로그램을 이용하고 Raw Data는 별도로 보관하는 것이 중요하다고 합니다.

  범주형 자료에 대해서 같은 이름을 계속 사용하라는 것입이다. 예를 들면 성별 표시를 M/F, Male/Female, men/women 등을 혼용하지 말고 하나로 통일해서 사용해야 합니다.

또한 셀 안의 여분의 공간을 조심해야 합니다. 'male'과 '  male'은 다른 것으로 간주됩니다.

변수 이름에 빈 칸을 사용하는 것은 바람직하지 않습니다. 여백이 있고 없고에 따라 다르게 인식되기 때문입니다. 빈칸이 필요하면 underscore나 hyphen을 사용하는 것을 추천합니다. 이 외의 특수문자를 변수/파일명에 포함시키지 않는 것이 좋습니다.

변수/파일명은 가능하면 짧고 의미가 전달되는 것이 좋습니다.

 

엑셀의 경우 날짜와 관련이 있어 보이는 변수값을 사용할 경우 자동적으로 날짜로 변환할 수 있습니다. 예를 들면"Oct-8" 이라는 유전자명을 엑셀이 자동적으로 날짜변수로 변환하는 경우가 종종 있습니다. 일관성있게 날짜형식을 사용하는 것이 중요합니다.

 

결측치를 나타내기 위해서는 가능하다면 'NA'를 사용하는 것이 좋습니다. 빈 칸은 종종 반복을 의미하기도 합니다.

또한 일부 프로그램에 있어서 빈칸은 에러를 발생시키기도 합니다.

 

예를 들어 키와 몸무게를 하나의 셀에 '170,70'으로 표시한다면, 데이터 분석을 할 때 에러가 나거나 혼선이 나기 쉽습니다. 하나의 셀에는 정보 하나만 입력하는 것이 바람직합니다.

또 다른 예로 창고에 물건의 위치 표시를 할 때 위치 컬럼에 "14-B01" 형태로 합쳐 있는 것 보다는 구역컬럼 "14", 데크 컬럼 "B", 열 컬럼 "1" 로 나누어 입력하는 것이 데이터를 다루기에 편리합니다.

 

아래의 그림 같은 데이터 형태는 분석시 어려움이 많이 발생합니다.

출처  : Data Organization in Spreadsheet

위 데이터를 사각형 형태로 정리하면 아래와 같습니다.

데이터가 많아질수록 항목에 대한 관리가 필요합니다. 별도의 데이터 코드북을 작성해 관리하는 것이 자료 관리에 좋습니다. 타 자료와의 호환성에도 도움을 줄 수 있습니다.

 

데이터 파일에는 가능한 수식을 사용하지 않는 것이 좋습니다. 수식을 사용할 경우 의도치 않게 다른 셀의 값을 변형시키는 결과를 가져올 수 있습니다.

 

데이터 파일에 중요한 부분을 highlight로 구분 했다면, 이는 프로그램에서 확인할 수 없습니다. 별도의 컬럼을 만들어 구분하는 것이 자료분석에 유용합니다.

 

데이터 파일은 항상 백업파일을 만들어야 합니다. 가능하면 수정시 기존의 파일도 함께 보관하여 문제가 생겼을 경우 예전 파일을 이용해서 복구할 수 있도록 해야합니다.

 

엑셀의 경우 메뉴에서 "데이터 유효성 검사"를 이용하여 데이터 입력이 제대로 되었는지 검사를 할 수 있습니다. 유효성 검사를 통해서 변수의 범위 등을 지정하고 범위 밖을 벗어난 경우를 찾아낼 수 있습니다. 0 을 하나 더하거나 줄여서 혹은 소숫점을 잘못 찍어서 생기는 실수 등을 찾아낼 수 있습니다.

 

 

특정 스프레드시트 프로그램을 사용하더라도 저장시에는 csv파일 포맷을 사용하여 저장하는 것이 좋습니다. 자료 호환성에 있어서 csv파일이 훨씬 유리합니다.