본문 바로가기
Data Science/Data Analysis

[파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트

by 우당탕탕 개발자 2024. 4. 7.
728x90
반응형

 

CRISP-DM 방법론의 세 번째 단계인 Data Preparation 단계는 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계입니다.

다음 단계인 Modeling 단계를 대비하는 단계로 알고리즘에 넣을 데이터를 적절하게 준비하는 단계라고 할 수 있습니다.

Data Preparation 단계에서는 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 등이 수행됩니다.

 

Data Preparation 단계에서 가장 중요한 작업은 데이터 셋을 학습용과 시험용으로 분리하는 작업입니다.

데이터 셋을 학습용(train)과 시험용(test)으로 분리하는 것은 row를 가지고 데이터의 개수를 나누는 작업입니다.

또한 분석의 방향성에 맞는 분석을 수행하기 위해 column도 나눠주는데 이것을 feature와 label이라고 합니다.

feature label에 관련된 인사이트 도출을 도와주는 column이고, label인사이트를 도출할 column입니다.

label은 보통 1개의 column으로 지정하는데 만약 label이 여러 개라면 label을 1개로 지정하여 모델링을 여러 개 만들어보면 됩니다.

일반적으로 feature와 label의 관계를 함수에서 x, y 관계라고 합니다.

 

데이터의 column을 feature와 label로 나누는 작업이 중요합니다.

해당 데이터 분석의 목적은 다양한 조건에서 서비스의 수요량에 대해 예측하는 머신러닝 모델을 만드는 것이므로 count, register, casual이 label의 성향을 갖는 column이라고 할 수 있고 나머지 column이 feature의 성향을 갖는다고 할 수 있습니다.

반응형

데이터 셋을 학습용(train)과 시험용(test)으로 나누는 방법에는 여러 가지가 있지만 이는 데이터 셋의 양과 특성에 따라 다르게 적용됩니다.

보통 학습용 데이터와 시험용 데이터를 7:3 또는 6:4 정도로 하여 중복 없이 데이터를 분리합니다.

중복이 되지 않도록 데이터를 나누는 것이 가장 중요합니다. 중복이 된다면 해당 시험용 데이터에 대한 결과를 신뢰할 수 없게 되기 때문입니다.

해당 데이터에서는 간단하고 중복이 없는 짝수번째 데이터와 홀수번째 데이터로 분리하였습니다.

 

학습용과 시험용으로 분리한 데이터에 인덱스를 다시 설정하면 분리한 데이터를 다룰 때 더 깔끔해 보일 수 있습니다.

해당 과정은 꼭 필요한 것은 아니니 본인이 편한 대로 선택하면 됩니다.

다음 단계인 Modeliing 단계에서 모델링을 할 때 총 4개의 값이 필요합니다.

특정 알고리즘에 값을 입력하여 학습을 시키고 출력을 얻는 과정에서 입력하는 값이 4개가 필요하다는 것입니다.

feature와 label은 함수에서 x, y 관계라고 했으므로 우선 크게 feature와 label을 구분하여 입력시켜줘야 합니다.

또한 학습용과 시험용을 분리하여 입력해줘야 하기 때문에 총 4개의 값이 필요합니다.

정리해 보면 모델링에 필요한 4개의 값은 각각 학습용과 시험용의 feature와 label이 되겠습니다.

 

728x90
반응형