CRISP-DM 방법론의 두 번째 단계인 Data Understanding 단계는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다.
해당 단계에서는 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등이 수행됩니다.
데이터를 보고 분석을 위해 추가로 필요한 데이터를 추출하고 변경하는 단계라고 할 수 있습니다.
우선 해당 데이터의 column을 한눈에 살펴보기 위해 전치행렬로 바꾸어 살펴보면 2년 치의 정보가 시간대별로 저장되어 있는 것을 확인할 수 있습니다.
또 데이터에는 크게 날짜 정보와 날씨 정보, 고객의 이용 정보가 포함되어 있는 것을 확인할 수 있습니다.
데이터의 각 column의 값 정보를 살펴보면 날짜를 제외하고는 모두 수치형 자료로 저장되어 있는 것을 확인할 수 있습니다. 하여 날짜 column의 값 또한 수치형 자료로 변환하기 위해 해당 문자열을 슬라이싱을 활용하고 split 메서드를 활용해 공백과 -, : 등으로 분리하여 문자열형 자료를 수치형 자료로 변환할 수 있습니다.
분리한 데이터를 해당 데이터의 column으로 추가해 줍니다.
또한 요일 정보도 새롭게 추가하는데 이때 요일 정보를 수치형 자료로 추가하기 위해 pandas의 to_datetime 메서드를 사용하여 날짜를 대입하면 요일이 월요일부터 일요일까지 0부터 6의 수치형 값으로 반환됩니다.
이를 활용하여 요일의 정보도 데이터에 추가해 줍니다.
데이터를 변경했다면 최종 변경한 데이터 중 필요한 데이터만 가지고 새롭게 정리하고 저장하여 사용하면 편리합니다.
원본을 변경하여 사용하는 것은 나중에 원본 데이터가 필요할 경우가 있을 수도 있으므로 데이터를 복사하여 분석하는 것을 더 추천합니다.
'Data Science > Data Analysis' 카테고리의 다른 글
[파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.04.07 |
---|---|
[파이썬으로 하는 데이터 분석] 20. EDA 탐색적 데이터 분석 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.04.06 |
[파이썬으로 하는 데이터 분석] 18. CRISP-DM Business Understanding - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.30 |
[파이썬으로 하는 데이터 분석] 17. seaborn - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.24 |
[파이썬으로 하는 데이터 분석] 16. 시각화 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.23 |
[파이썬으로 하는 데이터 분석] 15. DataFrame 병합하기 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.17 |
[파이썬으로 하는 데이터 분석] 14. 데이터 보기 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.16 |
[파이썬으로 하는 데이터 분석] 13. 파일 다루기 - 우당탕탕 개발자 되기 프로젝트 (0) | 2023.12.02 |