EDA는 탐색적 데이터 분석을 의미합니다.
이는 시각화를 통해 데이터의 의미 있는 인사이트(통찰력)를 찾는 과정을 말합니다.
그래프와 통계적인 방법을 사용하여 데이터를 직관적으로 보고 인사이트를 도출할 수 있도록 하는 과정입니다.
이 과정을 통해 Business Understanding 단계에서 설정한 데이터 분석 방향성이 일치하는지도 파악합니다.
seaborn 라이브러리를 활용하여 수요를 파악하기 위해 데이터의 column 중 회원(register)과 비회원(casual)의 분포를 산점도로 그려볼 수 있습니다.
산점도를 살펴보면 회원(register)은 800을 넘어서까지 값이 존재하는 반면, 비회원(casual)은 350 정도의 값까지 밖에 존재하지 않는 것을 확인할 수 있습니다. 이것으로 보아 회원의 수요가 더 많다는 것을 확인할 수 있습니다.
하지만 위 산점도는 회원과 비회원의 분포를 한 번에 그린 결과로 두 column에 대해 정보를 정확하게 구분할 수 없고 이로 인해 명확한 인사이트를 도출하기 힘듭니다.
하여 해당 산점도에 hue 옵션을 주어 데이터를 구분해 볼 수도 있습니다. hue 옵션에 계절(season)을 주고 다시 산점도를 그려보면 계절에 따라 회원과 비회원의 수요를 파악할 수 있습니다.
산점도를 파악해 본다면 계절의 값이 커질수록 산점도의 모양이 점차 내려오는 것은 확인할 수 있지만 계절에 따른 명확한 구분은 하기 힘들다고 판단할 수 있습니다.
반면에 hue 옵션을 일하는 날의 여부(workingday)로 주고 다시 산점도를 그려보면 일하는 날에는 회원의 수요가 더 많고 일하지 않는 날에는 비회원의 수요가 더 많은 것을 한눈에 볼 수 있습니다.
이를 토대로 회원, 비회원의 수요는 일하는 날의 유무가 영향을 끼친다고 인사이트를 도출할 수 있습니다.
이것은 회원과 비회원의 서비스 이용 목적이 다를 것이라는 예측을 뒷받침해 주는 근거가 될 수 있습니다.
이렇게 시각화를 통해 새로운 인사이트를 도출하고 이를 문장으로 정리할 수 있는 것이 중요합니다.
회원과 비회원의 자료를 따로 분리하여 주 사용 고객인 회원의 정보를 월별로 구분해 선 그래프를 그려본 결과, 월별로 수요가 확실하게 차이를 보이는 것을 확인할 수 있습니다.
이를 더 깊게 생각해 본다면 상대적으로 따뜻한 월일 때 수요가 더 많다고도 볼 수 있습니다.
비회원 또한 월별로 구분해 선 그래프를 그려본 결과, 월별로 수요가 확실하게 차이를 보이는 것을 확인할 수 있습니다.
월별 수요를 확인해 봤으니 시간별로도 수요를 확인해 본다면, 회원의 경우 7시쯤과 17시쯤에 월등히 많은 수요를 가지는 것으로 보아 출퇴근 시간에 더 사용한다고 볼 수 있습니다.
위의 분석에 hue 옵션으로 workingday를 주어 더 분석해 보면 회원이 일하는 날일 경우 확실히 출퇴근 시간에 더 많이 사용한다는 것을 볼 수 있고, 일하지 않는 날일 경우에는 점심시간이나 오후에 더 많이 사용한다는 것을 볼 수 있습니다.
반면에 비회원의 경우, 일하지 않는 날에 더 많이 사용한다는 것을 볼 수 있고, 또한 12시부터 17시 사이에 많이 사용한다는 것을 볼 수 있습니다.
이러한 시각화를 통해 회원과 비회원 둘 다 일하는 날에 대한 유무가 서비스 사용에 영향을 끼친다는 것을 파악할 수 있습니다. 또한 회원의 경우 출퇴근 시간에 확연하게 차이가 날 정도로 많이 사용한다는 것도 파악할 수 있습니다.
마지막으로 요일별 수요를 확인해 보면, 회원은 평일에 많이 사용하는 것을 볼 수 있고, 반대로 비회원은 주말에 더 많이 사용하는 것을 볼 수 있습니다.
이 결과를 통해 출퇴근 시간에 많이 사용하는 회원은 요일 또한 일을 하는 요일인 평일에 더 많은 수요가 있다는 인사이트를 도출할 수 있습니다.
'Data Science > Data Analysis' 카테고리의 다른 글
[파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.04.07 |
---|---|
[파이썬으로 하는 데이터 분석] 19. CRISP-DM Data Understanding - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.31 |
[파이썬으로 하는 데이터 분석] 18. CRISP-DM Business Understanding - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.30 |
[파이썬으로 하는 데이터 분석] 17. seaborn - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.24 |
[파이썬으로 하는 데이터 분석] 16. 시각화 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.23 |
[파이썬으로 하는 데이터 분석] 15. DataFrame 병합하기 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.17 |
[파이썬으로 하는 데이터 분석] 14. 데이터 보기 - 우당탕탕 개발자 되기 프로젝트 (0) | 2024.03.16 |
[파이썬으로 하는 데이터 분석] 13. 파일 다루기 - 우당탕탕 개발자 되기 프로젝트 (0) | 2023.12.02 |