본문 바로가기
Data Science/Data Analysis

[파이썬으로 하는 데이터 분석] 20. EDA 탐색적 데이터 분석 - 우당탕탕 개발자 되기 프로젝트

by 우당탕탕 개발자 2024. 4. 6.
728x90
반응형

 

EDA는 탐색적 데이터 분석을 의미합니다.

이는 시각화를 통해 데이터의 의미 있는 인사이트(통찰력)를 찾는 과정을 말합니다.

그래프와 통계적인 방법을 사용하여 데이터를 직관적으로 보고 인사이트를 도출할 수 있도록 하는 과정입니다.

이 과정을 통해 Business Understanding 단계에서 설정한 데이터 분석 방향성일치하는지도 파악합니다.

 

seaborn 라이브러리를 활용하여 수요를 파악하기 위해 데이터의 column 중 회원(register)과 비회원(casual)의 분포를 산점도로 그려볼 수 있습니다.

산점도를 살펴보면 회원(register)은 800을 넘어서까지 값이 존재하는 반면, 비회원(casual)은 350 정도의 값까지 밖에 존재하지 않는 것을 확인할 수 있습니다. 이것으로 보아 회원의 수요가 더 많다는 것을 확인할 수 있습니다.

하지만 위 산점도는 회원과 비회원의 분포를 한 번에 그린 결과로 두 column에 대해 정보를 정확하게 구분할 수 없고 이로 인해 명확한 인사이트를 도출하기 힘듭니다.

 

하여 해당 산점도에 hue 옵션을 주어 데이터를 구분해 볼 수도 있습니다. hue 옵션에 계절(season)을 주고 다시 산점도를 그려보면 계절에 따라 회원과 비회원의 수요를 파악할 수 있습니다.

산점도를 파악해 본다면 계절의 값이 커질수록 산점도의 모양이 점차 내려오는 것은 확인할 수 있지만 계절에 따른 명확한 구분은 하기 힘들다고 판단할 수 있습니다.

반응형

반면에 hue 옵션일하는 날의 여부(workingday)로 주고 다시 산점도를 그려보면 일하는 날에는 회원의 수요가 더 많고 일하지 않는 날에는 비회원의 수요가 더 많은 것을 한눈에 볼 수 있습니다.

이를 토대로 회원, 비회원의 수요는 일하는 날의 유무가 영향을 끼친다고 인사이트를 도출할 수 있습니다.

이것은 회원과 비회원의 서비스 이용 목적이 다를 것이라는 예측을 뒷받침해 주는 근거가 될 수 있습니다.

이렇게 시각화를 통해 새로운 인사이트를 도출하고 이를 문장으로 정리할 수 있는 것이 중요합니다.

 

회원과 비회원의 자료를 따로 분리하여 주 사용 고객인 회원의 정보를 월별로 구분해 선 그래프를 그려본 결과, 월별로 수요가 확실하게 차이를 보이는 것을 확인할 수 있습니다.

이를 더 깊게 생각해 본다면 상대적으로 따뜻한 월일 때 수요가 더 많다고도 볼 수 있습니다.

 

비회원 또한 월별로 구분해 선 그래프를 그려본 결과, 월별로 수요가 확실하게 차이를 보이는 것을 확인할 수 있습니다.

월별 수요를 확인해 봤으니 시간별로도 수요를 확인해 본다면, 회원의 경우 7시쯤과 17시쯤에 월등히 많은 수요를 가지는 것으로 보아 출퇴근 시간에 더 사용한다고 볼 수 있습니다.

 

위의 분석에 hue 옵션으로 workingday를 주어 더 분석해 보면 회원일하는 날일 경우 확실히 출퇴근 시간에 더 많이 사용한다는 것을 볼 수 있고, 일하지 않는 날일 경우에는 점심시간이나 오후에 더 많이 사용한다는 것을 볼 수 있습니다.

 

반면에 비회원의 경우, 일하지 않는 날에 더 많이 사용한다는 것을 볼 수 있고, 또한 12시부터 17시 사이에 많이 사용한다는 것을 볼 수 있습니다.

이러한 시각화를 통해 회원과 비회원 둘 다 일하는 날에 대한 유무가 서비스 사용에 영향을 끼친다는 것을 파악할 수 있습니다. 또한 회원의 경우 출퇴근 시간에 확연하게 차이가 날 정도로 많이 사용한다는 것도 파악할 수 있습니다.

 

마지막으로 요일별 수요를 확인해 보면, 회원 평일에 많이 사용하는 것을 볼 수 있고, 반대로 비회원주말에 더 많이 사용하는 것을 볼 수 있습니다.

이 결과를 통해 출퇴근 시간에 많이 사용하는 회원은 요일 또한 일을 하는 요일인 평일에 더 많은 수요가 있다는 인사이트를 도출할 수 있습니다.

728x90
반응형