본문 바로가기
728x90
반응형

CRISP-DM3

[파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 세 번째 단계인 Data Preparation 단계는 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계입니다. 다음 단계인 Modeling 단계를 대비하는 단계로 알고리즘에 넣을 데이터를 적절하게 준비하는 단계라고 할 수 있습니다. Data Preparation 단계에서는 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 등이 수행됩니다. Data Preparation 단계에서 가장 중요한 작업은 데이터 셋을 학습용과 시험용으로 분리하는 작업입니다. 데이터 셋을 학습용(train)과 시험용(test)으로 분리하는 것은 row를 가지고 데이터의 개수를 나누는 작업입니다. 또한 분석의 방향성에 맞는 분석을 수행하기 위.. 2024. 4. 7.
[파이썬으로 하는 데이터 분석] 19. CRISP-DM Data Understanding - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 두 번째 단계인 Data Understanding 단계는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다. 해당 단계에서는 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등이 수행됩니다. 데이터를 보고 분석을 위해 추가로 필요한 데이터를 추출하고 변경하는 단계라고 할 수 있습니다. 우선 해당 데이터의 column을 한눈에 살펴보기 위해 전치행렬로 바꾸어 살펴보면 2년 치의 정보가 시간대별로 저장되어 있는 것을 확인할 수 있습니다. 또 데이터에는 크게 날짜 정보와 날씨 정보, 고객의 이용 정보가 포함되어 있는 것을 확인할 수 있습니다. 데이터의 각 column.. 2024. 3. 31.
[파이썬으로 하는 데이터 분석] 18. CRISP-DM Business Understanding - 우당탕탕 개발자 되기 프로젝트 데이터를 분석하는 방법에는 크게 두 가지가 있습니다. KDD 방법론과 CRISP-DM 방법론이 있는데 CRISP-DM 방법론은 Cross-Industry Standard Process - Data Mining으로 총 6단계로 구성되어 있습니다. Business Understanding - Data Understanding - Data Preparation - Modeling - Evaluation - Deployment 단계로 데이터 분석이 수행됩니다. 그중 첫 번째 단계인 Business Understanding 단계를 살펴보면 Business Understanding 단계는 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고.. 2024. 3. 30.
728x90
반응형