728x90 반응형 Data Science29 [R 공부하기] 8. 데이터 전처리 - 우당탕탕 개발자 되기 프로젝트 목차결측값특이값데이터 정렬데이터 분리와 선택데이터 샘플링과 조합데이터 집계와 병합 데이터 전처리란 수집한 원본(raw) 데이터를 분석이 가능하거나 용이한 형태로 변형 가공하는 작업을 말한다.데이터 전처리는 모든 데이터 분석의 시작이며 반드시 거치는 과정이다. 데이터 전처리의 목적은 데이터 품질의 향상을 위함이며, 데이터 품질이 낮으면 분석 기법이나 도구가 아무리 훌륭해도 좋은 분석 결과를 얻기 못한다.데이터 품질 문제를 야기하는 요인으로는 측정 오류와 수집 과정의 오류가 있다.측정 오류는 실수로 잘못된 기록을 하거나 측정 장비 자체의 결함 및 한계 등으로 발생한 오류이다.수집 과정의 오류는 데이터의 손실이나 중복으로 발생한 오류이다. 1. 결측값결측값(missing value)란 데이터를 수집하고 저장하.. 2024. 7. 12. [R 공부하기] 7. 다중변수 자료 탐색 - 우당탕탕 개발자 되기 프로젝트 목차다중변수 자료 중 이변량 자료저수준 차트 함수산점도상관분석선 그래프BostonHousing 탐색적 데이터 분석 1. 다중변수 자료 중 이변량 자료다중변수 자료는 두 개 이상의 변수로 구성된 자료로 다변량 자료라고도 한다.2개의 변수로 구성된 자료는 이변량 자료라고 한다.다중변수 자료는 매트릭스나 데이터프레임으로 저장된다.하나의 열(column)이 하나의 변수이고, 열의 개수가 변수의 개수가 된다. 이변량 자료의 시각화를 하기 위해 데이터를 불러온다. plot() 함수 안에 수치형 데이터와 수치형 데이터를 넣으면, 자동으로 산점도가 그려진다. plot() 함수 안에 팩터형 데이터와 수치형 데이터를 넣으면, 팩터의 레벨별로 상자 그림이 그려진다. plo.. 2024. 4. 24. [R 공부하기] 6. 단일변수 자료 탐색 - 우당탕탕 개발자 되기 프로젝트 목차 범주형 자료 도수분포표 막대그래프 파이 차트 연속형 자료 평균, 중앙값 사분위수 산포 히스토그램 상자 그림 예제 1. 범주형 자료 자료의 종류에는 자료의 특성에 따른 분류와 변수의 개수에 따른 분류로 구분된다. 우선 자료의 특성에 따른 분류로는 범주형 자료(categorical data)와 연속형 자료(numerical data)로 나누어진다. 또한 변수의 개수에 따른 분류로는 통계학에서의 변수, 단일변수 자료, 다중변수 자료로 나누어진다. 이번에는 하나의 변수로만 구성된 자료인 단일변수 자료에 대해 살펴본다. 그중에서도 범주형 자료는 질적 자료로 범주나 그룹으로 구분할 수 값으로 구성된 자료이다. 범주형 자료는 숫자로 표현할 수 없고, 대소 비교와 산술 연산이 불가능하다. 숫자로 자료를 표현했다고.. 2024. 4. 23. [R 공부하기] 5. 조건문, 반복문, 함수 - 우당탕탕 개발자 되기 프로젝트 목차 조건문 반복문 사용자 정의 함수 1. 조건문 조건문은 조건에 따라 특정 명령을 실행하도록 하는 프로그래밍 구문이다. 조건문의 기본 형식은 if-else 문이다. if (비교 조건) { 조건이 참일 때 실행할 명령문(들) } else { 조건이 거짓일 때 실행할 명령문(들) } 형식으로 작성하면 된다. 다중 if-else 문은 if 문과 else 문 사이에 여러 개의 else if 문이 존재하는 구문이다. if (비교 조건) { if 문의 조건이 참일 때 실행할 명령문 } else if (비교 조건) { if 문의 조건이 거짓이고 else if 문의 조건이 참일 때 실행할 명령문 } ... else { 이전의 모든 조건이 전부 거짓일 때 실행할 명령문 } 형식으로 작성하면 된다. 그러면 if 문부터 .. 2024. 4. 12. [R 공부하기] 4. 데이터프레임 - 우당탕탕 개발자 되기 프로젝트 목차 데이터프레임 데이터프레임 생성 데이터프레임 다루기 데이터프레임에서 사용하는 함수 파일 데이터 읽기/쓰기 1. 데이터프레임 데이터프레임은 서로 다른 형태의 데이터를 2차원 데이터 테이블 형태로 묶을 수 있는 자료구조이다. 매트릭스는 저장되는 모든 값들이 동일한 자료형인 반면, 데이터프레임은 서로 다른 자료형의 값들이 함께 저장된다. 2. 데이터프레임 생성 데이터프레임을 생성할 때는 data.frame() 함수를 사용하여 생성한다. data.frame() 함수 안에 생성할 자료들을 벡터 형식으로 입력하면 해당 벡터들이 데이터프레임으로 형성된다. 생성한 데이터프레임의 자료형을 class() 함수로 확인해 보면 data.frame 자료인 것을 확인할 수 있다. 또한 str() 함수를 통해 데이터프레임의 정.. 2024. 4. 10. [파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 세 번째 단계인 Data Preparation 단계는 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계입니다. 다음 단계인 Modeling 단계를 대비하는 단계로 알고리즘에 넣을 데이터를 적절하게 준비하는 단계라고 할 수 있습니다. Data Preparation 단계에서는 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 등이 수행됩니다. Data Preparation 단계에서 가장 중요한 작업은 데이터 셋을 학습용과 시험용으로 분리하는 작업입니다. 데이터 셋을 학습용(train)과 시험용(test)으로 분리하는 것은 row를 가지고 데이터의 개수를 나누는 작업입니다. 또한 분석의 방향성에 맞는 분석을 수행하기 위.. 2024. 4. 7. [파이썬으로 하는 데이터 분석] 20. EDA 탐색적 데이터 분석 - 우당탕탕 개발자 되기 프로젝트 EDA는 탐색적 데이터 분석을 의미합니다. 이는 시각화를 통해 데이터의 의미 있는 인사이트(통찰력)를 찾는 과정을 말합니다. 그래프와 통계적인 방법을 사용하여 데이터를 직관적으로 보고 인사이트를 도출할 수 있도록 하는 과정입니다. 이 과정을 통해 Business Understanding 단계에서 설정한 데이터 분석 방향성이 일치하는지도 파악합니다. seaborn 라이브러리를 활용하여 수요를 파악하기 위해 데이터의 column 중 회원(register)과 비회원(casual)의 분포를 산점도로 그려볼 수 있습니다. 산점도를 살펴보면 회원(register)은 800을 넘어서까지 값이 존재하는 반면, 비회원(casual)은 350 정도의 값까지 밖에 존재하지 않는 것을 확인할 수 있습니다. 이것으로 보아 회원.. 2024. 4. 6. [파이썬으로 하는 데이터 분석] 19. CRISP-DM Data Understanding - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 두 번째 단계인 Data Understanding 단계는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다. 해당 단계에서는 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등이 수행됩니다. 데이터를 보고 분석을 위해 추가로 필요한 데이터를 추출하고 변경하는 단계라고 할 수 있습니다. 우선 해당 데이터의 column을 한눈에 살펴보기 위해 전치행렬로 바꾸어 살펴보면 2년 치의 정보가 시간대별로 저장되어 있는 것을 확인할 수 있습니다. 또 데이터에는 크게 날짜 정보와 날씨 정보, 고객의 이용 정보가 포함되어 있는 것을 확인할 수 있습니다. 데이터의 각 column.. 2024. 3. 31. [파이썬으로 하는 데이터 분석] 18. CRISP-DM Business Understanding - 우당탕탕 개발자 되기 프로젝트 데이터를 분석하는 방법에는 크게 두 가지가 있습니다. KDD 방법론과 CRISP-DM 방법론이 있는데 CRISP-DM 방법론은 Cross-Industry Standard Process - Data Mining으로 총 6단계로 구성되어 있습니다. Business Understanding - Data Understanding - Data Preparation - Modeling - Evaluation - Deployment 단계로 데이터 분석이 수행됩니다. 그중 첫 번째 단계인 Business Understanding 단계를 살펴보면 Business Understanding 단계는 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고.. 2024. 3. 30. [R 공부하기] 3. 매트릭스 - 우당탕탕 개발자 되기 프로젝트 목차 행렬 행렬 생성 행렬 인덱싱 행렬 연산 행렬 결합 state.x77 데이터 1. 행렬 행렬, 매트릭스(matrix)는 2차원 데이터로 데이터 테이블의 모든 셀의 값들이 동일한 자료형이다. 데이터 테이블의 구조는 행(row), 관측값(observation)과 열(column), 컬럼, 변수(variable) 그리고 셀(cell)로 구성되어 있다. 2. 행렬 생성 매트릭스(matrix)는 2차원 데이터로, 매트릭스의 모든 셀에 저장되는 값은 동일한 자료형이어야 한다. 매트릭스를 생성할 때는 matrix() 함수를 사용한다. matrix() 함수 안에 값, nrow 옵션에 행의 개수, ncol 옵션에 열의 개수를 입력하여 매트릭스를 생성한다. 그렇게 생성한 매트릭스의 행과 열의 이름을 확인해 보면 NUL.. 2024. 3. 29. 이전 1 2 3 다음 728x90 반응형