728x90 반응형 분류 전체보기510 [R 공부하기] 7. 다중변수 자료 탐색 - 우당탕탕 개발자 되기 프로젝트 목차다중변수 자료 중 이변량 자료저수준 차트 함수산점도상관분석선 그래프BostonHousing 탐색적 데이터 분석 1. 다중변수 자료 중 이변량 자료다중변수 자료는 두 개 이상의 변수로 구성된 자료로 다변량 자료라고도 한다.2개의 변수로 구성된 자료는 이변량 자료라고 한다.다중변수 자료는 매트릭스나 데이터프레임으로 저장된다.하나의 열(column)이 하나의 변수이고, 열의 개수가 변수의 개수가 된다. 이변량 자료의 시각화를 하기 위해 데이터를 불러온다. plot() 함수 안에 수치형 데이터와 수치형 데이터를 넣으면, 자동으로 산점도가 그려진다. plot() 함수 안에 팩터형 데이터와 수치형 데이터를 넣으면, 팩터의 레벨별로 상자 그림이 그려진다. plo.. 2024. 4. 24. [R 공부하기] 6. 단일변수 자료 탐색 - 우당탕탕 개발자 되기 프로젝트 목차 범주형 자료 도수분포표 막대그래프 파이 차트 연속형 자료 평균, 중앙값 사분위수 산포 히스토그램 상자 그림 예제 1. 범주형 자료 자료의 종류에는 자료의 특성에 따른 분류와 변수의 개수에 따른 분류로 구분된다. 우선 자료의 특성에 따른 분류로는 범주형 자료(categorical data)와 연속형 자료(numerical data)로 나누어진다. 또한 변수의 개수에 따른 분류로는 통계학에서의 변수, 단일변수 자료, 다중변수 자료로 나누어진다. 이번에는 하나의 변수로만 구성된 자료인 단일변수 자료에 대해 살펴본다. 그중에서도 범주형 자료는 질적 자료로 범주나 그룹으로 구분할 수 값으로 구성된 자료이다. 범주형 자료는 숫자로 표현할 수 없고, 대소 비교와 산술 연산이 불가능하다. 숫자로 자료를 표현했다고.. 2024. 4. 23. [프로그래머스] 배달 - 파이썬(Python) - 우당탕탕 개발자 되기 프로젝트 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr 1. 문제 설명2. 풀이과정해당 문제는 1번 마을에서 각 마을까지 배달하는데 최소 시간을 모두 구하고 구한 최소 시간이 주어진 제한 시간 K보다 작거나 같은 마을의 개수를 세어주면 된다.해당 문제를 해결하기 위해서 다익스트라 알고리즘을 활용한다.다익스트라 알고리즘을 실행할 때 방문하지 않은 인접 노드를 방문하는 부분이 있는데, 이 부분에서 우선순위 큐를 사용하면 현재까지 발견된 가장 짧은 거리의 노드에 대해서 먼저 계산할 수 있고 더 긴 거리로 계산되었을 경우 스킵도 가능하다. 우선순위 큐를 사용하기 위해 hea.. 2024. 4. 21. [프로그래머스] 징검다리 건너기 - 파이썬(Python) - 우당탕탕 개발자 되기 프로젝트 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr 1. 문제 설명2. 풀이과정해당 문제는 이분 탐색과 슬라이딩 윈도우로도 해결할 수 있지만 정렬로 직관적으로 해결할 수도 있다.우선 리스트를 생성하여 디딤돌에 적힌 숫자(밟을 수 있는 횟수)와 디딤돌의 위치를 묶어 리스트에 추가하고 디딤돌에 적힌 숫자를 기준으로 오름차순 정렬을 한다.숫자가 적을수록 먼저 밟혀 없어질 것이기 때문이다.디딤돌의 숫자가 적은 돌부터 불러오며 다리를 건너가고 디딤돌을 제거한다.현재 디딤돌이 빠지면서 다음 디딤돌과 이전 디딤돌 사이의 길이를 확인하여 주어진 K보다 큰지 판별한다.K보다 크면.. 2024. 4. 19. [R 공부하기] 5. 조건문, 반복문, 함수 - 우당탕탕 개발자 되기 프로젝트 목차 조건문 반복문 사용자 정의 함수 1. 조건문 조건문은 조건에 따라 특정 명령을 실행하도록 하는 프로그래밍 구문이다. 조건문의 기본 형식은 if-else 문이다. if (비교 조건) { 조건이 참일 때 실행할 명령문(들) } else { 조건이 거짓일 때 실행할 명령문(들) } 형식으로 작성하면 된다. 다중 if-else 문은 if 문과 else 문 사이에 여러 개의 else if 문이 존재하는 구문이다. if (비교 조건) { if 문의 조건이 참일 때 실행할 명령문 } else if (비교 조건) { if 문의 조건이 거짓이고 else if 문의 조건이 참일 때 실행할 명령문 } ... else { 이전의 모든 조건이 전부 거짓일 때 실행할 명령문 } 형식으로 작성하면 된다. 그러면 if 문부터 .. 2024. 4. 12. [R 공부하기] 4. 데이터프레임 - 우당탕탕 개발자 되기 프로젝트 목차 데이터프레임 데이터프레임 생성 데이터프레임 다루기 데이터프레임에서 사용하는 함수 파일 데이터 읽기/쓰기 1. 데이터프레임 데이터프레임은 서로 다른 형태의 데이터를 2차원 데이터 테이블 형태로 묶을 수 있는 자료구조이다. 매트릭스는 저장되는 모든 값들이 동일한 자료형인 반면, 데이터프레임은 서로 다른 자료형의 값들이 함께 저장된다. 2. 데이터프레임 생성 데이터프레임을 생성할 때는 data.frame() 함수를 사용하여 생성한다. data.frame() 함수 안에 생성할 자료들을 벡터 형식으로 입력하면 해당 벡터들이 데이터프레임으로 형성된다. 생성한 데이터프레임의 자료형을 class() 함수로 확인해 보면 data.frame 자료인 것을 확인할 수 있다. 또한 str() 함수를 통해 데이터프레임의 정.. 2024. 4. 10. [파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 세 번째 단계인 Data Preparation 단계는 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계입니다. 다음 단계인 Modeling 단계를 대비하는 단계로 알고리즘에 넣을 데이터를 적절하게 준비하는 단계라고 할 수 있습니다. Data Preparation 단계에서는 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 등이 수행됩니다. Data Preparation 단계에서 가장 중요한 작업은 데이터 셋을 학습용과 시험용으로 분리하는 작업입니다. 데이터 셋을 학습용(train)과 시험용(test)으로 분리하는 것은 row를 가지고 데이터의 개수를 나누는 작업입니다. 또한 분석의 방향성에 맞는 분석을 수행하기 위.. 2024. 4. 7. [파이썬으로 하는 데이터 분석] 20. EDA 탐색적 데이터 분석 - 우당탕탕 개발자 되기 프로젝트 EDA는 탐색적 데이터 분석을 의미합니다. 이는 시각화를 통해 데이터의 의미 있는 인사이트(통찰력)를 찾는 과정을 말합니다. 그래프와 통계적인 방법을 사용하여 데이터를 직관적으로 보고 인사이트를 도출할 수 있도록 하는 과정입니다. 이 과정을 통해 Business Understanding 단계에서 설정한 데이터 분석 방향성이 일치하는지도 파악합니다. seaborn 라이브러리를 활용하여 수요를 파악하기 위해 데이터의 column 중 회원(register)과 비회원(casual)의 분포를 산점도로 그려볼 수 있습니다. 산점도를 살펴보면 회원(register)은 800을 넘어서까지 값이 존재하는 반면, 비회원(casual)은 350 정도의 값까지 밖에 존재하지 않는 것을 확인할 수 있습니다. 이것으로 보아 회원.. 2024. 4. 6. [파이썬으로 하는 데이터 분석] 19. CRISP-DM Data Understanding - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 두 번째 단계인 Data Understanding 단계는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다. 해당 단계에서는 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등이 수행됩니다. 데이터를 보고 분석을 위해 추가로 필요한 데이터를 추출하고 변경하는 단계라고 할 수 있습니다. 우선 해당 데이터의 column을 한눈에 살펴보기 위해 전치행렬로 바꾸어 살펴보면 2년 치의 정보가 시간대별로 저장되어 있는 것을 확인할 수 있습니다. 또 데이터에는 크게 날짜 정보와 날씨 정보, 고객의 이용 정보가 포함되어 있는 것을 확인할 수 있습니다. 데이터의 각 column.. 2024. 3. 31. [파이썬으로 하는 데이터 분석] 18. CRISP-DM Business Understanding - 우당탕탕 개발자 되기 프로젝트 데이터를 분석하는 방법에는 크게 두 가지가 있습니다. KDD 방법론과 CRISP-DM 방법론이 있는데 CRISP-DM 방법론은 Cross-Industry Standard Process - Data Mining으로 총 6단계로 구성되어 있습니다. Business Understanding - Data Understanding - Data Preparation - Modeling - Evaluation - Deployment 단계로 데이터 분석이 수행됩니다. 그중 첫 번째 단계인 Business Understanding 단계를 살펴보면 Business Understanding 단계는 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고.. 2024. 3. 30. 이전 1 ··· 4 5 6 7 8 9 10 ··· 51 다음 728x90 반응형