본문 바로가기
728x90
반응형

R studio8

[R 공부하기] 8. 데이터 전처리 - 우당탕탕 개발자 되기 프로젝트 목차결측값특이값데이터 정렬데이터 분리와 선택데이터 샘플링과 조합데이터 집계와 병합 데이터 전처리란 수집한 원본(raw) 데이터를 분석이 가능하거나 용이한 형태로 변형 가공하는 작업을 말한다.데이터 전처리는 모든 데이터 분석의 시작이며 반드시 거치는 과정이다. 데이터 전처리의 목적은 데이터 품질의 향상을 위함이며, 데이터 품질이 낮으면 분석 기법이나 도구가 아무리 훌륭해도 좋은 분석 결과를 얻기 못한다.데이터 품질 문제를 야기하는 요인으로는 측정 오류와 수집 과정의 오류가 있다.측정 오류는 실수로 잘못된 기록을 하거나 측정 장비 자체의 결함 및 한계 등으로 발생한 오류이다.수집 과정의 오류는 데이터의 손실이나 중복으로 발생한 오류이다. 1. 결측값결측값(missing value)란 데이터를 수집하고 저장하.. 2024. 7. 12.
[R 공부하기] 7. 다중변수 자료 탐색 - 우당탕탕 개발자 되기 프로젝트 목차다중변수 자료 중 이변량 자료저수준 차트 함수산점도상관분석선 그래프BostonHousing 탐색적 데이터 분석 1. 다중변수 자료 중 이변량 자료다중변수 자료는 두 개 이상의 변수로 구성된 자료로 다변량 자료라고도 한다.2개의 변수로 구성된 자료는 이변량 자료라고 한다.다중변수 자료는 매트릭스나 데이터프레임으로 저장된다.하나의 열(column)이 하나의 변수이고, 열의 개수가 변수의 개수가 된다. 이변량 자료의 시각화를 하기 위해 데이터를 불러온다. plot() 함수 안에 수치형 데이터와 수치형 데이터를 넣으면, 자동으로 산점도가 그려진다. plot() 함수 안에 팩터형 데이터와 수치형 데이터를 넣으면, 팩터의 레벨별로 상자 그림이 그려진다. plo.. 2024. 4. 24.
[R 공부하기] 6. 단일변수 자료 탐색 - 우당탕탕 개발자 되기 프로젝트 목차 범주형 자료 도수분포표 막대그래프 파이 차트 연속형 자료 평균, 중앙값 사분위수 산포 히스토그램 상자 그림 예제 1. 범주형 자료 자료의 종류에는 자료의 특성에 따른 분류와 변수의 개수에 따른 분류로 구분된다. 우선 자료의 특성에 따른 분류로는 범주형 자료(categorical data)와 연속형 자료(numerical data)로 나누어진다. 또한 변수의 개수에 따른 분류로는 통계학에서의 변수, 단일변수 자료, 다중변수 자료로 나누어진다. 이번에는 하나의 변수로만 구성된 자료인 단일변수 자료에 대해 살펴본다. 그중에서도 범주형 자료는 질적 자료로 범주나 그룹으로 구분할 수 값으로 구성된 자료이다. 범주형 자료는 숫자로 표현할 수 없고, 대소 비교와 산술 연산이 불가능하다. 숫자로 자료를 표현했다고.. 2024. 4. 23.
[R 공부하기] 5. 조건문, 반복문, 함수 - 우당탕탕 개발자 되기 프로젝트 목차 조건문 반복문 사용자 정의 함수 1. 조건문 조건문은 조건에 따라 특정 명령을 실행하도록 하는 프로그래밍 구문이다. 조건문의 기본 형식은 if-else 문이다. if (비교 조건) { 조건이 참일 때 실행할 명령문(들) } else { 조건이 거짓일 때 실행할 명령문(들) } 형식으로 작성하면 된다. 다중 if-else 문은 if 문과 else 문 사이에 여러 개의 else if 문이 존재하는 구문이다. if (비교 조건) { if 문의 조건이 참일 때 실행할 명령문 } else if (비교 조건) { if 문의 조건이 거짓이고 else if 문의 조건이 참일 때 실행할 명령문 } ... else { 이전의 모든 조건이 전부 거짓일 때 실행할 명령문 } 형식으로 작성하면 된다. 그러면 if 문부터 .. 2024. 4. 12.
[R 공부하기] 4. 데이터프레임 - 우당탕탕 개발자 되기 프로젝트 목차 데이터프레임 데이터프레임 생성 데이터프레임 다루기 데이터프레임에서 사용하는 함수 파일 데이터 읽기/쓰기 1. 데이터프레임 데이터프레임은 서로 다른 형태의 데이터를 2차원 데이터 테이블 형태로 묶을 수 있는 자료구조이다. 매트릭스는 저장되는 모든 값들이 동일한 자료형인 반면, 데이터프레임은 서로 다른 자료형의 값들이 함께 저장된다. 2. 데이터프레임 생성 데이터프레임을 생성할 때는 data.frame() 함수를 사용하여 생성한다. data.frame() 함수 안에 생성할 자료들을 벡터 형식으로 입력하면 해당 벡터들이 데이터프레임으로 형성된다. 생성한 데이터프레임의 자료형을 class() 함수로 확인해 보면 data.frame 자료인 것을 확인할 수 있다. 또한 str() 함수를 통해 데이터프레임의 정.. 2024. 4. 10.
[R 공부하기] 3. 매트릭스 - 우당탕탕 개발자 되기 프로젝트 목차 행렬 행렬 생성 행렬 인덱싱 행렬 연산 행렬 결합 state.x77 데이터 1. 행렬 행렬, 매트릭스(matrix)는 2차원 데이터로 데이터 테이블의 모든 셀의 값들이 동일한 자료형이다. 데이터 테이블의 구조는 행(row), 관측값(observation)과 열(column), 컬럼, 변수(variable) 그리고 셀(cell)로 구성되어 있다. 2. 행렬 생성 매트릭스(matrix)는 2차원 데이터로, 매트릭스의 모든 셀에 저장되는 값은 동일한 자료형이어야 한다. 매트릭스를 생성할 때는 matrix() 함수를 사용한다. matrix() 함수 안에 값, nrow 옵션에 행의 개수, ncol 옵션에 열의 개수를 입력하여 매트릭스를 생성한다. 그렇게 생성한 매트릭스의 행과 열의 이름을 확인해 보면 NUL.. 2024. 3. 29.
[R 공부하기] 2. 변수와 벡터 - 우당탕탕 개발자 되기 프로젝트 목차 변수 벡터(vector) 벡터 생성 연속적인 벡터 생성 결합형 벡터 생성 벡터에 이름 부여 벡터 인덱싱 벡터의 연산 산술 연산 비교 연산 논리 연산 집합 연산 벡터 요소 간 연산 벡터 다루기 any, all, which, subset NA, NULL 벡터의 형변환 문자 벡터 연산 팩터(factor) 명목형 팩터 생성 순서형 팩터 생성 팩터 관련 함수 리스트 리스트 생성 리스트 조회 리스트 항목 추가 리스트 데이터 변경 리스트 키 이름 확인 및 변경 리스트 항목 삭제 리스트 합치기 리스트의 크기 확인 unlist 1. 변수변수란 프로그램에서 어떤 값을 저장하는 저장소나 보관 박스를 의미한다. 변수명 지정 규칙첫 글자는 영문자(알파벳) or 마침표(.)로 시작 (일반적으로는 영문자로 시작)두 번째 글자.. 2024. 3. 24.
[R 공부하기] 1. R, R Studio 설치 및 사용 - 우당탕탕 개발자 되기 프로젝트 목차 R 설치 R 간단히 사용 R Studio 설치 R Studio 화면 구성 R Studio 다루기 R Studio 작업환경 구축 프로젝트 관리 패키지 설치 및 사용 R Studio 간단히 사용 1. R 설치 R: The R Project for Statistical Computing www.r-project.org 먼저 R을 설치해 보면, 위의 링크를 접속하여 사진과 같이 따라 하면서 설치하면 된다. Korea와 0-Cloud 중 상관없이 선택하면 된다. 본인의 환경에 맞는 파일을 다운로드하면 된다. 계속해서 차례대로 클릭하며 다운로드를 진행한다. 파일이 설치가 되면 한국어를 선택한다. 설치할 위치를 선택하여 경로를 변경하거나 유지한 채로 설치를 계속한다. 구성 요소 설치에서 필요한 항목을 선택하고 .. 2024. 3. 15.
728x90
반응형