본문 바로가기
Data Science/R

[R 공부하기] 1. R, R Studio 설치 및 사용 - 우당탕탕 개발자 되기 프로젝트

by 우당탕탕 개발자 2024. 3. 15.
728x90
반응형

 

목차

  1. R 설치
  2. R 간단히 사용
  3. R Studio 설치
  4. R Studio 화면 구성
  5. R Studio 다루기
  6. R Studio 작업환경 구축
  7. 프로젝트 관리
  8. 패키지 설치 및 사용
  9. R Studio 간단히 사용

 

1. R 설치

 

R: The R Project for Statistical Computing

 

www.r-project.org

먼저 R을 설치해 보면, 위의 링크를 접속하여 사진과 같이 따라 하면서 설치하면 된다.

Korea와 0-Cloud 중 상관없이 선택하면 된다.

본인의 환경에 맞는 파일을 다운로드하면 된다.

 

계속해서 차례대로 클릭하며 다운로드를 진행한다.

 

파일이 설치가 되면 한국어를 선택한다.

 

설치할 위치를 선택하여 경로를 변경하거나 유지한 채로 설치를 계속한다.

 

구성 요소 설치에서 필요한 항목을 선택하고 스타트업 옵션에서는 No를 선택한다.

 

시작 메뉴 폴더 선택 또한 변경 없이 넘어가고, 추가 사항 적용도 변경 없이 넘어간다.

 

이렇게 R의 설치를 마친다.

R을 설치한 뒤, R을 실행해 본다.

 

2. R 간단히 사용

data() 명령어를 입력하면 R이 기본으로 제공하는 데이터를 확인할 수 있다.

 

여기서 데이터 이름을 명령어로 간주하기 때문에 women 데이터 이름을 입력하면 women 데이터의 내용을 확인할 수 있다.

데이터를 살펴보면 각 행(row)과 열(column)로 구성되어 있다.

행(row)을 샘플(sample), 관측(observation)이라고 부르며,

열(column)을 속성(attribute), 특징(feature), 변수(variable)라고 부른다.

 

동일한 방법으로 cars 데이터를 살펴볼 수 있다.

str() 함수는 데이터의 내용을 요약해서 보여주는 함수이다.

str(cars) 형식으로 명령어를 입력하면 cars 데이터의 내용을 요약해서 볼 수 있다.

 

plot() 함수는 그래프를 나타내는 시각화 함수 R에서 가장 널리 쓰이는 함수이다.

plot(women) 형식으로 명령어를 입력하면 해당 데이터를 그래프로 나타내어 준다.

 

plot() 함수에 여러 옵션을 적용할 수도 있다.

col 매개변수는 색깔을 지정하는 옵션이고,

xlab과 ylab 매개변수는 각 축의 이름을 지정하는 옵션이다.

반응형

3. R Studio 설치

 

Posit

The best data science is open source. Posit is committed to creating incredible open-source tools for individuals, teams, and enterprises.

posit.co

다음으로 R Studio를 설치해 보면, 마찬가지로 위의 링크에 접속하여 환경에 맞는 파일을 다운로드해 준다.

 

설치 파일이 다운로드되면 계속하여 다음을 누르면서 설치를 해준다.

 

4. R Studio 화면 구성

R Studio를 설치했다면 R Studio를 실행시켜 본다.

처음 R Studio를 들어가면 이렇게 3개의 영역으로 화면이 나뉜 것을 볼 수 있다.

 

여기서 새로운 R Script 파일을 만들게 되면 4개의 영역으로 구성되게 된다.

새로 생긴 영역이 편칩 창이고 그 아래쪽 영역을 콘솔 창, 오른쪽 위의 영역을 환경 창, 오른쪽 아래의 영역을 파일 창이라고 한다.

편집(Script) 창 : R 명령문(R 스크립트)들을 작성하고 실행하는 영역

콘솔(Console) 창 : 편집 창에서 R 명령문을 편집하고 실행 버튼을 클릭했을 때, 명령문의 실행 과정 및 결과를 나타내는 영역

환경(Environment) 창 : R 명령문이 실행되는 동안 만들어지는 각종 변수나 자료구조의 내용을 보여주는 영역

파일(Files) 창 : 도움말, 패키지 설치 및 조회, 그래프 실행 내용 조회 등 유용한 기능을 제공하는 영역

 

5. R Studio 다루기

편집 창에 R 명령문을 작성하고 전부 드래그하여 Enter 키를 누르면 아래 콘솔 창에 실행 결과가 나타난다.

드래그한 R 명령문만 실행이 되므로 실행을 원하는 부분만 드래그하면 된다.

또한 각 줄에 커서를 두고 Ctrl + Enter 키를 누르면 해당 줄이 실행된다.

 

해당 R 스크립트 파일을 저장하면 .R 같이 확장자가 설정된다.

 

6. R Studio 작업환경 구축

Tools에서 Global Options를 선택하면 R Studio의 각종 설정을 변경할 수 있다.

우선 General 설정을 보면, R version은 실행할 R 버전을 나타낸다.

Default working directory는 기본 시작 위치를 지정할 수 있다.

초기의 "~"는 사용자의 환경에서의 홈디렉터리를 의미한다. 해당 부분을 원하는 경로로 바꿔줄 수 있다.

R Studio에서 변경한 내용이 항상 자동으로 저장되도록 Workspace에서 Ask를 Always로 변경해 줄 수도 있다.

 

다음으로 Code 설정은 설치되는 언어의 저장 방식을 설정하는 부분이다.

Saving에서 Default Encoding을 전 세계에서 표준의 역할을 하는 유니코드 저장을 위해 "UTF-8"로 설정해 준다.

 

Appearance 설정화면상의 글꼴을 설정하는 부분이다.

화면의 테마와 글꼴, 글자의 크기 등을 설정할 수 있다.

7. 프로젝트 관리

여러 R 스크립트 파일과 각종 데이터 등을 한꺼번에 저장할 프로젝트를 만들어준다.

프로젝트 생성에서 새로운 디렉터리를 만들어준다.

 

생성하는 프로젝트의 형식은 그냥 New Project로 선택해 주면 된다.

 

생성할 디렉터리의 이름을 작성해 주고 해당 디렉터리가 생성될 위치도 확인해 준다.

 

그렇게 디렉터리를 생성하고 나면 지정해 준 경로 안에 .Rproj의 확장자와 지정해 준 이름을 가지는 R Project가 생성된 것을 확인할 수 있다. 

 

8. 패키지 설치 및 사용

R에서는 데이터 분석을 위해 매우 다양한 함수들을 제공하는데 이런 함수들을 기능별로 묶어 놓은 꾸러미를 패키지(package)라고 한다.

특정 함수를 사용하기 위해서는 해당 함수를 포함하고 있는 패키지를 미리 설치하고 불러와야 한다.

패키지를 설치할 때는 R 스크립트 파일을 새로 생성하여 해당 편집 창에 패키지를 설치하는 명령문을 입력하고 실행하면 해당 패키지가 설치된다.

또한 직접 콘솔 창에 바로 명령을 입력하고 Enter 키를 눌러 실행해도 패키지가 설치된다.

마지막으로 파일 창 Package 탭에서 해당 라이브러리를 선택한 후 Install 버튼을 눌러 설치할 수도 있다.

 

설치한 패키지를 사용할 때는 library() 함수를 이용하여 사용할 패키지들을 부착해줘야 한다.

설치와 마찬가지로 R 스크립트 파일에 입력하고 실행시켜 주는 방법이 있고 콘솔 창에서 직접 불러오는 방법도 있다.

콘솔 창에 search() 함수를 입력하면 해당 스크립트에 부착된 라이브러리들을 확인할 수 있다.

 

9. R Studio 간단히 사용

간단히 R Studio를 사용해 보기 위해 대표적인 iris 데이터 활용해 본다.

R에서 처럼 str() 함수를 사용해 데이터의 내용을 요약하여 볼 수 있다.

 

head() 함수를 사용하면 해당 데이터의 위쪽 부분 데이터 6개(Default)를 살펴볼 수 있다.

head() 함수에 데이터뿐만 아니라 개수를 지정해 주면 해당 개수만큼 데이터를 확인할 수 있다.

tail() 함수를 사용하면 해당 데이터의 아래쪽 부분 데이터를 6개 살펴볼 수 있다.

head() 함수와 마찬가지로 개수를 지정해 줄 수 있다.

 

plot() 함수를 사용하여 해당 데이터를 시각화할 수 있다.

시각화된 결과는 오른쪽 아래 파일 창에 나타나게 되고, Zoom 버튼을 누르면 해당 결과를 크게 볼 수도 있다.

 

모든 속성이 아닌 특정 두 속성의 상관관계에 관한 그래프를 보고 싶다면 데이터에서 특정 열의 이름 2개를 지정해 주면 된다. 열의 이름을 지정할 때는 "데이터 이름$열 이름" 형식으로 작성해 주면 된다.

또한 색상을 지정해 주는 매개변수인 col에 데이터의 열을 지정해 주면 해당 열의 값에 따라 서로 다른 색을 그리게 된다.

 

추가로 tips 데이터를 활용해 보면, 해당 데이터는 csv 파일의 형태로 저장되어 있기 때문에 read.csv() 함수로 해당 파일을 불러와야 한다.

read.csv() 함수 안에 해당 데이터가 있는 주소를 입력해 주면 된다.

링크 주소를 입력할 수도 있고, 데이터를 다운로드해 파일에 있는 데이터를 불러올 수도 있다.

데이터를 불러왔다면 str() 함수를 사용하여 데이터의 요약 내용도 확인할 수 있다.

 

summary() 함수는 요약 통계 summary statistics를 확인할 수 있다.

summary(tips) 명령문을 실행시켜 보면 각 열마다 요약 통계값을 확인할 수 있다.

이때 숫자로 되어 있는 열은 요약 통계값을 확인할 수 있는데, 문자로 되어 있는 열은 요약 통계값을 확인할 수 없다.

 

이때 설치한 패키지를 사용하여 패키지 안에 있는 함수로 그래프를 나타낼 수 있다.

ggplot() 함수와 geom_point() 함수, aes() 함수의 자세한 사용 방법은 나중에 살펴볼 것이다.

728x90
반응형