본문 바로가기
728x90
반응형

Data Science29

[파이썬으로 하는 데이터 분석] 17. seaborn - 우당탕탕 개발자 되기 프로젝트 seaborn는 보통 sns라는 축약어로 많이 불러와 사용합니다. seaborn 자체에 기본으로 제공해 주는 데이터는 load_dataset() 함수를 활용해 불러오면 사용할 수 있습니다. 우선 seaborn 말고 matplotlib를 사용해 요일(day) 별로 요금(total_bill)을 막대그래프를 그려보면 주말이 평일보다 더 많은 것을 확인할 수 있습니다. 이렇게 이전에는 matplotlib를 사용해 시각화를 했다면 이번에는 seaborn을 사용해 시각화를 해보도록 하겠습니다. seaborn으로 막대그래프를 그릴 때는 barplot() 함수를 사용합니다. barplot() 함수를 사용할 때는 data 옵션에 그래프를 그릴 때 사용할 데이터 프레임을 넣고, 각 x축과 y축에 해당하는 column을 넣.. 2024. 3. 24.
[R 공부하기] 2. 변수와 벡터 - 우당탕탕 개발자 되기 프로젝트 목차 변수 벡터(vector) 벡터 생성 연속적인 벡터 생성 결합형 벡터 생성 벡터에 이름 부여 벡터 인덱싱 벡터의 연산 산술 연산 비교 연산 논리 연산 집합 연산 벡터 요소 간 연산 벡터 다루기 any, all, which, subset NA, NULL 벡터의 형변환 문자 벡터 연산 팩터(factor) 명목형 팩터 생성 순서형 팩터 생성 팩터 관련 함수 리스트 리스트 생성 리스트 조회 리스트 항목 추가 리스트 데이터 변경 리스트 키 이름 확인 및 변경 리스트 항목 삭제 리스트 합치기 리스트의 크기 확인 unlist 1. 변수변수란 프로그램에서 어떤 값을 저장하는 저장소나 보관 박스를 의미한다. 변수명 지정 규칙첫 글자는 영문자(알파벳) or 마침표(.)로 시작 (일반적으로는 영문자로 시작)두 번째 글자.. 2024. 3. 24.
[파이썬으로 하는 데이터 분석] 16. 시각화 - 우당탕탕 개발자 되기 프로젝트 시각화는 데이터를 가지고 많은 데이터의 관계를 그림으로 나타내어 한눈에 파악하기 쉽도록 구현하는 것입니다. 시각화를 할 때는 시각화 결과를 보여줄 대상을 잘 생각해야 합니다. 또한 시각화의 결과가 직관적이어야 하고 결과를 바로 파악할 수 있어야 좋은 시각화라고 할 수 있습니다. 우선 전에 살펴봤었던 matplotlib 도구를 활용하여 시각화하는 방법을 살펴보면, pyplot에 plot 메서드가 있습니다. plot 메서드는 일반적인 선 그래프가 도출되는 것을 볼 수 있습니다. scatter 메서드는 산점도를 도출하는 메서드입니다. scatter plot은 데이터의 분포를 나타냅니다. bar 메서드는 막대그래프를 도출하는 메서드입니다. plot 메서드의 marker 옵션은 선 그래프에서 데이터의 점이 해당 .. 2024. 3. 23.
[파이썬으로 하는 데이터 분석] 15. DataFrame 병합하기 - 우당탕탕 개발자 되기 프로젝트 여러 데이터 프레임을 하나로 합치는 방법에는 여러 가지가 있는데 우선 concat을 살펴보면, concat은 단순하게 데이터 프레임들을 붙이는, 연결하는 방법입니다. concat은 서로 크기(구조)가 다른 데이터 프레임이라도 병합이 가능합니다. concat() 함수 안에 병합할 데이터 프레임을 [ ]로 묶어 입력해 사용하면 됩니다. concat을 사용해 병합한 결과를 살펴보면 중복되는 칼럼은 아래로 이어져서 데이터가 저장되고 중복되지 않는 칼럼의 공간은 NaN의 값으로 채워진 것을 확인할 수 있습니다. concat() 기본적으로 아래로 데이터 프레임을 붙이는 방법입니다. 여기서 위아래가 아닌 옆으로 데이터 프레임을 붙이고 싶으면 concat() 함수에서 axis 옵션을 1로 변경해 주면 옆으로 데이터 프.. 2024. 3. 17.
[파이썬으로 하는 데이터 분석] 14. 데이터 보기 - 우당탕탕 개발자 되기 프로젝트 분석할 데이터를 파일에서 잘 불러왔다면 다음으로는 데이터가 어떻게 구성되었는지 알아야 합니다. 살펴볼 데이터를 가져온 뒤, head() 함수를 사용하면 해당 데이터의 위쪽 행들만 간단히 살펴볼 수 있습니다. 여기서 head() 함수 안에 값을 넣어주면 나타날 행의 개수를 지정해 줄 수 있습니다. 반대로 아래쪽 행들을 살펴보고 싶다면 tail() 함수를 사용하면 됩니다. head() 함수와 마찬가지로 tail() 함수 안에 값을 넣어주면 나타날 행의 개수를 지정해 줄 수 있습니다. head() 함수와 tail() 함수 모두 기본적으로 5개의 데이터를 보여줍니다. 다음으로 데이터 프레임의 shape는 데이터 프레임의 모양 즉, 행과 열의 개수를 의미합니다. shape는 데이터 프레임의 내용은 보여주지 않고 .. 2024. 3. 16.
[R 공부하기] 1. R, R Studio 설치 및 사용 - 우당탕탕 개발자 되기 프로젝트 목차 R 설치 R 간단히 사용 R Studio 설치 R Studio 화면 구성 R Studio 다루기 R Studio 작업환경 구축 프로젝트 관리 패키지 설치 및 사용 R Studio 간단히 사용 1. R 설치 R: The R Project for Statistical Computing www.r-project.org 먼저 R을 설치해 보면, 위의 링크를 접속하여 사진과 같이 따라 하면서 설치하면 된다. Korea와 0-Cloud 중 상관없이 선택하면 된다. 본인의 환경에 맞는 파일을 다운로드하면 된다. 계속해서 차례대로 클릭하며 다운로드를 진행한다. 파일이 설치가 되면 한국어를 선택한다. 설치할 위치를 선택하여 경로를 변경하거나 유지한 채로 설치를 계속한다. 구성 요소 설치에서 필요한 항목을 선택하고 .. 2024. 3. 15.
[파이썬으로 하는 데이터 분석] 13. 파일 다루기 - 우당탕탕 개발자 되기 프로젝트 데이터 분석을 하려면 파이썬의 라이브러리에 있는 데이터들을 가져와 분석을 해볼 수도 있지만 외부에서 데이터를 가져와 분석을 해야 하는 경우가 대부분입니다. 이처럼 외부에서 데이터를 가져올 때는 데이터가 저장되어 있는 외부 파일을 불러와야 합니다. 외부 파일을 불러오는 방법에는 pandas 라이브러리의 read_csv(), read_excel(), read_json() 등의 함수를 사용하면 됩니다. 각 함수는 불러오려는 파일의 확장자에 따라 사용하시면 됩니다. 함수를 적고 () 안에 파일의 경로나 이름을 적어주면 해당 파일을 불러올 수 있습니다. pd.read_csv('test.csv')와 같은 형식으로 작성해 주면 됩니다. 반면에 만든 DataFrame을 파일로 저장하고자 할 때는 pandas 라이브러리.. 2023. 12. 2.
[파이썬으로 하는 데이터 분석] 12. 산술연산 - 우당탕탕 개발자 되기 프로젝트 산술연산은 말 그대로 덧셈, 뺄셈, 곱셉, 나눗셈 등의 연산을 말합니다. 산술연산의 대상은 pandas의 자료구조를 대상으로 이루어집니다. 먼저 pandas의 Series를 생성해 주고 생성해 준 Series에 산술연산을 적용시키면 Series에 대한 연산이 일괄 적용되어 반환됩니다. 여러 Series를 서로 연산해 줄 수도 있습니다. 여러 Series를 연산하면 각각에 매칭되는 각 요소끼리 연산이 이루어집니다. 여러 Series의 연산은 각 동일한 위치의 값을 각각 연산해 주는데 해당 각 Series의 요소 순서가 달라도 일치하는 요소끼리 연산하여 그 결과를 반환해 줍니다. 각 Series의 요소 개수가 다르다면 동일하게 존재하는 요소끼리만 연산하여 그 결과를 반환하는데 만약 동일하게 존재하지 않고 몇.. 2023. 11. 26.
[파이썬으로 하는 데이터 분석] 11. Function Mapping & 그룹화 - 우당탕탕 개발자 되기 프로젝트 Function mapping은 특정 column의 값에 함수를 적용시키는 것을 말합니다. 우선 적용시킬 함수를 먼저 만들어주고 함수를 적용시킬 DataFrame의 column의 데이터를 지정해 apply() 함수로 만들어둔 함수를 적용하면 됩니다. apply() 함수 안에는 lambda 식을 활용해 해당 함수를 각 데이터에 적용시킬 수 있습니다. 그룹화는 DataFrame을 특정 column의 값으로 각 해당되는 값끼리 그룹을 만드는 것을 말합니다. DataFrame 이름.groupby('column 이름') 형식으로 작성해 주면 해당 DataFrame을 해당 column의 각 값으로 분류하게 됩니다. 그룹을 지어 각 그룹별 특성을 알아볼 때 유용하게 사용할 수 있습니다. 그룹화를 할 때 지정해 주는 .. 2023. 11. 4.
[파이썬으로 하는 데이터 분석] 10. Aggregation - 우당탕탕 개발자 되기 프로젝트 Aggregation은 집합 연산을 수행하는 메서드입니다. 하여 합계를 나타내는 sum, 최댓값을 나타내는 max, 최솟값을 나타내는 min, 평균을 나타내는 mean 등 다양한 연산들을 나타냅니다. 각 함수를 사용하면 각 column 마다 해당되는 값을 출력해 줍니다. 여기서 mean() 함수를 사용했을 때 이름이 들어있는 column 때문에 경고가 뜨는 것을 볼 수 있습니다. 숫자로만 구성되어 있는 값들의 평균만 나타낼 경우 원하는 column 만 묶어서 연산을 적용시켜 주면 됩니다. 2023. 10. 15.
728x90
반응형