본문 바로가기
728x90
반응형

data analysis20

[파이썬으로 하는 데이터 분석] 10. Aggregation - 우당탕탕 개발자 되기 프로젝트 Aggregation은 집합 연산을 수행하는 메서드입니다. 하여 합계를 나타내는 sum, 최댓값을 나타내는 max, 최솟값을 나타내는 min, 평균을 나타내는 mean 등 다양한 연산들을 나타냅니다. 각 함수를 사용하면 각 column 마다 해당되는 값을 출력해 줍니다. 여기서 mean() 함수를 사용했을 때 이름이 들어있는 column 때문에 경고가 뜨는 것을 볼 수 있습니다. 숫자로만 구성되어 있는 값들의 평균만 나타낼 경우 원하는 column 만 묶어서 연산을 적용시켜 주면 됩니다. 2023. 10. 15.
[파이썬으로 하는 데이터 분석] 9. 인덱스 - 우당탕탕 개발자 되기 프로젝트 먼저 DataFrame을 하나 생성해 줍니다. DataFrame을 생성할 때 인덱스를 따로 지정해주지 않으면 default로 정수형으로 0번부터 지정됩니다. 인덱스의 원래 용도는 row 구별을 위한 것이라 인덱스는 유일성이 존재해야 합니다. 만약 이미 생성된 DataFrame의 인덱스를 변경하기 위해서는 set_index() 메서드를 활용하면 됩니다. DataFrame 이름.set_index('column 이름') 형식으로 작성하면 지정한 column의 값을 인덱스로 바꿔줍니다. 만약 set_index() 메서드를 적용한 상태에서 한 번 더 다른 column 이름으로 set_index() 메서드를 사용하면 이전 인덱스가 사라지게 되므로 사용하실 때 주의하시길 바랍니다. set_index() 메서드로 co.. 2023. 10. 14.
[파이썬으로 하는 데이터 분석] 8. 추가 & 변경 - 우당탕탕 개발자 되기 프로젝트 DataFrame에 row, column, 값(원소)을 추가할 수 있습니다. column을 추가하려면 새로운 column을 생성해 주고 각 row 마다 column의 값을 지정하면 됩니다. DataFrame 이름['새로운 column 이름'] = [각 row 별 column 값] 형식으로 작성해 주면 되는데, 만약 값을 하나만 줬다면 모든 row의 column 값이 동일하게 추가됩니다. row를 추가하려면 loc를 활용하여 새로운 row를 생성하고 각 column 마다 값을 지정해 주면 됩니다. DataFrame 이름.loc['새로운 row 이름'] = [각 column 별 값들] 형식으로 작성해 주면 새로운 row가 추가됩니다. DataFrame의 값(원소)을 변경할 수도 있습니다. 값(원소)을 변경할.. 2023. 10. 8.
[파이썬으로 하는 데이터 분석] 7. 선택 - 우당탕탕 개발자 되기 프로젝트 선택은 매우 중요한데, 선택에는 row 선택과 column 선택, 값(원소) 선택이 있습니다. 먼저 row 선택에서는 loc와 iloc를 사용합니다. DataFrame 이름.loc[인덱스 이름] 형식으로 작성해 주면 인덱스 이름을 갖는 row를 선택하여 해당 row가 가지고 있는 column을 보여줍니다. DataFrame 이름.iloc[인덱스 번호] 형식으로 작성해 주면 해당 번호의 인덱스 row를 선택하여 해당 row가 가지고 있는 column을 보여줍니다. iloc의 i는 integer이며 loc에서 인덱스 이름 형식으로 작성해 준 것을 정수 형태로 작성하는 것입니다. loc와 iloc를 사용하여 row를 선택할 때 여러 개의 row를 선택하고자 한다면, 파이썬에서 사용한 슬라이싱 개념과 방식을 동.. 2023. 10. 7.
[파이썬으로 하는 데이터 분석] 6. Pandas 자료구조 - 우당탕탕 개발자 되기 프로젝트 Pandas의 자료구조에는 Series와 DataFrame이 있습니다. Series는 1차원 배열이라고 생각하면 되고 DataFrame은 2차원 배열이라고 생각하면 됩니다. Pandas의 자료구조를 알아야 하는 이유는 실제로 분석을 위해 수집한 데이터는 형태와 속성이 매우 다양하기 때문에 데이터들을 분석에 맞게 정형화시켜줘야 합니다. Series는 데이터가 순차적으로 나열된 1차원 배열의 형태로 파이썬에서 딕셔너리와 유사하다고 생각하면 됩니다. 파이썬에서 생성한 딕셔너리를 pandas 라이브러리의 Series() 메서드에 넣으면 딕셔너리가 Series로 바뀌게 됩니다. Series 자료구조를 살펴보는 이유는 DataFrame에서 원하는 위치를 뽑아 출력을 했을 때 Series 형태로 많이 나오기 때문에 .. 2023. 9. 24.
[파이썬으로 하는 데이터 분석] 5. Matplotlib - 우당탕탕 개발자 되기 프로젝트 Matplotlib은 시각화 도구 중 하나입니다. Matplotlib 또한 라이브러리 설치를 해주고 import 해줘야 사용 가능합니다. Matplotlib 라이브러리 안 bar() 메서드는 막대그래프를 그려주는 메서드입니다. bar(x축에 사용할 데이터, y축에 사용할 데이터) 형식으로 작성하면 해당 데이터를 x축과 y축으로 갖는 막대그래프가 생성됩니다. 그래프는 각각 레이블, 제목, 크기 조정, 색 조정 등 다양한 추가 기능이 있는데 이러한 부분은 데이터 분석에 있어서 크게 중요한 부분이 아니므로 상황에 따라 적절하게 구글링 하여 사용하면 됩니다. scatter() 메서드는 산점도 그래프를 그려주는 메서드입니다. 산점도 그래프는 산포된 점으로 그래프를 그리는 것인데, 주로 분포를 나타낼 때 많이 사용.. 2023. 9. 23.
[파이썬으로 하는 데이터 분석] 4. Numpy - 우당탕탕 개발자 되기 프로젝트 Numpy는 수치 해석 라이브러리입니다. Numpy 또한 Pandas처럼 사용하기 위해선 라이브러리를 설치해줘야 하고 import를 통해 설치한 Numpy 라이브러리를 불러와야 합니다. 라이브러리를 설치하는 방법은 Pandas 라이브러리를 설치한 방법과 동일합니다. numpy의 array() 메서드는 리스트를 배열의 형태로 만들어줍니다. numpy 라이브러리를 np 이름으로 불러온 다음, np(=라이브러리).array(리스트) 형식으로 작성해 주면 해당 리스트가 배열의 형태로 반환됩니다. array() 메서드에서 리스트를 2차원 리스트로 넣어줄 경우, 배열 또한 2차원 배열의 형태로 반환됩니다. 그리고 만들어진 배열의 shape를 출력해 보면 배열의 형태 즉, 행과 열의 값을 출력해 줍니다. 배열명.sh.. 2023. 9. 17.
[파이썬으로 하는 데이터 분석] 3. Pandas - 우당탕탕 개발자 되기 프로젝트 데이터 분석에 있어 가장 먼저 공부할 부분은 pandas입니다. pandas를 사용하려면 해당 라이브러리를 설치해줘야 합니다. window + R을 눌러 실행창을 띄우고 cmd를 입력하여 명령창으로 이동합니다. 이후 명령창에서 pip install pandas 명령어를 입력하면 pandas를 설치할 수 있습니다. pandas 라이브러리를 설치했다면 간단하게 DataFrame을 만들어보겠습니다. DataFrame은 데이터를 분석하기 위한 바탕입니다. 이후 내용에서 더 자세하게 알아보겠습니다. DataFrame은 간단하게 Dictionary와 List의 형태로 만들 수 있습니다. Key가 동일한 딕셔너리를 리스트에 넣고 pandas 라이브러리 안에 있는 DataFrame() 메서드에 넣어주면 해당 리스트가 .. 2023. 9. 16.
[파이썬으로 하는 데이터 분석] 2. Jupyter Notebook 사용하기 - 우당탕탕 개발자 되기 프로젝트 Jupyter Notebook에서는 기존 파이썬의 문법을 동일하게 사용하면 됩니다. 명령문을 입력하고 Ctrl + Enter를 누르면 실행됩니다. 다음 명령문을 입력할 새로운 공간을 생성할 때는 + 아이콘을 눌러도 되고, B를 눌러도 됩니다. 삭제하는 방법은 가위 아이콘을 누르거나, D를 누르는 방법이 있습니다. Jupyter Notebook에서는 명령문 공간이 파란색이면 읽는 모드, 녹색이면 작성하는 모드라고 생각하면 됩니다. 파란색으로 읽기 모드일 때는 커서가 깜빡거리지 않지만 녹색으로 작성 모드일 때는 커서가 깜빡거리며 명령어를 입력할 수 있습니다. 파란색에서 녹색으로 변경할 때는 Enter를 누르면 되고, 반대로 녹색에서 파란색으로 변경할 때는 Ctrl + Enter를 누르면 입력한 명령문이 실행.. 2023. 9. 3.
[파이썬으로 하는 데이터 분석] 1. 프로그램 설치 및 설정 - 우당탕탕 개발자 되기 프로젝트 데이터 분석을 해볼 프로그램은 anaconda (아나콘다)입니다. anaconda 설치부터 시작해 보도록 하겠습니다. anaconda를 설치할 때는 Just Me 옵션으로 선택하여 설치해 주는 것을 권장합니다. anaconda가 설치되는 위치를 알아보겠습니다. 위치를 알아보는 방법은 window 키 + R을 누르고 실행창이 나오면 cmd를 입력하여 명령창을 띄워줍니다. 이후 whoami를 입력해 주면 해당 위치가 나오게 됩니다. 나오는 위치는 내 PC, 로컬 디스크, 사용자에 생성되어 있는 폴더의 위치입니다. 해당 위치에 anaconda가 설치되게 됩니다. 설치되는 위치를 확인했다면 설치를 마저 진행합니다. 이때 오류가 뜨는 경우도 있습니다. 이런 경우에는 설치가 되는 폴더에 들어가 anaconda 파일.. 2023. 9. 2.
728x90
반응형