본문 바로가기
728x90
반응형

데이터 분석21

[파이썬으로 하는 데이터 분석] 21. CRISP-DM Data Preparation - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 세 번째 단계인 Data Preparation 단계는 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계입니다. 다음 단계인 Modeling 단계를 대비하는 단계로 알고리즘에 넣을 데이터를 적절하게 준비하는 단계라고 할 수 있습니다. Data Preparation 단계에서는 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅 등이 수행됩니다. Data Preparation 단계에서 가장 중요한 작업은 데이터 셋을 학습용과 시험용으로 분리하는 작업입니다. 데이터 셋을 학습용(train)과 시험용(test)으로 분리하는 것은 row를 가지고 데이터의 개수를 나누는 작업입니다. 또한 분석의 방향성에 맞는 분석을 수행하기 위.. 2024. 4. 7.
[파이썬으로 하는 데이터 분석] 20. EDA 탐색적 데이터 분석 - 우당탕탕 개발자 되기 프로젝트 EDA는 탐색적 데이터 분석을 의미합니다. 이는 시각화를 통해 데이터의 의미 있는 인사이트(통찰력)를 찾는 과정을 말합니다. 그래프와 통계적인 방법을 사용하여 데이터를 직관적으로 보고 인사이트를 도출할 수 있도록 하는 과정입니다. 이 과정을 통해 Business Understanding 단계에서 설정한 데이터 분석 방향성이 일치하는지도 파악합니다. seaborn 라이브러리를 활용하여 수요를 파악하기 위해 데이터의 column 중 회원(register)과 비회원(casual)의 분포를 산점도로 그려볼 수 있습니다. 산점도를 살펴보면 회원(register)은 800을 넘어서까지 값이 존재하는 반면, 비회원(casual)은 350 정도의 값까지 밖에 존재하지 않는 것을 확인할 수 있습니다. 이것으로 보아 회원.. 2024. 4. 6.
[파이썬으로 하는 데이터 분석] 19. CRISP-DM Data Understanding - 우당탕탕 개발자 되기 프로젝트 CRISP-DM 방법론의 두 번째 단계인 Data Understanding 단계는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계로 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계입니다. 해당 단계에서는 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등이 수행됩니다. 데이터를 보고 분석을 위해 추가로 필요한 데이터를 추출하고 변경하는 단계라고 할 수 있습니다. 우선 해당 데이터의 column을 한눈에 살펴보기 위해 전치행렬로 바꾸어 살펴보면 2년 치의 정보가 시간대별로 저장되어 있는 것을 확인할 수 있습니다. 또 데이터에는 크게 날짜 정보와 날씨 정보, 고객의 이용 정보가 포함되어 있는 것을 확인할 수 있습니다. 데이터의 각 column.. 2024. 3. 31.
[파이썬으로 하는 데이터 분석] 18. CRISP-DM Business Understanding - 우당탕탕 개발자 되기 프로젝트 데이터를 분석하는 방법에는 크게 두 가지가 있습니다. KDD 방법론과 CRISP-DM 방법론이 있는데 CRISP-DM 방법론은 Cross-Industry Standard Process - Data Mining으로 총 6단계로 구성되어 있습니다. Business Understanding - Data Understanding - Data Preparation - Modeling - Evaluation - Deployment 단계로 데이터 분석이 수행됩니다. 그중 첫 번째 단계인 Business Understanding 단계를 살펴보면 Business Understanding 단계는 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고.. 2024. 3. 30.
[파이썬으로 하는 데이터 분석] 17. seaborn - 우당탕탕 개발자 되기 프로젝트 seaborn는 보통 sns라는 축약어로 많이 불러와 사용합니다. seaborn 자체에 기본으로 제공해 주는 데이터는 load_dataset() 함수를 활용해 불러오면 사용할 수 있습니다. 우선 seaborn 말고 matplotlib를 사용해 요일(day) 별로 요금(total_bill)을 막대그래프를 그려보면 주말이 평일보다 더 많은 것을 확인할 수 있습니다. 이렇게 이전에는 matplotlib를 사용해 시각화를 했다면 이번에는 seaborn을 사용해 시각화를 해보도록 하겠습니다. seaborn으로 막대그래프를 그릴 때는 barplot() 함수를 사용합니다. barplot() 함수를 사용할 때는 data 옵션에 그래프를 그릴 때 사용할 데이터 프레임을 넣고, 각 x축과 y축에 해당하는 column을 넣.. 2024. 3. 24.
[파이썬으로 하는 데이터 분석] 16. 시각화 - 우당탕탕 개발자 되기 프로젝트 시각화는 데이터를 가지고 많은 데이터의 관계를 그림으로 나타내어 한눈에 파악하기 쉽도록 구현하는 것입니다. 시각화를 할 때는 시각화 결과를 보여줄 대상을 잘 생각해야 합니다. 또한 시각화의 결과가 직관적이어야 하고 결과를 바로 파악할 수 있어야 좋은 시각화라고 할 수 있습니다. 우선 전에 살펴봤었던 matplotlib 도구를 활용하여 시각화하는 방법을 살펴보면, pyplot에 plot 메서드가 있습니다. plot 메서드는 일반적인 선 그래프가 도출되는 것을 볼 수 있습니다. scatter 메서드는 산점도를 도출하는 메서드입니다. scatter plot은 데이터의 분포를 나타냅니다. bar 메서드는 막대그래프를 도출하는 메서드입니다. plot 메서드의 marker 옵션은 선 그래프에서 데이터의 점이 해당 .. 2024. 3. 23.
[파이썬으로 하는 데이터 분석] 15. DataFrame 병합하기 - 우당탕탕 개발자 되기 프로젝트 여러 데이터 프레임을 하나로 합치는 방법에는 여러 가지가 있는데 우선 concat을 살펴보면, concat은 단순하게 데이터 프레임들을 붙이는, 연결하는 방법입니다. concat은 서로 크기(구조)가 다른 데이터 프레임이라도 병합이 가능합니다. concat() 함수 안에 병합할 데이터 프레임을 [ ]로 묶어 입력해 사용하면 됩니다. concat을 사용해 병합한 결과를 살펴보면 중복되는 칼럼은 아래로 이어져서 데이터가 저장되고 중복되지 않는 칼럼의 공간은 NaN의 값으로 채워진 것을 확인할 수 있습니다. concat() 기본적으로 아래로 데이터 프레임을 붙이는 방법입니다. 여기서 위아래가 아닌 옆으로 데이터 프레임을 붙이고 싶으면 concat() 함수에서 axis 옵션을 1로 변경해 주면 옆으로 데이터 프.. 2024. 3. 17.
[파이썬으로 하는 데이터 분석] 14. 데이터 보기 - 우당탕탕 개발자 되기 프로젝트 분석할 데이터를 파일에서 잘 불러왔다면 다음으로는 데이터가 어떻게 구성되었는지 알아야 합니다. 살펴볼 데이터를 가져온 뒤, head() 함수를 사용하면 해당 데이터의 위쪽 행들만 간단히 살펴볼 수 있습니다. 여기서 head() 함수 안에 값을 넣어주면 나타날 행의 개수를 지정해 줄 수 있습니다. 반대로 아래쪽 행들을 살펴보고 싶다면 tail() 함수를 사용하면 됩니다. head() 함수와 마찬가지로 tail() 함수 안에 값을 넣어주면 나타날 행의 개수를 지정해 줄 수 있습니다. head() 함수와 tail() 함수 모두 기본적으로 5개의 데이터를 보여줍니다. 다음으로 데이터 프레임의 shape는 데이터 프레임의 모양 즉, 행과 열의 개수를 의미합니다. shape는 데이터 프레임의 내용은 보여주지 않고 .. 2024. 3. 16.
[파이썬으로 하는 데이터 분석] 13. 파일 다루기 - 우당탕탕 개발자 되기 프로젝트 데이터 분석을 하려면 파이썬의 라이브러리에 있는 데이터들을 가져와 분석을 해볼 수도 있지만 외부에서 데이터를 가져와 분석을 해야 하는 경우가 대부분입니다. 이처럼 외부에서 데이터를 가져올 때는 데이터가 저장되어 있는 외부 파일을 불러와야 합니다. 외부 파일을 불러오는 방법에는 pandas 라이브러리의 read_csv(), read_excel(), read_json() 등의 함수를 사용하면 됩니다. 각 함수는 불러오려는 파일의 확장자에 따라 사용하시면 됩니다. 함수를 적고 () 안에 파일의 경로나 이름을 적어주면 해당 파일을 불러올 수 있습니다. pd.read_csv('test.csv')와 같은 형식으로 작성해 주면 됩니다. 반면에 만든 DataFrame을 파일로 저장하고자 할 때는 pandas 라이브러리.. 2023. 12. 2.
[파이썬으로 하는 데이터 분석] 12. 산술연산 - 우당탕탕 개발자 되기 프로젝트 산술연산은 말 그대로 덧셈, 뺄셈, 곱셉, 나눗셈 등의 연산을 말합니다. 산술연산의 대상은 pandas의 자료구조를 대상으로 이루어집니다. 먼저 pandas의 Series를 생성해 주고 생성해 준 Series에 산술연산을 적용시키면 Series에 대한 연산이 일괄 적용되어 반환됩니다. 여러 Series를 서로 연산해 줄 수도 있습니다. 여러 Series를 연산하면 각각에 매칭되는 각 요소끼리 연산이 이루어집니다. 여러 Series의 연산은 각 동일한 위치의 값을 각각 연산해 주는데 해당 각 Series의 요소 순서가 달라도 일치하는 요소끼리 연산하여 그 결과를 반환해 줍니다. 각 Series의 요소 개수가 다르다면 동일하게 존재하는 요소끼리만 연산하여 그 결과를 반환하는데 만약 동일하게 존재하지 않고 몇.. 2023. 11. 26.
728x90
반응형