본문 바로가기
Data Science/Data Analysis

[파이썬으로 하는 데이터 분석] 14. 데이터 보기 - 우당탕탕 개발자 되기 프로젝트

by 우당탕탕 개발자 2024. 3. 16.
728x90
반응형

 

분석할 데이터를 파일에서 잘 불러왔다면 다음으로는 데이터가 어떻게 구성되었는지 알아야 합니다.

살펴볼 데이터를 가져온 뒤, head() 함수를 사용하면 해당 데이터의 위쪽 행들만 간단히 살펴볼 수 있습니다.

여기서 head() 함수 안에 값을 넣어주면 나타날 행의 개수를 지정해 줄 수 있습니다.

 

반대로 아래쪽 행들을 살펴보고 싶다면 tail() 함수를 사용하면 됩니다.

head() 함수와 마찬가지로 tail() 함수 안에 값을 넣어주면 나타날 행의 개수를 지정해 줄 수 있습니다.

head() 함수와 tail() 함수 모두 기본적으로 5개의 데이터를 보여줍니다.

 

다음으로 데이터 프레임의 shape는 데이터 프레임의 모양 즉, 행과 열의 개수를 의미합니다.

shape는 데이터 프레임의 내용은 보여주지 않고 간단하게 행과 열의 개수만 보여주게 됩니다.

 

info() 함수는 데이터 프레임의 기본 정보를 보여주는 함수입니다.

데이터 프레임의 기본 정보라고 하면 각 행과 열의 개수별 정보를 의미합니다.

각 열의 이름과 값의 개수, 값의 타입 등을 확인할 수 있습니다.

데이터 프레임의 dtypes은 각 칼럼의 타입만을 보여줍니다.

 

describe() 함수는 각 칼럼의 기술 통계 정보를 보여주는 함수입니다.

기술 통계 정보는 평균, 표준편차, 최솟값, 최댓값, 사분위수 등의 값을 의미합니다.

describe() 함수를 사용한 결과 또한 데이터 프레임의 형태라는 것을 확인할 수 있습니다.

기술 통계 정보는 기본적으로 수치형 데이터로 처리가 되기 때문에 수치형 값을 가지는 칼럼들에 대해서만 결과가 나오게 됩니다.

 

value_counts() 함수는 단위 칼럼의 고윳값 정보를 확인할 수 있는 함수입니다.

특정 칼럼에 value_counts() 함수를 사용하면 해당 칼럼을 이루고 있는 고윳값들의 개수를 보여줍니다.특정 칼럼에 set() 함수를 사용하면 고윳값만 반환해 줍니다.

 

반응형

describe() 함수를 적용한 결과 데이터 프레임을 보면 열의 개수가 많아서 드래그를 통해 화면을 넘기면서 값을 확인해야만 합니다.

이때 데이터 프레임에 T를 적용하게 되면 전치 행렬을 구할 수 있는데 전치 행렬은 각 행과 열의 위치가 바뀐 행렬을 말합니다.

전치 행렬을 사용하면 길었던 열이 행으로 바뀌면서 한 화면에 자료를 볼 수 있게 됩니다.

데이터 프레임의 변환(T)은 이런 경우에 유용하게 사용할 수 있습니다.

 

corr() 함수는 칼럼의 상관계수 값을 구해주는 함수입니다.

상관계수란 두 변수를 봤을 때 한 변수가 증가하거나 감소하는 경향을 보일 때 이에 따라 다른 변수도 증가하거나 감소하는 경향을 보이는 정도, 즉 상관관계의 정도를 나타낸 값이라고 할 수 있습니다.

관계를 알아보고 싶은 칼럼을 [ ]로 묶어주고 corr() 함수를 사용하면 해당 칼럼들의 상관계수 값을 확인할 수 있습니다.

 

이번 글에서 살펴봤던 부분을 적용해 보며 익숙해지도록 연습해 보세요 ㅎㅎ

728x90
반응형