본문 바로가기
Data Science/Data Analysis

[파이썬으로 하는 데이터 분석] 12. 산술연산 - 우당탕탕 개발자 되기 프로젝트

by 우당탕탕 개발자 2023. 11. 26.
728x90
반응형

 

산술연산은 말 그대로 덧셈, 뺄셈, 곱셉, 나눗셈 등의 연산을 말합니다.

산술연산의 대상은 pandas의 자료구조를 대상으로 이루어집니다.

 

먼저 pandas의 Series를 생성해 주고 생성해 준 Series에 산술연산을 적용시키면 Series에 대한 연산이 일괄 적용되어 반환됩니다.

여러 Series를 서로 연산해 줄 수도 있습니다. 여러 Series를 연산하면 각각에 매칭되는 각 요소끼리 연산이 이루어집니다.

 

여러 Series의 연산은 각 동일한 위치의 값을 각각 연산해 주는데 해당 각 Series의 요소 순서가 달라도 일치하는 요소끼리 연산하여 그 결과를 반환해 줍니다.

각 Series의 요소 개수가 다르다 동일하게 존재하는 요소끼리만 연산하여 그 결과를 반환하는데 만약 동일하게 존재하지 않고 몇 개의 Series에만 존재하는 요소일 경우 NaN의 형태로 연산 결과가 반환되는 것을 볼 수 있습니다.

NaN Not a Number의 약자이며, 결측치로 값이 누락되거나 연산에 의해 잘못 처리된 데이터를 의미합니다.

결측치가 발생할 수 있는 경우는 많은데, 결측치가 포함된 자료는 연산을 진행할 때 문제를 발생시킬 수도 있기에 반드시 결측치를 처리해줘야 합니다.

결측치를 처리하지 않고 연산을 수행하면 NaN가 포함된 요소는 전부 NaN으로 연산이 처리됩니다.

NaN은 0이 아니라 그냥 값이 없다는 의미를 나타냅니다.

반응형

이때 NaN을 처리할 때는 분석에 방향과 목적에 따라 달라지는데, 각 연산 메서드별 fill_value 옵션을 사용하여 해당 값을 특정 값으로 지정해 주어 연산하는 방법도 있습니다.

연산 메서드(NaN 처리해 줄 데이터, fill_value=값) 형식으로 작성해 주면 NaN 데이터를 지정해 준 값으로 변경하여 연산하게 됩니다. 여기서 inf 무한대(infinity)를 의미하는 값입니다.

 

만약 DataFrame 자체에 연산을 해주면 DataFrame의 모든 값에 해당 연산이 수행됩니다.

또한 Series끼리 연산이 아니라 DataFrame끼리 연산을 수행한다면 각 위치별 값끼리 연산이 될 것이라는 것을 예상할 수 있습니다.

 

728x90
반응형