본문 바로가기
Python/PANDAS

Pandas - 카테고리컬 데이터 2 - .groupby( ) .agg( ) .count( )

by 하니__ 2024. 4. 5.
카테고리컬 데이터의 경우 데이터분석시
데이터별로 묶어서 데이터를 분석 할 수 있다

 

 

 

중복되는 데이터끼리는 묶을 수 없을까?

 

 

 

 

Column1의 중복으로 묶어 Column2의 총합  .groupby(      )[       ].sum( )

 

 

.groupby(   )은 괄호안에 있는 중복 데이터들을 묶어주는 일을 한다

 

 

변수.groupby(      )[       ].sum( )

 

.groupby(   )의 괄호에 'Year'를 넣어주고

 

연봉을 가져와야하니[  ] 대괄호 안에 'Salary ' 를 넣어주고

 

총합을 구하기 위해 뒤에 .sum(  )을 넣어준다

.mean( )을 넣어주면 평균을 구할 수 있다

 

 

각 연도별 연봉의 총합, 평균, 표준편차를 구하라 .agg( [    ,    ] )

 

 

 

 

에러처럼 보이는 이 메세지들은 퓨처워닝인데

퓨처 워닝 = 함수가 업그레이드 됐으니 다음부터는

np.XXX라고 입력하지 말고 'XXX'로 입력해달라는 의미

아무튼 그게 중요한게 아니고

 

.groupby(   )로  'Year'를 묶어주고

연봉을 가져와야하니[ 'Salary ' ]를 써준뒤

총합,평균,표준편차를 한번에 구하기 위해서

.agg(   )라는 함수를 사용한다

 

agg - Aggregation는 집합이라는 의미이며

구하려는 함수들을 리스트로 묶어 사용할 수 있다

.agg의 괄호 안에

총합 넘파이 함수인 np.sum 

평균 넘파이 함수인 np.mean

표준편차 넘파이 함수인 np.std를 입력 해주면 정상 작동 한다

 

다만 퓨처워닝이 뜨는게 보기 싫으니 하란대로 해서 결과를 다시 보자

 

넘파이 함수들을 문자열들로만 적어 사용하니 간편해졌고

연도별 연봉의 총합, 평균, 표준편차를 한번에 볼 수 있게 되었다

 

 

 

Name 컬럼은, 각 이름별로 몇개의 데이터가 있나 .count( )  .value_count( )

 

 

name컬럼을 묶어서 중복된 이름이 몇번씩 나오는지 확인할 수 있다

둘 중 어느 방법을 써도 무방하다

 

 

 

 

 

데이터가 많을 시에는

 

groupby( )[ ].count( ) 로는 또 따로 정렬기능을 사용하여야 눈으로 보기 편한데 비해

 

.value_count() 기능은 바로 내림차순으로 정렬을 해준다

 

 

 

 

 

 

Pandas - 카테고리컬 데이터 1 - unique( )

Categorical Data 중복이 발생하는 데이터 이 데이터 프레임을 보게 되면 여러곳에서 중복값이 보이게 된다 해당 데이터를 카테고리컬 데이터 라고 한다 .unique( ) 중복값 제거 중복값을 제거 하고 남

hani08.tistory.com