본문 바로가기

Python90

Pandas - 데이터프레임 함수 적용 .Apply( ) A컬럼의 조건으로 B컬럼을 만들어야 할 때 필요하다면 함수를 생성하고 적용시켜주자 이번경우에서는 시급이 30 이상 이라면 A 그렇지 않을 경우 B라는 함수를 만들어 샐러리 컬럼에 적용시켜 그레이드 라는 컬럼으로 생성시켰고 변수[ '새로 만들 컬럼' ] = 변수[ '기준이 되는 조건의 컬럼' ].apply(사용함수) 를 이용한다 이번에는 기존 함수로 가능하여 이름의 글자수를 그대로 컬럼으로 생성시켰다 응용편 별점 시스템을 만들고 응용을 해보자 우선 함수부터 만들고 작동시키자 그 후 우리가 원하는 시스템은 별점 5점의 최우수등급만을 목록에 띄우며 다른 자잘한 정보는 필요 없이 이름과 가성비점수가 어떻게 되는지 그리고 가성비 순서로 출력 시킬 예정이다 우선은 별점의 최대치, 95점 이상만 나오게 한다 df['.. 2024. 4. 9.
Pandas - 행, 열의 병합 .Concat( ) .Merge( ) 행 병합 .Concat( ) 컬럼명이 같은 여러 데이터프레임을 하나로 합칠 수 있는 기능 pd.concat( )이다 여러 데이터프레임을 [ ] 리스트로 묶어 괄호 안에 넣어주면 되겠다 열 병합 .Merge( ) 위와 같이 컬럼이 같기 때문에 concat으로 합하여준다 concat으로 합쳐진 데이터프레임과 한가지 컬럼만이 겹치는 데이터프레임을 merge( ) 를 사용하여 열 병합 시킬 수 있다 pd.merge( 왼쪽변수, 오른쪽변수, on - '겹치는 콜럼' ) 이라고 적어주면 병합이 되는데 오른쪽 데이터프레임에 겹치는 콜럼부분의 6번에 해당하는 NaN 이었는데 병합되면서 사라지게 되었다 이럴때는 how = left를 사용하여 일단 없는 데이터를 NaN으로 두고 왼쪽 데이터를 살려서 병합시키자 후에 Nan.. 2024. 4. 9.
Pandas - 정렬 .Sort_values( ) ascending = False 이런 배열이 있을때 원하는 컬럼 순으로 정렬하고 싶을때 .sort_values( ) 를 입력후 괄호 안에 원하는 컬럼을 넣어주면 되겠다 2가지 이상일때에는 [ ]리스트로 묶어 넣어주면 되겠고 역순으로 하고 싶을때에는 ( )괄호 안에 ascending = False를 넣어준다 여기서 ascending 는 오름차순 이라는 뜻이기때문에 False를 넣어주면 내림차순이 되게 된다 2024. 4. 9.
Pandas - 카테고리컬 데이터 2 - .groupby( ) .agg( ) .count( ) 카테고리컬 데이터의 경우 데이터분석시 데이터별로 묶어서 데이터를 분석 할 수 있다 중복되는 데이터끼리는 묶을 수 없을까? Column1의 중복으로 묶어 Column2의 총합 .groupby( )[ ].sum( ) .groupby( )은 괄호안에 있는 중복 데이터들을 묶어주는 일을 한다 변수.groupby( )[ ].sum( ) .groupby( )의 괄호에 'Year'를 넣어주고 연봉을 가져와야하니[ ] 대괄호 안에 'Salary ' 를 넣어주고 총합을 구하기 위해 뒤에 .sum( )을 넣어준다 .mean( )을 넣어주면 평균을 구할 수 있다 각 연도별 연봉의 총합, 평균, 표준편차를 구하라 .agg( [ , ] ) 에러처럼 보이는 이 메세지들은 퓨처워닝인데 퓨처 워닝 = 함수가 업그레이드 됐으니 다음부.. 2024. 4. 5.
Pandas - 카테고리컬 데이터 1 - unique( ) Categorical Data 중복이 발생하는 데이터 이 데이터 프레임을 보게 되면 여러곳에서 중복값이 보이게 된다 해당 데이터를 카테고리컬 데이터 라고 한다 .unique( ) 중복값 제거 중복값을 제거 하고 남은 값의 갯수를 알아보고 싶을때는 .unique().size 를 해도 나오지만 .nunique() 를 입력하면 바로 나온다 Pandas - 카테고리컬 데이터 2 - .groupby( ) .agg( ) .count( ) 카테고리컬 데이터의 경우 데이터분석시 데이터별로 묶어서 데이터를 분석 할 수 있다 중복되는 데이터끼리는 묶을 수 없을까? Column1의 중복으로 묶어 Column2의 총합 .groupby( )[ ].sum( ) .groupby( )은 hani08.tistory.com 2024. 4. 5.
Pandas - 기초 통계 데이터 describe( ) describe( ) describe는 설명 한다는 뜻이며 전체갯수, 평균값,표준편차, 최소값 , 1/4값, 1/2값, 3/4값, 최대값 e+03 : 10의 3승 1000 e-07 : 10의 마이너스7승 0.0000007 콜럼별로 몇번 쓰였는지, 평균값, 표준편차, 최소값, 1/4값, 중앙값, 3/4값, 최대값 을 알려준다 기본적으로 문자열인것은 같이 안 나오지만 따로 입력하면 가능하다 count 9 중복 3 TOP 누가 제일 많이 등장 freq 몇번 등장했는지 2024. 4. 5.