본문 바로가기

Python/PANDAS15

Pandas - 행, 열의 병합 .Concat( ) .Merge( ) 행 병합 .Concat( ) 컬럼명이 같은 여러 데이터프레임을 하나로 합칠 수 있는 기능 pd.concat( )이다 여러 데이터프레임을 [ ] 리스트로 묶어 괄호 안에 넣어주면 되겠다 열 병합 .Merge( ) 위와 같이 컬럼이 같기 때문에 concat으로 합하여준다 concat으로 합쳐진 데이터프레임과 한가지 컬럼만이 겹치는 데이터프레임을 merge( ) 를 사용하여 열 병합 시킬 수 있다 pd.merge( 왼쪽변수, 오른쪽변수, on - '겹치는 콜럼' ) 이라고 적어주면 병합이 되는데 오른쪽 데이터프레임에 겹치는 콜럼부분의 6번에 해당하는 NaN 이었는데 병합되면서 사라지게 되었다 이럴때는 how = left를 사용하여 일단 없는 데이터를 NaN으로 두고 왼쪽 데이터를 살려서 병합시키자 후에 Nan.. 2024. 4. 9.
Pandas - 정렬 .Sort_values( ) ascending = False 이런 배열이 있을때 원하는 컬럼 순으로 정렬하고 싶을때 .sort_values( ) 를 입력후 괄호 안에 원하는 컬럼을 넣어주면 되겠다 2가지 이상일때에는 [ ]리스트로 묶어 넣어주면 되겠고 역순으로 하고 싶을때에는 ( )괄호 안에 ascending = False를 넣어준다 여기서 ascending 는 오름차순 이라는 뜻이기때문에 False를 넣어주면 내림차순이 되게 된다 2024. 4. 9.
Pandas - 카테고리컬 데이터 2 - .groupby( ) .agg( ) .count( ) 카테고리컬 데이터의 경우 데이터분석시 데이터별로 묶어서 데이터를 분석 할 수 있다 중복되는 데이터끼리는 묶을 수 없을까? Column1의 중복으로 묶어 Column2의 총합 .groupby( )[ ].sum( ) .groupby( )은 괄호안에 있는 중복 데이터들을 묶어주는 일을 한다 변수.groupby( )[ ].sum( ) .groupby( )의 괄호에 'Year'를 넣어주고 연봉을 가져와야하니[ ] 대괄호 안에 'Salary ' 를 넣어주고 총합을 구하기 위해 뒤에 .sum( )을 넣어준다 .mean( )을 넣어주면 평균을 구할 수 있다 각 연도별 연봉의 총합, 평균, 표준편차를 구하라 .agg( [ , ] ) 에러처럼 보이는 이 메세지들은 퓨처워닝인데 퓨처 워닝 = 함수가 업그레이드 됐으니 다음부.. 2024. 4. 5.
Pandas - 카테고리컬 데이터 1 - unique( ) Categorical Data 중복이 발생하는 데이터 이 데이터 프레임을 보게 되면 여러곳에서 중복값이 보이게 된다 해당 데이터를 카테고리컬 데이터 라고 한다 .unique( ) 중복값 제거 중복값을 제거 하고 남은 값의 갯수를 알아보고 싶을때는 .unique().size 를 해도 나오지만 .nunique() 를 입력하면 바로 나온다 Pandas - 카테고리컬 데이터 2 - .groupby( ) .agg( ) .count( ) 카테고리컬 데이터의 경우 데이터분석시 데이터별로 묶어서 데이터를 분석 할 수 있다 중복되는 데이터끼리는 묶을 수 없을까? Column1의 중복으로 묶어 Column2의 총합 .groupby( )[ ].sum( ) .groupby( )은 hani08.tistory.com 2024. 4. 5.
Pandas - 기초 통계 데이터 describe( ) describe( ) describe는 설명 한다는 뜻이며 전체갯수, 평균값,표준편차, 최소값 , 1/4값, 1/2값, 3/4값, 최대값 e+03 : 10의 3승 1000 e-07 : 10의 마이너스7승 0.0000007 콜럼별로 몇번 쓰였는지, 평균값, 표준편차, 최소값, 1/4값, 중앙값, 3/4값, 최대값 을 알려준다 기본적으로 문자열인것은 같이 안 나오지만 따로 입력하면 가능하다 count 9 중복 3 TOP 누가 제일 많이 등장 freq 몇번 등장했는지 2024. 4. 5.
Pandas - CRUD DataFrame 기초 좌측 bold체 : 행, 인덱스 => 기존에는 0123등 컴퓨터가 읽기 편했지만 인간이 편히 사용할 수 있게 가능해졌다 상단 bold체 : 열, 컬럼(column) 안쪽의 데이터 : values - 데이터의 갯수는 인덱스의 갯수 데이터 생성하기 .Series( ) .DataFrame( ) series ( ) 는 데이터프레임의 하위개념으로 1차원 배열을 의미하며 넘파이보다는 상위개념이다 .DataFrame( ) 은 2개 이상의 시리즈가 모여 만들어지는 컴퓨터로 정보를 정리하고 저장하는 도구이자행과 열로 이루어진 배열로 이루어지고 있다 데이터 불러오기 데이터를 불러오기에 앞서 흔히 사용되는 데이터의 저장방법은 .csv로 저장하고 읽고 있다 CSV 는 무엇? CSV 파일명의 뜻은 CSV.. 2024. 4. 5.