본문 바로가기

전체보기239

Matplotlib - Bar 그래프 .countplot( ) .color_palette( )[ ] .value_count( ).index 이러한 포켓몬 7세대까지의 데이터들이 있다고 할 때에 세대별 포켓몬의 마릿수는 어떻게 분포 되어 있는지 막대그래프 형태로 알아보자 우선 이전 까지의 방법으로는 value_count( )와 groupby( )[ ].count( ) 를 이용하여 수치화된 데이터로 알아 볼 수 있었다 seaborn의 .countplot( ) 사용 import seaborn as sb 우선 seaborn 라이브러리를 사용하기위해 임포트를 해주고 타이핑을 줄이기 위해 sb로 줄여보자 sb.countplot(data=df , x= 'generation_id') plt.show() 그 후 .countplot( ) 을 이용해 막대형 그래프를 만들자 하지만 뭔가 정신없고 여러모로 손을 봐줘야 할 것같다 막대 색상 설정 .color_pal.. 2024. 4. 9.
Matplotlib - hist 히스토그램 1 .hist( ) rwidth= bins= 히스토그램은 구간을 설정하여 해당 구간에 데이터가 몇개인지 확인이 가능하다 그렇기에 데이터의 분포를 알 수 있다 히스토그램은 구간이 있는데 이 구간을 bin 이라고 하고 구간이 여러개라서 보통 복수형으로 bins 라고 한다 히스토그램은 똑같은 데이터를 가지고도 bin을 어떻게 설정하느냐에 따라 차트 모양이 달라져 해석을 달리 할 수 있다 가령 이런 숫자들의 데이터가 있다고 하면 이런식으로 구간을 6으로 묶은 그래프와 3으로 묶은 그래프에는 크게 보면 별 차이가 없지만 우측 그래프의 0~3구간과 15~18구간이 생각보다 비어있는것을 좌측 그래프에서는 알지 못 한다 이번엔 전의 포켓몬 데이터로 'speed' 콜럼을 통하여 데이터들이 어떻게 분포 되어있나 확인해보자 .hist( ) import matplotl.. 2024. 4. 9.
Matplotlib - 기초, 직선형 그래프, 저장 .plot( x, y) .savefig( ) Matplotlib 매트 플롯 라이브러리는 Numpy라이브러리를 활용한 수치화된 데이터들을 산포형, 직선형, 곡선형, 막대형, 원형 등등의 그래프로 시각화 시켜주는 객체 지향 API이다 보다 쉽게 다른 이에게 이해시키기 쉽게끔 만들어준다 기본적으로 matplotlib.pyplot을 import해줘야 한다 그리고 자주 쓰는데 길이가 긴 만큼 plt로 줄여 쓴다 .plot( x, y) 기본적으로 plt.plot(x축 , y축)으로 그리며 메모리에 적혀있는 자잘한 메세지를 지우기위해 plt.show() 를 해준다 .savefig( ) 그리고 plt.savefig('저장할 이름.확장자')를 적어주면 같은 경로에 저장이 된다 이때 확장자는 jpg건 png건 적어주는대로 저장이 된다 ref: https://matp.. 2024. 4. 9.
Pandas - 정렬한 Series 를 DataFrame으로 .to_frame( ) 정렬한것은 Series로 나오게 된다 이것을 to._frame() 을 입력하여 DataFrame으로 변환하자 2024. 4. 9.
Pandas - 데이터프레임 내 리스트 포함 .isin( ) 데이터프레임에 내가 찾는 리스트들이 있는지 확인하고 가져오는 법 하나하나 찾을 필요 없이 리스트를 메모리에 올리고 .isin( ) 으로 괄호안에 리스트를 넣어 데이터프레임에 리스트가 포함된 것들을 모두 찾도록 하자 다음은 데이터 엑세스 끗 2024. 4. 9.
Pandas - 데이터프레임 함수 적용 .Apply( ) A컬럼의 조건으로 B컬럼을 만들어야 할 때 필요하다면 함수를 생성하고 적용시켜주자 이번경우에서는 시급이 30 이상 이라면 A 그렇지 않을 경우 B라는 함수를 만들어 샐러리 컬럼에 적용시켜 그레이드 라는 컬럼으로 생성시켰고 변수[ '새로 만들 컬럼' ] = 변수[ '기준이 되는 조건의 컬럼' ].apply(사용함수) 를 이용한다 이번에는 기존 함수로 가능하여 이름의 글자수를 그대로 컬럼으로 생성시켰다 응용편 별점 시스템을 만들고 응용을 해보자 우선 함수부터 만들고 작동시키자 그 후 우리가 원하는 시스템은 별점 5점의 최우수등급만을 목록에 띄우며 다른 자잘한 정보는 필요 없이 이름과 가성비점수가 어떻게 되는지 그리고 가성비 순서로 출력 시킬 예정이다 우선은 별점의 최대치, 95점 이상만 나오게 한다 df['.. 2024. 4. 9.