본문 바로가기

전체 글239

Pandas - 중복된 값들 합산 .pivot_table( ) 여러 데이터들이 있을때 중복된 데이터들을 합쳐야 할때가 있다 이러한 데이터가 있을때 같은 이름으로 묶으면서 Quantity와 Price는 병합하는 기능을 사용하자 pd.pivot_table(df_test, index= ['Name'], values = ['Quantity','Price' ] ) 기본형은 pivot_table( )에 기본이 되는 데이터프레임, 인덱스= [인덱스에 들어갈 콜럼 = 중복인것을 하나로 만들 콜럼] 밸류스= [합쳐지는 콜럼들] (하나라면 [ ] 는 빼도 좋다) 별 다른 파라미터를 추가로 입력하지 않는다면 합쳐진 데이터들은 평균값으로 나오게 된다 하지만 평균이 아니라 합한 값을 원할때에는 pd.pivot_table(df_test, index= ['Name'], values = ['Q.. 2024. 4. 11.
Google API - geocode 주소 가져오기 이렇게 적혀있는 데이터들을 구글api를 이용하여 주소를 찾아 구 별로 나누어주는 작업을 해보자 우선 검색에 용이하도록 관서명의 데이터에서 왼쪽에는 서울, 오른쪽에는 서 대신 경찰서를 붙이는 작업 df['관서명'] = '서울 ' + df['관서명'] df['관서명'] = df['관서명'].str[ 0 : -1] df['관서명'] = df['관서명'] + ' 경찰서' 이렇게 서울을 추가하고 서를 지우고 경찰서를 추가해도 좋지만 df['관서명'] = df['관서명'].str[ 0 : -1] 서울 + df['관서명'] + 경찰서 2줄로 끊으면 더욱 깔끔하겠다 pip install googlemaps 우선은 구글맵스 설치를 하고 import googlemaps gmaps_key = " " # 자신의 key를 사용.. 2024. 4. 11.
Pandas - column 변경 .rename( ) .columns= 콜럼 하나만 변경 할 때 .rename(columns={'Before':'After'}) .rename(columns={'Before':'After'}) rename( )입력, 파라미터 안에 column = { } 입력 {딕셔너리} 안에 'before' : 'after' 로 변환할 콜럼의 이름(바꾸기 전 이름)과 변환될 콜럼의 이름(바꾸는 이름) 을 입력 이후 inplace=True를 통해 저장 CCTV_Seoul.rename(columns={'기관명':'구별'}, inplace=True) 전체를 변경 할때 .columns = ['바', '꿀', '이', '름'] pop_Seoul.columns = [ '구별', '인구수', '한국인', '외국인', '고령자'] 전체를 변경할때에는 .columns = [.. 2024. 4. 11.
Matplotlib - Pie 차트(원 형 그래프) .autopct startangle wedgeprops = { 'width' : } 보통 데이터를 퍼센테이지로 시각화 하는경우 많이 사용 (ex: 대통령 선거 득표율) 포켓몬 세대별 포켓몬 객체수를 pie차트를 이용하여 나타내보자 df['generation_id'].value_counts() generation_id 5 156 1 151 3 135 4 107 2 100 7 86 6 72 Name: count, dtype: int64 df2 = df['generation_id'].value_counts() plt.pie(df2) plt.show() 우선은 원하는 데이터프레임을 가공하여 저장하고 기본형인 .pie( )로 파라미터 안에 넣어 불러내자 나오긴 나왔는데 도대체 무슨 데이터인지 무엇을 나타내는지 알 수가 없다 가공을 시작 하자 plt.pie(df2, labels= df2.index.. 2024. 4. 9.
Matplotlib - 상관관계 .scatter( ) .corr( ) .regplot( ) .pairplot( ) 두 컬럼간의 관계를 차트로 나타내는 법 관계란? 보통 3가지 비례관계, 반비례관계, 아무 관계 없음 = 상관관계 두 컬럼간의 관계 => 배기량(displ)과 연비(comb)의 관계를 그래프로 확인 plt.scatter(data=df, x='displ', y='comb') plt.show() .scatter( )의 기본형태를 불러오자 data = 읽어올 데이터프레임, x축, y축을 설정해주면 이런 모양이 나오는데 좀 부족하다 plt.scatter(data=df, x='displ', y='comb') plt.title('Displ vs Comb') plt.xlabel('Displacement') plt.ylabel('Combined Fuel Eff (mpg)') plt.show() title( )로 그래프의.. 2024. 4. 9.
Matplotlib - hist 히스토그램 2 . subplot( ) .figure( figsize= ( , ) ) 하나의 화면에 여러개의 plot을 그려 보자 .subplot() plt.subplot(1,2,1) plt.hist( data=df, x='speed', rwidth=0.8 ) plt.subplot(1,2,2) plt.hist( data=df, x='speed', rwidth=0.8, bins = my_bins ) plt.show() subplot() 을 이용하여 그리게 되고 파라미터안의 숫자들은 총 행의 갯수, 총 열의 갯수, 그래프 번호를 의미한다 즉, 위의 파라미터는 1행 2열의 1번과 2번 그래프를 의미 즉 이런 모습의 2개의 그래프가 된다 물론 이렇게만 있게되면 무엇을 설명하는 그래프인지 알 수 없으니 가공을 해보자 .figure( figsize= ( 가로, 세로) ) plt.figure( fig.. 2024. 4. 9.