본문 바로가기

Python/PANDAS15

Time Series Data - 날짜, 시간 datetime chicago_df['Date'].head()      chicago_df['Date'] = pd.to_datetime(chicago_df['Date'], format ='%m/%d/%Y %H:%M:%S %p') pd.to_datetime()으로 위의 문자열 형식인 Date콜럼을 datetime형식으로 바꿔준다format은 지금 적혀 있는 숫자들이 월/일/연도 시간:분:초 AM/PM인것을 컴퓨터에게 알려주고컴퓨터가 알아듣는 방식으로(datetime 형식으로) 바꾸라는 의미다 이렇게 바꿔줌으로써 할 수 있는 것들이 많아진다  chicago_df['Date'].head() 그렇게 해서 바꿔진게 이런 모습이고 이런 모습을 ISO 포맷이라고 하며국제적으로 널리 사용되는 날짜 및 시간 표현 방법이다 이 밖에도 이.. 2024. 4. 19.
Pandas - 중복된 값들 합산 .pivot_table( ) 여러 데이터들이 있을때 중복된 데이터들을 합쳐야 할때가 있다 이러한 데이터가 있을때 같은 이름으로 묶으면서 Quantity와 Price는 병합하는 기능을 사용하자 pd.pivot_table(df_test, index= ['Name'], values = ['Quantity','Price' ] ) 기본형은 pivot_table( )에 기본이 되는 데이터프레임, 인덱스= [인덱스에 들어갈 콜럼 = 중복인것을 하나로 만들 콜럼] 밸류스= [합쳐지는 콜럼들] (하나라면 [ ] 는 빼도 좋다) 별 다른 파라미터를 추가로 입력하지 않는다면 합쳐진 데이터들은 평균값으로 나오게 된다 하지만 평균이 아니라 합한 값을 원할때에는 pd.pivot_table(df_test, index= ['Name'], values = ['Q.. 2024. 4. 11.
Pandas - column 변경 .rename( ) .columns= 콜럼 하나만 변경 할 때 .rename(columns={'Before':'After'}) .rename(columns={'Before':'After'}) rename( )입력, 파라미터 안에 column = { } 입력 {딕셔너리} 안에 'before' : 'after' 로 변환할 콜럼의 이름(바꾸기 전 이름)과 변환될 콜럼의 이름(바꾸는 이름) 을 입력 이후 inplace=True를 통해 저장 CCTV_Seoul.rename(columns={'기관명':'구별'}, inplace=True) 전체를 변경 할때 .columns = ['바', '꿀', '이', '름'] pop_Seoul.columns = [ '구별', '인구수', '한국인', '외국인', '고령자'] 전체를 변경할때에는 .columns = [.. 2024. 4. 11.
Pandas - 정렬한 Series 를 DataFrame으로 .to_frame( ) 정렬한것은 Series로 나오게 된다 이것을 to._frame() 을 입력하여 DataFrame으로 변환하자 2024. 4. 9.
Pandas - 데이터프레임 내 리스트 포함 .isin( ) 데이터프레임에 내가 찾는 리스트들이 있는지 확인하고 가져오는 법 하나하나 찾을 필요 없이 리스트를 메모리에 올리고 .isin( ) 으로 괄호안에 리스트를 넣어 데이터프레임에 리스트가 포함된 것들을 모두 찾도록 하자 다음은 데이터 엑세스 끗 2024. 4. 9.
Pandas - 데이터프레임 함수 적용 .Apply( ) A컬럼의 조건으로 B컬럼을 만들어야 할 때 필요하다면 함수를 생성하고 적용시켜주자 이번경우에서는 시급이 30 이상 이라면 A 그렇지 않을 경우 B라는 함수를 만들어 샐러리 컬럼에 적용시켜 그레이드 라는 컬럼으로 생성시켰고 변수[ '새로 만들 컬럼' ] = 변수[ '기준이 되는 조건의 컬럼' ].apply(사용함수) 를 이용한다 이번에는 기존 함수로 가능하여 이름의 글자수를 그대로 컬럼으로 생성시켰다 응용편 별점 시스템을 만들고 응용을 해보자 우선 함수부터 만들고 작동시키자 그 후 우리가 원하는 시스템은 별점 5점의 최우수등급만을 목록에 띄우며 다른 자잘한 정보는 필요 없이 이름과 가성비점수가 어떻게 되는지 그리고 가성비 순서로 출력 시킬 예정이다 우선은 별점의 최대치, 95점 이상만 나오게 한다 df['.. 2024. 4. 9.