Project/p1. Streamlit application

모바일어플리케이션 사용여부 예측 - 데이터 전 처리 & 머신러닝 모델 학습

하니__ 2024. 12. 5. 14:46

 

 

스트림릿을 이용하여 웹페이지를 개발하고

 

AWS EC2를 이용하여 배포해보자

 

 

 

우선 데이터셋은

 

https://www.bigdata-culture.kr/bigdata/user/data_market/detail.do?id=9f027c94-92fd-4eeb-bf1c-7532f9c8375e

 

문화빅데이터 플랫폼

한국문화정보원이 운영하는 문화빅데이터 플랫폼은 공공기관 및 민간기업으로 구성된 데이터센터와 함께 도서, 체육, 예술, 숙박, 레저, 음식 등 고품질의 문화 분야 데이터를 개방하고 데이터

www.bigdata-culture.kr:443

 

문화 빅 데이터 플랫폼 에 있는 [ 모바일 어플리케이션 이용자 특성] 이라는 데이터를 내려받았으며

202305, 202311 버전 2개로 중복데이터가 없는 데이터였기때문에
병합시킨뒤 필요없는 데이터는 삭제 후 NaN이 있나 검색하였고 없는것을 확인했으나
문자열 데이터 처리중
월소득 부분 데이터 중 '모름'이 나와서 해당 데이터를 NaN으로 처리후 삭제 

 

 

 

그 이후

 

데이터 예측하기 위한 작업으로

 

나중에 입력받을 값인 X에

 

성별, 나이, 결혼여부, 월소득, 지역 선택

 

그리고 사용하는 어플리케이션 여부를 알 수 있게 Y로

 

나머지 어플리케이션 컬럼 전부 선택

 

하여주고

 

 

F와 M뿐인 성별은 레이블 인코더로 0과1로 치환해주고

 

결혼, 미혼, 기타/이별/사혼 등인 결혼여부와

 

서울대전대산부산 등등 10개가 넘는 거주지역들은 

 

 

각각 원핫인코더로 트랜스폼 해주자

 

 

 

그리고 이제 다중 이진 분류 문제에 적합한 모델인

 

랜덤포레스트클래시파이어를 모델로 불러와서

 

 

앞서 만든 x와 y의 테스트용 데이터로 학습을 시킨 뒤

 

 

 

 

모델의 pkl파일과

 

원핫인코딩을 한 pkl파일

 

그리고 성별 레이블인코딩한 pkl파일을 만들어주자