Project/p1. Streamlit application
모바일어플리케이션 사용여부 예측 - 데이터 전 처리 & 머신러닝 모델 학습
하니__
2024. 12. 5. 14:46
스트림릿을 이용하여 웹페이지를 개발하고
AWS EC2를 이용하여 배포해보자
우선 데이터셋은
문화 빅 데이터 플랫폼 에 있는 [ 모바일 어플리케이션 이용자 특성] 이라는 데이터를 내려받았으며
202305, 202311 버전 2개로 중복데이터가 없는 데이터였기때문에
병합시킨뒤 필요없는 데이터는 삭제 후 NaN이 있나 검색하였고 없는것을 확인했으나
문자열 데이터 처리중
월소득 부분 데이터 중 '모름'이 나와서 해당 데이터를 NaN으로 처리후 삭제 함
그 이후
데이터 예측하기 위한 작업으로
나중에 입력받을 값인 X에
성별, 나이, 결혼여부, 월소득, 지역 선택
그리고 사용하는 어플리케이션 여부를 알 수 있게 Y로
나머지 어플리케이션 컬럼 전부 선택
하여주고
F와 M뿐인 성별은 레이블 인코더로 0과1로 치환해주고
결혼, 미혼, 기타/이별/사혼 등인 결혼여부와
서울대전대산부산 등등 10개가 넘는 거주지역들은
각각 원핫인코더로 트랜스폼 해주자
그리고 이제 다중 이진 분류 문제에 적합한 모델인
랜덤포레스트클래시파이어를 모델로 불러와서
앞서 만든 x와 y의 테스트용 데이터로 학습을 시킨 뒤
모델의 pkl파일과
원핫인코딩을 한 pkl파일
그리고 성별 레이블인코딩한 pkl파일을 만들어주자