본문 바로가기

Python90

Regression 2) Error, MSE, RMSE 2024.04.13 - [MachineLearning] - Regression 1) .coef_ , .intercept_ , .predict( )  그리고 이제 오차를 구해보자실제값 - 예측값을 해보면 오차가 나올것이고 오차가 작을수록 똑똑한 인공지능인 것이다     error = y_test - y_prederror15 -4011.7194298 8653.7507896 6259.74728526 1296.3611583 -860.27023311 -7601.235196Name: Salary, dtype: float64  오차가 8천도 있고 -860도 있어오.. 2024. 4. 13.
Regression 1) .coef_ , .intercept_ , .predict( ) 앞서 데이터프로세싱이 완료 됐다면Regression은 이제 시작이다     from sklearn.linear_model import LinearRegression regressor = LinearRegression()        regressor.fit(X_train, y_train) fit은 인공 지능을 학습 시키는것이다 X와 Y의 훈련용 데이터를 입력하여 학습을 시킬 수 있다   regressor.coef_ array([9504.98248109])  regressor.intercept_.. 2024. 4. 13.
Regression - Data Preprocessing (3) - StandardScaler(), MinMaxScaler(), train_test_split() 4. 데이터 표준화 - 피쳐스케일링 앞의 데이터를 무시하고도 나이의 최소값~최대값은 아무리 좋게 봐줘도 0~150을 넘길수가 없는 반면 연봉의 최소값~최대값의 크기는 데이터의 수치로만해도 40k~90k 인데 값을 어느정도 표준화,정규화 시켜줄 필요가 있다 그래야 정확히 학습이 되기 때문 피쳐스케일링 할때에는 X용과 Y용으로 따로 따로 준비한다 하지만 이 경우에서의 Y는 0과 1이 전부이기때문에 따로 할 필요는 없다 4 - 1. 표준화 X_scaler = StandardScaler() X_scaler.fit_transform(X) array([[ 1. , -0.57735027, -0.57735027, 0.69985807, 0.58989097], [-1. , -0.57735027, 1.73205081, -1.. 2024. 4. 13.
Regression - Data Preprocessing (2) 문자열의 데이터처리( Label Encoding, One Hot Encoding) 2024.04.12 - [MachineLearning] - Regression - Data Preprocessing (1) - Nan처리, X와y의 데이터 분류 3. 문자열을 데이터로 처리   위에서 봤듯이 국적과 구매여부의 문자열은 컴퓨터가 이해하기 어려워한다 그러니 컴퓨터가 이해하기 쉬운 숫자로 변환시켜줘야 한다 레이블 인코딩과 원 핫 인코딩 컴퓨터가 이해하기 어려운 문자열을이해하기 쉬워하는 숫자로변환시켜주면 되겠다  from sklearn.preprocessing import LabelEncoder, OneHotEncoderfrom sklearn.compose import ColumnTransformer 임포트들.. 2024. 4. 13.
Regression - Data Preprocessing (1) - Nan처리, X와y의 데이터 분류 국적과 나이, 그 사람의 연봉, 그 사람의 구매여부 라는 데이터가 있을때 각각의 국적별, 나이별, 연봉별, 구매여부별로 나누어서 데이터를 학습시켜 다른 데이터들이 들어왔을때 그 사람이 구매를 할지 안 할지를 예측해보자 1. NaN 처리 우선 맨 첫번째 단계는 NaN이 있는지 확인후 없다면 그대로 다음 단계로 넘어가고 있다면 삭제를 하든 데이터를 채워주든 해야할 것이다 df.isna().sum() Country 0 Age 1 Salary 1 Purchased 0 dtype: int64 이렇게 된 경우에는 2가지 방법이 있다 1 - 1. 삭제하는 방법 df.dropna() 4번과 6번이 사라진게 보인다 1 - 2. 채우는 방법 df.fillna(df.mean(numeric_only=True)) 4번의 연봉,.. 2024. 4. 12.
머신 러닝이란? - 기초 개념 이제와선 별 것 아닌거라 생각 되는 것들이지만  데이터들을 모아 학습시켜 행동하게끔 알아서 만들어 놓아진것들은 대부분 머신러닝     머신러닝은 크게 supervised , unsupervised 로 나뉘게 되며 이중 supervised는  또 Regression(회귀) 과 Classification(분류) 로 나뉘게 되는데  Regression 은 각종 데이터들을 준뒤 일단 학습  시킨후이러 이러 이러한 데이터들을 줬을때 다른 데이터를 예측하는 기능 예를 들면 어떤 사람의 교육수준, 나이, 주거지 등등의 다양한 데이터들을 모아 연간 소득을 예측한다든지  그리고 Classification 은 어떠한 데이터를 보고 분류하는 기능 예를 들면 사진을 보고 개인지 고양인지사람을 보고 웃는지 화난건지 슬픈건지 등.. 2024. 4. 12.