본문 바로가기

전체보기239

Regression 1) .coef_ , .intercept_ , .predict( ) 앞서 데이터프로세싱이 완료 됐다면Regression은 이제 시작이다     from sklearn.linear_model import LinearRegression regressor = LinearRegression()        regressor.fit(X_train, y_train) fit은 인공 지능을 학습 시키는것이다 X와 Y의 훈련용 데이터를 입력하여 학습을 시킬 수 있다   regressor.coef_ array([9504.98248109])  regressor.intercept_.. 2024. 4. 13.
Regression - Data Preprocessing (3) - StandardScaler(), MinMaxScaler(), train_test_split() 4. 데이터 표준화 - 피쳐스케일링 앞의 데이터를 무시하고도 나이의 최소값~최대값은 아무리 좋게 봐줘도 0~150을 넘길수가 없는 반면 연봉의 최소값~최대값의 크기는 데이터의 수치로만해도 40k~90k 인데 값을 어느정도 표준화,정규화 시켜줄 필요가 있다 그래야 정확히 학습이 되기 때문 피쳐스케일링 할때에는 X용과 Y용으로 따로 따로 준비한다 하지만 이 경우에서의 Y는 0과 1이 전부이기때문에 따로 할 필요는 없다 4 - 1. 표준화 X_scaler = StandardScaler() X_scaler.fit_transform(X) array([[ 1. , -0.57735027, -0.57735027, 0.69985807, 0.58989097], [-1. , -0.57735027, 1.73205081, -1.. 2024. 4. 13.
Regression - Data Preprocessing (2) 문자열의 데이터처리( Label Encoding, One Hot Encoding) 2024.04.12 - [MachineLearning] - Regression - Data Preprocessing (1) - Nan처리, X와y의 데이터 분류 3. 문자열을 데이터로 처리   위에서 봤듯이 국적과 구매여부의 문자열은 컴퓨터가 이해하기 어려워한다 그러니 컴퓨터가 이해하기 쉬운 숫자로 변환시켜줘야 한다 레이블 인코딩과 원 핫 인코딩 컴퓨터가 이해하기 어려운 문자열을이해하기 쉬워하는 숫자로변환시켜주면 되겠다  from sklearn.preprocessing import LabelEncoder, OneHotEncoderfrom sklearn.compose import ColumnTransformer 임포트들.. 2024. 4. 13.
Regression - Data Preprocessing (1) - Nan처리, X와y의 데이터 분류 국적과 나이, 그 사람의 연봉, 그 사람의 구매여부 라는 데이터가 있을때 각각의 국적별, 나이별, 연봉별, 구매여부별로 나누어서 데이터를 학습시켜 다른 데이터들이 들어왔을때 그 사람이 구매를 할지 안 할지를 예측해보자 1. NaN 처리 우선 맨 첫번째 단계는 NaN이 있는지 확인후 없다면 그대로 다음 단계로 넘어가고 있다면 삭제를 하든 데이터를 채워주든 해야할 것이다 df.isna().sum() Country 0 Age 1 Salary 1 Purchased 0 dtype: int64 이렇게 된 경우에는 2가지 방법이 있다 1 - 1. 삭제하는 방법 df.dropna() 4번과 6번이 사라진게 보인다 1 - 2. 채우는 방법 df.fillna(df.mean(numeric_only=True)) 4번의 연봉,.. 2024. 4. 12.
머신 러닝이란? - 기초 개념 이제와선 별 것 아닌거라 생각 되는 것들이지만  데이터들을 모아 학습시켜 행동하게끔 알아서 만들어 놓아진것들은 대부분 머신러닝     머신러닝은 크게 supervised , unsupervised 로 나뉘게 되며 이중 supervised는  또 Regression(회귀) 과 Classification(분류) 로 나뉘게 되는데  Regression 은 각종 데이터들을 준뒤 일단 학습  시킨후이러 이러 이러한 데이터들을 줬을때 다른 데이터를 예측하는 기능 예를 들면 어떤 사람의 교육수준, 나이, 주거지 등등의 다양한 데이터들을 모아 연간 소득을 예측한다든지  그리고 Classification 은 어떠한 데이터를 보고 분류하는 기능 예를 들면 사진을 보고 개인지 고양인지사람을 보고 웃는지 화난건지 슬픈건지 등.. 2024. 4. 12.
피처스케일링 - 표준화(Standard), 정규화(MinMax) 피처스케일링이란 서로 다른 피처값의 범위(각각의 최대값, 각각의 최소값)등을 일치하도록 조정하는 작업이다 값의 범위가 데이터마다 다르면 인간조차도 해석이 쉽지 않은데 컴퓨터 또한 의미를 알지 못하기 때문에 하는것이 이롭고 해야만 한다 피처스케일링은 표준화와 정규화로 나뉘게 되는데 일반적으로 정규화가 더 많이 쓰인다 표준화 - Standardisation 공식은 어차피 컴퓨터가 알아서 할테니 자세히 알것까진 없고 표준편차와 평균을 중심으로 하는 스케일링 기법 이라는것까지만 알자 평균을 0으로 놓고 결과 분포에 따라 단위 표준편차를 사용한다 정규화 - Normalisation 마찬가지로 공식을 외울 필요는 없고 최소값과,최대값을 이용하여 0과 1 사이의 범위로 재조정시키는 스케일링 기법 이라는 정도만 기억하.. 2024. 4. 11.