<회귀> Scalar
Data Analyticsㅤ/ㅤMachine Learningㅤ

<회귀> Scalar

Scalar

- 데이터를 어떻게 스케일링하는게 적절한지 항상 고려해야 한다

- 스케일링에 따라 성능차이가 날 수 있다

- 데이터셋

x_train.describe()

 

StandardScalar

- 평균(mean)을 0, 표준편차(std)를 1로 만든다

from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
std_scaled = std_scaler.fit_transform(x_train)
round(pd.DataFrame(std_scaled).describe(), 2)

 

MinMaxScalar

- min값과 max값을 0~1사이로 정규화한다

from sklearn.preprocessing import MinMaxScaler

minmax_scaler = MinMaxScaler()
minmax_scaled = minmax_scaler.fit_transform(x_train)
round(pd.DataFrame(minmax_scaled).describe(), 2)

 

StandardScalar

- 중앙값(median)을 0으로, IQR(interquartile range)을 1로 변환한다

- outlier 처리에 유용하다

from sklearn.preprocessing import RobustScaler

robust_scaler = RobustScaler()
robust_scaled = robust_scaler.fit_transform(x_train)
round(pd.DataFrame(robust_scaled).median(), 2)