Data Analyticsㅤ/ㅤMachine Learningㅤ

<앙상블> 개요

앙상블 (Ensemble)

- 여러 머신러닝 모델을 이용해 최적의 답을 찾아내는 기법이다

- 여러 모델을 이용하여 데이터를 학습하고, 모든 모델의 예측결과를 평균하여 예측한다

- 특징

  • 앙상블은 대체적으로 단일 모델 대비 성능이 좋다
  • 앙상블을 앙상블 하는 기법이 있다 (Stacking과 Weighted Blending 등)
  • 앙상블 모델은 적절한 Hyperparameter 튜닝이 중요하다
  • 앙상블 모델은 대체적으로 학습 시간이 더 오래 걸린다
  • 모델 튜닝을 하는 데에 걸리는 시간이 오래 소요된다

- 기법: 

  • 보팅 (Voting) : 여러개의 분류기를 만들고, 투표를 통해 결과를 도출한다
  • 배깅 (Bagging) : Bootstrap Aggregating방식. 샘플을 다양하게 중복 생성하여 결과를 도출한다
  • 부스팅 (Boosting) : 이전 오차를 보완하면서 가중치를 부여한다
  • 스태킹 (Stacking) : 여러 모델을 기반으로 예측된 결과를 통해 meta 모델이 다시 한 번 예측한다
  • 등 수많음

https://scikit-learn.org/stable/modules/classes.html?highlight=ensemble#module-sklearn.ensemble

 

 


보팅(Voting) 회귀

☞ 

 

 

보팅(Voting) 분류

 

 

배깅(Bagging)

 

 

RandomForest

 

 

부스팅(Boosting)

 

 

1. GradientBoost

 

 

2. XGBoost

☞ 

 

 

3. LightGBM

☞ 

 

 

스태킹(Stacking)

 

 

Weighted Blending