Study/AI, 머신러닝, CNN 딥러닝

[머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning

도엔 2025. 1. 16. 00:18
728x90

# 결정나무 기법 Decision Tree

  - 사람의 추론 방식을 모방

  - 데이터셋을 기반으로 적합한 질문을 반복적으로 던지며 데이터를 분리함

  - 이해하기 쉬운 구조 / 다양한 질문 방식으로 분류

 

 

+ 결정나무의 응용 사례

 - 사용자 맞춤 추천 시스템

 - YouTube 시청할 동영상 추천

 - Netflix 영화 추천

 - Amazon 관심 있을만한 제품 추천

 - 앱스토어: 고객 데이터(성별, 나이 등)를 기반으로 앱, 영화, 제품 등을 추천

   ⟶ 단계적으로 데이터를 그룹화, 최적의 추천을 제공

 

 

# 앙상블 학습 Ensemble Learning

  : 다양한 Classifier의 예측을 결합

 

  - 여러 개의 Classifier를 생성하고, 그 예측 결과를 결합하여 단일보다 더 높은 정확도와 신뢰성을 제공

  - 정형 데이터에서 뛰어난 성능을 보여줌.

 

  - 독립적인 다수 분류기를 결합하면 오류율이 급격히 감소한다 정확도 올라감

  - 다양한 분류기의 결합으로 신뢰성 강화.

  - 특히 데이터 불균형 및 잡음에 강한 성능을 보임.

 

 

# 방법

1. 배깅 (Bagging = Batch Aggregating)

   : 데이터 샘플링 시 중첩을 허용, 각자 동일 알고리즘 적용 후 투표로 최종 예측 결정.

 

  - 랜덤 포레스트(Random Forest)

    : 다수의 결정 트리 사용, 부트스트래핑 데이터 기반으로 결과 결합, 빠른 속도와 높은 성능을 보임

 

  - 학습 과정

1) 데이터를 중복 허용하여 여러 Subset으로 분리

2) 각각의 Subset에 대해 결정 트리를 생성하고, 투표를 통해 최종 결론 도출.

ex) 이메일 스팸 필터링

 

 

2. 부스팅 (Boosting)

  : 약한 분류기(Weak Learner)를 순차적으로 학습하며 이전 분류기의 오분류 데이터를 강조.

    ⟶ 학습을 이어서 진행

 

  - AdaBoost

    : 약한 학습기를 결합하여 강한 학습기 생성

 

  - 학습 과정

    1) 초기 데이터셋에서 약한 학습기가 학습. 첫 분류기 학습 후 오분류된 데이터에 높은 가중치를 부여하여 새로운 데이터셋 생성

    2) 반복하여 생성된 약한 학습기들의 투표로 최종 모델(Strong Learner) 구축.

728x90
반응형