[머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning

Study/AI, 머신러닝, CNN 딥러닝

[머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning

도엔 2025. 1. 16. 00:18

728x90

# 결정나무 기법 Decision Tree

- 사람의 추론 방식을 모방

- 데이터셋을 기반으로 적합한 질문을 반복적으로 던지며 데이터를 분리함

- 이해하기 쉬운 구조 / 다양한 질문 방식으로 분류

+ 결정나무의 응용 사례

- 사용자 맞춤 추천 시스템

- YouTube 시청할 동영상 추천

- Netflix 영화 추천

- Amazon 관심 있을만한 제품 추천

- 앱스토어: 고객 데이터(성별, 나이 등)를 기반으로 앱, 영화, 제품 등을 추천

⟶ 단계적으로 데이터를 그룹화, 최적의 추천을 제공

# 앙상블 학습 Ensemble Learning

: 다양한 Classifier의 예측을 결합

- 여러 개의 Classifier를 생성하고, 그 예측 결과를 결합하여 단일보다 더 높은 정확도와 신뢰성을 제공

- 정형 데이터에서 뛰어난 성능을 보여줌.

- 독립적인 다수 분류기를 결합하면 오류율이 급격히 감소한다 ⟶ 정확도 올라감

- 다양한 분류기의 결합으로 신뢰성 강화.

- 특히 데이터 불균형 및 잡음에 강한 성능을 보임.

# 방법

1. 배깅 (Bagging = Batch Aggregating)

: 데이터 샘플링 시 중첩을 허용, 각자 동일 알고리즘 적용 후 투표로 최종 예측 결정.

- 랜덤 포레스트(Random Forest)

: 다수의 결정 트리 사용, 부트스트래핑 데이터 기반으로 결과 결합, 빠른 속도와 높은 성능을 보임

- 학습 과정

1) 데이터를 중복 허용하여 여러 Subset으로 분리

2) 각각의 Subset에 대해 결정 트리를 생성하고, 투표를 통해 최종 결론 도출.

ex) 이메일 스팸 필터링

2. 부스팅 (Boosting)

: 약한 분류기(Weak Learner)를 순차적으로 학습하며 이전 분류기의 오분류 데이터를 강조.

⟶ 학습을 이어서 진행

- AdaBoost

: 약한 학습기를 결합하여 강한 학습기 생성

- 학습 과정

1) 초기 데이터셋에서 약한 학습기가 학습. 첫 분류기 학습 후 오분류된 데이터에 높은 가중치를 부여하여 새로운 데이터셋 생성

2) 반복하여 생성된 약한 학습기들의 투표로 최종 모델(Strong Learner) 구축.

728x90

'Study > AI, 머신러닝, CNN 딥러닝' 카테고리의 다른 글

[AI 개론] 02 - Tensor 개념과 이미지 데이터 표현 (0)	2025.03.19
[AI 개론] 01 - History of AI \| 인공지능의 역사 (0)	2025.03.11
[머신러닝 기초] 이론 07 - 검증과 과적합 Overfitting (0)	2025.01.15
[머신러닝 기초] 이론 06 - 경사하강법 & 커널 기법 (0)	2025.01.03
[머신러닝 기초] 이론 05 - 로지스틱 회귀 Logistic Regression (0)	2025.01.03

현재글[머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning

22EE DOEN