# 결정나무 기법 Decision Tree
- 사람의 추론 방식을 모방
- 데이터셋을 기반으로 적합한 질문을 반복적으로 던지며 데이터를 분리함
- 이해하기 쉬운 구조 / 다양한 질문 방식으로 분류
+ 결정나무의 응용 사례
- 사용자 맞춤 추천 시스템
- YouTube 시청할 동영상 추천
- Netflix 영화 추천
- Amazon 관심 있을만한 제품 추천
- 앱스토어: 고객 데이터(성별, 나이 등)를 기반으로 앱, 영화, 제품 등을 추천
⟶ 단계적으로 데이터를 그룹화, 최적의 추천을 제공
# 앙상블 학습 Ensemble Learning
: 다양한 Classifier의 예측을 결합
- 여러 개의 Classifier를 생성하고, 그 예측 결과를 결합하여 단일보다 더 높은 정확도와 신뢰성을 제공
- 정형 데이터에서 뛰어난 성능을 보여줌.
- 독립적인 다수 분류기를 결합하면 오류율이 급격히 감소한다 ⟶ 정확도 올라감
- 다양한 분류기의 결합으로 신뢰성 강화.
- 특히 데이터 불균형 및 잡음에 강한 성능을 보임.
# 방법
1. 배깅 (Bagging = Batch Aggregating)
: 데이터 샘플링 시 중첩을 허용, 각자 동일 알고리즘 적용 후 투표로 최종 예측 결정.
- 랜덤 포레스트(Random Forest)
: 다수의 결정 트리 사용, 부트스트래핑 데이터 기반으로 결과 결합, 빠른 속도와 높은 성능을 보임
- 학습 과정
1) 데이터를 중복 허용하여 여러 Subset으로 분리
2) 각각의 Subset에 대해 결정 트리를 생성하고, 투표를 통해 최종 결론 도출.
ex) 이메일 스팸 필터링
2. 부스팅 (Boosting)
: 약한 분류기(Weak Learner)를 순차적으로 학습하며 이전 분류기의 오분류 데이터를 강조.
⟶ 학습을 이어서 진행
- AdaBoost
: 약한 학습기를 결합하여 강한 학습기 생성
- 학습 과정
1) 초기 데이터셋에서 약한 학습기가 학습. 첫 분류기 학습 후 오분류된 데이터에 높은 가중치를 부여하여 새로운 데이터셋 생성
2) 반복하여 생성된 약한 학습기들의 투표로 최종 모델(Strong Learner) 구축.
'Study > AI, 머신러닝, CNN 딥러닝' 카테고리의 다른 글
[AI 개론] 02 - Tensor 개념과 이미지 데이터 표현 (0) | 2025.03.19 |
---|---|
[AI 개론] 01 - History of AI | 인공지능의 역사 (0) | 2025.03.11 |
[머신러닝 기초] 이론 07 - 검증과 과적합 Overfitting (0) | 2025.01.15 |
[머신러닝 기초] 이론 06 - 경사하강법 & 커널 기법 (0) | 2025.01.03 |
[머신러닝 기초] 이론 05 - 로지스틱 회귀 Logistic Regression (0) | 2025.01.03 |