# 검증과 과적합 Overfitting
0. 데이터의 중요성
- 머신러닝에서 가장 중요한 것은 데이터의 품질과 양
- 데이터를 바탕으로 다양한 모델을 구축하고 문제에 적합한 모델을 선택해야 함.
1. 데이터의 분리
: 훈련용(Training)+검증용(Validation)/테스트용(Test) 으로 데이터를 분리
- 목적: 모델 학습 시 과적합을 방지하고 성능 평가의 신뢰성, 학습률을 높임.
- 진행 과정
1) 훈련 데이터로 모델 학습.
2) 검증 데이터로 모델 성능을 조정 및 평가.
3) 테스트 데이터로 최종 평가 수행.
2. K겹 교차 검증 (K-Fold Cross Validation)
- 데이터를 여러 겹으로 나누어 교차 학습 및 검증
- 1 차 평가 후 테스트용 데이터로 최종 평가
- 모델의 성능을 일반화하여 신뢰도 높은 결과를 얻음
3. 과적합 (Overfitting)
: 훈련 데이터에 너무 최적화되어 새로운 데이터(테스트 데이터)에 잘 맞지 않는 현상
* 원인:
- 데이터 부족
- 너무 복잡한 모델 사용
- 불필요한 피처 포함
- 과적합의 결과
1) 회귀(Regression) : 데이터와 너무 밀접하게 맞는 직선 또는 곡선을 그림, 일반화 능력 부족
2) 분류(Classification) : 훈련 데이터의 경계를 지나치게 세밀하게 구분하여 일반적인 패턴을 학습하지 못함.
4. 과적합 방지 방법
- 데이터 분리를 통해 과적합 여부 확인
- 교차 검증 활용
- 단순화된 모델 사용
- 정규화(Regularization) 기법 도입
'Study > AI, 머신러닝, CNN 딥러닝' 카테고리의 다른 글
| [AI 개론] 01 - History of AI | 인공지능의 역사 (0) | 2025.03.11 |
|---|---|
| [머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning (0) | 2025.01.16 |
| [머신러닝 기초] 이론 06 - 경사하강법 & 커널 기법 (0) | 2025.01.03 |
| [머신러닝 기초] 이론 05 - 로지스틱 회귀 Logistic Regression (0) | 2025.01.03 |
| [머신러닝 기초] 이론 04 - 분류 Classification (0) | 2025.01.02 |