Study/AI, 머신러닝, CNN 딥러닝

[머신러닝 기초] 이론 07 - 검증과 과적합 Overfitting

도엔 2025. 1. 15. 23:53
728x90

# 검증과 과적합 Overfitting

0. 데이터의 중요성

  - 머신러닝에서 가장 중요한 것은 데이터의 품질과 양

  - 데이터를 바탕으로 다양한 모델을 구축하고 문제에 적합한 모델을 선택해야 함.

 

 

1. 데이터의 분리

  : 훈련용(Training)+검증용(Validation)/테스트용(Test) 으로 데이터를 분리

 

  - 목적: 모델 학습 시 과적합을 방지하고 성능 평가의 신뢰성, 학습률을 높임.

  - 진행 과정

    1) 훈련 데이터로 모델 학습.

    2) 검증 데이터로 모델 성능을 조정 및 평가.

    3) 테스트 데이터로 최종 평가 수행.

 

 

2. K겹 교차 검증 (K-Fold Cross Validation)

  - 데이터를 여러 겹으로 나누어 교차 학습 및 검증

  -  1 차 평가 후 테스트용 데이터로 최종 평가

  - 모델의 성능을 일반화하여 신뢰도 높은 결과를 얻음

 

 

3. 과적합 (Overfitting)

  : 훈련 데이터에 너무 최적화되어 새로운 데이터(테스트 데이터)에 잘 맞지 않는 현상

 

  * 원인:

   - 데이터 부족

   - 너무 복잡한 모델 사용

   - 불필요한 피처 포함

 

  - 과적합의 결과

   1) 회귀(Regression) : 데이터와 너무 밀접하게 맞는 직선 또는 곡선을 그림, 일반화 능력 부족

   2) 분류(Classification) : 훈련 데이터의 경계를 지나치게 세밀하게 구분하여 일반적인 패턴을 학습하지 못함.

 

 

4. 과적합 방지 방법

  - 데이터 분리를 통해 과적합 여부 확인

  - 교차 검증 활용

  - 단순화된 모델 사용

  - 정규화(Regularization) 기법 도입

728x90
반응형