728x90
728x90

python 4

[머신러닝 기초] 이론 07 - 검증과 과적합 Overfitting

# 검증과 과적합 Overfitting0. 데이터의 중요성  - 머신러닝에서 가장 중요한 것은 데이터의 품질과 양  - 데이터를 바탕으로 다양한 모델을 구축하고 문제에 적합한 모델을 선택해야 함.  1. 데이터의 분리  : 훈련용(Training)+검증용(Validation)/테스트용(Test) 으로 데이터를 분리   - 목적: 모델 학습 시 과적합을 방지하고 성능 평가의 신뢰성, 학습률을 높임.  - 진행 과정    1) 훈련 데이터로 모델 학습.    2) 검증 데이터로 모델 성능을 조정 및 평가.    3) 테스트 데이터로 최종 평가 수행.  2. K겹 교차 검증 (K-Fold Cross Validation)  - 데이터를 여러 겹으로 나누어 교차 학습 및 검증  -  1 차 평가 후 테스트용 데이..

[머신러닝 기초] 이론 06 - 경사하강법 & 커널 기법

#경사하강법 Gradient Descent  : 모델의 Cost를 최소화하기 위해 반복적으로 최적화    (산 정상에서 아래로 내려가는 과정에 비유)  1. 과정  2. 학습률(Learning Rate)   # Kernel Method 커널 기법  : 고차원 공간으로 데이터를 변환하여 선형적으로 구분되지 않는 데이터를 구분     (⟶ n차 방정식)  1. 방법  1) 입력 변수(feature) 추가하여 데이터셋 확장  2) 둘로 나누는 직선을 찾음  3) 기존의 데이터셋과 잘 맞는 곡선으로 변환  2. 커널 기법  1) 직선으로 나눌 수 없는 데이터셋이 주어지면  2) 각 포인트에서 원점까지의 거리의 제곱에 해당하는 값을 z축 상에 추가하여 각 포인트가 포물면 상에 위치하도록 함      (전체가 2차..

[머신러닝 기초] 이론 05 - 로지스틱 회귀 Logistic Regression

# 로지스틱 회귀(Logistic Regression)  : 선형 회귀를 그대로 사용하면 예측값이 0에서 1을 벗어날 수 있다는 문제가 있음   3. Cost Function - 좋은 Cost Function   : 데이터가 정확히 분류되면 작은 값, 잘못 분류되면 cost나 error가 큰 값  - 선형 회귀의 Absolute 나 Square Error는 분류 문제에 적합하지 않음  # Log Loss Cost (Logarithmic Loss)  : Log Loss = -ln(데이터를 lable로 예측할 확률)

[머신러닝 기초] 이론 04 - 분류 Classification

# 분류 Classification0. 분류(Classification)와 회귀(Regression)의 차이 - 분류: 불연속적인 값을 예측 - 회귀: 연속적인 값을 예측  1. 분류 모델  : 주어진 데이터셋을 두 개 이상의 그룹으로 나누는 직선(Classifier)을 찾음  - 데이터를 시각화하고 이를 기준으로 Classifier 학습 - 데이터셋을 이용하여 lable 예측 (지도학습) - Category 예측 - 이상적인 직선은 데이터를 완벽히 나누지 못하더라도 최적화된 Classifier를 학습.  2. Cost Function(비용 함수) - Classifier 비교를 위한 Cost 정의  1) 에러 개수: 잘못 분류된 데이터의 개수 (성능↓)  2) 수직 거리 합계: 잘못 분류된 데이터와 직선..

728x90
반응형