728x90
728x90

Study/AI, 머신러닝, CNN 딥러닝 12

[AI 개론] 03 - 모드 Mode (최빈값)

1. 모드(Mode)의 정의모드(Mode)란 확률 분포에서 가장 자주 등장하는 값확률 밀도 함수(PDF) 또는 확률 질량 함수(PMF)가 최대가 되는 지점확률 변수 \( X \)의 모드 \( x_{\text{mode}} \)는 다음과 같이 정의됨이산 확률 변수(Discrete Random Variable): 확률 질량 함수(PMF)가 가장 큰 값을 가지는 \( x \)연속 확률 변수(Continuous Random Variable): 확률 밀도 함수(PDF)가 가장 큰 값을 가지는 \( x \)\[x_{\text{mode}} = \arg\max_x p(x) \] ==========𝔼𝔼𝟚𝟚========== 2. 이산 확률 변수에서 모드2.1 개념이산 확률 변수의 경우, 특정 값이 가장 높은 확률..

[AI 개론] 02 - Tensor 개념과 이미지 데이터 표현

1. Tensor의 개념텐서(Tensor)는 다차원 배열(배열의 일반화된 형태)을 의미하며, 스칼라, 벡터, 행렬의 확장된 개념이다.머신러닝과 딥러닝에서는 데이터 표현과 연산을 위해 텐서를 사용개념차원 (Dimensionality)예시스칼라 (Scalar)0D (0차원)\( x \in \mathbb{R} \)벡터 (Vector)1D (1차원)\( \mathbf{x} \in \mathbb{R}^N \)행렬 (Matrix)2D (2차원)\( \mathbf{X} \in \mathbb{R}^{M \times N} \)3D 텐서 (3차원 텐서)3D\( \mathbf{X} \in \mathbb{R}^{H \times W \times C} \)nD 텐서 (고차원 텐서)( n )-차원\( \mathbf{X} \in \..

[AI 개론] 01 - History of AI | 인공지능의 역사

1. 1950년대: AI 개념의 등장1.1 튜링 테스트 (1950년)앨런 튜링(Alan Turing)은 "생각하는 기계가 가능한가?" 라는 질문을 던졌고, 기계가 인간처럼 지능적인 행동을 보일 수 있는지 평가하는 방법을 제안함.튜링 테스트(Turing Test):사람이 AI와 인간을 구별하지 못하면 AI가 지능을 가졌다고 간주하는 방식이후 이 개념은 AI 연구의 철학적 기초가 됨_1.2 다트머스 컨퍼런스 (1956년) – AI의 탄생"인공지능(Artificial Intelligence)"이라는 용어가 처음 사용됨존 매카시(John McCarthy), 마빈 민스키(Marvin Minsky), 클로드 섀넌(Claude Shannon) 등이 참여목표: 인간처럼 사고하는 기계를 만드는 연구초기 연구에서 퍼셉트론..

[머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning

# 결정나무 기법 Decision Tree  - 사람의 추론 방식을 모방  - 데이터셋을 기반으로 적합한 질문을 반복적으로 던지며 데이터를 분리함  - 이해하기 쉬운 구조 / 다양한 질문 방식으로 분류  + 결정나무의 응용 사례 - 사용자 맞춤 추천 시스템 - YouTube 시청할 동영상 추천 - Netflix 영화 추천 - Amazon 관심 있을만한 제품 추천 - 앱스토어: 고객 데이터(성별, 나이 등)를 기반으로 앱, 영화, 제품 등을 추천    ⟶ 단계적으로 데이터를 그룹화, 최적의 추천을 제공  # 앙상블 학습 Ensemble Learning  : 다양한 Classifier의 예측을 결합   - 여러 개의 Classifier를 생성하고, 그 예측 결과를 결합하여 단일보다 더 높은 정확도와 신뢰성을..

[머신러닝 기초] 이론 07 - 검증과 과적합 Overfitting

# 검증과 과적합 Overfitting0. 데이터의 중요성  - 머신러닝에서 가장 중요한 것은 데이터의 품질과 양  - 데이터를 바탕으로 다양한 모델을 구축하고 문제에 적합한 모델을 선택해야 함.  1. 데이터의 분리  : 훈련용(Training)+검증용(Validation)/테스트용(Test) 으로 데이터를 분리   - 목적: 모델 학습 시 과적합을 방지하고 성능 평가의 신뢰성, 학습률을 높임.  - 진행 과정    1) 훈련 데이터로 모델 학습.    2) 검증 데이터로 모델 성능을 조정 및 평가.    3) 테스트 데이터로 최종 평가 수행.  2. K겹 교차 검증 (K-Fold Cross Validation)  - 데이터를 여러 겹으로 나누어 교차 학습 및 검증  -  1 차 평가 후 테스트용 데이..

[머신러닝 기초] 이론 06 - 경사하강법 & 커널 기법

#경사하강법 Gradient Descent  : 모델의 Cost를 최소화하기 위해 반복적으로 최적화    (산 정상에서 아래로 내려가는 과정에 비유)  1. 과정  2. 학습률(Learning Rate)   # Kernel Method 커널 기법  : 고차원 공간으로 데이터를 변환하여 선형적으로 구분되지 않는 데이터를 구분     (⟶ n차 방정식)  1. 방법  1) 입력 변수(feature) 추가하여 데이터셋 확장  2) 둘로 나누는 직선을 찾음  3) 기존의 데이터셋과 잘 맞는 곡선으로 변환  2. 커널 기법  1) 직선으로 나눌 수 없는 데이터셋이 주어지면  2) 각 포인트에서 원점까지의 거리의 제곱에 해당하는 값을 z축 상에 추가하여 각 포인트가 포물면 상에 위치하도록 함      (전체가 2차..

[머신러닝 기초] 이론 05 - 로지스틱 회귀 Logistic Regression

# 로지스틱 회귀(Logistic Regression)  : 선형 회귀를 그대로 사용하면 예측값이 0에서 1을 벗어날 수 있다는 문제가 있음   3. Cost Function - 좋은 Cost Function   : 데이터가 정확히 분류되면 작은 값, 잘못 분류되면 cost나 error가 큰 값  - 선형 회귀의 Absolute 나 Square Error는 분류 문제에 적합하지 않음  # Log Loss Cost (Logarithmic Loss)  : Log Loss = -ln(데이터를 lable로 예측할 확률)

[머신러닝 기초] 이론 04 - 분류 Classification

# 분류 Classification0. 분류(Classification)와 회귀(Regression)의 차이 - 분류: 불연속적인 값을 예측 - 회귀: 연속적인 값을 예측  1. 분류 모델  : 주어진 데이터셋을 두 개 이상의 그룹으로 나누는 직선(Classifier)을 찾음  - 데이터를 시각화하고 이를 기준으로 Classifier 학습 - 데이터셋을 이용하여 lable 예측 (지도학습) - Category 예측 - 이상적인 직선은 데이터를 완벽히 나누지 못하더라도 최적화된 Classifier를 학습.  2. Cost Function(비용 함수) - Classifier 비교를 위한 Cost 정의  1) 에러 개수: 잘못 분류된 데이터의 개수 (성능↓)  2) 수직 거리 합계: 잘못 분류된 데이터와 직선..

728x90
반응형