728x90
1. 모드(Mode)의 정의
- 모드(Mode)란 확률 분포에서 가장 자주 등장하는 값
- 확률 밀도 함수(PDF) 또는 확률 질량 함수(PMF)가 최대가 되는 지점
- 확률 변수 \( X \)의 모드 \( x_{\text{mode}} \)는 다음과 같이 정의됨
- 이산 확률 변수(Discrete Random Variable): 확률 질량 함수(PMF)가 가장 큰 값을 가지는 \( x \)
- 연속 확률 변수(Continuous Random Variable): 확률 밀도 함수(PDF)가 가장 큰 값을 가지는 \( x \)
- \[
x_{\text{mode}} = \arg\max_x p(x)
\]
==========𝔼𝔼𝟚𝟚==========
2. 이산 확률 변수에서 모드
2.1 개념
- 이산 확률 변수의 경우, 특정 값이 가장 높은 확률을 가질 때, 그 값이 모드가 됨
- 이산형 데이터에서는 모드가 유일하지 않을 수도 있으며, 여러 개의 값이 같은 확률로 가장 많이 등장할 수도 있음
_
2.2 예제
- 공정한 주사위
- 6면체 주사위를 던질 때, 가능한 값은 1, 2, 3, 4, 5, 6이며 각각의 확률은 동일
\[
P(X = x) = \frac{1}{6}, \quad x = 1, 2, 3, 4, 5, 6
\] - 모든 값의 확률이 동일하므로 모드가 존재하지 않음
- 6면체 주사위를 던질 때, 가능한 값은 1, 2, 3, 4, 5, 6이며 각각의 확률은 동일
- 특정 숫자의 확률이 높은 경우
- 만약 특정 주사위가 조작되어 6이 나올 확률이 30%이고, 나머지는 균등하게 분포한다고 가정
\[
P(X = 6) = 0.3, \quad P(X \in \{1, 2, 3, 4, 5\}) =0.14
\] - 이 경우, 가장 높은 확률을 가지는 값은 6이므로 모드 = 6
- 만약 특정 주사위가 조작되어 6이 나올 확률이 30%이고, 나머지는 균등하게 분포한다고 가정
- 시험 점수 분포
- 학생들의 시험 점수가 다음과 같을 때:
\[
\{70, 80, 80, 90, 90, 90, 95, 100\}
\] - 각 점수별 빈도를 보면:
- 70: 1번 등장
- 80: 2번 등장
- 90: 3번 등장
- 95: 1번 등장
- 100: 1번 등장
- 90이 가장 자주 등장(3번)하므로 모드 = 90
- 학생들의 시험 점수가 다음과 같을 때:
- 다중 모드(Multimodal)
- 점수 데이터:
\[
\{70, 80, 80, 90, 90, 100, 100, 100\}
\] - 빈도수:
- 70: 1번 등장
- 80: 2번 등장
- 90: 2번 등장
- 100: 3번 등장
- 가장 자주 등장하는 값은 100(3번) → 모드 = 100
- 하지만 80과 90도 동일한 빈도를 가지므로 Multimodal Distribution라고 함
- 점수 데이터:
==========𝔼𝔼𝟚𝟚==========
3. 연속 확률 변수에서 모드
3.1 개념
- 연속 확률 변수의 경우, 개별 값의 확률이 0이므로 확률 밀도 함수(PDF)가 최대인 지점을 모드로 정의
- 특정 구간에서 확률 밀도가 가장 높은 값이 모드가 됨
_
3.2 예제
- 정규 분포 \( X \sim N(\mu, \sigma^2) \)
- 정규 분포의 확률 밀도 함수(PDF):
- \[
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
\] - 정규 분포는 대칭적이며, 평균 \( \mu \)에서 가장 높은 확률 밀도를 가짐.
- 따라서, 모드 = 평균 \( \mu \).
- 카이제곱(Chi-Square) 분포
- 카이제곱 분포(자유도 \( k \))에서 모드는 다음과 같이 계산됨:
- \[
x_{\text{mode}} = k - 2, \quad k > 2
\] - 자유도가 커질수록 모드의 위치가 오른쪽으로 이동
- 지수(Exponential) 분포
- 지수 분포(파라미터 \( \lambda \)를 가짐)
- \[
f(x) = \lambda e^{-\lambda x}, \quad x \geq 0
\] - 이 함수는 \( x = 0 \)에서 최대값을 가짐 → 모드 = 0
- Multimodal Distribution
- 연속 확률 변수에서도 여러 개의 봉우리를 가질 수 있음
- Unimodal Distribution: 하나의 모드를 가짐
- Multimodal Distribution: 여러 개의 모드를 가짐
- 예를 들어, 혼합 가우시안 분포(Gaussian Mixture Model, GMM)는 여러 개의 봉우리를 가질 수 있다.
- 연속 확률 변수에서도 여러 개의 봉우리를 가질 수 있음
==========𝔼𝔼𝟚𝟚==========
4. 모드의 성질
4.1 모드는 항상 유일하지 않음
- 단봉 분포(Unimodal Distribution): 하나의 모드를 가짐
- 다봉 분포(Multimodal Distribution): 여러 개의 모드를 가질 수 있음
_
4.2 모드 vs 평균 vs 중앙값
- 평균(Mean): 전체 데이터의 가중 평균
- 중앙값(Median): 데이터의 중간값
- 모드(Mode): 가장 자주 등장하는 값
- 비대칭 분포(Skewed Distribution)에서는 평균, 중앙값, 모드가 서로 다를 수 있다.
_
4.3 예제
- 오른쪽으로 기울어진(Skewed Right) 분포
- 급여 분포(예: 많은 사람이 저임금, 소수만 고임금)
- 모드 < 중앙값 < 평균
- 모드는 가장 많은 사람들이 받는 급여
- 평균은 극단적으로 높은 급여(부자들)에 의해 오른쪽으로 끌려감.
- 모드 < 중앙값 < 평균
- 급여 분포(예: 많은 사람이 저임금, 소수만 고임금)
- 왼쪽으로 기울어진(Skewed Left) 분포
- 시험 점수(예: 대부분이 높은 점수, 일부가 낮은 점수)
- 평균 < 중앙값 < 모드
- 모드는 가장 많은 사람들이 받은 점수
- 평균은 낮은 점수(낙제자들)에 의해 왼쪽으로 끌려감.
- 평균 < 중앙값 < 모드
- 시험 점수(예: 대부분이 높은 점수, 일부가 낮은 점수)
==========𝔼𝔼𝟚𝟚==========
5. 정리
- 모드(Mode): 가장 자주 등장하는 값.
- 이산 확률 변수(Discrete Random Variable): 확률 질량 함수(PMF)가 최대인 값.
- 연속 확률 변수(Continuous Random Variable): 확률 밀도 함수(PDF)가 최대인 값.
- 모드의 개수에 따라 분포를 분류함.
- 모드 vs 평균 vs 중앙값:
- 평균과 중앙값은 데이터의 중심을 나타내지만, 모드는 가장 자주 등장하는 값을 의미.
- 분포가 비대칭(Skewed)하면, 평균과 모드는 다를 수 있음.
728x90
반응형
'Study > AI, 머신러닝, CNN 딥러닝' 카테고리의 다른 글
[AI 개론] 02 - Tensor 개념과 이미지 데이터 표현 (0) | 2025.03.19 |
---|---|
[AI 개론] 01 - History of AI | 인공지능의 역사 (0) | 2025.03.11 |
[머신러닝 기초] 이론 08 - 앙상블 학습 Ensemble Learning (0) | 2025.01.16 |
[머신러닝 기초] 이론 07 - 검증과 과적합 Overfitting (0) | 2025.01.15 |
[머신러닝 기초] 이론 06 - 경사하강법 & 커널 기법 (0) | 2025.01.03 |