Study/AI, 머신러닝, CNN 딥러닝

[AI 개론] 03 - 모드 Mode (최빈값)

도엔 2025. 3. 19. 08:02
728x90

1. 모드(Mode)의 정의

  • 모드(Mode)란 확률 분포에서 가장 자주 등장하는 값
  • 확률 밀도 함수(PDF) 또는 확률 질량 함수(PMF)가 최대가 되는 지점
  • 확률 변수 \( X \)의 모드 \( x_{\text{mode}} \)는 다음과 같이 정의됨
    • 이산 확률 변수(Discrete Random Variable): 확률 질량 함수(PMF)가 가장 큰 값을 가지는 \( x \)
    • 연속 확률 변수(Continuous Random Variable): 확률 밀도 함수(PDF)가 가장 큰 값을 가지는 \( x \)
    • \[
      x_{\text{mode}} = \arg\max_x p(x) 
      \]

 


==========𝔼𝔼𝟚𝟚==========

 

2. 이산 확률 변수에서 모드

2.1 개념

  • 이산 확률 변수의 경우, 특정 값이 가장 높은 확률을 가질 때, 그 값이 모드가 됨
  • 이산형 데이터에서는 모드가 유일하지 않을 수도 있으며, 여러 개의 값이 같은 확률로 가장 많이 등장할 수도 있음

_

2.2 예제

  1. 공정한 주사위
    • 6면체 주사위를 던질 때, 가능한 값은 1, 2, 3, 4, 5, 6이며 각각의 확률은 동일
      \[
      P(X = x) = \frac{1}{6}, \quad x = 1, 2, 3, 4, 5, 6
      \]
    • 모든 값의 확률이 동일하므로 모드가 존재하지 않음
  2. 특정 숫자의 확률이 높은 경우
    • 만약 특정 주사위가 조작되어 6이 나올 확률이 30%이고, 나머지는 균등하게 분포한다고 가정
      \[
      P(X = 6) = 0.3, \quad P(X \in \{1, 2, 3, 4, 5\}) =0.14
      \] 
    • 이 경우, 가장 높은 확률을 가지는 값은 6이므로 모드 = 6
  3. 시험 점수 분포
    • 학생들의 시험 점수가 다음과 같을 때:
      \[
      \{70, 80, 80, 90, 90, 90, 95, 100\}
      \]
    • 각 점수별 빈도를 보면:
      • 70: 1번 등장
      • 80: 2번 등장
      • 90: 3번 등장
      • 95: 1번 등장
      • 100: 1번 등장
    • 90이 가장 자주 등장(3번)하므로 모드 = 90
  4. 다중 모드(Multimodal)
    • 점수 데이터:
      \[
      \{70, 80, 80, 90, 90, 100, 100, 100\}
      \]
    • 빈도수:
      • 70: 1번 등장
      • 80: 2번 등장
      • 90: 2번 등장
      • 100: 3번 등장
    • 가장 자주 등장하는 값은 100(3번) → 모드 = 100
    • 하지만 80과 90도 동일한 빈도를 가지므로 Multimodal Distribution라고 함


==========𝔼𝔼𝟚𝟚==========

 

3. 연속 확률 변수에서 모드

3.1 개념

  • 연속 확률 변수의 경우, 개별 값의 확률이 0이므로 확률 밀도 함수(PDF)가 최대인 지점을 모드로 정의
  • 특정 구간에서 확률 밀도가 가장 높은 값이 모드가 됨

_

3.2 예제

  1. 정규 분포 \( X \sim N(\mu, \sigma^2) \)
    • 정규 분포의 확률 밀도 함수(PDF):
    • \[
      f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
      \]
    • 정규 분포는 대칭적이며, 평균 \( \mu \)에서 가장 높은 확률 밀도를 가짐.
    • 따라서, 모드 = 평균 \( \mu \).
  2. 카이제곱(Chi-Square) 분포
    • 카이제곱 분포(자유도 \( k \))에서 모드는 다음과 같이 계산됨:
    • \[
      x_{\text{mode}} = k - 2, \quad k > 2
      \]
    • 자유도가 커질수록 모드의 위치가 오른쪽으로 이동
  3. 지수(Exponential) 분포
    • 지수 분포(파라미터 \( \lambda \)를 가짐)
    • \[
      f(x) = \lambda e^{-\lambda x}, \quad x \geq 0
      \]
    • 이 함수는 \( x = 0 \)에서 최대값을 가짐 → 모드 = 0
  4. Multimodal Distribution
    • 연속 확률 변수에서도 여러 개의 봉우리를 가질 수 있음
      • Unimodal Distribution: 하나의 모드를 가짐
      • Multimodal Distribution: 여러 개의 모드를 가짐
    • 예를 들어, 혼합 가우시안 분포(Gaussian Mixture Model, GMM)는 여러 개의 봉우리를 가질 수 있다.


==========𝔼𝔼𝟚𝟚==========

 

4. 모드의 성질

4.1 모드는 항상 유일하지 않음

  • 단봉 분포(Unimodal Distribution): 하나의 모드를 가짐
  • 다봉 분포(Multimodal Distribution): 여러 개의 모드를 가질 수 있음

_

4.2 모드 vs 평균 vs 중앙값

  • 평균(Mean): 전체 데이터의 가중 평균
  • 중앙값(Median): 데이터의 중간값
  • 모드(Mode): 가장 자주 등장하는 값
  • 비대칭 분포(Skewed Distribution)에서는 평균, 중앙값, 모드가 서로 다를 수 있다.

_

4.3 예제

  1. 오른쪽으로 기울어진(Skewed Right) 분포
    • 급여 분포(예: 많은 사람이 저임금, 소수만 고임금)
      • 모드 < 중앙값 < 평균
        • 모드는 가장 많은 사람들이 받는 급여
        • 평균은 극단적으로 높은 급여(부자들)에 의해 오른쪽으로 끌려감.
  2. 왼쪽으로 기울어진(Skewed Left) 분포
    • 시험 점수(예: 대부분이 높은 점수, 일부가 낮은 점수)
      • 평균 < 중앙값 < 모드
        • 모드는 가장 많은 사람들이 받은 점수
        • 평균은 낮은 점수(낙제자들)에 의해 왼쪽으로 끌려감.


==========𝔼𝔼𝟚𝟚==========

 

5. 정리

  • 모드(Mode): 가장 자주 등장하는 값.
  • 이산 확률 변수(Discrete Random Variable): 확률 질량 함수(PMF)가 최대인 값.
  • 연속 확률 변수(Continuous Random Variable): 확률 밀도 함수(PDF)가 최대인 값.
  • 모드의 개수에 따라 분포를 분류함.
  • 모드 vs 평균 vs 중앙값:
    • 평균과 중앙값은 데이터의 중심을 나타내지만, 모드는 가장 자주 등장하는 값을 의미.
    • 분포가 비대칭(Skewed)하면, 평균과 모드는 다를 수 있음.

 

 

728x90
반응형