인공지능

Advanced Machine Learning-03: Probabilistic Distributions

hjjummy 2025. 4. 18. 19:41

주제: 머신러닝에서의 확률 분포 이해와 베이지안 관점의 사고 확장

 

1. 🔁 지난 주 복습: 회귀, 확률, 그리고 Regularization

2025.04.17 - [인공지능] - Advanced Machine Learning-02 :머신러닝을 위한 수학 및 이론적 기초 다지기

 

Advanced Machine Learning-02 :머신러닝을 위한 수학 및 이론적 기초 다지기

1. 🧭 왜 머신러닝에서 기초 수학이 중요한가?머신러닝의 핵심 목표는 데이터에서 패턴을 찾아내는 것입니다.이는 단순히 데이터를 넣고 결과를 보는 것이 아니라, 그 안에 숨겨진 구조를 수학

hjjummy.tistory.com

 

지난 시간에는 회귀 문제에서 정확한 예측을 위해 오차를 줄이는 방법을 배웠습니다.
예를 들어, 예측값 y(x,w)와 실제값 의 차이를 제곱해서 더한 오차 함수를 최소화하는 방식이었죠.

오차함수

그런데 이 오차 함수는 **우도 함수의 로그(log-likelihood)**와도 매우 유사한 형태를 띕니다. 즉, 데이터를 잘 설명할수록 오차도 작아지고, 확률도 높아진다는 뜻입니다.

그리고 모델이 너무 훈련 데이터에 과하게 맞춰지는 현상, 즉 오버피팅을 막기 위해 정규화(regularization) 항을 추가했습니다.
이는 베이지안 관점에서 보면, 단순히 오차를 줄이는 것이 아니라 파라미터에 대한 ‘사전 믿음(prior)’을 반영한 것과 같다고 볼 수 있습니다.


2. 🎲 확률적 사고의 출발점 – 이산 확률 변수 (Discrete Random Variables)

여기서부터 본격적으로 머신러닝의 기본이 되는 확률 분포에 대해 다룹니다.
가장 단순한 확률 변수부터 시작해 봅시다.

● 베르누이 분포 (Bernoulli Distribution)

어떤 사건의 결과가 오직 두 가지(예: 앞면 또는 뒷면)뿐이라면?
이럴 때 사용하는 확률 분포가 베르누이 분포입니다.

 

여기서 μ는 성공(예: 앞면)일 확률입니다.
이 분포의 평균은 μ, 분산은 μ(1−μ)입니다.

● 로그우도와 최대우도 추정 (MLE)

이제 N개의 동전을 던졌다고 생각해 봅시다.
각 결과 x_1,x_2,...,x_N이 주어졌을 때, 전체 데이터에 대한 확률은 각 확률을 곱한 것입니다.

이 곱의 로그를 취하면 다음과 같은 로그우도가 됩니다:

여기서 핵심은 충분 통계량 ∑x_n만 있으면 전체 데이터의 정보를 모두 요약할 수 있다는 점입니다.

로그우도를 μ에 대해 미분해 0으로 두면 MLE 해를 얻을 수 있습니다:

즉, 평균값이 곧 최대우도 추정치가 되는 것이죠.


3. 🎯 이항 분포와 베타 분포 – 베이지안 추론의 시작

이제 우리는 "반복된 실험 결과"를 다룰 수 있는 **이항 분포(binomial distribution)**로 확장합니다.
앞면이 나온 횟수를 이라 하면:

기대값은 , 분산은 Nμ(1−μ)입니다.
하지만 이제 머신러닝에서 점점 더 중요해지는 베이지안 관점을 도입해야 할 시점입니다.

● 베타 분포 (Beta Distribution)

베이즈 추론에서는 **사전 확률(prior)**과 **우도(likelihood)**를 곱해 **사후 확률(posterior)**을 구합니다.
이때 베르누이 분포의 우도와 함께 쓰기에 가장 좋은 사전 분포가 바로 베타 분포입니다.

이 베타 분포는 두 매개변수 a,b에 따라 다양한 형태를 가질 수 있으며, 기대값은:

동전 던지기에서 앞면이 H번, 뒷면이 T번 나왔다면, 사후 확률은 다음과 같이 갱신됩니다:

데이터가 많아질수록 사후 분포는 더 날카로워지고, 불확실성은 줄어듭니다.


4. 🔢 다항 분포와 디리클레 분포 – 다중 클래스의 처리

이제 두 가지가 아닌 여러 클래스 중 하나를 고르는 경우로 확장해 봅시다.
이때 사용하는 것이 바로 **다항 분포(Multinomial distribution)**입니다.

  • 각 샘플:

  • 확률:

전체 데이터에 대한 로그우도는:

→ 여기서도 m_k (각 클래스의 등장 횟수)가 충분 통계량입니다.

● 라그랑주 승수법으로 MLE 유도

● 디리클레 분포 (Dirichlet Distribution)

베이지안 추론에서는 이 다항 분포와 짝이 맞는 켤레 사전 분포가 필요하고, 그게 바로 디리클레 분포입니다.

→ 각 α_k는 범주별 사전 관측 횟수처럼 해석할 수 있습니다.


5. 📐 정규분포 (Gaussian) – 연속 공간에서의 확률

지금까지는 이산적인 상황만 다뤘습니다. 이제 연속 변수로 가보겠습니다.

● 정규분포 정의

  • 1차원:

  • 다차원:

→ 중심극한정리에 의해 많은 실제 데이터들이 이 분포를 따릅니다.


6. 🔄 조건부, 주변, 베이즈 가우시안 분포

다변량 정규분포에서는 다음과 같은 세 가지 분포를 고려할 수 있습니다:

  • 조건부 분포: p(x_a∣x_b)
  • 주변 분포: p(x_a)
  • 사후 분포: p(x∣y)

이들은 모두 정규분포 형태를 유지하며, 각각의 평균과 공분산은 다음과 같이 계산됩니다:

또한 베이즈 정리를 이용하면 선형 관계 y=Ax+b에 대해:


7. 🧮 최대우도 추정 (MLE) for Gaussian

정규분포의 평균과 공분산을 데이터로부터 추정할 때는 MLE를 사용합니다.


8. 🌀 Gaussian Mixture Model – 하나로는 부족할 때

마지막으로, 단일 정규분포로는 설명이 어려운 다봉(multi-modal) 데이터를 다루기 위한 방법으로 **가우시안 혼합 모델(GMM)**을 배웁니다.

 

  • π_k: 혼합 계수 (확률 합이 1)
  • : 컴포넌트 정규분포
  • 각 샘플이 어떤 컴포넌트에 속했는지를 나타내는 **책임도(responsibility)**도 함께 계산됩니다.

✅ 강의 마무리

이번 강의는 머신러닝에서 가장 중요한 도구 중 하나인 확률 분포에 대해 체계적으로 정리한 시간이었습니다.
단일 변수에서 시작해 다변량, 베이지안 추론, 정규분포, 그리고 혼합 모델까지 연결되며, 다음 강의에서는 이 이론들을 활용해 선형 회귀 모델로 확장될 예정입니다.