카테고리 없음

[EM - 2] 가우시안 혼합 모델-EM (Gaussian Mixture Model-EM)

sohyunkim 2025. 9. 16. 18:38

 

오늘은 미루고 미루던, EM 관련한 글을 작성해 보려고 한다. 우선 EM이 뭔지 복습하고 돌아오자.

 

가우시안 혼합 모델(Gaussian mixture model, GMM)을 먼저 이해해야 한다.

 

GMM은 데이터를 클러스터링 하는 상황에서, 데이터가 여러 그룹의 특성을 동시에 갖는 상황을 바탕으로, 소프트 클러스터링을 가능하게 해주는 모델이 GMM이다.

 

간단하게 다시 말하면, GMM은 전체 데이터 분포가 여러 개의 가우시안 분포가 섞여서 만들어졌다고 가정하는 확률 모델이다.

 

 

Fig. 1. (a) A two-dimensional, four-component Gaussian mixture data set with a sample size 1000; (b) correct clustering results for the data set  [Ref]

사진 [Ref]

Fig.1의 (a)의 데이터 셋이고, b는 이 데이터 셋을 생성한 4개의 가우시안 분포이다.

 

보면 직관적으로 몇 개의 분포로 클러스터링이 가능해 보인다. 여기서 K-Means 알고리즘은 각 데이터는 이분법적(True, False)으로 그룹에 할당하는 알고리즘이다(하드 클러스터링). 지금 데이터의 경우, K-Means 알고리즘을 통해 클러스터링 하는 것이 적절한지 생각해 봐야 한다.

 

GMM은 Fig 1. (b)처럼 각 데이터가 어떤 하나의 특정 가우시안 분포에서 생성되었다고 가정한다. 하지만 K-Means처럼 데이터의 출처를 이분법적으로 단정 짓기에는 클러스터들이 겹치는 영역의 데이터는 어느 그룹에서 왔는지 매우 모호하다.

 

따라서 GMM은 이 데이터 소속에 대한 확률(responsibility)을 계산해 주는 소프트 클러스터링(A 그룹에 30%, B 그룹에 70%)을 수행한다.

 

여러 개의 가우시안 분포가 합쳐진 하나의 복잡한 분포를 수식으로 나타내면 다음과 같다:

$p\left(y\right)=\sum _{k=1}^K\combi{\pi }_k\ N(y\ |\ \combi{\mu }_k,\ \Sigma _k)$p(y)=Kk=1πk N(y | μk, Σk)

이 수식의 의미 -> 데이터 포인트 y가 나타날 확률 p(y)는 K 개의 가우시안 분포의 가중합이다.

 

수식의 기호는 다음과 같다.

  • K: 혼합 모델을 구성하는 가우시안 분포의 개수 (클러스터의 개수)
  • πk: 혼합 계수 (Mixing Coefficient)
  • N(y | μx , ∑k): k 번째 가우시안 분포의 확률 밀도 함수
  • μk: k 번째 가우시안 분포의 평균 (클러스터의 중심)
  • k: k 번째 가우시안 분포의 공분산 (클러스터의 모양과 방향)

 

결국 우리의 목적은 EM을 통해 GMM의 파라미터 πk, μk, k를 우도를 최대화하는 방향으로 추정하는 것이다.

 

 

나머지는 네이버 블로그에서 확인해주세요.

 

[EM - 2] 가우시안 혼합 모델-EM (Gaussian Mixture Model-EM)

오늘은 미루고 미루던, EM 관련한 글을 작성해 보려고 한다. 우선 EM이 뭔지 복습하고 돌아오자. 가우...

blog.naver.com