计算

「高斯混合聚类」采用概率模型表达原型聚类

首先根据 定义的先验分布选择Gaussian 混合分布成分 。根据被选择的混合成分的概率密度函数进行采样

为了判断 属于哪一个类别,在Gaussian 混合分布中寻找最有可能生成 的那个混合成分,则 就属于那一类。

将寻找最有可能生成 的 Gaussian 混合成分问题转化为计算在已知 的情况下,每一个 Gaussian 混合成分的后验概率,后验概率最大的 Gaussian 混合成分就是最有可能生成 的 Gaussian 混合成分。

随机变量 表示样本 的高斯混合成分。 的先验概率 对应于 。则根据 Bayes 定理后验概率对应于

其中 给出了样本 由第 个 Gaussian 混合成分生成的后验概率,即为 。当 Gaussian 混合分布已知,Gaussian 混合聚类将样本集 划分到 个簇 ,每个样本 的簇标记 如下确定

为了求解模型参数可以采用极大似然估计

采用 EM 算法进行迭代优化求解

推导

求解参数,使得 最大化

求解 ,令

得到

从公式看出,各混合成分的均值可通过样本加权平均来估计,样本权重是每个样本属于该成分的后验概率。解下来求解 。令 ,有

求解混合系数 ,除了要最大化 ,还要满足 ,对 的 Lagrange 形式 求导,令导数为零,得到 ,每个 Gaussian 混合成分的混合系数由样本属于该成分的平均后验概率确定。

算法

输入:样本集 ,高斯混合成分个数

输出:簇划分

过程

  • 初始化高斯混合分布的模型参数
      • 计算 由各混合成分生成的后验概率,即
      • 计算新均值向量
      • 计算新协方差矩阵
      • 计算新混合系数
    • 将模型参数 更新为
  • 直至满足停止条件
    • 确定 对应的簇标记
    • 划入对应的簇

例题

下面仍旧以西瓜数据集为例,对高斯混合聚类过程进行演示。令高斯混合成分的个数为

解:

假定高斯混合分布的模型初始化参数为

迭代:

计算样本由各成分混合生成的后验概率,例如 的后验概率计算为

所有样本的后验概率计算完成后,得到如下的模型参数