「高斯混合聚类」采用概率模型表达原型聚类。
首先根据
为了判断
将寻找最有可能生成
采用 EM 算法进行迭代优化求解
求解参数,使得
求解
得到
从公式看出,各混合成分的均值可通过样本加权平均来估计,样本权重是每个样本属于该成分的后验概率。解下来求解
求解混合系数
输入:样本集
输出:簇划分
过程
下面仍旧以西瓜数据集为例,对高斯混合聚类过程进行演示。令高斯混合成分的个数为
解:
假定高斯混合分布的模型初始化参数为
迭代:
计算样本由各成分混合生成的后验概率,例如
所有样本的后验概率计算完成后,得到如下的模型参数