「EM 算法」(Expectation-Maximization)是Bayes 模型中常用的估计参数隐变量的方法,采用两个步骤交替迭代方式进行计算,其中 E 表示计算期望,M 表示寻找最大化参数。此算法大致可表示为
若参数
以初始值
进一步,若不是计算
E 步:以当前参数
M 步:寻找参数最大化期望似然,即
为了调查学校学生身高,随机抽样
解:
设待估计参数
抽到上述
同理可得
注意,此例中直接给定了男女数量,因此利用极大似然估计可以分别估计男女身高的高斯分布参数。当只知道总数而不知道男女各自的数目时,应该如何估计分布参数?
若上例中男女生数据无法区分,即只知道总人数
分析:该问题包含两个正态分布,每个样本有 2 种参数需要估计,即
其解决方法为
样本标签已被隐藏,则可假设隐藏标签已知,写出似然函数表达式对隐藏的标签取期望后,再采用极大似然估计的均值与方差。
给定
其中
求混合分布的三组参数
记隐藏标签为
对数似然函数为
E 步:关于隐藏标签
令
易知