极大似然估计

如何获取Bayes 最优分类器中类条件概率

涉及到关于 所有属性的联合概率,直接根据样本出现的频率来估计是很困难的。例如,假设 个属性都是二值的,则样本空间将有 种取值,可能远大于训练时中的训练样本数目 。很多样本取值在训练集中可能根本没有出现,直接使用出现频率来估计 是不可行的。未被观测到与出现概率为零通常是不同的。

假设 具有稳定的形式,且被参数向量 唯一确定。则可以利用训练集数据 来估计参数 。这一过程称为「参数估计」(parameter estimation)。对于参数估计的方法,有两种学派:

  • 频率主义学派:参数虽然未知,但却是客观存在固定的值。可以通过优化似然函数等准则来确定参数
  • 贝叶斯学派:参数也是未观察到的随机变量,其本身也可以有分布。假定参数也服从某种先验分布,然后基于观测数据来计算参数的后验分布。

极大似然估计」(Maximum Likelihood Estimation,MLE)是频率主义学派根据数据采样来估计概率分布参数的经典方法。令 表示训练集 中第 类样本组成的集合,假设这些样本独立同分布,则参数 对于数据集 的似然为

这个公式表示在参数 下,整个数据集 观测到的概率。极大似然估计的过程就是寻找能最大化似然 的参数 。由于上式的连乘操作易造成下溢,因此实际使用中通常使用「对数似然」(Log-Likelihood)

最大对数似然估计的参数

在连续属性情况下,假设概率密度函数符合高斯分布, ,则参数 的极大似然估计为

这表明,通过极大似然法得到的正态分布均值就是样本均值,方差就是 的均值。

注意,这种参数化的方法虽然能使得类条件概率估计变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,若仅凭“猜测”来假设概率分布形式,则很可能产生误导性的结果。此时,往往需要在一定程度上利用关于应用任务本身的经验知识。

例题

例 1

假设一个袋子中装有红白两种球,比例位置。每次从中随机抽取一球,记录其颜色后再放回袋内。假设抽取了 10 次,其中 7 次蓝球,3 次红球。在此数据样本条件下,利用最大似然估计法求袋子中红球的比例。

解:

假设每次取出的球的颜色为一随机变量,且符合分布

最大似然估计得思想是,一次抽样有许多可能结果,如果某一结果在一次抽样中出现了,则认为这一结果使所有可能结果中概率最大的一个。

每次抽取的结果可以视为伯努利随机变量,其中抽取到红球的概率为 ,蓝球的概率为 。由于抽取是独立的,所以 10 次抽取的联合概率分布为这些单次抽取概率的乘积。

为一次抽取结果的随机变量,其中 表示抽取到红球, 表示抽取到蓝球。如果 是观测数据,那么似然函数 是:

为了便于处理,我们常常转而最大化似然函数的对数形式:

函数求导,并令导数等于 找到极值点:

解这个方程可得:

所以,最大似然估计下,袋子中红球的比例

例 2

假设 服从高斯分布

求参数 的极大似然估计。

解:

,设样本观测值为

对数似然函数为

首先尝试求解均值。令 得到 ,然后对于 求偏导

解方程

因此