「Bayes 最优分类器」是Bayes 模型中的一种数据分类器。在所有相关概率都已知的情况下,Bayes 最优分类器考虑如何就与这些概率和误判损失来选择最优的类别标记。
假设有 种类别标记,, 是将一个真实标记为 的样本错误分类为 所产生的「损失」。
基于后验概率 将给定样本 分类为 所产生的「期望损失」(expected loss),或称之为在样本 上的「条件风险」(Conditional Risk)
寻找判定准则 以最小化总体风险
如果对于每个样本 ,若 能最小化条件风险 ,则总体风险 也将被最小化。贝叶斯判定准则为
即在每个样本上选择哪个能使条件风险 最小的类别标记,从而最小化总体风险。
此时,分类器 称为「贝叶斯最优分类器」(Bayes Optimal Classifier)。与之对应的总体风险称为「贝叶斯风险」(Bayes Risk)。注意, 反映了分类器所能达到的最好性能,即通过机器学习所能产生的模型的理论上限。
若目标是最小化分类错误,则误判函数 可写为
此时条件风险为 ,对应的,最小错误率的贝叶斯最优分类器表示为
即对于每个样本 选择使后验概率 最大的类别标记
在某类细胞化验中,有两个可选的假设:细胞正常(),细胞异常()。对应的先验概率分别为 。现有一待识别细胞呈现出状态 ,且对应的类条件概率密度为 和 ,试对该细胞 进行贝叶斯最优分类。
第一题,基于最小分类错误,即代价函数为 ,基于贝叶斯公式,有
结合条件风险
得到
分为第一类风险较小,因此,最小化分类错误率的贝叶斯最优分类器将 分类为 ,即分类为正常细胞
第二题,基于代价函数 ,条件风险分别为
分为第二类的风险较小,因此最小化分类错误率的贝叶斯最优分类器将 分类为 ,即分类为异常细胞