混淆矩阵

对于二分类问题中,如果希望进行数据分类性能度量,可将样例根据其真实类别与学习器预测类别的组合划分成四种情况:

  • 真正例」(True Positive,TP):测试集中是 Positive,模型预测结果为 Positive 的数据
  • 假正例」(False Positive,FP):测试集中是 Negative,模型预测结果为 Positive 的数据
  • 假反例」(False Negative,FN):测试集中是 Positive,模型预测结果为 Negative 的数据
  • 真反例」(True Negative,TN):测试集中是 Negative,模型预测结果为 Negative 的数据

注意, 样本总数;其中 表示样本类别的分类正确; 表示样本类别的分类错误。

由此得到一个矩阵,称为「混淆矩阵」(Confusion Matrix),如下

正例 反例
正例 TP FP
反例 FN TN

此时,错误率可表示为

精确度可表示为

此外还有概念

若在 个二分类混淆矩阵上综合考察查准率查全率,记为 ,则还可以定义

若先将各混淆矩阵的对应元素进行平均,得到 的平均值,则又可以定义