混淆矩阵
对于二分类问题中,如果希望进行数据分类性能度量,可将样例根据其真实类别与学习器预测类别的组合划分成四种情况:
- 「真正例」(True Positive,TP):测试集中是 Positive,模型预测结果为 Positive 的数据
- 「假正例」(False Positive,FP):测试集中是 Negative,模型预测结果为 Positive 的数据
- 「假反例」(False Negative,FN):测试集中是 Positive,模型预测结果为 Negative 的数据
- 「真反例」(True Negative,TN):测试集中是 Negative,模型预测结果为 Negative 的数据
注意, 样本总数;其中 表示样本类别的分类正确; 表示样本类别的分类错误。
由此得到一个矩阵,称为「混淆矩阵」(Confusion Matrix),如下
若先将各混淆矩阵的对应元素进行平均,得到 的平均值,则又可以定义