在模型评估中,衡量学习器泛化性能的标准称为「性能度量」(Performance Measure)。性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。这意味着模型的“好坏”是相对的,什么样的模型是好的?不仅取决于算法和数据,还决定于任务需求。
如下表所示,表中共有 10 个测试样本,Class 一栏表示每个测试样本真正的标签,Score 表示在某分类器中每个测试样本被预测为正样本的概率。
序号 | 类别 | 分数 |
---|---|---|
1 | P | 0.89 |
2 | P | 0.86 |
3 | N | 0.82 |
4 | P | 0.74 |
5 | P | 0.69 |
6 | N | 0.58 |
7 | N | 0.42 |
8 | N | 0.35 |
9 | P | 0.29 |
10 | N | 0.18 |
解:
前六个样本被划分为正样本,后四个为负样本,则有 4 个 TP,2 个 FP,1 个 FN,3 个 TN
错误率
正确率
查全率
查准率
F1
依次经过的点为