评价指标

模型评估中,衡量学习器泛化性能的标准称为「性能度量」(Performance Measure)。性能度量反映了任务需求,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。这意味着模型的“好坏”是相对的,什么样的模型是好的?不仅取决于算法和数据,还决定于任务需求。

例题

如下表所示,表中共有 10 个测试样本,Class 一栏表示每个测试样本真正的标签,Score 表示在某分类器中每个测试样本被预测为正样本的概率。

序号 类别 分数
1 P 0.89
2 P 0.86
3 N 0.82
4 P 0.74
5 P 0.69
6 N 0.58
7 N 0.42
8 N 0.35
9 P 0.29
10 N 0.18
  1. 令阈值为 0.5,当测试样本的 Score 大于等于这个阈值时,则认为其为正样本,反之为负样本,计算该分类器的错误率、精度、查准率、查全率与
  2. 画出 ROC 曲线并计算 AUC 的值

解:

前六个样本被划分为正样本,后四个为负样本,则有 4 个 TP,2 个 FP,1 个 FN,3 个 TN

错误率

正确率

查全率

查准率

F1

第二题,正例和反例各 5 个,因此

依次经过的点为