ROC 曲线

给定 个正例(或反例),根据学习器预测结果对样本进行排序,然后把分类阈值设为最大,即所有样本均预测为反例,此时真正例率假正例率均为零,即 ,在坐标 处描点,然后将分类阈值以此设为每个样本的预测值,即将每个样本划分为正例。

设前一个标记点的坐标为

  • 当前若为真正例,则对应标记点的坐标为
  • 当前若为假正例,则对应标记点的坐标为

然后用线段连接即得到「ROC 曲线」。

img-2024-04-30 17-41-50.png

P-R 曲线类似,若一个学习器被另一个学习器的曲线完全包住,则后者的性能优于前者;若两曲线交叉,则无法判断

上的点表示的是一个采用随机猜测的分类结果

ROC 曲线上的四个特殊点

  • ,即 ,则 ,所有样本分类正确
  • ,即 ,则 ,所有样本分类错误
  • ,即 ,则 ,所有样本被预测为负样本
  • ,即 ,则 ,所有样本被预测为正样本

如果两个学习器的ROC 曲线交叉,怎样比较两个学习器的性能优劣?定义 ROC 曲线下的面积为AUC,当两个学习器的 ROC 曲线交叉时,通过比较 AUC 来判断两个学习器的性能优劣。AUC 的值越大,则学习器的性能越好。

假定 ROC 曲线是有坐标为 的点按序连接而成,,则 AUC 可估算为