admin 管理员组

文章数量: 887021

ROC曲线和PR曲线,AP,mAP

ROC曲线

对于两类分类任务,y的值可以为1或0,为1时称为正样本(positive),在医学上称为阳,为0时称为负样本(False),在医学上称为阴。

TP:y的值为1,y^为1,预测值和真值都为1,称为true positive
TN:y的值为0,y^为0,预测值和真值都为0,称为true negtive
FP:y的值为0,y^为1,预测值为1,,真值为0,称为false positive
FN:y的值为1,y^为0,预测值为0,真值都为1,称为false negtive
N+:总样本中正样本的数目
N-:总样本中负样本的数目
N+^:预测结果中有多少预测为正样本的数目
N-^:预测结果中有多少预测为负样本的数目

Precison=TP/N+^, 精度、准确率:预测结果为真的样本中真正为真的比例
TPR/Recall=TP/N+ 召回率:预测结果召回了多少真正的真样本
真阳率:有多少真正的正样本被预测为真。
FPR=FP/N_ 假阳率:预测结果中将多少假的样本预测成了真的
F1分数:Precision和Recall调和平均值
F1=2(Prescision*Recall)/(Precison+Recall)

Matthews相关系数用一个值综合混淆矩阵,度量真是值与预测值之间的相关性,定位为:
MCC=(TPTN-FPFN)/sqrt((TP+FP)(TP+FN)(TN+FP)(TN+FN))
分母中任意一对括号相加之和如果为0,那么整个MCC的值就为0
MCC的值在[-1, 1]之间
1:分类器是完美的
0:分类器是随机分类器
-1: 分类器是最差的,所有预测结果和实际相反

上面我们讨论给定阈值τ的TPR(真阳率)和FPR(假阳率)

  • 如果不是只考虑一个阈值t,而是在一些列阈值上运行检测器,并画出TPR和FPR为阈值t的隐式函数,得到ROC曲线。

例:根据文章特征?(文章长度、作者的数目、作者之前投递给该杂志的文章数据、…),判断该文章是否会杂志被接收。

  • 测试样本数目:500,其中250篇被接收(红色),250被拒绝(蓝色)。
  • 现有一个分类器1,给定文章特征,输出该文章被接收的概率。下图为分类器1输出的被接收概率概率对应的正样本数目和负样本数目。

假设取阈值为概率阈值0.5: 判断140篇文章被拒绝,360篇文章被接收。线右边共有235个红色样本,125个被接受,10个被拒绝, ??? = 235/250 = 0.94,??? =125/250 = 0.5 ,对应ROC曲线上的点?, ? ((0.5,0.94) 。

  • 假设取阈值为概率阈值0.8: 判断50篇文章被接收,450篇被拒绝。线的右边有50个红色样本,线的右边有0个蓝色样本均接收, ??? = mGkmG ,??? = 0,对应ROC曲线上的点?, ? = (0, 0.2)。

现有一个分类器2,给定文章特征,输出该文章被接收的概率。下图为分类器2输出的被接收概率对应的正样本数目和负样本数。

  • 假设取阈值为概率阈值0.6: 线的右边有200个红色样本,线的右边有0个蓝色样本, ??? =200/250 =0.8,??? = 0,对应ROC曲线上的点?, ? =(0, 0.8)。

特征

  • ROC曲线越偏左上角表示分类器性能越好。
  • AUC (Area Under Curve):ROC曲线下的面积,取值在[0.5,1.0],0.5表示随机猜测分类器,1表示完美分类器。
  • ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

PR曲线

Precision and Recall (PR曲线):用于稀有事件检测,如目标检测、信息检索、推荐系统。

  • 负样本非常多(?_很大),因此??? = ??⁄?_很小,比较TPR和FPR没有太大意义(ROC曲线中只有左边很小一部分有意义)

只讨论正样本(N+,N+^)
Precision and Recall (PR曲线):阈值变化时的P和R。

  • Precison=TP/N+^, 精度、准确率:预测结果为真的样本中真正为真的比例
  • TPR/Recall=TP/N+ 召回率:预测结果召回了多少真正的真样本

    特征
    PR曲线越往往右上角越好。

AP

  • Precision只考虑了返回结果中相关文档的数目,没有考虑文档之间的顺序。
  • 对一个搜索引擎或推荐系统而言,返回的结果是有序的,且越相关的文档越靠前越好,于是有了AP( Average Precision )的概念。
  • AP: 对不同召回率点上的精度进行平均:

mAP

平均AP(Mean Average Percision, mAP):多个AP的平均
• 物体检测中经常用mAP评价模型性能:多个物体类别的AP的平均

本文标签: ROC曲线和PR曲线 AP mAP