精华内容
下载资源
问答
  • 2018-11-26 16:58:04

     一.查准率和查全率

    查准率=准确率(Precision)=检索到的该类图像/检索到的所有图像数

     

    查全率=召回率(Recall)=检索到的该类图像/数据库中所有的该类图像

     

    二.MAP(Mean Average Precision)平均精度均值

    MAP可以由它的三个部分来理解:P,AP,MAP

    P(Precision)精度,正确率。在信息检索领域用的比较多,和正确率一块出现的是召回率Recall。对于一个查询,返回了一系列的文档,正确率指的是返回的结果中相关的文档占的比例,而召回率则是返回结果中相关文档占所有相关文档的比例。相关概念如上。

    MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。 MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。

    对一个搜索引擎或推荐系统而言返回的结果必然是有序的,而且越相关的文档排的越靠前越好,于是有了AP的概念。对一个有序的列表,计算AP的时候要先求出每个位置上的precision,然后对所有的位置的precision再做个average。

    多类别识别中,每类物体都可以根据查全率和查准率画出一条曲线,AP就是该曲线下的面积,mAP就是多类别的AP面积的平均值。


    例1:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。

    某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。

    对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。

    对于主题 2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。

     

    例2:分析图为主题1有五个相关,主题2有三个相关。主题一rank为1,3,6,9,10,主题二rank为2,5,7.

    1/1,2/3,3/6,4/9,5/10

    1/2,2/5,3/7

    例3:

    若该位置返回的结果相关,计算该位置的正确率,若不相关,正确率置为0。若返回的这四个的相关文档排在1,2,3,4号位,则对于的正确率都为1,AP也就等于1,可见计算方法是对排序位置敏感的,相关文档排序的位置越靠前,检出的相关文档越多,AP值越大。

     

     

    例4:

    比如一个数据库,男5人,女5人

    系统1搜索女,结果排序如下:

    1 女

    2 男

    3 男

    4 男

    5 女

    6 女

    7 女

     

    系统2 搜索女,结果排序如下:

     

    1 女

    2 女

    3 女

    4 女

    5 男

    6 男

    7 男

     

    对于系统1:
    查全率=系统检索到的相关文件 / 系统所有相关的文件总数=4/5
    准确率=系统检索到的相关文件 / 系统所有检索到的文件总数=4/7
    mAP=(1/1+2/5+3/6+4/7)/5
    对于系统2:
    查全率=系统检索到的相关文件 / 系统所有相关的文件总数=4/5
    准确率=系统检索到的相关文件 / 系统所有检索到的文件总数=4/7
    mAP=(1/1+2/2+3/3+4/4)/5

     

     

    结论:系统1和系统2,查全率和准确率相同,此时用mAP来衡量系统好坏,更加有效。

     

     

    更多相关内容
  • 在信息检索领域,信息检索系统(Information Retrieval System,IRS)是指根据特定的...因此提出一些指标来体现IRS系统的信息检索效果,本博客将介绍查全率与查准率的概念与计算规则,二者是反映检索效果的重要指标。 ​

            在信息检索领域,信息检索系统(Information Retrieval System,IRS)是指根据特定的信息需求而建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。任何具有信息存储(Information Storage,IS)与信息检索(Information Retrieval,IR)功能的系统都可以称为IRS,即向用户提供IR服务的系统。

            在设计与开发IRS(如文献IRS、图书IRS等)时,需要考虑系统在使用过程中的实际效果,因此提出一些指标来体现IRS系统的信息检索效果,本博客将介绍查全率与查准率的概念与计算规则,二者是反映检索效果的重要指标。本博客中指标符号及描述如下表所示:

    指标符号描述
    I系统中信息总量
    Ir系统中相关信息量
    R检索出的信息量
    Rr检索出的相关信息量
    Precision Ratio查准率
    Recall Ratio查全率

     图1 查全率与查准率计算图

    查准率

            用户在使用IRS时,需要通过输入的词条(忽略词条与用户实际期望的偏差)找到相关信息,但是检索到的信息不一定都是实际的词条相关信息,为了表示检索到的相关信息占检索出信息的比例,即检索出信息的有效性、准确性,提出查准率(精度,Precision Ratio)是衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献量与检出的文献总量的百分比。查准率公式为:

    Precision Ratio=\frac{Rr}{R}\cdot 100%

          

    查全率

            只使用查准率不能完全体现信息检索的效果,为了表示检索到的相关信息占系统中全部相关信息的比例,提出查全率(召回率,Recall Precision),查全率是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献量与检索系统中相关文献总量的百分比。查全率公式为:

    Recall Ratio=\frac{Rr}{Ir}\cdot 100%

    调整查全率和查准率对于信息检索的意义

             正常情况下RrR、Ir的关系如图1所示,但极端情况下检索返回了较少或唯一的相关信息,查准率为100%,查全率较低。通俗来讲,例如某用户输入“水果”要查找所有水果的图片,结果IRS只返回了苹果的图片,准确性即查准率为100%,但是非常不全面,海量的水果图片只返回了苹果的图片,用户体验降低。模型效果如下图: 

            同样地在另一种相反的极端情况下,一个将IRS中的所有相关信息返回为结果集合的系统有100 %的查全率,但是查准率却较低。通俗来讲,例如某用户输入“苹果”要查找所有苹果的图片,结果IRS返回了系统中所有水果的图片,非常全面,用户想要检索的苹果图片夹杂在所有水果图片中全部返回,查全率为100%,但是非常不准确,用户要从海量的水果图片中找到所需要的苹果的图片,用户体验同样降低。模型效果如下图:

            一个完美的IRS追求Ir和R相等,理想状态的IRS模型如下:

             此时有如下关系:

    PrecisionRatio=RecallRatio=100%

            但是显然很难实现,查全率和查准率之间具有互逆的关系, 在IRS系统设计开发过程中,根据查准率查全率可绘制系统的PR曲线,可根据曲线判断系统的优劣,将两者之间进行平衡折中。通常,以查全率和查准率为指标来测定IRS的有效性时,总是假定查全率为一个适当的值,然后按查准率的高低来衡量系统的有效性。使用泛指性较强的检索语言(如上位类、上位主题词),改变检索项、减少限制条件,都能提高查全率,但查准率下降;使用专指性较强的检索语言(如上位类、上位主题词)能提高查准率,但查全率下降。

    查全率和查准率在软件评测方面的应用

            杀毒软件评测一般由一些比较大的专业论坛或者权威的国际机构来进行,方法是在一个新的电脑系统里播洒上一定数量流行木马病毒的样本,然后安装要测试的杀毒软件,通过对查杀结果的分析来确定该杀毒软件对木马病毒是否全数检出,以及在杀毒过程中是否准确清除木马存在误杀正常软件的情况。一般来说,病毒库全或者有智能分析引擎的杀毒软件能全面地查检出病毒,并且杀毒时准确度比较高,较少存在误杀现象。通常采用查杀速度及查杀率一说,也有叫做查全率与查准率的。

    参考资料链接:查全率与查准率_百度百科

    展开全文
  • 一句话解释:一般来说,Precision 就是检索出来的条目中(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。 1、实际上非常简单,精确是针对我们预测结果而言的,它表示...

    一、准确率、召回率、F1

    一句话解释:一般来说,Precision 就是检索出来的条目中(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

    1、实际上非常简单, 精确率是针对我们 预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是
    P  = \frac{TP}{TP+FP}
    2、而 召回率是针对我们原来的 样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。
    R = \frac{TP}{TP+FN}
    其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。

    正确率、召回率是在鱼龙混杂的环境中,选出目标的重要评价指标。

        1. 正确率 = 提取出的正确信息条数 /  提取出的信息条数     

        2. 召回率 = 提取出的正确信息条数 /  样本中的信息条数    

    或者:

    正确率 = 正确识别的个体总数 /  识别出的个体总数

    召回率 = 正确识别的个体总数 /  测试集中存在的个体总数

        我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很低。

    因此在不同的场合中需要自己判断希望P比较高还是R比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析。

      3. P和R指标有时候会出现的矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F-Measure(又称为F-Score)。

    F-Measure是Precision和Recall加权调和平均


    F1值  = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)
    举个例子:

    某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:

    正确率 = 700 / (700 + 200 + 100) = 70%

    召回率 = 700 / 1400 = 50%

    F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

    不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化:

    正确率 = 1400 / (1400 + 300 + 300) = 70%

    召回率 = 1400 / 1400 = 100%

    F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%        

     由此可见,正确率是评估捕获的成果中目标成果所占得比例;召回率,顾名思义,就是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。

    2、mAP(mean Average Precision)

    mAP是为解决P,R,F-measure的单点值局限性的。为了得到 一个能够反映全局性能的指标,可以看考察下图,其中两条曲线(方块点与圆点)分布对应了两个检索系统的准确率-召回率曲线


    可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统。

    从中我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上突出。

    更加具体的,曲线与坐标轴之间的面积应当越大。

    最理想的系统, 其包含的面积应当是1,而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标,平均准确率mAP其规范的定义如下:(其中P,R分别为准确率与召回率)






    展开全文
  • 准确率(查准率)、召回率(查全率)、F值 正确率、召回率和F值是目标的重要评价指标。 正确率 = 正确识别的个体总数 / 识别出的个体总数 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * ...

    准确率(查准率)、召回率(查全率)、F值

    正确率、召回率和F值是目标的重要评价指标。

    • 正确率 = 正确识别的个体总数 / 识别出的个体总数 
    • 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 
    • F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)

    假设要识别照片中的狗的,在一些照片中,包含12只狗的照片和一些猫的照片。算法识别出有8只狗。在确定的8只狗中,5只实际上是狗(真阳性TP),而其余的是猫(假阳性FP)。该程序的精度为5/8,而其召回率为5/12。

    不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Seaeagle撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:
    正确率 = 700 / (700 + 200 + 100) = 70% 
    召回率 = 700 / 1400 = 50% 
    F1值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

    不妨看看如果Seaeagle把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化: 
    正确率 = 1400 / (1400 + 300 + 300) = 70% 
    召回率 = 1400 / 1400 = 100% 
    F1值 = 70% * 100% * 2 / (70% + 100%) = 82.35% 

    由此可见,正确率是评估捕获的成果中目标成果所占得比例;召回率,顾名思义,就是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。

    下面有关分类算法的准确率,召回率,F1 值的描述,错误的是? C

    A.准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
    B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
    C.正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高
    D.为了解决准确率和召回率冲突问题,引入了F1分数

     

    误识率(FAR)、拒识率(FRR)、ROC曲线

    平时在做指纹、人脸识别时,会用到一些评价算法性能评价指标。常见的当属以下几种指标:

    • 误识率(FAR,false acceptance rate)
    • 拒识率(FRR,false rejection rate)
    • ROC曲线(Receiver Operator characteristic Curve)

    其中误识率与拒识率的就算公式如下: 

    è¿éåå¾çæè¿°

    说白一些,假定在指纹匹配识别过程中: 

    • 误识率(FAR)是指在标准指纹数据库上测试指纹识别算法时,不同指纹的匹配分数大于给定阈值,从而被认为是相同指纹的比例,简单地说就是“把不应该匹配的指纹当成匹配的指纹”的比例。 
    • 拒识率(FRR)是指在标准指纹数据库上测试指纹识别算法时,相同指纹的匹配分数低于给定阈值,从而被认为是不同指纹的比例,简单地说就是 “把应该相互匹配成功的指纹当成不能匹配的指纹”的比例。 

    假定有110个人,每人的大拇指的8幅指纹图片共110*8=880幅的指纹数据库,即110类,每类8幅图片。当然,我们希望类内的任意两幅图片匹配成功,类间的任意图片匹配失败。现在我们让库中的每一幅图片除开它自身之外与其他的所有图片进行匹配,分别计算误识率,与拒识率。

    误识率(FAR):假定由于指纹识别算法性能的原因,把本应该匹配失败的判为匹配成功,若假定这种错误次数为1000次。理论情况下,来自同一个指纹的图像都成功匹配,次数为7*8*110=6160次,匹配的总次数,即880×(880-1)=773520次。匹配失败次数应为773520-6160=767360次。则误识率FAR为1000/767360*100%=0.13%。

    拒识率(FRR):假定由于指纹识别算法性能的原因,把本应该匹配成功的判为匹配失败,若这种错误次数为160次。则拒识率为160/6160=2.6%.

    在有些文献中将误识率表达为FMR(False match rate),以及将拒识率表达为FNMR(False non-match rate),这和本文中所讲到的误识率与拒识率是同一个意思,即:误识率:FAR=FMR、拒识率:FRR=FNMR

    可以用以下这图加深理解: 

    è¿éåå¾çæè¿°

    ROC曲线(Receiver Operator characteristic Curve)是一种已经被广泛接受的系统匹配算法测试指标,它是匹配分数阈值、误识率以及拒识率之间的一种关系。它反映了识别算法在不同阈值上,拒识率和误识率的平衡关系。 下图给出了ROC曲线,其中横坐标是拒识率,纵坐标是误识率,等错误率(EER Equal-Error Rate)是拒识率和误识率的一个平衡点,等错误率能够取到的值越低,表示算法的性能越好。 

    è¿éåå¾çæè¿°

    二分类ROC和AUC

    ROC

    在另外的一些二分类模式识别,如人脸验证中,ROC 关注常关注两个指标: 

    • True Positive(真正, TP):将正类预测为正类数. 
    • True Negative(真负 , TN):将负类预测为负类数. 
    • False Positive(假正, FP):将负类预测为正类数 → 误报 (Type I error). 
    • False Negative(假负 , FN):将正类预测为负类数 →漏报 (Type II error).

    直观上,TPR 代表能将正例分对的概率,FPR 代表将负例错分为正例的概率。在 ROC 空间中,每个点的横坐标是 FPR:FP/(FP+TN),纵坐标是 TPR:TP/(TP+FN),这也就描绘了分类器在 TP(真正率)和 FP(假正率)间的 trade-off2。 

    TPR为纵轴,FPR为横轴希望FPR越小越好,TPR越大越好

    点(0,1),所有的预测都正确了点(1,0),所有的预测都预测错了。点(0,0),所有的样本都预测为。点(1,1),所有的样本都预测为。如果一个点越接近左上角,那么说明模型的预测效果越好。通过更改分类阈值来得到ROC。

    • 阈值的范围是[0,1],当阈值从1到0慢慢移动时,FPR会越来越大。因为FP(假正例)会越来越多。
    • 事实上,ROC曲线不是光滑的,而是阶梯型的。为什么呢?因为样本的数量是有限的,而FPR和TPR的变化需要至少有一个样本变化了,在没有变化的间隙里,就不会有变化。也就是说,步进是1/样本数。

    AUC

    假设我们有一个分类器,输出是样本输入正例的概率,所有的样本都会有一个相应的概率,这样我们可以得到下面这个图: 
     这里写图片描述 
    其中,横轴表示预测为正例的概率,纵轴表示样本数。 
    所以,蓝色区域表示所有负例样本的概率分布,红色样本表示所有正例样本的概率分布。显然,如果我们希望分类效果最好的话,那么红色区域越接近1越好,蓝色区域越接近0越好。

    为了验证你的分类器的效果。你需要选择一个阈值,比这个阈值大的预测为正例,比这个阈值小的预测为负例。如下图: 
     这里写图片描述 
    在这个图中,阈值选择了0.5于是左边的样本都被认为是负例,右边的样本都被认为是正例。可以看到,红色区域与蓝色区域是有重叠的,所以当阈值为0.5的时候,我们可以计算出准确率为90%.

    好,现在我们来引入ROC曲线。 

    这里写图片描述
    图中左上角就是ROC曲线,其中横轴就是前面说的FPR(False Positive Rate),纵轴就是TPR(True Positive Rate)。 
    然后我们选择不同的阈值时,就可以对应坐标系中一个点。

     这里写图片描述 
    当阈值为0.8时,对应上图箭头所指的点。

     这里写图片描述 
    当阈值为0.5时,对应上图箭头所指的点。

    这样,不同的阈值对应不同的点。最后所有的点就可以连在一起形成一条曲线,就是ROC曲线。

    现在我们来看看,如果蓝色区域与红色的区域发生变化,那么ROC曲线会怎么变呢? 
     这里写图片描述 
    上图中,蓝色区域与红色区域的重叠部分不多,所以可以看到ROC曲线距离左上角很近。

     这里写图片描述 
    但是,当蓝色区域与红色区域基本重叠时,ROC曲线就和接近y=x这条线了。

    综上两个图,如果我们想要用ROC来评估分类器的分类质量,我们就可以通过计算AUC(ROC曲线下的面积)来评估了,这就是AUC的目的。其实,AUC表示的是正例排在负例前面的概率。 
     这里写图片描述 
    比如上图,第一个坐标系的AUC值表示,所有的正例都排在负例的前面。第二个AUC值,表示有百分之八十的正例排在负例的前面。

    我们知道阈值可以取不同,也就是说,分类的结果会受到阈值的影响。如果使用AUC的话,因为阈值变动考虑到了,所以评估的效果更好。

    另一个好处是,ROC曲线有一个很好的特性:当测试集中的正负样本分布发生变化了,ROC曲线可以保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。 

    多分类下的ROC曲线和AUC

            由于ROC曲线是针对二分类的情况,对于多分类问题,ROC曲线的获取主要有两种方法:

            假设测试样本个数为m,类别个数为n(假设类别标签分别为:0,2,...,n-1)。在训练完成后,计算出每个测试样本的在各类别下的概率或置信度,得到一个[m, n]形状的矩阵P,每一行表示一个测试样本在各类别下概率值(按类别标签排序)。相应地,将每个测试样本的标签转换为类似二进制的形式,每个位置用来标记是否属于对应的类别(也按标签排序,这样才和前面对应),由此也可以获得一个[m, n]的标签矩阵L。

             比如n等于3,标签应转换为:

            方法1:每种类别下,都可以得到m个测试样本为该类别的概率(矩阵P中的列)。所以,根据概率矩阵P和标签矩阵L中对应的每一列,可以计算出各个阈值下的假正例率(FPR)和真正例率(TPR),从而绘制出一条ROC曲线。这样总共可以绘制出n条ROC曲线。最后对n条ROC曲线取平均,即可得到最终的ROC曲线。

            方法2:首先,对于一个测试样本:1)标签只由0和1组成,1的位置表明了它的类别(可对应二分类问题中的‘’正’’),0就表示其他类别(‘’负‘’);2)要是分类器对该测试样本分类正确,则该样本标签中1对应的位置在概率矩阵P中的值是大于0对应的位置的概率值的。基于这两点,将标签矩阵L和概率矩阵P分别按行展开,转置后形成两列,这就得到了一个二分类的结果。所以,此方法经过计算后可以直接得到最终的ROC曲线。

           上面的两个方法得到的ROC曲线是不同的,当然曲线下的面积AUC也是不一样的。 在python中,方法1和方法2分别对应sklearn.metrics.roc_auc_score函数中参数average值为'macro'和'micro'的情况。

          下面以方法2为例,直接上代码,概率矩阵P和标签矩阵L分别对应代码中的y_score和y_one_hot:

    #!/usr/bin/python
    # -*- coding:utf-8 -*-
     
    import numpy as np
    import pandas as pd
    import matplotlib as mpl
    import matplotlib.pyplot as plt
    from sklearn.model_selection import train_test_split
    from sklearn.linear_model import LogisticRegressionCV
    from sklearn import metrics
    from sklearn.preprocessing import label_binarize
     
    if __name__ == '__main__':
        np.random.seed(0)
        data = pd.read_csv('iris.data', header = None)  #读取数据
        iris_types = data[4].unique()
        n_class = iris_types.size
        x = data.iloc[:, :2]  #只取前面两个特征
        y = pd.Categorical(data[4]).codes  #将标签转换0,1,...
        x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.6, random_state = 0)
        y_one_hot = label_binarize(y_test, np.arange(n_class))  #装换成类似二进制的编码
        alpha = np.logspace(-2, 2, 20)  #设置超参数范围
        model = LogisticRegressionCV(Cs = alpha, cv = 3, penalty = 'l2')  #使用L2正则化
        model.fit(x_train, y_train)
        print '超参数:', model.C_
        # 计算属于各个类别的概率,返回值的shape = [n_samples, n_classes]
        y_score = model.predict_proba(x_test)
        # 1、调用函数计算micro类型的AUC
        print '调用函数auc:', metrics.roc_auc_score(y_one_hot, y_score, average='micro')
        # 2、手动计算micro类型的AUC
        #首先将矩阵y_one_hot和y_score展开,然后计算假正例率FPR和真正例率TPR
        fpr, tpr, thresholds = metrics.roc_curve(y_one_hot.ravel(),y_score.ravel())
        auc = metrics.auc(fpr, tpr)
        print '手动计算auc:', auc
        #绘图
        mpl.rcParams['font.sans-serif'] = u'SimHei'
        mpl.rcParams['axes.unicode_minus'] = False
        #FPR就是横坐标,TPR就是纵坐标
        plt.plot(fpr, tpr, c = 'r', lw = 2, alpha = 0.7, label = u'AUC=%.3f' % auc)
        plt.plot((0, 1), (0, 1), c = '#808080', lw = 1, ls = '--', alpha = 0.7)
        plt.xlim((-0.01, 1.02))
        plt.ylim((-0.01, 1.02))
        plt.xticks(np.arange(0, 1.1, 0.1))
        plt.yticks(np.arange(0, 1.1, 0.1))
        plt.xlabel('False Positive Rate', fontsize=13)
        plt.ylabel('True Positive Rate', fontsize=13)
        plt.grid(b=True, ls=':')
        plt.legend(loc='lower right', fancybox=True, framealpha=0.8, fontsize=12)
        plt.title(u'鸢尾花数据Logistic分类后的ROC和AUC', fontsize=17)
        plt.show()

          实验输出结果:

           可以从上图看出,两者计算结果一致!      

            实验绘图结果:

    展开全文
  • 基于预训练语言模型的检索- 匹配知识图谱问答系统 张鸿志 , 李如寐,王思睿,黄江华 美团, 北京市朝阳区 100020 {zhanghongzhi03,lirumei,wangsirui,huangjianghua}@http://meituan.com Abstract. 本文介绍了我们...
  • 信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • 与之相对应,我们去测量错误分类数据在全部分类数据比例,称之为错误(error rate),也常将错误称为0-1损失期望。 机器学习算法是在实际环境中运行的,也就是说,机器学习所面临的数据是未知的。生活告诉我们...
  • 信息检索的评价指标

    千次阅读 2018-04-24 14:23:13
    信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • 机器学习期末复习02

    2021-11-10 10:29:53
    评估方法 1.1训练集与测试集的划分方法 1,希望用一个“测试集”的“测试误差”来作为“泛化...(4)训练/测试样本比例通常为2:1~4:1 2,交叉验证法 将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个的
  • 本文包括以下内容: 1. 模型评估与模型选择 2. 正则化与交叉验证 3. 泛化能力 4. 生成模型与判别模型 5. 监督学习应用
  • 在信息检索、分类体系中,有一...信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:  召回率(Recall) = 系统检索
  • 2.3.2 查准率、查全率和F1 2.3.3 ROC和AUC 2.3.4 代价敏感错误率和错误曲线 2.4 比较检验 2.5 偏差与方差 2.课后习题 第二章 模型评估与选择 2.1 经验误差与过拟合 精度(accuracy) = (1 - a/m) *...
  • 1.2 正交化1.3 单一数字评估指标查准率(precision)查全率(recall)引入一段西瓜书的内容理解查准率(precision)& 查全率(recall)查准率(precision)& 查全率(recall)的关系通过F1数值来选取最优的...
  • 模型评估与选择

    2017-07-27 15:55:02
    1)错误:分类错误的样本数占样本总数的比例 2)精度:精度 = 1 一 错误 3)误差:学习器的实际预测输出与样本的真实输出之间的差异 4)训练误差/经验误差:学习器在训练集上的误差 5)泛化误差:学习器在新样本...
  • 适用场景:“检索出的信息中有多少比例是用户感兴趣的——查全率”、“用户感兴趣的信息中有多少被检索出来了——查准率”; 对于二分类问题,样例的真实类别、样例的学习器预测类别,两两组合可以分为: 真正例...
  • 信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • 文章目录 一.训练误差与测试误差 1.1 基本概念 1.2 训练误差 ... 3.2 查准率,查全率,F1,P-R曲线 3.3 ROC曲线 3.4 混淆矩阵 3.4.1 多类别混淆矩阵 3.4.2 基于多类别混淆...
  • 深度学习基础

    千次阅读 2020-08-26 18:33:42
    主要参数解释 pool_size: 整数,或者 2 个整数表示的元组, 沿(垂直,水平)方向缩小比例的因数。 (2,2)会把输入张量的两个维度都缩小一半。 如果只使用一个整数,那么两个维度都会使用同样的窗口长度。 ...
  • 机器学习6

    2019-03-15 16:50:03
    10 Advice for Applying Machine ...准确率(Precision),又称“精度”、“正确率”、“查准率”,表示在检索到的所有文档中,检索到的相关文档所占的比例。召回率(Recall),又称“查全率”,表示在所有相关文档...
  • 信息检索评价指标

    千次阅读 2018-07-19 23:06:41
    信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下...
  • * 5、precesion:查准率 * 即在检索后返回的结果中,真正正确的个数占整个结果的比例。 * precesion = TP/(TP+FP) 。 * 6、 recall:查全率 * 即在检索结果中真正正确的个数 占整个数据集(检索到的和未检索到...
  • 机器学习框架及评估指标详解

    千次阅读 多人点赞 2022-01-24 00:49:18
    查准率、查全率 P-R曲线 Python绘制P-R曲线模板代码 平衡点(BEP) F1度量 Python求解F1_score代码 回归模型评估指标 均方误差 MAE(平均绝对误差) MAPE(平均绝对百分比误差) RMSE(均方根误差) R ...
  • R-Squared 反映的是大概有多,因为,随着样本数量的增加,R-Square必然增加,无法真正定量说明准确程度,只能大概定量。 对于本题来说,单独看 R-Squared,并不能推断出增加的特征是否有意义。通常来说,增加一个...
  • @AntZ:XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更. 使用泰勒展开取得二阶倒数形式, 可以在不选定损失函数具体形式的情况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数...
  • 机器学习之性能度量指标

    千次阅读 2018-12-06 11:32:52
    查准率检索出的相关信息量 / 检索出的信息总量 查全率=检索出的相关信息量 / 系统中的相关信息总量 注意:一定要区分精确度和上一节中的准确率。在网络安全领域更注重漏报率和误报率,也就是精确率和召回率...
  • 我建议在做服务化的时候,首先更多是偏向业务的梳理,同时要找一个很好的切入点,既有架构和服务化上的提升,业务方也要有收益,比如提升性能或者降低维护成本同时升级过程要平滑,建议开始从原子化服务切入,比如...
  • 其根据不同的目标定义,也会导致不同的推荐结果,从measure上来考虑,包括用户满意度,预测准确度,覆盖,多样性,新颖性,精细度,实时性,内容时效性,内容质量,商业目标等等。 1. 常用评测指标 用户满意度:...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,713
精华内容 685
关键字:

检索式查准率验证比例

友情链接: YiBuDianJiMoXing_gai.zip