2019-03-27 19:33:13 WYXHAHAHA123 阅读数 182
  • 第一章:机器学习

    1. 介绍机器学习知识体系和学习路线 2. 机器学习的方向分析和介绍 3. 机器学习面临的核心问题,数据量,质量,特征,过拟合和欠拟合 4. 主要介绍二元分类使用,通过手写数字数据集 5. 分类问题性能考核,精度和召回,ROC曲线 6. 多分类和多标签分类器 7. 错误分析 8. MINST手写数字数据集入门案例 9. 垃圾邮件案例解析

    332 人正在学习 去看看 CSDN就业班

ROC曲线是评价分类器的性能好坏的标准。

在逻辑回归分类器中,最终模型预测出来的是一个概率值,表示当前的样本属于正类的概率。设定逻辑回归正类别的threshold即为t,如果逻辑回归模型预测出的概率值大于t,则预测为正类,如果概率值小于t,则预测为负类。

分类问题中的混淆矩阵(以二分类为例)

gt\prediction 正类 负类
正类 TP FN
负类 FP TN

TP:ground truth类别为正类,prediction类别也为正类

TN:ground truth类别为负类,prediction类别也为负类

FP:ground truth类别为负类,prediction类别也为正类

FN:ground truth类别为正类,prediction类别也为负类

TPR:true positive rate =TP/(TP+FN)   预测正确的正样本总数/数据集中总正样本数

FPR:false positive rate=FP/(FP+TN)  预测错误的负样本总数/数据集中总负样本数

ROC曲线:横轴是TPR,纵轴是FPR。设定不同的判定为正负样本的阈值(threshold),可以得到不同的TPR和FPR点对。将一系列点对连接成平滑的曲线,则为ROC曲线。设想,

(1)当阈值设置为0,就是说,预测概率值大于0,则判定为正样本,小于0则判定为负样本,则对于逻辑回归分类器,所输出的预测概率值全部都大于0,故而所有的样本都会被分类为正样本,FN=TN=0,TPR=FPR=1,在ROC曲线上对应点(0,0)

(1)当阈值设置为1,就是说,预测概率值大于1,则判定为正样本,小于1则判定为负样本,则对于逻辑回归分类器,所输出的预测概率值全部都小于1,故而所有的样本都会被分类为负样本,FP=TP=0,TPR=FPR=0,在ROC曲线上对应点(1,1)

而我们期望ROC曲线能够达到的点是:(0,1),即FPR=0,TPR=1

可以看出,TPR和FPR数值都介于0-1范围内,故而ROC曲线必然在以(0,0)为左下角,1为边长的正方形内部。ROC曲线下积分的面积必然小于等于1.

ROC曲线下包围的面积定义为AUC:areas under curve

AUC值越大,说明分类器的性能越好。

 

2019-04-18 10:47:44 z_feng12489 阅读数 4608
  • 第一章:机器学习

    1. 介绍机器学习知识体系和学习路线 2. 机器学习的方向分析和介绍 3. 机器学习面临的核心问题,数据量,质量,特征,过拟合和欠拟合 4. 主要介绍二元分类使用,通过手写数字数据集 5. 分类问题性能考核,精度和召回,ROC曲线 6. 多分类和多标签分类器 7. 错误分析 8. MINST手写数字数据集入门案例 9. 垃圾邮件案例解析

    332 人正在学习 去看看 CSDN就业班

前言简介

在分类任务中,人们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。

比如有这样一个在房子周围可能发现的动物类型的预测,这个预测的三类问题的混淆矩阵如下表所示:
在这里插入图片描述

利用混淆矩阵可以充分理解分类中的错误了。如果混淆矩阵中的非对角线元素均为0,就会得到一个近乎完美的分类器。

在接下来的讨论中,将以经典的二分类问题为例,对于多分类类比推断。

二分类问题在机器学习中是一个很常见的问题,经常会用到。ROC (Receiver Operating Characteristic) 曲线和 AUC (Area Under the Curve) 值常被用来评价一个二值分类器 (binary classifier) 的优劣。之前做医学图像计算机辅助肺结节检测时,在评定模型预测结果时,就用到了ROC和AUC,这里简单介绍一下它们的特点,以及更为深入地,讨论如何作出ROC曲线图和计算AUC值。

医学图像识别二分类问题

针对一个二分类问题,我们将实例分成正类(positive)和负类(negative)两种。

例如:在肺结节计算机辅助识别这一问题上,一幅肺部CT图像中有肺结节被认为是阳性(positive),没有肺结节被认为是阴性(negative)。对于部分有肺结节的示意图如下:
在这里插入图片描述
所以在实际检测时,就会有如下四种情况:

(1) 真阳性(True Positive,TP):检测有结节,且实际有结节;正确肯定的匹配数目;
(2) 假阳性(False Positive,FP):检测有结节,但实际无结节;误报,给出的匹配是不正确的;
(3) 真阴性(True Negative,TN):检测无结节,且实际无结节;正确拒绝的非匹配数目;
(4) 假阴性(False Negative,FN):检测无结节,但实际有结节;漏报,没有正确找到的匹配的数目。

详细图解(原创,转载请标明出处)如下:
在这里插入图片描述

这里整理肺结节识别中的几个主要参数指标如下:

  • 正确率(Precision):
    Precision=TPTP+FP Precision=\dfrac{TP}{TP+FP}

  • 真阳性率(True Positive Rate,TPR),灵敏度(Sensitivity),召回率(Recall):
    Sensitivity=Recall=TPR=TPTP+FN Sensitivity=Recall=TPR=\dfrac{TP}{TP+FN}

  • 真阴性率(True Negative Rate,TNR),特异度(Specificity):
    Specificity=TNR=TNFP+TN Specificity=TNR=\dfrac{TN}{FP+TN}

  • 假阴性率(False Negatice Rate,FNR),漏诊率( = 1 - 灵敏度):
    FNR=FNTP+FN FNR=\dfrac{FN}{TP+FN}

  • 假阳性率(False Positice Rate,FPR),误诊率( = 1 - 特异度):
    FPR=FPFP+TN FPR=\dfrac{FP}{FP+TN}

  • 阳性似然比(Positive Likelihood Ratio (LR+)):
    LR+=TPRFPR=Sensitivity1Specificity LR+ = \dfrac{TPR}{FPR} = \dfrac{Sensitivity}{1-Specificity}

  • 阴性似然比(Negative Likelihood Ratio (LR−) ):
    LR=FNRTNR=1SensitivitySpecificity LR- = \dfrac{FNR}{TNR} = \dfrac{1-Sensitivity}{Specificity}

  • Youden指数(Youden index):
    Youden index=Sensitivity+Specificity1=TPRFPR \text{Youden index} = Sensitivity + Specificity - 1 = TPR - FPR

ROC 曲线

ROC曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。

对于分类器或者说分类算法,评价指标主要有precisionrecallF1 score等,以及这里要讨论的ROC和AUC。下图是一个ROC曲线的示例:
在这里插入图片描述

横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本 的比例;
纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本 的比例。

在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。

如下面这幅图,(a)图中实线为ROC曲线,线上每个点对应一个阈值。
在这里插入图片描述

  • 理想情况下,TPR应该接近1,FPR应该接近0。ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR。比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)。
  • P和N得分不作为特征间距离d的一个函数,随着阈值theta增加,TP和FP都增加。

横轴FPR:1-TNR,1-Specificity,FPR越大,预测正类中实际负类越多。
纵轴TPR:Sensitivity(正类覆盖率),TPR越大,预测正类中实际正类越多。
理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity越大效果越好。

随着阈值threshold调整,ROC坐标系里的点如何移动可以参考:
在这里插入图片描述

如何画ROC曲线

对于一个特定的分类器和测试数据集,显然只能得到一个分类结果,即一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下Wikipedia上对ROC曲线的定义

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

问题在于“as its discrimination threashold is varied”。如何理解这里的“discrimination threashold”呢?我们忽略了分类器的一个重要功能“概率输出”,即表示分类器认为某个样本具有多大的概率属于正样本(或负样本)。通过更深入地了解各个分类器的内部机理,我们总能想办法得到一种概率输出。通常来说,是将一个实数范围通过某个变换映射到(0,1)区间。

假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。
在这里插入图片描述

接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:

在这里插入图片描述

当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。

其实,我们并不一定要得到每个测试样本是正样本的概率值,只要得到这个分类器对该测试样本的“评分值”即可(评分值并不一定在(0,1)区间)。评分越高,表示分类器越肯定地认为这个测试样本是正样本,而且同时使用各个评分值作为threshold。我认为将评分值转化为概率更易于理解一些。

AUC

AUC值的计算

AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。

AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值,具体见wikipedia

AUC意味着什么

那么AUC值的含义是什么呢?根据(Fawcett, 2006),AUC的值的含义是:

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.

这句话有些绕,我尝试解释一下:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

从AUC判断分类器(预测模型)优劣的标准:

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

三种AUC值示例
在这里插入图片描述
简单说:AUC值越大的分类器,正确率越高

为什么使用ROC曲线

既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比:
在这里插入图片描述

在上图中,(a)和©为ROC曲线,(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,©和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。

Reference:

Wikipedia:Receiver operating characteristic
孔明的博客:ROC和AUC介绍以及如何计算AUC
Rachel Zhang的专栏(CSDN):ROC曲线-阈值评价标准
博客园dzl_ML:机器学习之分类器性能指标之ROC曲线、AUC值
知乎:精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?
(在此对以上博文的博主表示感谢!)

转自 zhwhong 的博客:[机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率](https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/)

2017-01-13 16:46:32 taoyanqi8932 阅读数 33817
  • 第一章:机器学习

    1. 介绍机器学习知识体系和学习路线 2. 机器学习的方向分析和介绍 3. 机器学习面临的核心问题,数据量,质量,特征,过拟合和欠拟合 4. 主要介绍二元分类使用,通过手写数字数据集 5. 分类问题性能考核,精度和召回,ROC曲线 6. 多分类和多标签分类器 7. 错误分析 8. MINST手写数字数据集入门案例 9. 垃圾邮件案例解析

    332 人正在学习 去看看 CSDN就业班

引言

21 Must-Know Data Science Interview Questions and Answers 的文章中,有这类似这样的问题,它问的是Explain what precision and recall are. How do they relate to the ROC curve?关于这个问题其实有许多需要回答的,不仅仅是他们的表现形式不同,同时它涉及到下机器学习中的性能度量(performance measure)问题,下面对其进行详细的说明。

性能度量(performance measure)

在对学习器的泛化能力进行评估是模型泛化的能力,即要用到机器学习的性能度量,不同的性能度量往往会导致不同的评判结果,这意味着模型的好坏事相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务的需求。
最常见的的分类中所用的度量是:accuracy(准确度),error rate

acc=1mi=1mI(f(xi)=yi)

err=1mi=1mI(f(xi)yi)

上面两种度量方法非常的常用,但是有时并不能满足任务的要求,其准确度将每个类看得同等的重要,因此它可能不适合用来分析不平衡的数据集,不平衡的数据集即正类样本远远小于负类的样本,但是我们用对正类的样本比较关心,这样准确度就不适合这种度量了,因此引入了下面的几种度量方法。

假定下面一个例子,假定在10000个样本中有100个正样本,其余为负样本,其在分类器下的混淆矩阵(confusion matrix)为:

这里写图片描述

则,我们定义:

1. TN / True Negative: case was negative and predicted negative
2. TP / True Positive: case was positive and predicted positive
3. FN / False Negative: case was positive but predicted negative
4. FP / False Positive: case was negative but predicted positive

则定义一下度量:

真正率(true positive rate,TPR)或灵敏度(sensitivity),定义为被模型正确预测的正样本的比例:

TPR=TPTP+FN

真负率(true negative rate,TFR)或特指度(specificity),定义为被模型正确预测的负样本的比例:

TPR=TNTN+FP

同理,假正率(false positive rate,FPR)

FPR=FPTN+FP

假负率(flase negative rate,FNR)
FNR=FNTP+FN

重要的两个度量:

precision(精度),其与accuracy感觉中文翻译一致,周志华老师的书中称为:查准率:

p=TPTP+FP

recall(召回率),周志华老师的书中称为查全率,其又与真正率一个公式:

r=TPTP+FN

精度是确定分类器中断言为正样本的部分其实际中属于正样本的比例,精度越高则假的正例就越低,召回率则是被分类器正确预测的正样本的比例。两者是一对矛盾的度量,其可以合并成令一个度量,F1度量:

F1=2rpr+p=2TP2TP+FP+FN

如果对于precision和recall的重视不同,则一般的形式:

Fβ=(1+β2)rpβ2p+r

可以从公式中看到β=1则退化成F1,β>1则recall有更大影响,反之则precision更多影响。

维基百科中一个非常好的关于两者之间的例子:

这里写图片描述

有了上面的知识,就可以理解ROC,和PRC了。

ROC and PRC

ROC(receiver operating characteristic)接受者操作特征,其显示的是分类器的真正率和假正率之间的关系,如下图所示:

这里写图片描述

ROC曲线有助于比较不同分类器的相对性能,当FPR小于0.36时M1浩宇M2,而大于0.36是M2较好。
ROC曲线小猫的面积为AUC(area under curve),其面积越大则分类的性能越好,理想的分类器auc=1。

PR(precision recall)曲线表现的是precision和recall之间的关系,如图所示:

这里写图片描述

如何选择ROC,PR

下面节选自:What is the difference between a ROC curve and a precision-recall curve? When should I use each?

Particularly, if true negative is not much valuable to the problem, or negative examples are abundant. Then, PR-curve is typically more appropriate. For example, if the class is highly imbalanced and positive samples are very rare, then use PR-curve. One example may be fraud detection, where non-fraud sample may be 10000 and fraud sample may be below 100.
In other cases, ROC curve will be more helpful.

其说明,如果是不平衡类,正样本的数目非常的稀有,而且很重要,比如说在诈骗交易的检测中,大部分的交易都是正常的,但是少量的非正常交易确很重要。

Let’s take an example of fraud detection problem where there are 100 frauds out of 2 million samples.
Algorithm 1: 90 relevant out of 100 identified
Algorithm 2: 90 relevant out of 1000 identified

Evidently, algorithm 1 is more preferable because it identified less number of false positive.
In the context of ROC curve,
Algorithm 1: TPR=90/100=0.9, FPR= 10/1,999,900=0.00000500025
Algorithm 2: TPR=90/100=0.9, FPR=910/1,999,900=0.00045502275
The FPR difference is 0.0004500225

For PR, Curve
Algorithm 1: precision=0.9, recall=0.9
Algorithm 2: Precision=90/1000=0.09, recall= 0.9
Precision difference= 0.81

可以看到在正样本非常少的情况下,PR表现的效果会更好。

如何绘制ROC曲线

为了绘制ROC曲线,则分类器应该能输出连续的值,比如在逻辑回归分类器中,其以概率的形式输出,可以设定阈值大于0.5为正样本,否则为负样本。因此设置不同的阈值就可以得到不同的ROC曲线中的点。
下面给出具体的实现过程:

这里写图片描述
来源:数据挖掘导论

下面给出sklearn中的实现过程

print(__doc__)

import numpy as np
from scipy import interp
import matplotlib.pyplot as plt
from itertools import cycle

from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import StratifiedKFold

###############################################################################
# Data IO and generation

# import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y[y != 2]
n_samples, n_features = X.shape

# Add noisy features
random_state = np.random.RandomState(0)
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)]

###############################################################################
# Classification and ROC analysis

# Run classifier with cross-validation and plot ROC curves
cv = StratifiedKFold(n_splits=6)

# 注意这里的应该改为probability=True以概率形式输出
classifier = svm.SVC(kernel='linear', probability=True,
                     random_state=random_state)

mean_tpr = 0.0
mean_fpr = np.linspace(0, 1, 100)

colors = cycle(['cyan', 'indigo', 'seagreen', 'yellow', 'blue', 'darkorange'])
lw = 2

i = 0
# k折交叉验证
for (train, test), color in zip(cv.split(X, y), colors):
    probas_ = classifier.fit(X[train], y[train]).predict_proba(X[test])
    # Compute ROC curve and area the curve
    # 注意这里返回的阈值,以区分正负样本的阈值
    fpr, tpr, thresholds = roc_curve(y[test], probas_[:, 1])
    # 进行插值
    mean_tpr += interp(mean_fpr, fpr, tpr)
    mean_tpr[0] = 0.0
    roc_auc = auc(fpr, tpr)
    plt.plot(fpr, tpr, lw=lw, color=color,
             label='ROC fold %d (area = %0.2f)' % (i, roc_auc))

    i += 1
plt.plot([0, 1], [0, 1], linestyle='--', lw=lw, color='k',
         label='Luck')

mean_tpr /= cv.get_n_splits(X, y)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
plt.plot(mean_fpr, mean_tpr, color='g', linestyle='--',
         label='Mean ROC (area = %0.2f)' % mean_auc, lw=lw)

plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

运行的结果如下图所示:

这里写图片描述

参考资料:

1.《机器学习》周志华
2.《数据挖掘导论》
3. 21 Must-Know Data Science Interview Questions and Answers
4. What is the difference between a ROC curve and a precision-recall curve? When should I use each?
5. Receiver Operating Characteristic (ROC) with cross validation

2018-07-21 18:08:19 yqf113 阅读数 188
  • 第一章:机器学习

    1. 介绍机器学习知识体系和学习路线 2. 机器学习的方向分析和介绍 3. 机器学习面临的核心问题,数据量,质量,特征,过拟合和欠拟合 4. 主要介绍二元分类使用,通过手写数字数据集 5. 分类问题性能考核,精度和召回,ROC曲线 6. 多分类和多标签分类器 7. 错误分析 8. MINST手写数字数据集入门案例 9. 垃圾邮件案例解析

    332 人正在学习 去看看 CSDN就业班

先看这张图,图中的虚线是阈值,大于这个阈值的将会被预测为正例,小于这个阈值的将会被预测为负例。当阈值从右往左滑动时,真正率会上升,假正率也会上升,当阈值为0时,两个都为1 .当阈值为1时,两个都为0.。我们的目的是让这两个峰值的横坐标尽可能远离,即没有交叠的部分。即当某个阈值的时候,真正率为1,假正率为0.即这个曲线越接近左上角,分类效果越好。这个曲线叫ROC曲线,auc即曲线下面的面积。面积越接近于1越好。

PS:召回率和准确率:准确率P是TP/(TP+FP),召回率R是TP/(TP+FN),和真正率一样。我们希望准确率和召回率都越高越好。F1=2PR/(P+R)=2TP/(2TP+FP+FN)当FP和FN越小时,F1越接近于1.

auc和F1是两个不同的评价指标。

2019-11-06 17:01:01 CarryLvan 阅读数 53
  • 第一章:机器学习

    1. 介绍机器学习知识体系和学习路线 2. 机器学习的方向分析和介绍 3. 机器学习面临的核心问题,数据量,质量,特征,过拟合和欠拟合 4. 主要介绍二元分类使用,通过手写数字数据集 5. 分类问题性能考核,精度和召回,ROC曲线 6. 多分类和多标签分类器 7. 错误分析 8. MINST手写数字数据集入门案例 9. 垃圾邮件案例解析

    332 人正在学习 去看看 CSDN就业班

机器学习实战——ROC曲线和AUC值


近期在做机器学习实战上的项目时,讲解roc部分的代码没有理解,查阅相关博客资料后有所感悟理解,做下笔记记录一下。

1.查准率(Precision)和召回率(Recall)

通过一个例子来理解一下:我们现在需要判断一群病人中是否患有癌症。
在这里插入图片描述
上表中1表示患有癌症,0则不患有癌症。“True Positive”表示我们预测病人患有癌症,而事实是该病人确实有癌症的人数;“False Negative”表示我们预测病人没有癌症,但是事实上他却凡有癌症的人数;其他以此类推。
下面我用TP简写代表“True Positive”,其他也是。
接下来我们来看看查准率和召回率的定义:

1. 查准率(Precision) = TP/(TP+FP)
它表示的含义就是对于所有我们预测患有癌症的病人,到底有多大比例的病人是真正患有癌症的。

2. 召回率(Recall) = TP/(TP+FN)
召回率的含义是对于所有患有癌症的病人,有多少人我们可以正确的告诉他们需要治疗(即告诉他们患有癌症)。

上表也称为混淆矩阵(confusion matrix)

2.ROC曲线

先看到下图:
在这里插入图片描述
横轴表示假阳率(=FP/(TN+FP)),纵轴表示真阳率(=TP/(TP+FN))。
其中假阳率可以理解为对于所有没有患癌症的病人,我们却告诉病人患有癌症的比例;真阳率就是我们的查准率。
理想情况是假阳率很低的同时有很高的真阳率:很高的真阳率即对于那些患有癌症的病人我们都告诉他们患有癌症(避免了错过治疗);很低的假阳率即对于那些正常的病人我们正确告诉他们没有患癌症(如果错误告诉,可能会给病人带来极大的心理负担)。

如何绘制ROC曲线?
例如对于adaboost分类器,我们得到了每个样本的预测值的概率,通常是设置阈值为0.5,大于等于0.5的判定为1(正例),小于0.5的则为0(反例),然后我们便可以结合真实值计算出真阳率和假阳率,便得出了其中的一点。然后我们再通过设置不同的阈值得到多个点,即可绘制出我们的ROC曲线。
具体流程:
1.我们先通过分类器得出每个样本的预测强度(即概率大小)。
2.然后我们将所有样本按概率大小从小到大排序。
3.接着循环从最小的开始,取其值为我们的阈值,比阈值小的都预测为反例,比阈值大的预测为正例。因为我们每次都是从小到大遍历去取一个概率值作为阈值,相当于把这个样本从原来预测1变为预测0,然后结合真实值,如果真实值为1,我们以前预测为反例1现在预测0,则TP-1;如果真实值为0,我们以前预测为反例1,则FP-1

看代码:

	#cur[0]为真阳率,cur[1]为假阳率,初始都设为1
	cur = (1.0,1.0)
    ySum = 0.0
	#得到总的真实值为1的正例数目
	numPosClass = sum(array(classLabels)==1.0)
	#步长,真阳率每次分子减一(上面就是求得总的整理的数量,因此取倒数就行),横轴同理
    yStep = 1/float(numPosClass)
    xStep = 1/float(len(classLabels)-numPosClass)
    #predStrengths是一个向量,包含每一个样本的预测强度,这里我们从小到大排序
    #argsort()返回的是排序后每个元素在数组中的下标:例. [23,24,10,56,78]得到[2 0 1 3 4]
    sortedIndices = predStrengths.argsort()
    #构建画笔
    fig = plt.figure()
    fig.clf()
    ax = plt.subplot(111)
    #从最小的概率值开始遍历
    for index in sortedIndices.tolist()[0]:
    	#进行判断,如果真实值为1,在前面的循环中,也是将其预测为1,这轮循环则
    	#将其预测为0(因为阈值取该样本的概率值),也就是TP-1,真阳率的分子减一
        if classLabels[index] == 1.0:
            delX = 0; delY = yStep
        else:
            delX = xStep; delY = 0
            ySum += cur[1]
        ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c='b')
        #更新当前点,即
        cur = (cur[0] - delX, cur[1] - delY)

3.AUC值

AUC,Area Under the Curve,顾名思义AUC值使我们曲线线下所围成的面积。AUC给出的是分类器的平均性能值。

结合代码:
看到上面的代码,我们计算曲线围成的面积其实就是对多个小矩形进行累加,小矩形的宽度就是xStep,然后只需要将每个矩形的高度累加起来即可,只有当我们进行横轴的移动时才累加高度,看到上面因为纵轴减小时,横轴没变,此时相当于一条线,所以不需要累加。

机器学习之ROC曲线

阅读数 1139

没有更多推荐了,返回首页