精华内容
下载资源
问答
  • 模型评价方法

    2019-03-11 21:33:15
    模型评价方法 https://www.jianshu.com/p/b4d40760156c?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
    展开全文
  • 机器学习模型评价方法 回归和分类模型的评价指标 回归模型的几个评价指标: 对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程: SSE(误差平方和):The sum of ...

    机器学习模型评价方法
    回归和分类模型的评价指标 回归模型的几个评价指标: 对于回归模型效果的判断指标经过了几个过程,从SSE到R-square再到Ajusted R-square, 是一个完善的过程: SSE(误差平方和):The sum of squares due to error R-square(决定系数):Coefficient of determination Adjusted R-square(校正决定系数):Degree-of-freedom adjusted coefficient of determination

    分类模型的评价指标 TP(实际为正预测为正),FP(实际为负但预测为正),TN(实际为负预测为负),FN(实际为正但预测为负) 查全率(召回率,recall):样本中的正例有多少被预测准确了,衡量的是查全率,预测对的正例数占真正的正例数的比率: 查全率= TP / (TP+FN) 准确率:反映分类器统对整个样本的判定能力,能将正的判定为正,负的判定为负的能力,计算公式: Accuracy=(TP+TN) / (TP+FP+TN+FN)

    1. 混淆矩阵—确定截断点后,评价学习器性能
      1. ROC曲线, AUC —评价学习器性能,检验分类器对客户进行正确排序的能力 ROC曲线描绘的是不同的截断点时,并以FPR和TPR为横纵坐标轴,描述随着截断点的变小,TPR随着FPR的变化。 纵轴:TPR=正例分对的概率 = TP/(TP+FN),其实就是查全率 横轴:FPR=负例分错的概率 = FP/(FP+TN)
      1. KS曲线,KS值—学习器将正例和反例分开的能力,确定最好的“截断点” KS曲线和ROC曲线都用到了TPR,FPR。 KS曲线是把TPR和FPR都作为纵坐标,而样本数作为横坐标。TPR和FPR曲线分隔最开的位置就是最好的”截断点“, 最大间隔距离就是KS值,通常>0.2即可认为模型有比较好偶的预测准确性
    展开全文
  • 模型评价方法总结

    千次阅读 2019-02-17 21:15:25
    本文将简单综述模型评价的各种方法。 对于模型的评价,主要分为2个角度:一个是模型的Discrimination(区分度),或称预测精度,评价的指标包括AUC、C指数、NRI等;另一个是Goodness of Fit(拟合优度),或称...

    模型构建好后,如何判断这个模型好不好?或者说,对于两个模型,如何判断哪个模型更好呢?本文将简单综述模型评价的各种方法。

    对于模型的评价,主要分为2个角度:一个是模型的Discrimination(区分度),或称预测精度,评价的指标包括AUC、C指数、NRI等;另一个是Goodness of Fit(拟合优度),或称Calibration(校准度),评价指标包括AIC、BIC、R方、Brier分数等。根据实际问题的不同,对这两方面的重视程度有所不同。一般来说,大多数情景更加注重Discrimination,也就是说,往往先应满足Discrimination的能力较高后,再评价Calibration表现能力。

     

    区分度

    区分度评价的是模型预测结果准确性(分类问题中就是指分类正确的能力)。

    AUC:二分类问题中最常用的指标,详情可参考二分类模型AUC评价法生存模型的AUC

    C指数:又称一致性指数(concordance index),生存模型中最常用的指标(二分类问题中指的就是AUC),详情可参考生存模型的C指数

    NRI:即净重新分类改善指数,用于比较2个模型孰优孰劣,本质上是两个模型的约登指数之差,详情可参考NRI 净重新分类改善指数

    IDI:Integrated Discrimination Improvement,即综合判别改善指数,是2008年Pencina等人提出的一个非常新的指标,是对AUC和NRI的综合改善,详情可参考IDI 综合判别改善指数

    其他:约登指数、敏感度、特异度等请自行查找资料理解。

     

    拟合优度或校准度

    AIC:全称Akaike information criterion,又称赤池信息准则,建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性(可以在参数数量和拟合能力之间权衡分析)。增加自由参数的数目提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。假设在n个模型中做出选择,可一次算出n个模型的AIC值,并找出最小AIC值相对应的模型作为选择对象。赤池信息准则的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

    BIC:与AIC一样是对模型的拟合效果进行评价的一个指标,BIC值越小,则模型对数据的拟合越好。

    Hosmer–Lemeshow:The Hosmer–Lemeshow test是评价logistic regression models拟合优度的常用方法,常在风险预测模型中使用。

    Brier分数:是probability calibration中常用的评价指标,详情可参考概率校准 Probability Calibration

     

    其他:简单的如MSE、R方等,此处不作描述,网上资料很多,而其他较复杂的本人暂时接触较少,请自行查阅学习。

    展开全文
  • 点击「京东数科技术说」可快速关注「摘要」本文是模型评价方法的第一篇,主要介绍了混淆矩阵和ROC曲线相关概念,附带部分基于作者个人经验的理解,如有不足之处还请指正。在模型开发完成之后,...

     点击「京东数科技术说」可快速关注

    「摘要」本文是模型评价方法的第一篇,主要介绍了混淆矩阵和ROC曲线相关概念,附带部分基于作者个人经验的理解,如有不足之处还请指正。

     

    在模型开发完成之后,一个必不可少的步骤是对建立的模型进行评估,评估其是否满足使用的需要。模型评估有着一套相对标准的模型评价指标,现在按照不同的模型类型进行描述。

    混 淆 矩 阵

    关于二分类模型的评价指标,混淆矩阵(Confusion Matrix)可以解释大部分的概念,如下所示:

    • TP(True Positive): 真实为1,预测也为1,上表中的a

    • FN(False Negative): 真实为1,预测为0,上表中的b

    • FP(False Positive): 真实为0,预测为1,上表中的c

    • TN(True Negative): 真实为0,预测也为0,上表中的d

    基于混淆矩阵衍生的模型评价指标有:

    准确率(accuracy)衡量的是分类正确的样本占总样本数量的比例。在一定情况下,准确度可以很好的评价模型的效果,但是,在某些情况下,其评价效果可能会有差异。比如在样本比例相差过大时(原样本为1的样本占总样本数99%),将所有的样本均判定为1的分类器将取得99%的accuracy,将远远好于其它分类器大量训练所得到的结果。故在此基础上,从不同方面出发,有不同的衡量指标。

    precision是预测为1的样本里面,真实标签为1的样本占比。recall是实际为1的样本里,预测为1的概率。在通常情况下,precision高时recall偏低,recall高时precision偏低。以挑选西瓜为例,如果以precision作为衡量标准,则尽可能的选取有把握好的西瓜,这样a和c就会相对较小,b和d相对较大,则Recall较低。如果以recall为衡量标准,则是希望尽可能的将好瓜选出来,错判相对会较多,故a和c相对较大,b和d相对较小,故precision相对会降低。

    在不同的使用场景下,对于precision和recall各有侧重。以信贷领域为例,在进行信用评级时,我们希望precision尽可能的大,才能尽可能的避免资金的损失。在进行信贷营销时,我们希望recall尽可能的大,才能营销到足够多的目标群体。

    对于一般来说,为了平衡precision和recall,可以采用F score作为评价标准

    F1的值同时受precision和recall的影响,取值范围为0到1 ,越大代表模型效果越好。

    ROC 曲 线

    对于二分类模型来说,输出结果标签(0还是1)往往取决于输出的概率以及预定的概率阈值,常见的阈值是0.5,输出概率大于0.5的判定为正样本,小于0.5的判定为负样本。如果增大阈值,对应的预测为正的样本数会减少,一般而言,precision会升高而recall降低;如果减小阈值,对应的预测为正的样本数会增加,precision会降低而recall升高。实际上,阈值的选取一定程度上影响了分类器的分类能力。我们希望一个好的分类器,在任何阈值情况下,都能有一个比较好的效果。为了衡量这个不区分阈值的分类器优劣,ROC曲线表现出很好的区分能力。

    上面第一个图两个分布分别为负样本和正样本的概率分布,横坐标为最后模型的打分,中间的竖线表示阈值。可以看到,随着阈值的上升,TN和FN增大,TP和FP减小。第二个图画出了ROC曲线,ROC曲线横轴表示FPR(False Postive Rate),即,代表分类器中预测的正类中实际负实例占所有负实例的比例,纵轴表示TPR(True Postive Rate),即代表分类器预测的正类中实际正实例占所有正实例的比例。由定义可见,随着阈值的增高,TPR和FPR均下降,对于FPR,我们希望其越小越好,对于TPR,我们希望其越大越好。将一个模型不同阈值情况用线串联起来,得到的曲线就是ROC曲线,ROC曲线越靠近左上角,模型效果越好,曲线下面积记为AUC,AUC越大,表示模型整体区分效果越好。

    模型评价方法多种多样,在不同的使用场景下各有偏重,在实际业务上,需要根据当前业务发展情况,选择合适的评价方法和模型。

                                           

     关于我们

    京东数科运营决策团队基于大数据环境,结合丰富的业务场景,利用机器学习专业技术,不断挖掘海量数据中蕴含的丰富信息,我们已将一系列机器学习模型应用到多个领域中,并且坚持在算法深度的道路上持续探索,致力于对未知信息和事件做出更精准预测,使业务运营策略更加精准有效。



    京东数科技术说&技术课堂

       ▼▼▼     

    由京东数科-技术研发部策划组织

    倡导“原创·实用·技术·专业”

    致力于分享技术领域实战经验与技术干货

    线上订阅“京东数科技术说”,线下聆听“技术课堂”

    为加强技术分享、总结沉淀,提升数科技术影响力而搭建的

    线上线下融合交流平台

    不只一技之长 · 我有N技在手

     咨询、建议、合作请联系:

    刘嘉璐(liujialu)/张明瑛(zhangmingying3)

    长按识别二维码关注我们

    展开全文
  • ROC曲线是一种非常有效的模型评价方法,可为选定临界值给出定量提示。将灵敏度(sensitivity)设在纵轴,1-特异性(1-Specificity)设在横轴,就可得出ROC曲线图。该曲线下的积分面积(Area)大小与每种方法优劣密切...
  • 二分类模型评价方法

    千次阅读 2019-01-16 22:17:29
    本文介绍二分类模型评价指标。 from sklearn import metrics y_pred = [0, 1, 0, 0] #模型的预测输出 y_true = [0, 1, 0, 1] #真实值 二分类模型中可能的分类结果如下图的混淆矩阵,混淆矩阵涵盖了二分类...
  • 多分类模型评价方法

    千次阅读 2019-01-18 08:00:57
    1、准确率 metrics.accuracy_score(y_true=y_true, y_pred=y_pred) 2、平均准确率 针对不平衡数据,对n个类,分别计算每个类别的准确率,然后求平均...3、基于相似度的评价指标 3.1 log-loss 指示矩阵Y(N...
  • 该文基于链路预测 理论,采用极大似然估计思想建立了一套用于评价网络演化模型的体系。在基于自治系统的数据实验中,比较了GLP和Tang 两个演化模型,结果显示GLP优于Tang,而且得到的最优参数也与其提出者给出的均不相同...
  • 多标签模型评价方法

    千次阅读 2019-01-18 22:30:51
    每一个事物可能对应多个...1、基于相似度的评价指标 1.1 hamming_loss metrics.hamming_loss(np.array([[0, 1], [1, 1]]), np.zeros((2, 2))) 1.2 jaccard_similarity_score metrics.jaccard_similarity_score...
  • 目前常用的医学图像评价方法有:calibration (曲线), discrimination, and clinical usefulness(临床应用)三大类。 calibration: Calibration curves,hosmer-lemeshow test discrimination: Harrell's C-...
  • 诊断图 分类: 基于预测的模型诊断图 基于残差的模型诊断图 基于贝叶斯估算的模型诊断图 ...如果群体预测值偏差较大,则需要优化基础模型(结构模型或统计学模型)。将基础模型与最终模型的DV-PRED图进行比较,通常
  • 文章目录一、分类评价指标1.精确率(Precision)2.召回率(Recall)3.准确率(Accuracy)4.F1_score二、回归评价指标1.平方根误差(RMSE)2.均方误差(MSE)3.平均绝对误差(MAE)4.R方值(R2_score) 一、分类评价指标 混淆矩阵 ...
  • # 假设模型对两个单词预测时,产生的logit分别是[2.0, -1.0, 3.0]和[1.0, 0.0, -0.5] # 注意这里的logit不是概率,因此它们不是0.0~1.0范围之间的数字。如果需要计算概率, # 则需要调用prob=tf.nn.softmax(logits)...
  • TOPSIS评价模型方法

    2018-10-19 12:37:08
    用于数据处理与建立数学模型,TOPSIS方法的详细步骤及举例,
  • 分类模型评价方法

    2018-11-12 11:25:55
    机器学习中对于分类模型常用混淆矩阵来进行效果评价,混淆矩阵中存在多个评价指标,这些评价指标可以从不同角度来评价分类结果的优劣,以下内容通过简单的理论概述和案例展示来详细解释分类模型中混淆矩阵的评价指标...
  • 介绍了洁净煤技术评价模型CCTM的评价指标体系和建模方法.采用生命周期理念LCA和3E(能源、环境、经济)方法形成CCTM模型,可对18项洁净煤技术进行技术、经济、环境和社会综合评价,并能对同类技术及不同技术路径进行比较...
  • 综合评价方法的基本概念,评价指标的规范化处理,综合评价的数学模型构建,动态加权综合评价方法,长江水质的综合评价模型
  • 机器学习模型评价指标和方法

    万次阅读 多人点赞 2016-09-18 15:04:55
    ... 对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。 对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微...
  • 模型评价 基本概念 True negative(TN),称为真阴率,实际是负样本预测成负样本的样本数 False positive(FP),称为假阳率,实际是负样本预测成正样本的样本数 False negative(FN),称为假阴率,实际是正样本预测成负...
  • 基于投影寻踪聚类评价方法的课程体系合理性评价模型研究,艾静,,为了克服以往课程体系评价中的主要依靠主观判断来进行分析评价的缺点,本文提出了基于遗传算法的投影寻踪聚类评价的新方法,构建
  • ICM MCM评价模型经典方法\灰色系统基本方法
  • 有三个指标判断人工智能训练模型的单方面好坏 正确率(accuracy) = TP+TN/TP+FN+FP+TN 精确率(precision) = TP/TP+FP 召回率(recall) = TP/TP+FN 一、F1值 F值是精确率和召回率的调和平均 F1值...
  • 提出一种停车设施片区优化指引的模型方法,以首选停车场和备选停车场的平面距离最小为目标函数,在泊位饱和度和车辆接受停放概率等约束条件下,建立...说明停车片区停车指引模型和模糊优选评价方法能够成功地应用实施。
  • 评价参数 高偏差和高方差 机器学习中的高偏差指的是模型的损失函数校验中,训练集和测试集error大,模型欠拟合;高方差是指训练集的error小,测试集的error大,模型过拟合。通俗来说,高偏差问题就是采用训练集训练...
  • 模型评价指标

    2021-01-21 16:42:31
    在此总结一下基本的模型评价指标和使用方法: 附上几个写的比较清晰的博客: 常见的回归评价 一文读懂分类算法常用评价指标 解sklearn中logloss的计算过程 评价指标的选择是很重要的 回归问题 MSE(均方误差) 真实...
  • 论文研究-经济系统发展动力结构优化模型评价方法.pdf, 以产出型生产函数为基础构建了目标函数为人均增长速度最大的经济系统发展动力结构优化模型 ,给出了最优动力结构...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,715
精华内容 2,686
关键字:

模型评价方法