精华内容
下载资源
问答
  • Lift提升度的计算逻辑是:在模型中算出来每个评分等级的分数,之后便将将打分后的样本按分数从低到高排序,取10或20等分,并将坏样本数与组内观察数作商,最后再将该值比各个自然分组与整体样本数的比值,这便是lift...

    Lift提升度的计算逻辑是:在模型中算出来每个评分等级的分数,之后便将将打分后的样本按分数从低到高排序,取10或20等分,并将坏样本数与组内观察数作商,最后再将该值比各个自然分组与整体样本数的比值,这便是lift提升值的概念。
    某公司中4个产品(a/b/c/d)中,dpd30+的逾期的情况,整体的dpd30+的逾期率为1.6%,将每组数值跟总体(也叫大盘,为1.6%)取比值,我们能计算出每一组风险倍数的数值(倍数即除平均)。

    result_df['风险倍数'] = result_df['bad_rate'] / bad_rate_avg   # 风险倍数
    

    负样本占比倍数:负样本占比/total负样本占比(类似有逾期倍数,风险倍数,累计负样本占比倍数)

    展开全文
  • 01什么是LiftLift是评估一个预测模型是否有效的一个度量;它衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,以1为界线,大于1...维基百科中提升度被解释为“Target response divided by ...

    01

    什么是Lift?

    Lift是评估一个预测模型是否有效的一个度量;它衡量的是一个模型(或规则)对目标中“响应”的预测能力优于随机选择的倍数,以1为界线,大于1的Lift表示该模型或规则比随机选择捕捉了更多的“响应”,等于1的Lift表示该模型的表现独立于随机选择,小于1则表示该模型或规则比随机选择捕捉了更少的“响应”。维基百科中提升度被解释为“Target response divided by average response”。

    02

    信用模型中的lift

    在模型评估中,我们常用到增益/提升(Gain/Lift)图来评估模型效果,其中的Lift是“运用该模型”和“未运用该模型”所得结果的比值。以信用评分卡模型的评分结果为例,我们通常会将打分后的样本按分数从低到高排序,取10或20等分(有同分数对应多条观测的情况,所以各组观测数未必完全相等),并对组内观测数与坏样本数进行统计。用评分卡模型捕捉到的坏客户的占比,可由该组坏样本数除以总的坏样本数计算得出;而不使用此评分卡,以随机选择的方法覆盖到的坏客户占比,等价于该组观测数占总观测数的比例(分子分母同时乘以样本整体的坏账率)。对两者取累计值,取其比值,则得到提升度Lift,即该评分卡抓取坏客户的能力是随机选择的多少倍。

    下表是一个提升表(Lift Table)的示例:

    以分数段为横轴,以捕捉到的“坏”占比为纵轴,可绘制出提升图,示例如下:

    以分数段为横轴,以提升度为纵轴,可绘制出累计提升图,示例如下:

    有了累计提升图,我们就能直观地去比较不同模型或策略给我们带来的区分能力增益程度。

    展开全文
  • 提升度,提升表和提升图 lift chart

    千次阅读 2019-10-31 16:56:40
    I) Lift提升指数)是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。 II) 一个简单的数字例子: i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告...

    Lift, Lift Table, and Lift Chart

    提升指数、提升表和提升图(草稿)

    胡江堂,北京大学软件与微电子学院

    2006-11-5

    1. 什么是Lift?

    I) Lift(提升指数)是评估一个预测模型是否有效的一个度量;这个比值由运用和不运用这个模型所得来的结果计算而来。

    II) 一个简单的数字例子:

    i. 比如说你要向选定的1000人邮寄调查问卷。以往的经验告诉你大概20%的人会把填好的问卷寄回给你,即1000人中有200人会对你的问卷作出回应(response),用统计学的术语,我们说baseline response rate是20%;

    ii. 如果你现在就邮寄问卷,1000份你期望能收回200份,这可能达不到一次问卷调查所要求的回收率,比如说工作手册规定邮寄问卷回收率要在25%以上;

    iii. 通过以前的问卷调查,你收集了关于问卷采访对象的相关资料,比如说年龄、教育程度之类。利用这些数据,你确定了哪类被访问者对问卷反应积极。假设你已经利用这些过去的数据建立了模型,这个模型把这1000人分了类,现在你可以从你的千人名单中挑选出反应最积极的100人来,这10%的人的反应率(response rate)为60%。那么,对这100人的群体(我们称之为Top 10%),通过运用我们的模型,相对的提升(gain or lift value)就为60%/20%=3;换句话说,与不运用模型而随机选择相比,运用模型而挑选有3倍的好处;

    iv. 类似地,对占总样本的任何比例的人群,我们都可以计算出相应的提升指数,比如说我们可以计算Top 20%的群体的提升指数。

    III) 一个结论就是,提升指数越大,模型的运行效果越好。

    2. 建立Lift Table 的步骤(并画出Lift Chart),以验证信用评分模型为例:

    I) 利用已经建立的评分模型,对我们要验证的样本进行评分。样本下的每一个个体都将得到一个分数,或者是违约概率,或者是一个分值;

    II) 对样本按照上面计算好的分数进行降序排序;

    III) 把已经排好序的样本依次分成10个数量相同的群体,我们就建立了一个叫decile的变量,它依次取10个值,1、2、3、4、5、6、7、8、9、10,diclie1包括违约概率值较高的10%的个体,diclie2包括下一个10%的群体,以此类推;

    IV) 帐户总数是每个decile下的样本数,它是整个样本数的10%;

    V) 边际坏账数是每个decile内违约的人数,就是说,利用我们的评分模型,在decile1,有25个人违约,以此类推;

    VI) 累计坏账数,45表明前两个decile内共有45个人违约,以此类推;

    VII) 边际坏账率是每个decile内坏账的比率。对decile1,边际坏账率由25/100得来;

    VIII) 对每一个加总的decile,都计算一个累计坏账率,比如说,对前两个decile,也就是整个样本的20%,累计坏账率等于(25+20)/(100+100);

    IX) 在每个decile里,提升指数(Lift)就是相应的累计坏账率与平均坏账率的偏离程度,计算公式是(累计坏账率-平均坏账率)/平均坏账率,习惯上还会乘上一个100。

    X) 注:在一些处理中,提升指数直接由每个decile的累计坏账率除以平均坏账率得来,它们之间就相差1,一个是相对偏离,一个是偏离。

    XI) 就我们考察的信用评分模型,它的目的就是尽可能把人群区别来开来,比如说“好”的顾客、 “坏”的顾客。提升指数越大,表明模型运作效果越好。

    表1:Lift Table

    (注:该表内数字纯粹为了演示,没有任何实际背景)

    图1:Lift Chart

    3. 参考资料

    I) Bruce Ratner, Decile Analysis Primer: Cum Lift for Response Model.

    http://www.dmstat1.com/res/DecileAnalysisPrimer.html

    II) Howard J. Hamilton. Cumulative Gains and Lift Charts

    http://www2.cs.uregina.ca/~hamilton/courses/831/notes/lift_chart/lift_chart.html

    III) David S. Coppock. Data Modeling and Mining: Why Lift?

    http://www.dmreview.com/article_sub.cfm?articleId=5329

    IV) Lift Chart. See Thomas Hill, Paul Lewicki. Statistics: Methods and Applications.

    http://www.statsoft.com/textbook/glosl.html

    V) 冯慧,“信用卡业务与系统”,北京大学软件与微电子学院,2006年秋季学期,课堂笔记

    Technorati Tags: 提升表提升指数lift chartlift信用评分credit scoringdecile

    展开全文
  • 一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。 Support(支持度):表示同时包含A和B的事务占所有事务的比例。如果用P(A)表示使用A事务...Lift提升度):表示“包含A的...

    一、支持度、置信度和提升度

    通过分析超市的购物篮,如果我们发现商品X和Y被顾客同时购买的频率很高,那么就可以做如下操作:

    • 把购买商品Y的顾客视为商品X的广告宣传对象;
    • 把商品X和Y摆放在同一个货架上,以刺激购买其中一款商品的顾客同时购买另一款商品;
    • 把商品X和Y合并成一款新商品,比如具有Y口味的X。

    关联规则可用于揭示商品之间的关联信息,从而增加销售利润。不仅如此,关联规则还可以用于其他领域。比如,在医疗诊断中,了解共病症状有助于改善治疗效果。

    一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。

    Support(支持度):表示某个项集出现的频率,也就是包含该项集的交易数与总交易数的比例。例如P(A)表示项集A的比例,P(A\cap B)表示项集A和项集B同时出现的比例。
    Confidence(置信度):表示当A项出现时B项同时出现的频率,记作{A→B}。换言之,置信度指同时包含A项和B项的交易数与包含A项的交易数之比。公式表达:{A→B}的置信度=P(B\mid A)=P(A\cap B)/P(A)
    Lift(提升度):指A项和B项一同出现的频率,但同时要考虑这两项各自出现的频率。公式表达:{A→B}的提升度={A→B}的置信度/P(B)=P(B\mid A)/P(B)= P(A\cap B)/(P(A)*P(B))
    提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。负值,商品之间具有相互排斥的作用。

    案例1:

    有以下一份购物交易记录:

    表格中一条记录代表一条购物交易记录,在这里我们明确几个定义:

    • 事务:每一条交易称为一个事务,例如:上表中包含8个事务。
    • :交易中的每一个物品称为一个项,例如:苹果、啤酒。
    • 项集:包含零个或者多个项的集合叫做项集,例如{苹果,啤酒} 、{牛奶,啤酒,米饭}。
    • k-项集:包含k个项的项集叫做k-项集。例如{苹果}叫做1-项集,{牛奶,啤酒,米饭}叫做3-项集。
    • 前件和后件:对于规则{苹果}->{啤酒},{苹果}叫前件,{啤酒}叫后件。

    接下来我们来介绍度量关联规则的三个指标(支持度、置信度和提升度):

    • 支持度:{苹果}在8次交易中出现了4次,所以其支持度为50%。一个项集也可以包含多项,比如{苹果,啤酒,米饭}的支持度为2/8,即25%。可以人为设定一个支持度阈值,当某个项集的支持度高于这个阈值时,我们就把它称为频繁项集
    • 置信度:{苹果→啤酒}的置信度=(支持度{苹果,啤酒}/支持度{苹果})=3/4,即75%。置信度有一个缺点,那就是它可能会错估某个关联规则的重要性。只考虑了苹果的购买频率,而并未考虑啤酒的购买频率。如果啤酒也很受欢迎(支持度很高),如上表,那么包含苹果的交易显然很有可能也包含啤酒,这会抬高置信度指标。关于置信度的局限,我们会在后面的篇幅继续讨论。
    • 提升度:{苹果→啤酒}的提升度等于{苹果→啤酒}的置信度除以{啤酒}的支持度,(\frac{3}{4})/(\frac{3}{4})=1,{苹果→啤酒}的提升度等于1,这表示苹果和啤酒无关联。{X→Y}的提升度大于1,这表示如果顾客购买了商品X,那么可能也会购买商品Y;而提升度小于1则表示如果顾客购买了商品X,那么不太可能再购买商品Y。

    案例2:置信度的局限——错估某个关联规则的重要性。

    表1  与啤酒相关的3个关联规则

    表2 各商品在与啤酒相关的关联规则中的支持度 

    {啤酒→汽水}规则的置信度最高,为17.8%。然而,在所有交易中,二者出现的频率都很高(如表2所示),所以它们之间的关联可能只是巧合。这一点可以通过其提升度为1得到印证,即购买啤酒和购买汽水这两个行为之间并不存在关联。

    另一方面,{啤酒→男士护肤品}规则的置信度低,这是因为男士护肤品的总购买量不大。尽管如此,如果一位顾客买了男士护肤品,那么很有可能也会买啤酒,这一点可以从较高的提升度(2.6)推断出来。{啤酒→浆果}的情况则恰好相反。从提升度小于1这一点,我们可以得出结论:如果一位顾客购买了啤酒,那么可能不会买浆果。

    虽然很容易算出各个商品组合的销售频率,但是商家往往更感兴趣的是所有的热销商品组合。为此,需要先为每种可能的商品组合计算支持度,然后找到支持度高于指定阈值的商品组合。

    案例3:提升度和零事务的关系

    10000个超市订单(10000个事务),其中购买三元牛奶(A事务)的6000个,购买伊利牛奶(B事务)的7500个,4000个同时包含两者。
    那么通过上面支持度的计算方法我们可以计算出:
    三元牛奶(A事务)和伊利牛奶(B事务)的支持度为:P(A \cap B)=4000/10000=0.4.
    三元牛奶(A事务)对伊利牛奶(B事务)的置信度为:包含A的事务中同时包含B的占包含A的事务比例。4000/6000=0.67,说明在购买三元牛奶后,有0.67的用户去购买伊利牛奶。
    伊利牛奶(B事务)对三元牛奶(A事务)的置信度为:包含B的事务中同时包含A的占包含B的事务比例。4000/7500=0.53,说明在购买伊利牛奶后,有0.53的用户去购买三元牛奶。

    在没有任何条件下,B事务的出现的比例是0.75,而出现A事务,且同时出现B事务的比例是0.67,也就是说设置了A事务出现这个条件,B事务出现的比例反而降低了。这说明A事务和B事务是排斥的。
    下面就有了提升度的概念。
    我们把0.67/0.75的比值作为提升度,即P(B|A)/P(B),称之为A条件对B事务的提升度,即有A作为前提,对B出现的概率有什么样的影响,如果提升度=1说明A和B没有任何关联,如果<1,说明A事务和B事务是排斥的,>1,我们认为A和B是有关联的,但是在具体的应用之中,我们认为提升度>3才算作值得认可的关联。
    提升度是一种很简单的判断关联关系的手段,但是在实际应用过程中受零事务的影响比较大,零事务在上面例子中可以理解为既没有购买三元牛奶也没有购买伊利牛奶的订单。数值为10000-4000-2000-3500=500,可见在本例中,零事务非常小,但是在现实情况中,零事务是很大的。在本例中如果保持其他数据不变,把10000个事务改成1000000个事务,那么计算出的提升度就会明显增大,此时的零事务很大(1000000-4000-2000-3500),可见提升度是与零事务有关的,零事务越多,提升度越高

    将事务改成1000000个:

    P(A)=6000/1000000=0.006

    P(B)=7500/1000000=0.0075

    Support(支持度):P(A\cap B)=4000/1000000=0.004

    Confidence(置信度):P(B\mid A)=P(A\cap B)/P(A)=0.004/0.006=0.67

    Lift(提升度):P(B\mid A)/P(B)=0.67/0.0075

    零事务:1000000-4000-2000-3500=990500,可见零事务的个数提升之后,提升度越高。

    二、先验原则

    即使只有10种商品,待检查的总组合数也将高达1023(即210-1)。如果有几百种商品,那么这个数字将呈指数增长。显然,我们需要一种更高效的方法。

    要想减少需要考虑的项集组合的个数,一种方法是利用先验原则。简单地说,先验原则是指,如果某个项集出现得不频繁,那么包含它的任何更大的项集必定也出现得不频繁。这就是说,如果{啤酒}是非频繁项集,那么{啤酒,比萨}也必定是非频繁项集。因此,在整理频繁项集列表时,既不需要考虑{啤酒,比萨},也不需要考虑其他任何包含啤酒的项集。

    遵循如下步骤,可以利用先验原则得到频繁项集列表。

    步骤1:列出只包含一个元素的项集,比如{苹果}和{梨}。

    步骤2:计算每个项集的支持度,保留那些满足最小支持度阈值条件的项集,淘汰不满足的项集。

    步骤3:向候选项集(淘汰步骤2不满足的项集后的结果)中增加一个元素,并利用在步骤2中保留下来的项集产生所有可能的组合。

    步骤4:重复步骤2和步骤3,为越来越大的项集确定支持度,直到没有待检查的新项集。

    下图描绘了利用先验原则对候选项集进行大幅精简的过程。如果{苹果}的支持度很低,那么它及其他所有包含它的候选项集都会被移除。这样一来,待检查项集的数量就减少了一大半。

    除了识别具有高支持度的项集之外,先验原则还能识别具有高置信度或高提升度的关联规则。一旦识别出具有高支持度的项集,寻找关联规则就不会那么费劲了,这是因为置信度和提升度都是基于支持度计算出来的。

    举个例子,假设我们的任务是找到具有高置信度的关联规则。如果{啤酒,薯片→苹果}规则的置信度很低,那么所有包含相同元素并且箭头右侧有苹果的规则都有很低的置信度,包括{啤酒→苹果,薯片}和{薯片→苹果,啤酒}。如前所述,根据先验原则,这些置信度较低的规则会被移除。这样一来,待检查的候选规则就更少了。

    三、局限性

    计算成本高:尽管利用先验原则可以减少候选项集的个数,但是当库存量很大或者支持度阈值很低时,候选项集仍然会很多。一个解决办法是,使用高级数据结构对候选项集进行更高效的分类,从而减少比较的次数。

    假关联:当元素的数量很大时,偶尔会出现假关联。为了确保所发现的关联规则具有普遍性,应该对它们进行验证(详见机器学习的交叉验证)。

    尽管有上述局限性,但在从中等规模的数据集中识别模式时,关联规则仍然是一个很直观的方法。

    【扩充】

    案例4:超市关联规则的应用分析实例

    参考书目:

    《啤酒与尿布》.高勇.2008-11-1

    《白话机器学习算法》.[新加坡]黄莉婷,[新加坡]苏川集.2019-03

     

     

     

     

    展开全文
  • 判断关联规则是否可靠-提升度 lift,KULC,IR 在所分析的10000个事务中,6000个事务包含计算机游戏,7500个包含游戏机游戏,4000个事务同时包含两者。 关联规则(计算机游戏,游戏机游戏) 支持度为0.4,看似...
  • 本篇的code和data: GitHub 关联规则是在data mining尤其是探究...关联规则的量度有三个,支持度(support),置信度(confidence),提升度Lift)。 支持度(support) 假设我们这里研究销售A商品会不会带来B商品的提
  • 1. 支持度(Support) 支持度是两件商品(X∩Y)在总销售...3. 提升度Lift提升度表示先购买其中一个商品对购买购买另一个商品的概率的提升作用,用来判断规则是否有实际价值,即使用规则后商品在购物车中出现
  • 一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。 Support(支持度):表示同时...Lift提升度):表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公
  • 【统计分析】关联规则之置信度,支持度,提升度

    万次阅读 多人点赞 2018-09-12 14:58:36
    这三个指标是:Support(支持度)、Confidence(置信度)、Lift提升度)。 以A,B这个关联规则为例来说明: Support(支持度): 表示A、B同时使用的人数占所有用户数(研究关联规则的“长表”中的...
  • 支持度,置信度,提升度

    千次阅读 2016-11-12 12:24:17
    例题: ...Confidence(X→Y) = 450 / 500 = 90%茶叶→咖啡“的提升度Lift(X→Y) = Confidence(X→Y) / P(Y) = 90% / ((450+450) / 1000) = 90% / 90% = 1 其中,P(Y) = 买了咖啡的人数/总人数。
  • 关联规则下的几个参数: 支持度(Support):表示A和B同时使用的人数占所有用户数的...提升度Lift):表示“使用A的用户中同时使用B的比例”与“使用B的比例”的比值,那么lift = (P (A&B) / P(A)) /P(B) ...
  • 目录 1. 支持度(Support) 2. 置信度 (Confidence) ...3. 提升度Lift) 1. 支持度(Support) 支持度表示项集{X,Y}在总项集里出现的概率。公式为: Support(X→Y) = P(X,Y) / P(I) = P(XY) / P(I) = ...
  • 关联规则的强度用支持度(support)和自信度(confidence)来描述,关联规则是否可用,使用提升度(Lift)来描述。 挖掘定义 给定一个数据集,找出其中所有支持度support>=min_support,自信度confidence>=min_...
  • lift提升度):类似提纯 lift越高,模型提纯效果越好 区分有监督和无监督算法是看对训练数据是否打标签 决策树可以分为分类树和回归树 分类树:因变量是离散的为分类树 回归树:因变量是连续的为回归树 多分类问题...
  • 再说说提升水平lift这个参数。 假定设定规则的最小阀值为支持30%,置信为60%,然后你得到了很多的强关联规则。比如有这么一条,总数据10000个,A商品6000个,B商品7500个,然后同时购买A和B的4000个。我们...
  • 关联规则

    2020-08-31 01:33:44
    3.提升度Lift提升度表示含有X的条件下,同时含有Y的概率,与只看Y发生的概率之比。提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1...
  • 关联分析:设置取值范围为[0%,100%]的最小支持度阈值min_sup和最小信任度阈值min_confid,提升度lift要大于1才有意义。 9.1.2Apriori算法的R语言实现 arules包的apriori函数,构建稀疏矩阵并转化为apriori函数
  • 关联规则学习

    2014-01-03 16:23:14
    主要的指标包括:支持度support,置信度confidence,提升度lift。对于一个二项规则例如“A→B”,支持度是指A与B同时出现的概率,即P(A B);置信度是B关于A的条件概率,即P(B | A);提升度是B的概率的提升,即P(B |...
  • 关联规则 大部分关联规则挖掘最终得出的是支持度与置信度。但是“强”关联规则不一定是正确的,这是因为这件事务的支持度...提升度lift(A,B)=conf(A=>B)/sup(B)lift(A,B)=conf(A=>B)/sup(B) 卡方 X2=观测值−期望
  • 6.关联分析

    2018-10-20 16:46:05
    #提升度lift):表示在含有X的条件下同时含有Y的可能性与没有这个条件下项集中含有Y的可能性之比 #####6.2 R中的实现##### #install.packages("arules") library(arules) #提供Apriori和Eclat算法 ###...
  • R语言学习_关联规则

    2019-04-08 17:36:43
    关联规则 挖掘目的 发现商品之间的关系模式 指标 支持度 support(x) = P(x) ... 提升度 lift(X -> Y) = confidence(X -> Y)/support(Y) 关联规则 最小支持度阈值、最小置信度阈值 Apriori算...

空空如也

空空如也

1 2 3
收藏数 49
精华内容 19
关键字:

lift提升度