精华内容
下载资源
问答
  • WOE全称为 Weight Of Evidence,即证据权重,就是自变量取某个值时对目标变量的...IV信息值,IV仅仅针对二元分类的目标值和名义变量,当应用于顺序变量时,顺序将会被忽略,该变量会当做名义变量来使用;(k为变量的...

    WOE全称为 Weight Of Evidence,即证据权重,就是自变量取某个值时对目标变量的影响

    a1d1345f670ad209921c70ca345a1108.png

    good_i和bad_i是该变量在各属性上对应的好客户数和坏客户数,good和bad是样本总体好客户数和坏客户数;WOE值越高,代表着该组对应的变量属性是坏客户的风险越低;

    IV信息值,IV仅仅针对二元分类的目标值和名义变量,当应用于顺序变量时,顺序将会被忽略,该变量会当做名义变量来使用;

    b5e7ee5273fa2c9c566461aa1514f47a.png

    (k为变量的类别数)

    从公式可以看出,IV值是基于WOE计算的,相当于WOE的加权求和。其值的大小决定了自变量对目标变量的影响程度。

    通常情况下,IV<0.02时无预测能力,IV>0.3时,预测能力强。

    1702309c9cc37296bfe31b1eaf134459.png

    WOE和IV值和其他筛选变量方法相比有以下两点优势:

    1. 它可以对所有分类变量,顺序变量以及连续变量(需分箱)统一进行预测能力的计量。
    2. 可以对缺失值进行处理,将其看作一类即可分析信息缺失对于风险是否有影响

    示例Python实现:

    将逾期天数>90的客户定义为坏客户1,其余为0;取学历和逾期天数,观测学历的信息值

    df['y']= df[‘逾期天数’].apply(lambda x : 1 if x>90 else 0) df1 = pd.concat([df[‘学历’],df['y],axis=1)

    计算学历各分类对应的总数和坏客户数

    total = df1.groupby(‘学历’)[‘y’].count() total = pd.DataFrame({“total” : total}) totalbad = df1.groupby(‘学历’)[‘y’].sum() bad = pd.DataFrame({“bad” : bad})bad
    94a90e5b3cfd0e6c2723f36a299a2e3f.png
    cffc0d4f07f83a65e797bcc2fd9bdec9.png

    合并数据集,计算好客户数,和学历各分类对应的坏客户比例和好客户比例

    regroup = total.merge(bad, how=’left’, left_index=True,right_index=True) regroup.reset_index(inplace=True)regroup[‘good’]= regroup[‘total’] - regroup[‘bad’] B = regroup[‘bad’].sum() G = regroup[‘good’].sum()  regroup[‘good_p’] = regroup[‘good’].apply(lambda x : x 1.0/G)  regroup[‘bad_p’] = regroup[‘bad’].apply(lambda x : x1.0/B)

    计算WOE和IV

    regroup[‘woe’] = regroup.apply(lambda x : np.log(x.good_p/x.bad_p),axis=1) IV = regroup.apply(lambda x : (x.good_p - x.bad_p)*np.log(x.good_p/x.bad_p),axis=1) IV =sum(IV)
    055155098ef34f8bc86ed8c3d5f4586e.png

    IV值等于0.155,对是否是坏客户有一定的预测能力。

    展开全文
  • IV值和WOE值的理解

    2019-06-14 09:37:43
    这篇文章是我认为对IV和WOE解释比较好的博客,在做信贷领域风控建模的时候,我们针对评分卡模型,一般性的将数据自变量与因变量之间通过IV值做一次筛选,为便于以后查阅,自己全篇抄录下来,如有其他需要,请联系该...

    转自:https://blog.csdn.net/iModel/article/details/79420437

    这篇文章是我认为对IV和WOE解释比较好的博客,在做信贷领域风控建模的时候,我们针对评分卡模型,一般性的将数据自变量与因变量之间通过IV值做一次筛选,为便于以后查阅,自己全篇抄录下来,如有其他需要,请联系该文章原作者,谢谢。

    这里写图片描述

    现在开始本文正文:

    1.IV的用途

    IV的全称是Information Value,中文意思是信息价值,或者信息量。

    我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?

    挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等。但是,其中最主要和最直接的衡量标准是变量的预测能力。

    “变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量的预测能力。类似的指标还有信息增益、基尼系数等等。

    2.对IV的直观理解

    从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

    3.IV的计算

    前面我们从感性角度和逻辑层面对IV进行了解释和描述,那么回到数学层面,对于一个待评估变量,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。

    3.1WOE

    WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。

    要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:

    其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。

    从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

    对这个公式做一个简单变换,可以得到:

    变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小,这个分组里的样本响应的可能性就越小。

    关于WOE编码所表示的意义,大家可以自己再好好体会一下。

    3.2 IV的计算公式

    有了前面的介绍,我们可以正式给出IV的计算公式。对于一个分组后的变量,第i 组的WOE前面已经介绍过,是这样计算的:

    同样,对于分组i,也会有一个对应的IV值,计算公式如下:

    有了一个变量各分组的IV值,我们就可以计算整个变量的IV值,方法很简单,就是把各分组的IV相加:

    其中,n为变量分组个数。

    3.3 用实例介绍IV的计算和使用

    下面我们通过一个实例来讲解一下IV的使用方式。

    3.3.1 实例

    假设我们需要构建一个预测模型,这个模型是为了预测公司的客户集合中的每个客户对于我们的某项营销活动是否能够响应,或者说我们要预测的是客户对我们的这项营销活动响应的可能性有多大。假设我们已经从公司客户列表中随机抽取了100000个客户进行了营销活动测试,收集了这些客户的响应结果,作为我们的建模数据集,其中响应的客户有10000个。另外假设我们也已经提取到了这些客户的一些变量,作为我们模型的候选变量集,这些变量包括以下这些(实际情况中,我们拥有的变量可能比这些多得多,这里列出的变量仅仅是为了说明我们的问题):

    • 最近一个月是否有购买;
    • 最近一次购买金额;
    • 最近一笔购买的商品类别;
    • 是否是公司VIP客户;

    假设,我们已经对这些变量进行了离散化,统计的结果如下面几张表所示。

    (1) 最近一个月是否有过购买:


    (2) 最近一次购买金额:

    (3) 最近一笔购买的商品类别:

    (4) 是否是公司VIP客户:


    3.3.2 计算WOE和IV

    我们以其中的一个变量“最近一次购买金额”变量为例:


    我们把这个变量离散化为了4个分段:<100元,[100,200),[200,500),>=500元。首先,根据WOE计算公式,这四个分段的WOE分别为:

    插播一段,从上面的计算结果中我们可以看一下WOE的基本特点:

    • 当前分组中,响应的比例越大,WOE值越大;
    • 当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
    • WOE的取值范围是全体实数。

    我们进一步理解一下WOE,会发现,WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

    好,回到正题,计算完WOE,我们分别计算四个分组的IV值:

    再插播一段,从上面IV的计算结果我们可以看出IV的以下特点:

    • 对于变量的一个分组,这个分组的响应和未响应的比例与样本整体响应和未响应的比例相差越大,IV值越大,否则,IV值越小;
    • 极端情况下,当前分组的响应和未响应的比例和样本整体的响应和未响应的比例相等时,IV值为0;
    • IV值的取值范围是[0,+∞),且,当当前分组中只包含响应客户或者未响应客户时,IV = +∞。

    OK,再次回到正题。最后,我们计算变量总IV值:

     

    3.3.3 IV值的比较和变量预测能力的排序

    我们已经计算了四个变量中其中一个的WOE和IV值。另外三个的计算过程我们不再详细的说明,直接给出IV结果。

    • 最近一个月是否有过购买:0.250224725
    • 最近一笔购买的商品类别:0.615275563
    • 是否是公司VIP客户:1.56550367

    前面我们已经计算过,最近一次购买金额的IV为0.49270645

    这四个变量IV排序结果是这样的:是否是公司VIP客户 > 最近一笔购买的商品类别 > 最近一次购买金额 > 最近一个月是否有过购买。我们发现“是否是公司VIP客户”是预测能力最高的变量,“最近一个月是否有过购买”是预测能力最低的变量。如果我们需要在这四个变量中去挑选变量,就可以根据IV从高到低去挑选了。

    4.关于IV和WOE的进一步思考

    4.1 为什么用IV而不是直接用WOE

    从上面的内容来看,变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义。那我们为什么不直接用WOE相加或者绝对值相加作为衡量一个变量整体预测能力的指标呢?

    并且,从计算公式来看,对于变量的一个分组,IV是WOE乘以这个分组响应占比和未响应占比的差。而一个变量的IV等于各分组IV的和。如果愿意,我们同样也能用WOE构造出一个这样的一个和出来,我们只需要把变量各个分组的WOE和取绝对值再相加,即(取绝对值是因为WOE可正可负,如果不取绝对值,则会把变量的区分度通过正负抵消的方式抵消掉):

     

    那么我们为什么不直接用这个WOE绝对值的加和来衡量一个变量整体预测能力的好坏,而是要用WOE处理后的IV呢。

    我们这里给出两个原因。IV和WOE的差别在于IV在WOE基础上乘以的那个,我们暂且用pyn来代表这个值。

    第一个原因,当我们衡量一个变量的预测能力时,我们所使用的指标值不应该是负数,否则,说一个变量的预测能力的指标是-2.3,听起来很别扭。从这个角度讲,乘以pyn这个系数,保证了变量每个分组的结果都是非负数,你可以验证一下,当一个分组的WOE是正数时,pyn也是正数,当一个分组的WOE是负数时,pyn也是负数,而当一个分组的WOE=0时,pyn也是0。

    当然,上面的原因不是最主要的,因为其实我们上面提到的这个指标也可以完全避免负数的出现。

     

    更主要的原因,也就是第二个原因是,乘以pyn后,体现出了变量当前分组中个体的数量占整体个体数量的比例,对变量预测能力的影响。怎么理解这句话呢?我们还是举个例子。

    假设我们上面所说的营销响应模型中,还有一个变量A,其取值只有两个:0,1,数据如下:

    我们从上表可以看出,当变量A取值1时,其响应比例达到了90%,非常的高,但是我们能否说变量A的预测能力非常强呢?不能。为什么呢?原因就在于,A取1时,响应比例虽然很高,但这个分组的客户数太少了,占的比例太低了。虽然,如果一个客户在A这个变量上取1,那他有90%的响应可能性,但是一个客户变量A取1的可能性本身就非常的低。所以,对于样本整体来说,变量的预测能力并没有那么强。我们分别看一下变量各分组和整体的WOE,IV。

    从这个表我们可以看到,变量取1时,响应比达到90%,对应的WOE很高,但对应的IV却很低,原因就在于IV在WOE的前面乘以了一个系数,而这个系数很好的考虑了这个分组中样本占整体样本的比例,比例越低,这个分组对变量整体预测能力的贡献越低。相反,如果直接用WOE的绝对值加和,会得到一个很高的指标,这是不合理的。

    4.2 IV的极端情况以及处理方式

    IV依赖WOE,并且IV是一个很好的衡量自变量对目标变量影响程度的指标。但是,使用过程中应该注意一个问题:变量的任何分组中,不应该出现响应数=0或非响应数=0的情况。

    原因很简单,当变量一个分组中,响应数=0时,

    此时对应的IVi为+∞。

    而当变量一个分组中,没有响应的数量 = 0时,

    此时的IVi为+∞。

    IVi无论等于负无穷还是正无穷,都是没有意义的。

    由上述问题我们可以看到,使用IV其实有一个缺点,就是不能自动处理变量的分组中出现响应比例为0或100%的情况。那么,遇到响应比例为0或者100%的情况,我们应该怎么做呢?建议如下:

    (1)如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

    (2)重新对变量进行离散化或分组,使每个分组的响应比例都不为0且不为100%,尤其是当一个分组个体数很小时(比如小于100个),强烈建议这样做,因为本身把一个分组个体数弄得很小就不是太合理。

    (3)如果上面两种方法都无法使用,建议人工把该分组的响应数和非响应的数量进行一定的调整。如果响应数原本为0,可以人工调整响应数为1,如果非响应数原本为0,可以人工调整非响应数为1.

     

    展开全文
  • 计算逻辑先计算WOE值,再计算IV值。其中Y或N分别是YES,NO,反应在因变量中,就是10。Yi是第i组中1的个数,YT是所有(Total)为1的个数。Ni是第i组中0的个数,NT是所有(Total)为0的个数。举例数据如下,x分别取1-9,y...

    计算逻辑

    先计算WOE值,再计算IV值。

    其中Y或N分别是YES,NO,反应在因变量中,就是1和0。

    Yi是第i组中1的个数,YT是所有(Total)为1的个数。

    Ni是第i组中0的个数,NT是所有(Total)为0的个数。

    举例

    数据如下,x分别取1-9,y对应是1和0。

    x,y

    1,1

    2,1

    3,0

    4,1

    5,1

    6,0

    7,0

    8,0

    9,1

    如果对于x这9行数据分成三组:

    第0组:x=1,2,3

    第1组:x=4,5,6

    第2组:x=7,8,9

    则第0组的WEO值计算过程如下。

    Y0=2,因为分组内当x=1,2的时候y是1,共两个1,则是2.

    YT=5,因为y这一列总共有5个1。

    N0=1,因为分组内当x=3的时候y是0,共1个1,则是1.

    NT=4,因为y这一列共有4个0.

    WOE_0

    =ln((2/5)/(1/4))

    =ln(0.4/0.25)

    =ln(1.6)

    =0.47

    有了WOE,开始计算IV:

    IV_0

    =(2/5-1/4)*WOE_0

    =0.15*0.47

    =0.0705

    于是可计算出IV_0=0.0705。 同理可计算出IV_1= 0.070501, IV_2=0.274887。 则该X的iv即 iv=iv_0+iv_2+iv_3=0.415888

    Python代码

    import pandas as pd

    import numpy as np

    def iv_woe(data:pd.DataFrame, target:str, bins:int = 10) -> (pd.DataFrame, pd.DataFrame):

    """计算woe和IV值

    参数:

    - data: dataframe数据

    - target: y列的名称

    - bins: 分箱数(默认是10)

    """

    newDF,woeDF = pd.DataFrame(), pd.DataFrame()

    cols = data.columns

    for ivars in cols[~cols.isin([target])]:

    # 数据类型在bifc中、且数据>10则分箱

    if (data[ivars].dtype.kind in 'bifc') and (len(np.unique(data[ivars]))>10):

    binned_x = pd.qcut(data[ivars], bins, duplicates='drop')

    d0 = pd.DataFrame({'x': binned_x, 'y': data[target]})

    else:

    d0 = pd.DataFrame({'x': data[ivars], 'y': data[target]})

    d = d0.groupby("x", as_index=False).agg({"y": ["count", "sum"]})

    d.columns = ['Cutoff', 'N', 'Events']

    d['% of Events'] = np.maximum(d['Events'], 0.5) / d['Events'].sum()

    d['Non-Events'] = d['N'] - d['Events']

    d['% of Non-Events'] = np.maximum(d['Non-Events'], 0.5) / d['Non-Events'].sum()

    d['WoE'] = np.log(d['% of Events']/d['% of Non-Events'])

    d['IV'] = d['WoE'] * (d['% of Events'] - d['% of Non-Events'])

    d.insert(loc=0, column='Variable', value=ivars)

    print("Information value of " + ivars + " is " + str(round(d['IV'].sum(),6)))

    temp =pd.DataFrame({"Variable" : [ivars], "IV" : [d['IV'].sum()]}, columns = ["Variable", "IV"])

    newDF=pd.concat([newDF,temp], axis=0)

    woeDF=pd.concat([woeDF,d], axis=0)

    return newDF, woeDF

    调用

    mydata = pd.read_csv("./data.csv",encoding='utf8')

    newDF,woeDF=iv_woe(mydata,'y')

    即可得到。注意,此处默认10组,上例中的x值是0-10,不足以分10组,则每个值为一组。注意其中的if判断语句

    展开全文
  • 在往期的文章中,小编多次写到过WOE和IV值的内容,也贴过相关的SAS代码,感兴趣的同学可以翻阅历史消息。这篇文章就不多介绍WOE及IV值的概念,主要讲讲怎么用python实现WOE编码和IV值的计算。 代码 实例 ...

    在往期的文章中,小编多次写到过WOE和IV值的内容,也贴过相关的SAS代码,感兴趣的同学可以翻阅历史消息。这篇文章就不多介绍WOE及IV值的概念,主要讲讲怎么用python实现WOE编码和IV值的计算。

    代码

    实例

    下面用UCI信用卡逾期数据集介绍一下以上代码的用法。

    数据集如下:

    数据集有20多个变量,其中响应变量是 'default payment next month',为了方便,将其改名为 'y'。

    现在小编想要对年龄(AGE)变量做WOE编码。

    这里的年龄是连续型变量,首先需要进行分箱。方法有很多种,这里我们可以用上一篇文章中介绍的卡方分箱算法对AGE进行分箱。

    分箱的切分点

    有了切分点,对AGE变量切分,得到分组值:

    然后计算各组的WOE值:

    也可以计算IV值。

    IV值0.023,看样子还是比较弱的变量。还是可以用的,所以需要转成WOE。

    需要说明的是对于类别型的变量,可以直接算woe编码,也可以合并类别后再编码。

    本文的代码没有做多少封装,主要是便于各位同学理解。当然,也有许多值得探讨的问题,如除以0的情况怎么处理,本文不打算深入探究,感兴趣的同学可以自己学习研究。

    今天的内容就介绍这么多,谢谢大家的支持~~

    展开全文
  • 1.IV的用途 IV的全称是InformationValue,中文意思是信息价值,或者信息量。 我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把...
  • IV值和woe

    2020-07-24 21:38:32
    IV值和woe 1. 对IV的直观理解 从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是...
  • woe和iv最早来自金融界,主要用来计算自变量与因变量的相关性,在筛选变量、验证新变量的效果上有不错的效果,可以当做一个参考指标衡量变量所包含的信息量。1. 什么是woewoe是weight of evidence的简称,用来衡量自...
  • 我有一个计算WOE和IV的函数,如下所示:def calc_iv(df, feature, target, pr=0):lst = []for i in range(df[feature].nunique()):val = list(df[feature].unique())[i]lst.append([feature, val, df[df[feature] ==...
  • 计算逻辑先计算WOE值,再计算IV值。其中Y或N分别是YES,NO,反应在因变量中,就是10。Yi是第i组中1的个数,YT是所有(Total)为1的个数。Ni是第i组中0的个数,NT是所有(Total)为0的个数。举例数据如下,x分别取1-9,y...
  • 今日锦囊特征锦囊:彻底了解一下WOE和IV第一次接触这两个名词是在做风控模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息,简单来说这个指标的作用就是来衡量变量的预测能力强弱...
  • 【机器学习基础】IV和WOE值

    千次阅读 2019-06-19 19:15:07
    IV和WOE通常是用在对模型的特征筛选,在模型刚建立时,选择的变量往往比较多,这个时候就需要有一种方法来帮助我们衡量什么变量应该进入模型什么变量应该舍弃,IV和WOE就可以帮助我们进行衡量。对于一个变量来说,...
  • 把最近看到的WOE与IV的资料做一个简单的整理计算WOE(weight of evidence)证据权重和IV值的意义是(1)IV值可以衡量各变量对y的预测能力,用于筛选变量。(2)对离散型变量,woe可以观察各个level间的跳转对odds的...
  • 挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的...
  • 模型变量选择方法-IV值WOE​www.jianshu.com1.IV的定义及用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如...
  • WOE和IV使用来衡量变量的预测能力,越大,表示此变量的预测能力越强。 WOE=ln(累计正样本占比/累计坏样本占比) IV=(累计正样本占比-累计坏样本占比)*WOE 信息(IV) 预测能力 &lt;0.03 无预测...
  • [min_x] + boundary + [max_x] return boundary def feature_woe_iv(x: pd.Series, y: pd.Series, nan: float = -999.) -> pd.DataFrame: ''' 计算变量各个分箱的WOEIV值,返回一个DataFrame ''' x = x.fillna(nan...
  • R语言的WOE和IV批量计算实现,运行代码后根据注释中的参数描述调用函数即可
  • IV衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组 i ,其对应的IV值参考下图,其中n是分组个数,注意,在变量的任何...
  • 信用评分卡(WOE和IV值)_补

    千次阅读 2019-05-16 18:41:48
    客户信息:用于客户分析, 客户分析的目的是找到一个准确视角来制定策略,从而最优化的获取保留客户,定义高价值客户 描述信息:客户的基本属性信息,如性别,年龄, 地理位置收入等 行为信息:客户行...
  • IV和WOE详解

    2019-04-07 09:16:52
    目录 1.IV的用途 ...3.3.2 计算WOE和IV 3.3.3 IV值的比较和变量预测能力的排序 4.关于IV和WOE的进一步思考 4.1 为什么用IV而不是直接用WOE 4.2 IV的极端情况以及处理方式 1.IV的用途 IV的...
  • 1、IV值的用途IV,即信息价值(Information Value),也称信息量。目前还只是在对LR建模时用到过这两个关键指标,当我们使用决策树时可以通过限制树的深度间接筛选掉一些对于当前任务贡献比较小的变量, 而LR则是给...
  • WOE和IV通常是用在模型特征筛选的。IV和WOE能够帮助我们衡量什么变量应该进入模型,什么变量应该舍弃。用IV和WOE来进行判断,越大就表示该特征的预测能力越强,则该特征应该加入到模型的训练中。 应用 1、变量...
  • 1.WOE:表示自变量在分组内取值对于目标变量(违约概率)的影响 •WOE的计算公式是: •WOE=ln[(坏样本/总坏样本)/(好样本/总好样本)]=ln[(坏样本/好样本)/(总坏样本/总好样本)] Pyi:是这个组中响应客户...
  • 今日锦囊特征锦囊:彻底了解一下WOE和IV第一次接触这两个名词是在做风控模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息,简单来说...
  • 风控业务背景在评分卡建模流程中,WOE(Weight of Evidence)常用于特征变换,IV(Information...很多文章都已经讨论过这一命题,本文吸取归纳了前人的优秀成果,以期对WOE和IV给出一套相对完整的理论解释。主要创新...
  • 1. 代码基于jupyter notebook#导包import numpy as npimport mathimport pandas as pdfrom sklearn.utils.multiclass import type_of_targetfrom scipy import stats#求woe值和iv值def woe(X, y, event):res_woe = ...

空空如也

空空如也

1 2 3 4
收藏数 78
精华内容 31
关键字:

woe值和iv值