精华内容
下载资源
问答
  • 信贷评分模型基础知识一、模型输出概率转化为分数 一、模型输出概率转化为分数 风控模型(XGB模型、LGB模型或LR模型)直接输出的是客户逾期概率,在评分卡应用场景中,需要将此概率转化为对客户的评分。转化方式...

    一、模型输出概率转化为分数

    风控模型(XGB模型、LGB模型或LR模型)直接输出的是客户逾期概率,在评分卡应用场景中,需要将此概率转化为对客户的评分,转化方式如下。设p表示客户逾期概率,将bad/good的比例记:
    odds=p1p odds = \frac{p}{1-p}
    评分卡分数可表示为下式:
    score=ABlog(odds)=ABlog(p1p) \begin{aligned} score &=A-B*log(odds)\\ &=A-B*log(\frac{p}{1-p}) \end{aligned}
    其中,A和B是常数。式中的负号使得违约概率越低,得分越高。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。

    常数A、B的值可以通过将两个已知或假设的分值带入计算得到。通常情况下,需要设定两个假设:
    (1)给定odds=Ratio时,预期分数为Base;
    (2)Ratio翻倍时,分数减少值为PDO(即Point of Double Odds)

    于是,可以得到二元一次方程组
    {Base=ABlog(Ratio)BasePDO=ABlog(2Ratio) \begin{cases} Base&= A-B*log(Ratio)\\ Base- PDO&=A-B*log(2*Ratio) \end{cases}
    由此可求解得到A和B的值
    B=PDO/log(2)A=Base+Blog(Ratio) \begin{aligned} B &= PDO / log(2)\\ A&=Base + B * log(Ratio) \end{aligned}

    举例
    我们设定odds=1/15odds=1/15,即pbad/pgood=1/15p_{bad}/p_{good}=1/15时,评分为600。当oddsodds每增大一倍,评分减60分,即PDO=60。由此我们可以得到B=60/log(2)86.56B=60/log(2)\approx86.56A=600+60log(1/15)/log(2)365.59A=600+60log(1/15)/log(2)\approx365.59。于是可以得到概率p和评分score的转换公式为score=365.5986.56log(p/(1p))score=365.59-86.56*log(p/(1-p))
    在这里插入图片描述
    python代码

    import numpy as np
    
    def p_to_score(p, PDO=60.0, Base=600, Ratio=1.0/15.0):
        """
        逾期概率转换分数
        :param p: 逾期概率
        :param PDO: points double odds. default = 60
        :param Base: base points. default = 600
        :param Ratio: odds. default = 1.0/15.0
        :returns: 模型分数
        """
        B = PDO / np.log(2)
        A = Base + B * np.log(Ratio)
        score = A - B * np.log(p / (1 - p))
        return round(score, 0)
    

    二、模型KS指标

    KS指标主要用来验证模型对客户好坏的区分能力。通常是在模型对样本打分后,对分数进行分箱,然后统计每箱好客户和坏客户的累计样本数占比,累积Bad占比与累积Good占比之差即为每箱的KS,模型KS定义为各分箱KS的最大值。
    KS=maxPcum(Bad)Pcum(Good) KS ={max}|P_{cum}(Bad)-P_{cum}(Good)|
    KS是最主要的模型评价指标, KS越高,模型越好。但过高的KS可能意味着过度拟合从而导致模型不稳定。通常能达到40%以上的模型就很不错了。数据较差时,20%的KS也勉强可以用。

    举例
    在这里插入图片描述
    对应的KS曲线如下图所示
    在这里插入图片描述

    展开全文
  • 浅谈信贷评分模型

    万次阅读 多人点赞 2018-09-11 15:25:23
    毕竟进入了金融安全这个坑,基本的信贷评分模型还是需要知道的,今天就综合各个方面的资料来讲解一下在信贷领域使用的最多的评分卡模型。 整体来说,评分卡是信用风险评估领域的常用建模方法(刚开始是运用在...

    毕竟进入了金融安全这个坑,基本的信贷评分卡模型还是需要知道的,今天就综合各个方面的资料来讲解一下在信贷领域使用的最多的评分卡模型。

    整体来说,评分卡是信用风险评估领域的常用建模方法(刚开始是运用在信贷领域,后来这种思想被广泛地扩展到其他的领域:反欺诈,支付宝信用评估等)。这其实是一种很古老的概念了,大约在18世纪出现了信用卡的雏形,有了信用卡就需要对申请信用卡的人进行信用评估,因此自然而然的就有了信用评分机制,不过刚开始的信用评分机制基本采用的都是专家经验的方式,由人工根据经验对每一项申请人的条件进行分值评定。

    显然,人工的方式缺乏科学性,随着人工智能时代的到来,机器学习方法也被应用到了评分卡场景中来。现在我们再讲到评分卡模型,其实大部分都暗示了是应用了机器学习策略的评分卡生成方式。需要强调的是,评分卡并不是简单地 对应于某一种机器学习算法(虽然现在在评分卡应用场景中LogisticRegression是用的最多的算法),而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应用于线性模型进行建模的一种方法。
    下面是使用机器学习方法来进行评分卡模型的生成过程:
    这里写图片描述

    之所以要使用评分卡模型这种方式,一方面是因为其效果确实好,更关键的一点是其具有比较好的可解释性,可以很方便业务专家对模型进行把控。因此对于一些连续性特征首先要进行的就是分箱(离散化)处理。其中等频和等宽分箱比较好理解,这个自动分箱就是让模型自动地选出最合适的离散化方式,其实用的就是对应IV(information Value)值的划分方式,说到IV值就不得不提到WOE,下面就来介绍一下这两个概念。
    WOEi=In(PgoodPbad)WOE_i=In(\frac{P_{good}}{P_{bad}})
    IV=i=1N(PgoodPbad)WOEiIV=\sum_{i=1}^N(P_{good}-P_{bad})*WOE_i
    从中可以看出,IV其实就是WOE的加权求和
    所谓WOEiWOE_i的下标i就指代了某一连续特征中的第i个分段位的WOE值
    其中一种分段方式即WOE的计算方式如下所示:
    这里写图片描述

    其中关于IV值的相关描述如下所示,值越大代表特征和目标的相关性越强:
    这里写图片描述

    下面就来讲解一下评分卡具体的计算方法:
    定义odds=p1podds=\frac{p}{1-p}
    评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。公式如下:
    scoretotal=A+BIn(odds)score_{total}=A+B*In(odds)
    设定比率为θ0\theta_0的特定点分值为P0P_0,比率为2θ02\theta_0的点的分值为P0+PDDP_0+PDD,带入上式就可以很方便的求出A和B值。

    一般来说我们会用Logistic Regression来表征对于P值的估计,公式如下:
    P=11+eθTxP=\frac{1}{1+e^{-\theta^T x}}
    则有odds=In(p1p)=θTxodds=In(\frac{p}{1-p})=\theta^T x
    故有scoretotal=A+B(θTx)=A+B(w0+w1x1+....wnxn)=(A+Bw0)+Bw1x1+....+Bwnxnscore_{total}=A+B*(\theta^T x)=A+B*(w_0+w_1x_1+....w_nx_n)=(A+B*w_0)+B*w_1x_1+....+B*w_nx_n
    其中A和B在之前的布置中已经计算出来了,xnx_n是特征数据的WOE编码,最终转化生成的评分卡形式如下所示:
    这里写图片描述
    这样来了一个用户申请之后,就可以根据评分卡得出最终用户的信用得分,进而决定是否是否接受该用户的借贷申请。
    需要注意的是,上面这种做法只是一种经典的做法,但不是唯一的做法。比方说对于同一变量x1x_1,它的不同的WOE可以对应不同的w系数。同时不一定采用WOE编码(只不过这种编码方式在信贷评分场景中更常用),还有很多种其他的编码方式可以选择,比方说one-hot编码等。

    同时可以扩展的是,不一定要针对全部的用户用一张评分卡模型,可以按照类似决策树的方式对用户进行分类,针对每一个子类的用户生成一份具有针对性的评分卡模型。如下所示:
    这里写图片描述
    这里写图片描述

    还有最后一个额外的扩展点,有时候往往因为业务的需要,我们需要对这些系数w1w_1,wnw_n的大小做一个限制(往往业务专家希望对应WOE值大的变量的变量所对应的系数ww也要大一些),这就要求在进行模型训练的时候采用相应的策略:
    无约束的优化算法:SGD,Newton Method,L-BFGS
    有约束的优化算法:Barrier Method,SQP(Active Set Method)

    展开全文
  • 全面的信贷评分模型开发流程介绍

    在这里插入图片描述
    本课程,将从信用评分模型的发展、应用、类型及开发流程等多个方面展开介绍,旨在让初学者全面了解其在信贷金融领域里的可靠性及重要性,并且掌握一定的开发能力。

    文章目录

    1.评分卡简介

    1.1 简介

    定义: 信用评分模型是运用数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、行为记录、交易记录等大量数据进行系统的分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个信用评分来综合评估消费者未来的某种信用表现。

    应用:信用评分模型是消费者信贷中先进额技术手段,是银行、信用机构、个人消费信贷公司、电信公司、保险公司等涉及消费信用的企业实体最核心的管理技术之一。被广泛应用于信用卡生命周期管理、骑车贷款管理、住房贷款管理、个人贷款管理、消费信贷管理等多领域,在市场营销、信贷审批、风险管理、账户管理、客户关系管理等多方面发挥着十分重要的作用。

    起源:信用评分模型的应用和发展,首先是应消费信贷金融机构风险管理的需要而产生的,然后才逐步应用到市场营销管理、收益管理、客户关系管理等领域。

    发展:从数理分析技术发展的层次上讲,信用评分魔性的发展经历了3个历史阶段:

    • 以客户分类为核心:使用一些描述性统计方法,如均值、方差、频率、概率分布等和探索性统计方法,如聚类分析、因子分析、相关性分析等,对客户资质信息进行简单的分析,结合经验进行初步评估,以此为基础对客户进行分门别类。
    • 以预测模型为核心:是信用分析技术的重大突破,它通过对消费信贷机构的外部信息和内部信息等进行深度挖掘,提炼出大量的反映消费者行为特征和资信能力的衍生变量,并运用先进的数理统计技术把各种变量的信息进行综合,系统性地对客户未来某方面的信用表现作出预测。
    • 以决策模型为核心:比纯粹的预测模型又进了一步,它不仅对消费者未来信用表现进行预测,还会将其以函数的形式加入决策,综合其他多个参考因子,将其对决策的影响数量化。如风险定价、额度管理,不同消费者对不同的利率、额度等的敏感度不同,也就意味着,需要对不同类型的消费者进行区分决策。

    现状:如今,消费金融信贷领域中,评分模型主要应用于:

    • 风险管理
      • 审批
      • 授信
      • 评级
      • 定价
      • 贷后管理
      • 催收
    • 市场营销
      • 获客
      • 精准营销
      • 交叉销售

    效能:它可以为管理人员提供大量具有高度预测力的信息,帮助管理人员制定行之有效的管理策略,以较高的精度有效地开拓市场、控制风险、挖掘收益,实现消费信贷业务的高效益。

    技术:数据库技术、数理统计技术、计算机技术的发展,使信用评分模型的发展获得科技基础。消费信贷活动的过程产生大量发展信用评分模型所需要的相关数据,这些数据反映了消费者信用历史、资信状况、信用行为等方面的信息。

    • 数据库技术:用于大规模收集、整理、保存、提取数据;
    • 数理统计技术:用于从大量的、纷繁复杂的数据中挖掘有用的信息、提炼行为特征、分析行为模式;
    • 计算机技术:使数据分析、模型发展、模型自动化实施等的数据处理规模、速度不断扩大,加速了整体技术的发展。

    1.2 种类

    1.2.1 依预测目的分

    • 风险评分模型
      • 对违约拖欠的风险概率进行预测
    • 收益评分模型
      • 对消费者给信贷机构带来收益的潜力大小进行预测
    • 流失倾向评分模型
      • 对现有客户在未来一定时期内流失的概率进行预测
    • 市场反应评分模型
      • 对目标客户接受信贷机构影响的概率进行预测
    • 转账倾向评分模型
      • 对目标客户把贷款余额从别的银行转账过来的概率进行预测
    • 循环信贷倾向
      • 对目标客户或现有客户利用信用卡账户进行循环信贷的概率进行预测
    • 欺诈评分模型
      • 对信用卡申请或信用卡交易为欺诈行为的概率进行预测

    1.2.2 依发展主体分

    • 信用局评分模型(通用化模型)
    • 行业共享模型(通用化模型)
    • 以银行内部自有数据为评分基础的客户化模型(客制化模型)

    1.2.3 依实证化程度分

    • 专家风险评分模型
    • 半客户化评分模型
    • 完全客户化评分模型

    1.2.4 依模型对象分

    • 账户层次评分模型
    • 客户层次评分模型
    • 消费者层次评分模型

    1.2.5 依生命周期分

    • 拓展客户
      • 管理决策:目标客户判断、产品/激励、利率/年费/其他收费
      • 评分模型:信用局风险评分、信用局收益评分、信用局破产评分、市场反应评分、转载倾向评分
    • 审批客户
      • 管理决策:是否批准、定价、初始信用额度、交叉销售
      • 评分模型:申请风险评分、信用局风险评分、信用局收益评分
    • 管理客户
      • 管理决策:提高/降低信用额度、交易授权、超额透支授信、反欺诈、重新定价、激活/挽留、坏账催收、续发信用卡
      • **评分模型:**行为风险评分、行为收益评分、流失倾向评分、坏账催收评分

    1.2.6 依使用时机分

    • A_score

      • **定义:**进件评分(application score)对每一笔新申请的贷款进行评分,主要用在信贷准入门槛的设计和授信额度的确定方面
      • **数据:**申请前的客户基本信息、登录、行为信息、外部征信数据
      • **目的:**预估到期后发生严重拖欠的概率(逾期天数>60天)
      • 范围:
        • 不经过评分、特列类型的案件处理
        • 信息缺失的案件处理
        • 评分截点的设定策略
        • 例外推翻的控制
        • 应用评分决定贷款额度的策略和定价
      • 项目:
        A_score.rar
    • B_score

      • 定义:行为评分(behavior score)按月对未逾期的贷款进行评分,主要用来在贷后管理中确定客户风险的高低,进而根据风险的不同采取不同的贷后管理手段。
      • 作用:行为评分可用于信贷客户多方面管理,包括额度管理、市场活动、提前预警等。B_score、历史信贷行为、外部征信源、恶意刷额识别评分
      • 策略:按照不同评分,给予不同管理手段策略:
        • 特差:早期预警
        • :限额
        • :不予调额
        • 流失:流失挽回
        • :提升额度
      • 数据:

    图片

    • 项目:
      B_score.rar

    • C_score

      • 定义:催收评分(collection score),对当前月逾期的贷款进行评分。主要是用来在催收管理中确定风险比较高的客户,进而根据风险的不同采取不同的催收手段
      • 数据:逾期信息、行为信息、征信信息、风险分类标注、催收日志挖掘、催收语音转文本
      • 模型
        • 催收难度及力度
        • 失联修复
        • 催收亲密度模型
      • 作用:应用评分决定贷款催收管理策略:
        • **入催客户:**忘还款、手头紧、老赖
        • **计算催收容易度:**设备特征、行为特征、信贷表现、前几期还款情况
        • **决策结果:**易、中、难
      • 项目
        C_score.rar
    • F_score

      • 定义:F_score,利用多种定量方法,评估欺诈概率,拒绝疑似恶意骗贷客户的进件及申请
      • 模型:
        • 多种算法集成学习
          • 业务规则
          • 逻辑回归
          • 随机森林
          • 神经网络
        • 关联风险模型
          • 图数据库
          • 关联图谱
            • 定义:利用图数据库、聚类分析和复杂网络,实时识别群体欺诈风险,给出团案预警
            • 过程:实时数据清洗——计算连通图——团体分割——团伙特性分析
          • 复杂网络
        • **反欺诈预警模型 **
      • 数据
        • 设备信息:异常设备、网络、地址
        • 行为信息:异常注册、登录、点击
        • 关联信息:关联人风险
        • 授信信息:征信数据、机构黑名单
      • 项目
        F_score.rar

    1.3 作用及优势

    特性:客观性、一致性、准确性、全面性、效率性

    作用

    • 风险模式数据化
    • 提供客观风险量尺:减少主观判断
    • 提高风险管理效率:节省人力成本
    • 风险管理
    • 市场营销
    • 财务、资本预算及考核绩效
    • 资产证券化及组合模式的创新

    优势:

    • 更稳:大数定律,坏账率更可控
    • 更快:自动化审批,提升效率
    • 更省:降低人力成本(审批、反欺诈、催收)
    • 更充分地使用弱变量
    • 反欺诈:预防 > 亡羊补牢

    2. 评分卡项目规划

    在设置评分卡前,风险管理单位必须先就其对信用评分的期望、应用计划及策略提出项目规划,主要包括以下六项:

    2.1 项目目标

    陈述目前作业现况以及想通过评分卡项目解决的问题。信用评分卡的建置需投入大量时间、精力、金钱、人力,风险管理各单位人员需思考当前工作问题及对评分卡的期望,目标设定必须清楚明确,最后产出结果有真正的帮助。
    目标确认后,若需与外部信用评分卡厂商合作,依需求内容、开发时间、开发成本、开发经验与能力等构面设计选商条件并定订各项条件的评分权重。

    2.2 项目范围

    依急迫程度排列优先处理程序,避免一次性处理太多问题,做到聚焦。
    针对选定目标设定项目范围,包括项目主要内容、涉及业务、相关部门、项目组织架构、项目成员等,逐项确认并列于计划书内。

    2.3 时程规划

    时程规划可分为:内部前置规划、流程与系统修改、评分模型建置、效力测试、上线导入等几个重要阶段。项目长度依复杂度及数据质量而定,一般来说大约界于6~9个月。

    2.4 成本效益分析

    成本评估包括相关设备扩充、系统购置或修改、模型开发等费用。效益则分为质化与量化两方面,质化效益包括风险管理技术与观念的提升、授信质量稳定等,量化效益须估算可节省的人力、作业时间及作业成本等。

    2.5 配套措施

    与信用评分有关的相关事项如授信规范、申请书格式修改、进件及征审流程设计、数据质量确认、教育训练等皆须事先规划,另外与之搭配的系统如评分运算引擎、决策系统及征审系统等也须在评分模型建置完成前准备就绪,否则将出现空有评分模型却无使用平台或业务流程运转不顺等窘境。

    2.6 运营计划

    信用模型上线之后的实际应用于管理,诸如信用评分的应用、模型效能监控、相关系统维护、紧急备援计划、运营作业成本、MIS分析等作业皆须详细规划,以确保信用评分与风险管理业务整合之后能够顺利运行。

    3.评分卡开发流程

    图片

    3.1 业务理解

    3.1.1 开发目的

    此步骤非常关键,却易被忽略。开发模型前,必须先决定评分目的及要预测的事件,并要有明确的定义。模型应用目的不同,对变量选择或好坏客户的定义也会有所不同。
    风险管理单位按照项目规划设定的目标与模型建置人员讨论,确认建置模型的目的。另外双方对项目进行方式、建置时程、成本、交付文件项目及格式、模型测试指针、项目验收标准、教育训练,以及其他特殊要求或条件限制达成共识。

    3.1.2 模型要求

    如:可解释、复杂度、样本量

    3.1.3 客户类型

    如:自有渠道、外部渠道、新客、老客

    3.1.4 产品类型

    如:大额、小额、单期、分期

    3.2 基本定义

    评分目的确认之后,紧接着要对建模所需的重要指标的基本定义进行讨论。

    3.2.1 窗口期

    • 观察期
      • 定义:变量计算的历史期间
      • 区间:不宜太短,稳定性不高;也不宜过长,无法反映近期情况,一般为6~24个月
      • 特点:观察期时间窗口越长,建模样本数越少
    • 表现期
      • 定义:准备预测的时间长度,如:预测客户未来12个月内出现违约的几率
      • 区间:一般为12~24,根据产品不同会有变化
      • 特点:表现期越长,违约率越高

    3.2.2 违约定义

    对于预测建模,定义目标变量是最重要、对建模结果影响最大的一步。坏客户定义越严格,意味着坏账率越低,同样意味着通过率越低。
    违约定义并不限定为逾期,只要认定为非目标客户,如未来一年内出现M2以上逾期、催收、呆账、强停、拒住、协商等,皆可当成评分模型中的违约条件。
    银行业信用评分解决方案默认的目标事件定义选择:

    • 不良或逾期
      • (观察窗口内)90天逾期
      • (观察窗口内)230天或260天或1*90天
    • 良好:
      • 从未逾期
      • 从未在观察期内逾期

    也可根据坏账转移矩阵定义,不同账期客户转移到更坏的概率不同,选取显著变化的节点
    图片

    定义好的目标变量(GOOD/BAD)基于以上良好/不良定义创建并与ABT表并接后预测建模。

    3.2.3 适用范围

    • 灰色区间

    某些条件下的客户,风险处于较为模糊的灰色地带,很难将其归类为好客户或坏客户,此类客户无鲜明的风险特征,很难判断好坏。为强化模型的区隔能力,灰色地带的客户不适合纳入建模样本中。不过在模型完成后,看加入测试,观察分数落点,理论上中等分数居多。
    业务中,可利用**转移分析(roll rate analysis)**观察各条件下的客户经过一段时间后的表现,观察区隔力和稳定度,作为灰色区间客户的好坏判断条件。
    也可加入人工干预,直接进行评估。
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sCERUsrq-1569656926265)(https://uploader.shimo.im/f/Ms3vUKfOFrIyOgvl.png!thumbnail)]

    • 无评分意义

    并非所有状况都须依赖评分来判断风险,有些类型客户评分意义不大。例:

    • 目前处于逾期中的客户,本身已出现违约事实,无须加以评分

    • 数据缺漏严重

    • 数据期间过短

    • 近来无信用往来记录

    • 非常规对象

    用于建模的客户或申请者必须是日常审批过程中接触到的,需排除几类人群:

    • 异常行为:如销户、按条例拒绝的、特殊账户
    • 特殊账户:出国、失窃、死亡、未成年人、员工账户、VIP
    • 其他建模对象:欺诈、主动销户者(流失)

    3.2.4 样本区隔

    为了达到最佳效果,通常依客群或产品特性做样本区隔,分别开发数张字评分卡。
    **例:**信用卡的行为评分卡,预借现金、长期循环及全额缴清等几类客户行为各有特殊,其风险变量及变量权重可能有所差异,可考虑分别就这几类客户开发专属的子评分卡。
    若受预算、开发时间、数据积累等限制,暂时无法细切区隔而共享同一评分卡也可以,权宜做法为调整切分点或外加条件以做调整,不过效果可能较差。
    样本区隔不宜过度,适度有助于提高模型预测效果,过度则不但不利于后期子评分卡维护,且建模样本不足,反而影响模型的预测能力及稳定度。

    3.3 数据准备

    整个建模项目,最耗费时间的通常是数据整理阶段,对于入模数据,有如下多方面的准备条件。

    3.3.1 数据来源

    图片

    3.3.2 数据有效性

    • 正确性:数据真实准确
    • 完整性:广度、深度、长度,数据保留完整,缺失率低
    • 实时性:可以反映客户近期情况,实时更新客户动态信息变化
    • 合法性:数据使用必须合法,使用前需确认当地法令对授信准驳依据是否有特殊限制。某些国家不允许以性别、年龄、种族、地域等因子作为准驳依据条件。
    • 可用性
      • 不合理数据。如年龄过小或多大,予以剔除
      • 缺失数据。可利用平均数、众数、邻近值进行填充,如空值有特殊意义,可保留。
      • 数据加密格式。了解数据格式,厘清数据使用限制。

    3.3.3 原始变量选择

    获取到数据后,根据业务提取重要特征,建立对应数据字典
    图片

    3.3.4 样本选择

    • 样本数量:

    不同模型对数据量的要求不同,基本要求在5000+,最好可以达到3~10W,数据量越多越好。

    • 样本质量:

    样本内的数据需满足如下要求:

    • 代表性
    • 充分性:样本分布均匀
    • 时效性:窗口期内
    • 排除性:唯一标识
    • 表现推测性:正负样本分布明显

    3.3.5 抽样方式

    • 随机抽样
    • 分类抽样

    3.3.6 数据集准备

    按照要求准备原始变量及样本集,并且完成数据合并

    3.3.7 数据采样

    • 采样目的
      • 均衡样本
    • 采样方式
      • 过采样
      • 欠采样
      • 变量权重调整
    • 采样结果
      • 好坏样本比率为:3:1~5:1

    3.3.8 样本切分

    通常将样本集拆分为训练集测试集,通过评估模型在两个数据集上的表现,评估准确性及稳定性。可增加验证集,迭代模型区隔力和稳定度。

    • 训练集
      • 即发展组样本,一般占比70%
      • 用于建模
    • 测试集
      • 即对照组样本,一般占比30%
      • 建模完成后做验证之用

    3.4 数据探索

    3.4.1 数据质量检查

    • 正态性检验
    • 准确性诊断

    3.4.2 描述性统计分析

    • 样本总体
      • 样本量
      • 特征量
    • 变量类型
      • 连续型变量
      • 离散型变量
        • 数值型
        • 类别型
    • 变量分布
      • 位置度量
        • 中位数、众数
      • 集中程度
        • 均值、方差
      • 离散程度
        • 偏度、峰度
    • 缺失程度
      • 变量缺失
      • 样本缺失

    3.4.2 EDA探索性分析

    探索性分析和数据描述是检查数据并理解其特征的一系列过程的名称。在评分卡开发过程中,需要进行下列指标计算及变量分析:

    • WOE转换(证据权重)

    WOE值是分箱i的坏客户分布与好客户分布的比值的对数,调整为分箱i的坏好比与总体样本的坏好比 的比值的对数,衡量了分箱i对整体坏好比的影响程度。
    图片

    图片

    • IV(信息值)

    图片
    图片

    • 单变量分析(Single Factor Analysis):候选变量单变量统计特征的评价,及其取值在变量范围内的分布。完成变量分箱、WOE编码与IV计算后,我们需要做单变量分析,一般从两个角度进行分析:

      • **单变量X分布稳定性:**各箱占比相对均匀,每项占比不宜过高或过低,一般不低于5%
      • 单变量X与目标变量Y关联:验证单变量重要性
        • 从IV出发,筛选IV较高值
        • 单变量与目标变量做回归检验P值
    • 多变量分析(Multi Factors Analysis) :通过列联表、关联性和相关性指标确定不同变量之间的检验关系。多变量分析从两个角度分析变量的特性并完成筛选工作:

      • 变量间的两两线性相关性,通过相关系数矩阵
        • 选择IV较高的
        • 选择分箱均衡的
      • 变量间的多重共线性与目标变量关系,变量筛选
        • 特征重要性:随机森林、GBDT、XGBOOST
        • 模型拟合优度和复杂度:基于AIC的逐步回归
        • 带约束:LASSO
        • 多重共线性检验:VIF
    • 违约要素分析:计算每个候选预测变量分类或分段条件下的违约率分布。

    3.5 数据清洗

    3.5.1 格式处理

    3.5.2 缺失值处理

    3.5.3 异常值处理

    3.5.4 数据规约

    3.5.5 变量粗筛

    • 无意义变量
      • 如唯一标识、手机号等无效字段
    • 常量
      • 单类别比例超过95%,默认为常量,可剔除
    • 缺失率
      • 缺失率不高于设定值
    • 单类别比例
      • 单类别比例不低于5%

    3.6 特征工程

    3.6.1 特征衍生

    • 衍生目的

    基于业务,衍生适合入模的好特征,好的特征具有以下优势:

    • 稳定性高:市场因素,人群产品稳定的情况下,特征的分布稳定
    • 区分性高:违约与未违约客群的分布显著不同
    • 差异性大:不能在全部或大多数客群上取单一值
    • 可解释性强:特征与信用风险的关系符合风控逻辑
    • 衍生方式
      • 基于不同类别型变量,衍生不同时间切片某种操作频率、频次、登录方式个数等。
      • 基于时间变量,衍生账龄、在账月份数
      • 波动率指标,某种操作频次的频率、标准差
      • 决策树创建新特征

    图片

    • 衍生手段
      • 手动创建
      • 暴力生成

    3.6.2 特征分箱

    • 分箱定义:
      • 连续变量离散化
      • 状态多的离散变量合并少状态
    • 分箱优势:
      • 稳定性:避免特征中无意义的波动对评分带来波动
      • 缺失值处理:可将缺失作为独立的分箱带入模型
      • 异常值处理:可于其他值合并作为一个分箱
      • 无需归一化:从数值型变为类别型,没有尺度差异
    • 分箱限制:
      • 有一定的信息丢失,数值型变量分箱后变为取值有限的几个值
      • 需要编码。分箱后的变量是类别型,不能直接带入Logistic模型中,需要进行一次数值编码
    • 分箱方法:

    分箱原理为相似度高的归为一组,有监督考虑业务含义相似度,无监督考虑样本分布相似度。

    • 有监督
      • Best KS
      • ChiMerge卡方分箱
      • 决策树最优分箱

    图片

    • 无监督
      • 等频
      • 等距
      • 聚类

    3.6.3 特征编码

    • 编码方式
      • 数值编码
      • one-hot编码
        • 针对类别型大于2的分类变量,将其哑变量化
      • WOE编码

    3.6.4 特征选择

    为了提高信息值,需调整合并WOE相近的组别,最后得到的分组结果为粗分类。待所有长清单的变量信息值皆计算完成后,即可从中挑选变量,优先排除高度相关、趋势异常、解释不易及容易偏移者。
    经过筛选后的变量集合成为短清单,这个清单即模型的候选变量。在建模时可利用顺向进入
    法(forward selection)、反向排除法(backward elimination)、逐步回归法(stepwise)等方法选出效果最佳的变量组合。

    • 选择方式
      • 重要性
      • 共线性
      • 信息值
        • IV值高于0.2
        • IV高于10的剔除
      • 模型筛选
        • LASSO
        • stepwise

    3.7 模型训练 model training

    3.7.1 算法选择

    • Logistic
    • 优点:
      • 成熟、成功
      • 评分结果稳定
      • 评分构成透明
      • 实施部署简单
      • 不容易过拟合

    图片
    图片

    图片
    图片
    图片

    • GBDT

    图片
    图片

    • XGBOOST

    图片
    图片

    • 神经网络

    图片

    • 组合模型

    图片
    图片

    3.7.2 训练 train

    3.7.3 测试 test

    3.7.4 验证 oot

    • 准确性、稳健性、有意义
    • 样本外测试
    • 时间外测试

    3.8 拒绝推断

    通常,我们用以建立评分卡的建模对象人群(以前的Accepts)在结构上可能与实际申请人群存在着结构上的差异。因为只有接受了的申请者才能够对其定义目标变量。但我们将在生产系统中部署的模型需要对未来所有申请者评分。因此需要对拒绝过的用户做违约推断,即拒绝演绎、婉拒推论。
    只有当建模的接受人口(Accepts)与实际申请总体差别才需要拒绝推断:

    • 很大的时候评分卡批准率相对较低(低于70%)
    • 或以前的拒绝标准根据完全的人为判断决定的时候

    是否两总体间存在较大差异,可以通过一系列特征比较的图表来进行判断
    基本思路:

    • 利用在接受人群基础上训练的模型对拒绝人群评分
    • 将拒绝人群分为“推断好/推断不良”
    • 将此作为拒绝人群的目标变量累加(Append)到接受人群建模数据里
    • 对新数据集重复模型训练过程

    过程图
    图片

    具体方法

    • K近邻法

    当K=5时,对于新样本的预测选取最邻近的5个观测的分类的众数。

    3.9 标准评分转换

    基于预先设定的PDO及Base Point 对每个入模特征规则配置相应分值
    图片

    图片

    图片

    3.10 效力验证

    评分卡模型构建完成后需要验证魔性的性能,保证模型既稳定、有效,部署后需持续监测模型的表现,做到及时更新与迭代

    3.10.1 基本要求

    一般一个好的模型应该达到以下几个基本要求:

    • 精确性。达到可接受水平,避免过拟合。
    • 稳健性。要求最终模型的变量应该能够确保包含稳健一直的数据,能够在后续实施阶段准确获取,能够适用于更广范围的数据集。
    • 有意义。即业务变量及其预测值是可解释的,例如:信用卡的额度利用率越高,违约率相应也越高。
    • 模型中变量不宜过多。通常,包含的变量不超过1020个(最优1012个),变量太多可能导致过拟合,变量太少往往区分度不够。

    图片

    3.10.2 模型准确性

    • KS

    KS(柯尔莫哥洛夫-斯米尔诺夫kolmogorovsmirnow)图纵轴为坏客户累计百分比,横轴为 总体样本累计百分比。perf_eva函数绘制KS 曲线过程:
    ◦ 先将样本随机排列,随机种子seed默认为 186
    ◦ 按照预测违约概率倒序排列(坏客户累计百 分比曲线位于上方)
    ◦ 分为groupnum(默认20)等份 ◦ 计算每一等份中违约与正常客户的累计百 分比
    ◦ 绘制出两者之间差值即为KS曲线
    • KS曲线中的最大值即为KS值,其取值范围 0~1。KS值越大模型的区分能力越好。
    • 通常申请评分卡要求KS 0.3。而且测试集 与训练集的KS值相差小于0.01。
    图片

    • ROC与AUC

    • ROC(受试者工作特征曲线Receiver Operating Charactersitic)曲线纵轴为 真正例率(True Positive Rate, TPR),横 轴为假正例率(False Positive Rate, FPR):
    ◦ 先将样本随机排列,随机种子seed默认为 186
    ◦ 按照预测违约概率降序排列
    ◦ 分概率值计算好坏客户数量,然后计算 TPR=TP/(TP+FN)与FPR=FP/(TN+FP) ◦ 以TPR为纵轴FPR为横轴绘制散点图即为 ROC曲线
    • AUC(Area Under ROC Curve)为ROC曲线 下面积之和,其取值范围0~1。AUC值越大模 型效果越好。
    • 行为评分卡通常要求AUC 0.75,申请评分 卡的AUC相对低一些也能够接受。
    图片

    • GINI系数

    3.10.3 模型排序性

    • Lift

    3.10.4 变量有效性

    • IV

    3.10.5 模型稳定性

    • 评分稳定性指标(PSI)

    图片
    图片

    • 特征分布指标(VSI)

    3.10.6 评分排序性

    信用评分与违约概率成反比,分数越高停贷率越低;客群的评分分布区间一般符合正态性,有一定的离散度。
    图片

    3.11 模型报告

    整理完整的模型开发过程报告

    4.模型部署

    4.1 模型文件

    4.1.1 pkl

    4.1.2 pmml

    4.2 部署方式

    4.2.1 脚本

    4.2.2 决策引擎

    决策引擎配置

    • 位置:DW
    • 内容:信用评分——风险策略——数据集市CRM
    • 作用:决策额度、计算、定价

    5.评分卡的切分与使用

    5.1 评估指标

    利润贡献者所带来的利润,在弥补着利润消耗者带去的损失,信贷风险管理,讲究一个平衡和最优。综合评估模型不同决策点下的通过率和逾期率,制定最优效益的评分决策

    • 逾期率
    • 通过率
    • 综合盈利
    • 准入线

    5.2 设定策略

    • 准入线的设定策略
    • 风险切分点的设置
    • 不经过评分、特别类型的申请件的处理
    • 评分卡信息缺失的申请件处理
    • 例外推翻的控制

    图片

    图片

    5.3 基于A_score的额度定价

    预先设定好基础额度base limit(B),盖帽额度hat limit(H),托底额度floor limit(F)。评分最高的区间杜颖的预期违约率是Pmin,评分最低的区间对应的预期违约率是Pmax,占比最高的区间对应的预期违约率是P0,某一条进件对应的预期违约率是P1,则该进件对应的授信额度是:
    图片

    5.4 基于A_score的利率定价

    增添多种其他利率因子,同样与模型评分相关

    6.模型监控

    模型实施后,要建立多个报表对魔性的有效性、稳定性进行监控

    6.1 监控报表

    6.1.1 稳定性监控

    比较评分卡上线后建模训练样本客户的分值分布,监控模型的有效性。
    图片
    图片
    图片

    6.1.2 特征监控

    比较评分卡上线后和建模训练期间的每个特征的分布,监控特征的变化趋势,从而评估模型的有效性和稳定性
    图片
    图片

    6.1.3 未过评分账户监测

    6.1.4 不良贷款分析

    评估不同分数段的不良贷款,并与建模训练期间的预测进行比较,监控客户信贷质量。
    通过对不同分数段的不良信贷资产进行账龄分析、迁徙率分析,监控信贷资产质量是否发生显著性的变化。
    图片

    6.1.5 拒绝原因分析

    分析被评分卡拒绝的原因分布
    图片
    图片

    6.2 风险跟踪

    • 风险趋势分析
    • 异常行为分析
    • 欺诈网络分析
    • 风险警告

    7.模型调优

    网贷市场环境变化快,评分卡生命周期短,相比传统信贷模型迭代频率高。评分模型需保持稳定,当产品、客群、宏观经济、监管政策等没发生重大变化时,不同时间上的评分结果应保持稳定,便于策略应用。
    图片

    7.1 调优原因

    7.1.1 市场环境变化

    • 市场转移
    • 行业变化
    • 产品变化

    7.1.2 模型监控

    • 入模变量发生重大偏移
    • 当前评分与建模评分分布发生变化
    • 模型区分能力变差
    • 变量区分度变差

    7.1.3 新变量探索引入

    • 新数据源引入
    • 新的预测变量探索

    7.2 调优方法

    收紧或放松

    7.2.1 A类调优

    • 在通过的客群中寻找差客户拒绝
    • 将会降低通过率,且降低逾期指标
    • 离线即可完成量化分析

    7.2.2 D类调优

    • 在拒绝的客群中寻找好客户通过
    • 将会提高通过率,逾期指标可能增加
    • 需要决策引擎标记豁免部分样本分析

    7.3 调优步骤

    • 确认调整贷前策略还是贷中策略
    • 是D类调优还是A类调优
    • 量化分析调优阈值
    • 预测按照方案调整后的效果
    • 调整后验证结果与预计效果是否
    • 重复修正

    7.4 调额步骤

    • 筛选可调额客户
    • 分为调额组合对照组
    • 调额后调额组对照组资产趋势分析
    • 根据结果回调最初筛选可调额客户的规则

    8.常见问题

    8.1 数据问题

    • 历史数据量过少
    • 历史数据无切片

    8.2 建模问题

    • 建模目标不明确
    • 模型过拟合
    • 模型选型不合理
    • 错误使用后验变量
    • 评分的评估指标不合理
    • 离线数据与在线数据不一致

    8.3 业务问题

    • 沟通问题
    展开全文
  • 业务 | 信贷模型中的评分

    千次阅读 2019-06-03 21:18:54
    评分模型1 消费信贷概述1.1 消费金融概述1.2 消费信贷发展痛点1.3 痛点解决思路2 模型业务目标确定2.1 风控内容2.2 Vintage分析法2.3 如何确定业务目标2.4 Vintage和迁移率模型对比3 A卡和B卡3.1 A卡3.2 B卡3.3 C...

    1 消费信贷概述

    1.1 消费金融概述

    1、机构

    • 银行系消费金融公司(信用卡)
    • 实体(海尔家电)
    • 电商体系(淘宝 京东下的借呗花呗 白条)。解决了用户电商消费过程中短期资金不足的痛点。
    • 平台系。如趣店,乐信

    2、含义

    • 冲动性消费。用明天的钱来满足当下的需求。

    3、其他

    • 信贷产品利率国家规定是36%以内。
    • 渗透率:中国30%,美国60%。每花出去的100元,中国有30是消费金融业务。美国则是60。

    1.2 消费信贷发展痛点

    • 信用风险量化困难,预测难
    • 传统风控手段落后
    • 信贷风控流程时间长,体验差。

    1.3 痛点解决思路

    • 数据
    • 算法
    • 系统
    • 信用体系

    评分:300-900分。

    2 模型业务目标确定

    2.1 风控内容

    • 控制欺诈风险
    • 选定目标客群
    • 进行合理定价
    • 控制和稳定不良水平

    模型:用多维度数据、特征表示模型,给出预测概率。

    策略:规则集。流程执行的结果。一般是if-then。结果基本为0或者1。

    2.2 Vintage分析法

    • 什么叫Vintage?英文含义:在这里插入图片描述

    • 起源:为了分析酒的品质(不同的年份)而开发出的一种分析方法。

    • 实例
      在这里插入图片描述
      Vintage分析是指评估不同年份的葡萄酒的品质随着窖藏时间的推移而发生的变化,并且窖藏一定年份后,葡萄酒的品质会趋于稳定。如下图,2000年的葡萄酒品质最好窖藏5年左右,葡萄酒品质会趋于稳定

    • Vintage分析被广泛应用于信用卡产业,分析的方法是针对信用卡不同时期开户的资产进行分别跟踪,按账龄长短进行同步对比,从而了解不同时期发行信用卡的资产质量情况

    • 实例
      在这里插入图片描述

    上图为2017年4月至2018年12月放款的M3+(即逾期91天以上)的Vintage图和Vintage数据表,此图统计的逾期用的是月末的逾期状态(有些时候也可以使用历史逾期状态,一个客户只要发生过M3+逾期,未来每个月都将该客户记为M3+逾期客户),计算逾期率使用金额(也可使用笔数)。从图中可以看出,不同月份放款的M3+在经过9个周期(9个月)后趋于稳定,也就是说成熟期是在9个周期

    从图中还可以看出,资产质量不断提升(随着放款时间的延后,M3+逾期率在逐渐降低,即曲线一条比一条矮),2017年4月至6月的逾期率相对较高,从2017年7月开始逾期率发生较大程度的下降,有可能因为前几个月不断优化风控策略所致。

    2.3 如何确定业务目标

    主要通过计算以下两个指标:迁移率和滚动率 来最终确定我们的业务目标。

    1、迁移率。

    • 迁移率侧重于分析客户状态的发展变化路径,如M0-M1,M1-M2,M2-M3等。

    • 具体含义:

      • M0:没有逾期;
      • M1:表示逾期1-30天;
      • M2:表示逾期31-60天;
      • M3:表示逾期61-90天;
      • M4:表示逾期91-120天;
      • M5:表示逾期121-150天;
      • M6:表示逾期151-180天;
      • M6+:表示逾期180天以上。
    • 迁移率模型:是一种来预测未来坏账损失的方法,它通过对历史数据中处于某一拖欠位置的账户贷款余额每月拖欠变化情况的分析,来预测当期不同拖欠周期的未来坏账损失。

    • 如何计算?
      在这里插入图片描述
      经过迁移率的计算,可以得到下表:
      在这里插入图片描述

    2018年7月的M0-M1迁移率为24% = 2018年7月的M1 / 2018年6月的M0 = 41110122/171325636

    2018年8月的M0-M1迁移率为16.13% = 2018年8月的M1 / 2018年7月的M0 = 39655174/245923324

    2018年8月的M6-M7迁移率为89.08% = 2018年8月的M7 / 2018年7月的M6 = 843310/946657

    • 绘制月度迁移率的均值曲线图。

    2、滚动率

    • 滚动率分析可以对客户好坏程度进行定义。
    • 滚动率分析就是从某个观察点之前的一段时间(称为观察期)的最坏的状态向观察点之后的一段时间(称为表现期)的最坏状态的发展变化情况,如下图:
      在这里插入图片描述
      在这里插入图片描述
    • 发现滚动率的横着加起来为100%!
    • 从表中可以看出:
      • 正常的客户,在未来6个月里,有96%会保持正常状态。4%会出现逾期的情况;
      • 逾期1期的客户,未来有81%会回到正常状态,即从良率为81%,13%维持不变(继续此状态),有6%会恶化;
      • 逾期4期及以上的客户,从良率仅为4%,有82%会继续此状态。

    2.4 Vintage和迁移率模型对比

    • Vintage:能很好地解决时滞性问题,其核心思想是对不同时期的开户的资产进行分别跟踪按照账龄的长短进行同步对比,从而了解不同时期发行信用卡的资产质量情况,是一个所谓竖切的概念
    • 迁移率模型:能很好的提示信用卡账户整个生命周期中的衍变情况,是一个所谓横切的概念。

    3 A卡和B卡

    在这里插入图片描述

    • 营销模型:征信局的数据(用户同意)。会做两个模型:风险模型;意愿模型。然后做一个两者的交叉模型,确定需要营销的人群。即营销主要对象为:风险较低而且意愿也能够有一定水平的用户

    3.1 A卡

    • 申请:用户会提交相关材料进行审核。这里会使用A卡!A(Application)+配套策略决定是否会放款!
    • A卡(Application score card)申请评分卡
    • 贷前!

    3.2 B卡

    • 放款:贷中使用B(Behavior)卡及策略。
    • B卡(Behavior score card)行为评分卡
    • 贷中!

    3.3 C卡

    • 提醒催收:C(Collection)卡!结果:用户还款或者不还款!
    • C卡(Collection score card)催收评分卡
    • 贷后!

    4 案例

    银行端案例,具体建模步骤见下方:在这里插入图片描述
    下面主要讲申请模型(注意:数据在申请之前产生,不能用还款类的变量,虽然具有强相关性和预测性,但属于伪相关,属于信息泄露!)和信用评估模型(B卡!)。如果模型需要持续稳定的使用,需要进行监控!

    4.1 背景

    • 渠道
    • 产品(额度 期限 利息 还款方式)
    • 审批流程和数据

    A卡目标:申请审批

    B卡目标:贷中风险预警与决策

    4.2 步骤

    4.2.1 提数并数据预处理

    比如收入变量的处理。有的是几千万,有的是几十万。需要做一个处理!比如极值处理。大于60万为一档等等。

    4.2.2 模型流程

    在这里插入图片描述
    客群划分:

    • 网络:网上用户。
    • 机构:学校,企事业单位等。
    • 按揭:知道了用户有某种资产(比如房、车),并且历史还款记录良好。

    样本选取:

    • 希望越近期越好,但样本量希望也足够多
    • 尽量一整年!覆盖季节性
    • 大额的样本去掉。一般消费性贷款属于高频小额!
    • 小微的客户剔除。Why?【见后面Q&A】
    • Boostrap抽样。

    特征工程:

    • 业务逻辑。了解每个指标是如何产生的!Garbage in Garbage out!只对certain的事情下手!

    模型:

    • 逻辑回归。运维成本低,银行接受程度较高!

    分数:

    • 350-900分之间。
      在这里插入图片描述

    4.2.3 策略

    • 将所有样本等距分为 A-E 5个等级。
    • 策略就是决策树的一条路径

    4.2.4 评估效果

    4.3 特征工程部分之分箱

    1、定义

    什么叫分箱?

    • 连续值对应的特征离散化处理
    • 多值特征进行合并

    2、作用

    • 减少噪音
    • 避免极端值
    • 有效处理缺失值
    • 对特征进行标准化。值大部分在什么范围之内!

    3、方法

    • 无监督方法:
      • 等距
      • 等频
      • 聚类

    关于Python实现等频和等距的切分,之前有一篇博文涉及到,详情见:Python|数据透视表+cut切分+Kmeans聚类
    在这里插入图片描述

    • 有监督:Best Ks;优化参数合并

    4、具体实现方法之一-woe编码

    WOE编码。见 机器学习 | 特征工程

    5 Q&A

    Q1、样本选取中为什么将小微商户剔除?是因为有很多小微个体工商户是信用白户吗?如果是,请问下现在银行是否有一些措施?毕竟小微个体工商户的金融需求还是没有得到满足。

    A1:

    • 消费金融的目标群体更多是C端,而小微个体工商户属于B端!
    • 目标群体的划分希望更可能的精细化!

    Q2、模型评估上:A卡用户没有违约记录情况,不应该有违约记录情况,您是如何评估好坏的?是A卡上线了一段时间之后回收y 比如是否逾期 然后做评估对吗?

    A2:

    • 回收y
    • 一开始数据就有y,但建模不要y,看评估效果是因为可以用来评估模型,那模型做的有什么意义呢?因为希望能对未知的客户进行预测

    Q3、最原始的阶段:有一个拍脑袋的过程 ,您这边有什么经验吗?

    A3:

    • 异常值检测。给每一个指标确定一个权重。一人就可以完成!
    • PCA主成分降维。
    • AHP层次分析法!但需要多人参与!

    6 参考

    展开全文
  • 随着互联网金融机构、产品如雨后春笋般疯狂生长,金融消费产品几乎深入每个人的...本书就是为了解决互联网金融时代出现的新的问题和挑战,通过建立科学的消费信贷评分模型来在最大程度上规范互联网金融产品的各种风险。
  • 信贷风控十六)组合评分模型

    千次阅读 2019-03-18 22:39:28
    组合评分模型 本篇文章主要总结以下内容 组合模型的概念 常见结构的评分组合模型 单一模型选择需要什么条件 串行结构组合模型实例 并行结构组合模型实例 组合模型的概念 常见结构的评分组合模型 ...
  • 信贷评分

    千次阅读 2018-01-08 11:41:56
    信贷评分卡 eryesanye 关注 2017.09.07 13:51* 字数 1858 阅读 960评论 2喜欢 10 年初的时候,我参考SAS评分卡指南整理了一份如何设计评分卡的文档,后来请同事用 R语言重新写了一遍。评分...
  • GBDT模型用于评分模型 本文主要总结以下内容: GBDT模型基本理论介绍 GBDT模型如何调参数 GBDT模型对样本违约概率进行估计(GBDT模型用于评分卡python代码实现请看下一篇博客) GBDT模型挑选变量重要性 GBDT...
  • 信贷风控五)评分模型的评价标准

    千次阅读 多人点赞 2019-02-16 16:32:45
    首先我们回顾一下评分模型的制作步骤 数据预处理 变量衍生构造 变量分箱 变量挑选 模型参数估计 模型校验 概率转换为分数 这篇博客我们主要来讨论一下评分模型的评价标准,主要有以下三个方面 模型的...
  • 信贷风控模型开发----模型简介

    万次阅读 2018-03-21 12:43:53
    第一章 ... 本系列文章为笔者对信贷风控领域建模的一些学习研究心得汇总,以及一些代码示例,尽量会将信贷风控领域的一些基本概念阐述明白。 1.1 为什么要建模 金融的所有业务,几乎都是和风险打...
  • 信贷风控八)行为评分模型(B卡)的介绍

    万次阅读 多人点赞 2019-02-24 22:45:56
    (八)行为评分模型(B卡)的介绍 在信贷业务中,评分卡分为三种: 申请评分卡(A卡) 行为评分卡(B卡) 催收评分卡(C卡) 本篇我们来学习一下行为评分卡(B卡),首先什么是行为评分卡呢,行为评分卡的使用场景以及...
  • 本帖是在2019年5月初入门python之时,选取的较为系统的练手案例,主要内容是信用风险计量体系之主体评级模型的开发过程(可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡)。 如今再回顾,结合前几月股票市场被割...
  • (十四)深度神经网络模型用于评分模型(理论) 本篇文章主要讲解以下两个内容 神经网络的概述 深度神经网络模型用于违约概率预测(代码实现看下一篇博客) 神经网络的概述 什么是人工神经网络 神经网络...
  • 个人信贷评估模型研究

    千次阅读 2019-05-09 09:30:52
    个人信贷评估模型研究数据初探和可视化分析介绍一般信息统计数据分布好贷款与坏贷款贷款类型各地区发放的贷款深入研究不良贷款商业视角了解业务的操作方面按收入类别分析评估风险了解业务的风险方面信用评分的重要性...
  • 这次主要介绍的信贷审查流程、风控评分卡建模、授信额度设定、贷后催收的一些内容。特别是在风控建模流程和方法上都有一些借鉴的价值。具体课程链接:https://xue.tongdun.cn/courses 一、信贷审查 概念:信贷审查...
  • 2.1.1 评分模型流程图 2.1.2流程图阐述 2.2 好坏样本定义 2.2.1观察期、表现期、观察点 2.2.2举例说明 第二章 模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 ...
  • (十三)GBDT模型用于评分模型python实现 前一篇我们已经介绍了GBDT模型用于评分模型的原理(理论) https://blog.csdn.net/LuYi_WeiLin/article/details/88314746 这篇博客附上GBDT模型用于评分模型python...
  • 信用评分模型(R语言)

    万次阅读 多人点赞 2016-04-23 10:45:57
    本文详细的介绍了信用评分卡的开发流程,开发语言为R语言,python版本请见:一行代码搞定信用评分模型(python) python版实例和数据请见我的github:https://github.com/chengsong990020186/CreditScoreModel,如...
  • 信用评分模型概述

    2018-11-06 15:40:04
    评分模型开发 确定评分目的 建模指标的基本定义 资料准备 变量分析 变量的形态分为连续变量和间断变量; 单因子分析,将变量分组,分组原则为组间差异大,组内差异小。分组占率不低于5%,各组必须同时拥有好坏...
  • (七)申请评分模型Python实现(图文+代码实现) 贷前准入环节流程图大致如下 为什么需要建立评分卡? 所有的模型一定是服务于业务的,那么业务上到底出现了什么问题,需要用到评分模型去解决呢?我们先从...
  • C卡其实是催收评分卡模型的简称(亦或是贷后模型),它是贷后催收模型整体的统称,贷后催收模型中根据不同的细分应用又包含不同的子评分模型。 本篇为大家介绍M1阶段三种细分应用催收评分模型:C-M1模型、CPD1-10模型...
  • 评分模型的评价标准 模型的区分度 KS Divergence 模型的准确度 评分模型的评价标准 模型的区分度 评分模型需要对好、坏人群给出一定的区分度。 衡量区分度的常用方法: 好、坏人群分数(或违约...
  • (九)行为评分模型python实现(详细代码+注释+讲解) 浅谈行为评分卡 我们知道行为评分卡只要用在信贷的贷中环节,贷中指的是贷款发放之后到期之前的时间段,其实行为评分卡和申请评分卡在实现上没有太大的...
  • 信用卡评分模型

    千次阅读 2019-09-29 22:49:05
    信用卡评分模型 项目简介 本文主要通过kaggle上Give me some credit数据进行数据分析,并根据信用评分建立原理,构建一个简易的信用评分卡模型。 数据来源 来自kaggle上的数据:...
  • 一、当前风控模式现状 ...目前,对于信贷审核来说主要基于的风控模式为IPC、信贷工厂、大数据三种,每一种都有自己不同的侧重点。 二、最核心的风控模式分类 1.IPC模式 IPC模式起源于德国邮储银行,该模...
  • python信用评分卡建模(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,021
精华内容 808
关键字:

信贷评分模型