精华内容
下载资源
问答
  • 信用风险建模:使用Python和ML进行信用风险分析
  • 信用风险管理

    2020-12-11 22:15:00
    信用风险管理简洁、实用的特性,相信能够为大家利用人力、物力、财力、资源等带来许多帮助,欢迎大家下载...该文档为信用风险管理,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看
  • 信用风险建模

    2016-12-15 15:28:08
    信用风险建模
  • 信用风险管理PPT

    2020-12-11 16:15:00
    整理发布的信用风险管理PPT以实现多、快、好、省为目标,欢迎大家下载信用风险管理PPT进行参考...该文档为信用风险管理PPT,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看
  • 信用风险分析-源码

    2021-02-26 13:20:49
    信用风险分析
  • 消费者信用风险:使用 Binning Explorer 进行信用评分卡建模2、企业信用风险:基于违约概率和信用迁移矩阵的信用组合模拟3. 市场风险:风险价值回测您会发现这些文件是更好地了解 Risk Management Toolbox 以及工具...
  • 本文含 2919字,7图表截屏建议阅读16分钟0引言本文是「信用风险建模 in Python」系列的第一篇,其实在之前的 Cufflinks 那篇已经埋下了信用风险的伏笔,信用组...

    本文含 2919 7 图表截屏

    建议阅读 16 分钟

    0

    引言

    本文是「信用风险建模 in Python」系列的第一篇,其实在之前的 Cufflinks 那篇已经埋下了信用风险的伏笔,

    1. 信用组合可视化

    2. 信用风险 101

    信用风险(credit risk)最终源于交易对手或债务人违约(default)他们的义务。违约分两种:

    1. 完全违约(outright default),

    2. 支付能力恶化(deterioration)而增大最终违约的可能性。

    前者称为违约风险(default risk),后者称为迁移风险(migration risk)。

    信用风险导致财务损失,而其关键要素是违约或迁移事件。损失的范围涵盖投资的一小部分到全部投资。 只要未来有付款的资产都用信用风险,通常我们会想到贷款、存款、债券或掉期, 但其实还包括信用卡、学生贷款、抵押、汽车贷款或复杂的金融衍生产品。

    信用风险无处不在,而且在银行中信用风险通常要比市场风险(market risk)大很多,因此如何计量和管理信用风险对银行来说尤为重要。

    信用风险和市场风险有很多不同之处,而且要求的技能也不同。我在实际咨询工作中主要负责市场风险那块,因此对 Q-Quant 那一套随机微分非常熟悉。但是要具备全面的风险管理技能,信用风险这块儿也要抓,两手都要硬!

    1

    简介

    和市场风险中的实时波动的风险因子不同,信用风险中的违约是个罕见事件(rare event)。信用风险建模有两大重要应用:

    1. 定价(pricing)

    2. 风控(risk-managing)

    定价

    定价主要是估计一个人们愿意购买资产(面对其交易对手支付能力的不确定性)的价格。该价格通常和头寸的平均信用风险成本相关,而体现在无风险利率上的一个价差(credit risk spread)。因此,

    定价注重平均概念,即预期损失。

    风控

    风险并不是衡量平均情况,而是可能遇到的最坏情况。 用在金融方面,我们担心一个组合可能会损失多少钱。但是仅仅这样说是不够的,我们虽然可能会损失全部投资,但是引起这些损失的概率呢?因此我们首先需要计算出或者模拟一系列的潜在损失以及对应的相关概率,然后在极端情况下评估风险。因此

    风控注重尾部概念,即极端损失。

    从上面定价和风控两大应用可看出,信用风险建模的重点是构建信用组合的违约损失分布(default loss distribution),该分布描述了组合中潜在违约产生的所有可能损失。违约损失分布是信用风险建模者关注的焦点,定价方和风控方都该损失分布用兴趣,只不过前者更关心其中部(central aspect),而后者更关注其尾部(tail)。

    有了损失分布,我们还可以估算组合的

    1. 预期损失(Expected Loss, EL

    2. 意外损失(Unexcpeted Loss, UL

    3. 风险价值(Value-at-Risk, VaR

    4. 期望损失(Expected Shortfall, ES

    5. 经济资本(Economic Capital, EC

    名词解释

    预期损失(EL)计量的是因为违约的平均损失,银行会为 EL 拿出一部分钱作为储备。

    风险价值 VaR 和期望损失 ES 都属于极端损失,VaR 是在一段时间内在 q 概率下组合损失的最大值,在信用风险中 q 通常设定为 99%, 99.5%, 99.9% 等。而 ES 是大于 VaR 的损失的均值。通俗来讲,VaR 量化坏情况,而 ES 量化的是如果坏情况发生那么到底有多坏。

    有些资料把 VaR 和 ES 归属到意外损失(UL),有些资料把损失变量的波动率定义成 UL,这个也无对错之分,我更偏好于后者。而且我觉得把 VaR 和 ES 称为极端损失也更贴切些。

    按照上面的叫法,经济资本可定义为极端损失和预期损失的差,可看成是银行为了极端事件而准备的额外资本(rainy-day fund)。

    下篇会对以上名词一一给出具体的数学表达式,本贴先给出一波“代码”表达式,首先需要明晰损失 L 是一个随机变量,既然有随机性,那么我们可以计算 L 的统计指标:

        EL = mean[L]

        UL = stdev[L]

        VaR = quantile(L, q)

        ES = mean(L|L>=VaR)

        EC = VaR - EL

    所以找到 L 的分布最重要。

    将上面所有信息可视化成下图:

    2

    模型

    所有信用风险模型都应该对以下两个因素建模,它们是

    • 违约指标(default indicator):描述每个违约损失的边际分布(marginal distribution)。

    • 违约相关(default dependence):描述一个债务人的违约风险取决于另一债务人的违约风险的程度,代表了多个债务人一起违约的风险。

    有了违约指标违约相关,我们便可以计算或模拟出来整个组合的损失联合分布(joint distribution)。

    对债务人违约建模既可用外生(exogeous)变量,也可用内生(edogenous)变量。其实模型并无高低,任何模型只是试图对现实问题降维并探究其实质,没有任何模型能够捕捉到现实世界的全部复杂性

    对于模型分类,学术界和工业界有两个流派:

    1. 混合模型(mixure model):又叫简约化模型(reduced-form model),建模思路是假定不同债务人的违约概率和某些随机变量有关,即随机化违约概率。瑞银的 CreditRisk+ 就属于这一类。

    2. 阈值模型(theshold model):又叫结构化模型(structured model),建模思路是当某些潜在变量(如资产价值)低于某个阈值(如负债价值)时,违约发生。巴塞尔的 IRB、穆迪的 KMV 和明晟的 CreditMetrics 都属于这一类。集大成者的 Merton 模型也属于这一类。

    诚然,上面都是老手玩的,新手现在听起来肯定很懵。对于新手,正确的打开方式是从玩具模型(toy-like model)开始,虽然该模型的“零违约相关性”的假设不现实,但仍不妨碍我们可以从中学到不少信用模型建模的方法和技巧。

    3

    总结

    信用风险模型应考虑违约依赖风险因子组合同异性等,选择任何一种模型要牢记以上几个特征来作为建模标准。

    最后献上一张图,对比三类 - 玩具(Independent)、混合(Mixture)、阈值(Threshold) - 模型的损失分布。为了简写,我们就用 I, MT 来代表它们。

    左边是一个三维立体图,右边上图是其二维表达形式,而右边下图将其放大。首先我们能很容易看出:

    三种模型生成的损失分布都向右偏斜的很厉害(即在横轴很远处还有很小的值),这完全符合信用风险的特点,即信用组合里面包含大头寸低违约的事件。

    我们还可看出(虽然不容易):

    I 模型没能抓住损失的尾部,大概是 M 模型T 模型的尾部的一半。这种现象不正说明了模拟违约相关的重要性吗?


    下帖我们研究玩具模型,不仅把其基本数学公式弄懂,而且还会用 Python 来量化信用组合的各种指标,比如预期损失(expected loss, EL),意外损失(unexcepted loss, UL),风险价值(value-at-risk, VaR)和期望损失(expected shortfall, ES)。

    Stay Tuned!

    我的新书《快乐机器学习》

    在新加坡终于有买了

    扫码进 Lazada 购买

    新加坡全岛包邮

    我的新课《Python 基础》

    扫码购买

    零套路无前戏直接干货

    上过的都说好

    展开全文
  • 电子商务交易信用风险研究,徐铭蔚,张晗,本文在了解国外电子商务信用风险识别理论研究现状、电子商务信用风险理论以及神经网络基本理论的基础上,对电子商务信用风险进行
  • 信用风险测压

    2013-06-06 15:13:37
    建行--信用风险测压,大家可以参考O(∩_∩)O~
  • 这是整理发布的一款中国银行业之信用风险分析,中国银行业之信用风险分析能给你需要了解的知识...该文档为中国银行业之信用风险分析,是一份很不错的参考资料,具有较高参考价值,感兴趣的可以下载看看
  • 相较于个人信用风险评估,银行关于企业信用风险评估的资料具有更多的文本信息且标准化程度更高,然而文本信息中蕴含的大量关于企业信用风险的增量信息却没有得到有效利用。通过对我国上市公司年报以及网民评论的文本...
  • 公司信用风险建模及应用,石广平,周青青,本文借鉴KMV模型的基本思想,对违约率的评估采用了新的方法,综合考虑了公司资产和负债的实时变动对公司信用风险的影响,矫正了KMV
  • 个人信用风险评估案例实战
  • 本文着重介绍了煤炭企业构建信用风险管理体系的具体做法,通过兖州煤业股份有限公司信用风险管理体系建设的成效,探讨煤炭企业应该如何构建和完善信用风险管理体系。
  • 这个是高清扫描版的信用风险评分卡研究,适用于想从事金融行业信用评分领域的同学,这个pdf讲述了信用风险评分开发过程。从业务角度刷选数据特征,到整合,算法选择调用。
  • 基于KMV模型的房地产信用风险研究,雪生侠,,房地产行业具有较高的信用风险,所以需要建立与风险管理相匹配的信用风险度量体系。运用KMV模型评价房地产市场的信用风险,通过对
  • 信用风险评分方法

    2021-05-06 21:15:27
    信用风险评分方法 本案例使用信用评分卡(Scorecards)的方法对银行贷款的风险水平进行评估,得到了易于被非统计专业的业务人员所理解的模型,同时还介绍了评分卡的建立步骤与注意事项。 主要内容包括: 连续...

    信用风险评分方法

     

    本案例使用信用评分卡(Scorecards)的方法对银行贷款的风险水平进行评估,得到了易于被非统计专业的业务人员所理解的模型,同时还介绍了评分卡的建立步骤与注意事项。

    主要内容包括: 连续变量分箱方法,logistic回归,评分卡方法等

     

    信用评分的方法

    既然信用评价对于企业如此重要,那么应该如何评价个人或者企业的信用情况那?现在银行业比较通用的方法是使用信用评分的形式,由于这种形式具有诸多优势,该方法在保险业、电信业也有很好的应用前景。

     

    信用评分是使用统计模型的方法来对潜在客户和已有客户在贷款(包括信用卡)时的风险通过评分卡的方式进行统一评价的一种方法。随着这种统计建模方法的成熟应用,其思路已经被推广到诸如欺诈评分、市场响应评分等诸多领域。信用评分卡的形式如表18.2所示。

     

    信用评分卡建立以后可以帮助银行一线人员进行多种决策,一下列举了几种供参考:

    1,是否同意某笔贷款的发放。

    2,是否同意个人的信用卡申请及向其发放何种类型的信用卡。

    3,是否同意客户关于信用卡透支额度的申请。

    4,当客户的信用卡发生延期还款时,催讨策略如何。

     

    根据信用评分判定是否发放信用卡的示例:

     

    这种信用评分卡的形式有如下优势,正是这些优势使得信用评分卡在金融领域得到了广泛应用。

    1,这种形式便于理解和使用

    2,监管机构容易对银行审核标准合规性进行有效监管。

    3,信用评分卡很容易实施和监控。

     

    商业理解:

    问题1:怎样将小额贷款风险问题转换为数据分析问题?

    问题2:如何获取数据?

    问题3:建立一个模型还是多个模型?

     

    数据理解与数据准备

     

    建立模型与模型评估

     

    在IBM SPSS Modeler中,并没有一个单一的节点可以完成信用评分的建模工作,但是可以用多个数据流组合的方式按照以下4个步骤来构建信用评分模型。

    1,输入变量的分箱

    2,建立输入变量与目标变量的logistic回归模型

    3,根据相关业务参数将logistic回归模型转化为评分模型。

    4,对模型效果进行检验。

     

    信用评分方法中的变量分箱

    变量分箱包含两种情况:连续变量的分箱和离散变量的分箱。

    1,连续变量的分箱

    从总体上看,分箱是一个也具体业务问题结合紧密的工作,并不存在标准答案。通常,在分箱时应该遵循以下基本原则。

    原则一,分箱数目应当适中,不宜过多或者过少。过少区分度不足,过多则稳定性不强且不方便管理。

    原则二,各个分箱内记录数合理,不应过多或者过少。

    原则三,结合目标变量,分箱应该能表现出明显的趋势特征。例如,针对年龄的分箱,目标变量为是否亏损。图18.4(其中WOE与违约比例是同方向变量的一个指标,后面我们会介绍该指标的含义及计算)的左图就是一个比较好的分箱。在不考虑缺失值的情况下,随着年龄的增长,可以看到违约比例呈现逐步下降的趋势,而右图就不是一个好的分箱,从中看不出明显的趋势。除了这里看到的单调上升(或下降)的趋势外,这种趋势可能还会表现成中间低(高),两头高(地)的U(倒U)型趋势。

    原则四,相邻分箱的目标变量分布差异应该较大。

     

    为了帮助分箱,通常采取表18.5所示的方式计算各种统计量,并据此判断变量对预测目标变量变量是否重要以及分箱是否合理。该表仅供示例,所有数据均为随机生成,不具有实际业务含义。

     

    表格中各列的含义如下:

    数量:指该分箱内包含的记录个数。

    数量占比:指该分箱内包含记录数量占总记录数量的比例

    不违约数量:指分箱内包含的不违约客户数量,及好客户的数量

    不违约占比:指分箱内好客户的数量占全部好客户数量的比例。

    违约数量:指该分箱内包含的违约客户数量,即坏客户的数量。

    违约占比:指该分箱内包含的坏客户的数量占全部坏客户数量的比例。

    违约比例:指该分箱内包含的坏客户的数量占该分箱内全部客户数量的比例。

    WOE:即证据权重(Weight of Evidence)。WOE根据好客户占比和坏客户占比计算得到,与违约比例同方向变动。根据WOE除了可以看到不同分箱的趋势特征外,它也是后面介绍的Logistic回归的重要输入变量。该变量的计算公式为:

    WOE = ln(好客户占比/坏客户占比)*100

    进一步,根据WOE值,还可以计算IV值,即信息值(Information Value),IV值的计算公式为:

    IV值可以用来表示该变量是否对预测目标变量具有显著意义。根据经验,

    当IV值< 0.02时,该变量对于预测目标变量几乎没有意义。

    当0.02=<IV值<0.1时,该变量对于预测目标变量具有一定意义。

    当0.1<=IV<0.3时,该变量对于预测目标变量具有较大帮助。

    当0IV>=0.3时,该变量对预测目标变量具有很大帮助。

     

    请注意,当IV>0.5时,该变量对目标变量有过度预测的倾向,应该仔细检查看看是不是选用了与目标变量具有强因果关系的变量,并且这种变量是否可用于预测模型中。

     

    1,离散变量的分箱

    在离散变量取值较少的情况下,不需要对之进行处理。当离散变量取值较多的时候,为了管理方便,可以按照WOE值接近的原则,将离散变量分为若干类别。

     

    用Logistic回归建立信用预测模型

    Logistic回归模型简介

    一般情况下,输入变量主要为连续变量,当输入变量为离散变量时,通常采取哑变量的方式将离散变量转化为连续变量再进行处理。但是在构建信用评分卡时,由于所有变量都已经被转化为离散变量,这时如果把所有离散变量转化为哑变量,会丢失很多信息,因为使用哑变量会认为相邻的两个变量取值(两个分箱)之间的差异是相同的,这显然不符合实际情况。作为替代,通常使用各个变量分箱对应的WOE值作为Logistic回归的输入变量,这样做充分考虑了不同分箱之间的差异,同时也保留了各变量对目标变量分布的趋势。

    在使用Logistic回归进行预测时,除了可以选择让全部变量进入模型之外,也可以让模型选择最终进入模型的变量。在使用模型选择变量时,通常提供以下3种选择进入模型变量的方法。

    前进法

    后退法

    逐步法

     

    具体操作

    运行数据流,可以得到图18.8所示的Logistic回归分析结果,读者可以通过单击所生成的Logistic回归模型的“高级”选项卡得到结果。

     

    生成信用评分模型

     

    如何将logistic回归系数转化为信用评分

    将logistic回归系数转化为信用评分的形式是一个量表编制(scaling)的过程。为了方便业务人员使用,以及使得评分之间的差异具有业务含义,通常希望生成的评分能够满足以下3点要求。

    1,将评分控制在一定范围内,例如0-1000分之间。

    2,在特定分数时,好客户与坏客户具有一定的比例关系(在统计学上有一个专门的统计量--优比(odds)来表示这种比例关系,odds= 好客户占比/坏客户占比),例如希望在评分值为500分时好客户与坏客户的比例为500:1.

    3,评分值增加应该能够反映好客户和坏客户比例关系的变化,例如,希望当评分值每增加50分时,odds也增加一倍。

     

    现在在工业界比较通用的是使用如下的方程式表示信用评分的取值关系:

    score = offset + factor*ln(0dds)

    为了满足以上三个条件,该方程式需要满足以下两个等式:

    (1)score = offset + factor*ln(odds)

    (2)score + pdo = offset+ factor*factor*ln(odds)

    其中,pdo(points to double the odds)表示为了使odds增加一倍需要增加的评分值。

    解方程1,2得到:

    pdo= factor*ln(2)

    factor = pdo/ln(2)

    offset = score - factor*ln(odds)

     

    如果取评分值为500分时优势比为30:1,且评分每增加50分,优比odds增加1倍,则从上面的等式可以得到:

     

    factor = 50/ln(2)=72.1348

    offset = 500-72.148*ln(30)= 254.6553

     

     

    具体操作

    尽管我们已经得到了logistic回归模型,但是直接使用这样的模型还是有困难的,主要表现在:

    第一,模型的输入变量是各个变量分箱的WOE值,在使用该模型时还需要对输入变量进行分箱及对应WOE值的工作,使用起来不方便。

    第二,更重要的是,类似于图18.8的结果,统计分析人员看着或许比较亲切,但是如果让业务人员去看,可能还是一头雾水。

     

    模型检验:

    用K-S指标法检验目标变量为标志变量的预测模型

     

    参考:IBM SPSS数据分析与挖掘实战案例精粹

    参考:信用风险评分方法

     

     

    展开全文
  • 信用风险模型的统一性分析,谢西海,刘莹丰,CreditMetrics和KMV以及CreditRisk+模型是现代信用风险度量的三大主要模型。CreditMetrics和KMV模型时隐含变量模型,而CreditRisk+是Bernoulli混合变量
  • 我们提供了一种信用风险分析方法,可以嵌入到风险偏好框架中。 我们分析 CDS 利差中的信息内容,以估计欧洲工业部门 CDS 发行人信用风险的系统性和特殊性组成部分。 这种分解应该是评估信贷组合多样化可能性或设计...
  • 用SPSS-Modeler分析银行信用风险评分方法

    万次阅读 多人点赞 2018-11-01 21:20:03
    实际经济生活中引发信用风险、市场风险和操作风险的因素往往是相伴而生,由于多重因素的风险管理失控而导致整个机构遭受灭顶之灾,银行业监管机构要求商业银行对信用风险、市场风险和操作风险资本需求的评估采取一种...

    实际经济生活中引发信用风险、市场风险和操作风险的因素往往是相伴而生,由于多重因素的风险管理失控而导致整个机构遭受灭顶之灾,银行业监管机构要求商业银行对信用风险、市场风险和操作风险资本需求的评估采取一种全方位的风险管理观。

    因业务需要,银行必需承担风险。一般是风险越大,预期收益越大。风险与收益有非对称关系。风险本身并不是坏东西,我们的主要责任是管理风险。最糟糕的是对风险没有正确认识和错误管理风险。

    银行获取的客户信息具有不完全性,信用风险具有非系统性特性,信用风险收益率呈非正态分布。我们做实验的目的就是在这种情况下使用以计量模型为代表的量化管理工具和手段对申请贷款的人的信用风险进行可行的分析。运用先进的数据挖掘技术和统计分析方法,通过对申请贷款的企业或个人客户的数据资料进行统计分析,挖掘客户特征与信用风险之间的关系,并将其发展成为预测模型,以综合评分来评估客户未来的某种信用表现。 

    第一章 引言
    1.1数据分析的背景
        2008年9月15日,美国第四大投资银行雷曼兄弟按照美国公司破产法案的相关规定提交了破产申请,成为了美国有史以来倒闭的最大金融公司。其引发的连锁反应致使信贷市场陷入混乱。
        次贷的产生是由于在美国存在着一批人,这批人没有什么信誉担保,甚至目前也没有什么偿还能力,例如一些名牌大学的大学生。但是当他们毕业之后就会有偿还能力,所以,基于此,如果这批人申请贷款来买房,银行就会降低贷款的标准,也就次于了正常的按揭贷款(即用房产等固定资产进行抵押来申请贷款)。当然了,与此同时,次贷的利息也会比正常贷款的利息要高很多。次贷的产生迎合了一句话——高风险意味着高回报。因为追逐利益的欲望的驱使,次贷闪亮登场了!
        但是人们在追求高回报的时候渐渐的忽略了高风险!随着次贷的产生,房地产市场逐渐走热,毕竟人们都有贷款可以买房了。在次贷的刺激下,房价攀升,而次贷的风险也就随之消失在人们记忆中,因为房价在攀升,所以如果一个人无法偿还贷款,那么他买的房子将和他的贷款相抵,不仅如此,因为房子的升值,相反银行还能挣钱。但是房子不可能总在涨,所以在房价走低的时候,问题就发生了,随着房价的走低,和上述所讲相同,如果一个人无法偿还贷款,那么他买的房子将不能够偿还他的贷款,因为房子贬值了嘛。那么银行就会造成亏损。
        有的金融机构,还故意将高风险的按揭贷款,“静悄悄”地打包到证券化产品中去,向投资者推销这些有问题的按揭贷款证券。突出的表现,是在发行按揭证券化产品时,不向投资者披露房主不仅难以支付的高额可调息按揭付款、而且购房者按揭贷款是零首付的情况。而评级市场的不透明和评级机构的利益冲突,又使得这些严重的高风险资产得以顺利进入投资市场。也就是说银行为了避免风险,选择将次贷当作一种债卷出卖,这样的债券的产生刺激了次贷,所以,将危机进一步的扩大,全球各大投资银行都购买了很多次贷债券,所以在房价走低时候,实际上给美国银行埋单的是全球的投资银行!
        所以,商业银行应该更好的对待风险,这有两个办法,一是规避风险,而是承担一定的风险,求得最大利润。
        现代社会,信用对个人和企业都是无比重要的品质。个人,有信用,在银行可以办理信用卡进行透支;在电信,当你要出国开会或者旅游,开通国际长途可以不用交押金;爱车上保险,也可以打折。企业,有信用可以获取大额的透支或者融资额度。便宜服务不是每个客户都能享受得到的,银行先考察客户的信用,再决定是否发放信用卡,以及卡片的类型(普卡、金卡、钻石卡)和额度;开通国际长途不要押金需要你符合一系列条件才行;汽车保险打折要求你有良好的索赔记录。
        信用评分是使用统计模型的方法来对潜在客户和已有客户在贷款时的风险通过评分卡的方式进行评价的一种方法。
    1.2分析的目的与意义
        信用风险产生的原因及特点:银行获取客户信息的不完全性。银行只能通过客户提交的各种资料、报表和其他有限途径间接地获取信息,而这种信息的不完全性可能会是未来的风险隐患。信用风险具有非系统性特性。贷款企业或个人的还款能力虽然会受到整体经济大环境的影响,但是大多数情况下取决于其自身财务状况、经营的好坏以及还款意愿等个体因素。信用风险收益率呈非正态分布。在大多数情况下贷款能够顺利收回,此时银行可以得到一定的利息收入,但是当坏账的小概率事件发生时,银行将损失整个本息。
        对于信用评级,可以运用先进的数据挖掘技术和统计分析方法,通过对申请贷款的企业或个人客户的数据资料进行统计分析,挖掘客户特征与信用风险之间的关系,并将其发展成为预测模型,以综合评分来评估客户未来的某种信用表现。
    信用评分卡建立以后可以帮助银行一线人员进行多种决策:是否同意某笔贷款的发放、是否同意个人的信用卡申请及向其发放何种类型的信用卡、是否同意客户关于提高信用卡透支额度的申请、当客户的信用卡发生延期还款时,催讨策略如何。
    这种形式便于理解和使用;监管机构容易对银行审核标准合规性进行有效监管。通过信用评分卡方式,监管机构很容易看到银行使用了哪些因素作为审核标准,从而判断这种标准是否合规;信用评分卡很容易实施和监控。
    第二章 数据审核与数据预处理
    2.1原始数据表说明
        建立新的工作流之后,读入原始数据表,可以看到原始数据表有3000条记录,表中共有11个字段,分别是年龄、收入、孩子数量、家庭人口数、在现住址时间、在现工作时间、住房种类、国籍、信用卡类型、是否违约、权重,如图2-1所示。数据的类型,数据的范围,如图2-2所示。数据类型的详细情况如表2-1所示。

    图2-1 原始数据表

    图2-2 数据类型

    表2-1 信用评分建模数据变量情况表

    2.2数据分布与数据审核

            输出数据审核,看数据的情况,可以看到,这11个字段的属性,在现住址时间和在现工作时间这两个字段的有效数据分别是2907和2966,小于总数据量,其他的9个字段有效数都是3000如图2-3所示。在数据中在现住址时间这一字段里面,999表示数据缺失,如图2-4所示。

    图2-3数据审核

    图2-4 在现住址时间数据缺失

    2.3数据预处理

            从原始数据表中看到孩子数量可能和家庭人口数有相关性,所以对这两个属性做一个相关性分析,看看这两个属性之间的相关性如何。如图2-5所示。

    图2-5 孩子数量和家庭人口数

           选择相关性节点计算孩子数量和家庭人口数量的相关性,直观的表达出是否相关以及如果相关的话相关程度的强弱。设置如图2-6所示,结果如图2-7所示。从结果来看,孩子数量和家庭人口数的相关性为0.949,这说明二者有强相关关系。所以,在后续的数据中,就可以选择把家庭人口数这个字段过滤掉,只考虑孩子数量就可以了,如图2-8所示。

    图2-6 设置计算相关性的节点

    图2-7 孩子数量和家庭人口数的相关性

    2-8 过滤家庭人口数属性

    从前面的观察中知道数据表有权重这一字段,所以应该去看一下权重的具体数值,选择分布节点,再选取权重字段,可以看到好客户的权重值是30,意味着一个好客户代表着30个好客户。如图2-9所示。

    图2-9 好坏客户的权重值

            知道了权重以后,下一步将好坏客户筛选出来,确定各自各有多少个。使用选择节点,用“=”函数,等0的是好客户,等1的是违约客户,输出结果是好客户有1500条记录,违约客户有1500条记录,根据他们的权重,这意味着好客户是有1500*30=45000条记录,违约客户有1*1500=1500条记录,如图2-10所示。

    图2-10 筛选好坏用户

            知道了好用户在原始数据表中的数量和权重之后,就要考虑把好用户的数量还原成45000个,以便于后面的数据分析。使用平衡节点来进行这一步的操作,将权重为30的抽取30次,权重为1的抽取1次。得到的新的分布结果如图2-11所示。

    图2-11 调整过权重的是否违约占比

    第三章 数据分析
    3.1总体思路
        (一)通过前面的数据预处理可以看到实验所用的数据比较多,数据比较杂乱,所以就想到先把数据进行分箱,通过分箱将数据划分为几个段。
        (二)通过计算各字段的WOE值和IV值知道字段的证据权重和预测信息的能力的大小。
        (三)用第二步得到的内容构建回归模型。
        (四)借助回归模型建立评分模型,即评估信用等级的模型。
        (五)用K-S法验证建立的回归模型。
    3.2基于SPSS Modeler的数据分析过程
    3.2.1对连续输入变量分箱
        第一步,对输入变量进行分箱操作,目的是通过减少变量取值个数,提高建模效率。连续变量的分箱原则有四,分别是分箱数应当适中,不宜过多或过少。过少区分度不足,过多则稳定性不强且不方便管理;各个分箱内的记录数合理,不应过多或过少;结合目标变量,分箱应该能表现出明显的趋势特征;相邻分箱的目标变量分布差异应该较大。
    首先对连续变量进行分箱。一共有5个连续变量,分别是年龄、收入、孩子数量、现住址时间、现工作时间。所以这一小节一共有5个分箱操作。在分级化节点里面使用最优分级自动将上述的5个属性进行分级操作,并导出节点。新生成的属性加上_bin后缀。如图3-1所示。

    图3-1 自动分级节点

    (一)对年龄这一属性进行分箱操作。一共分为年龄<23、23<=年龄<28、28<=年龄<46、年龄>=46四个分箱并生成新的导出节点,如图3-2所示。

    图3-2 按年龄分箱

    (二)对收入这一属性进行分箱操作。一共分为收入<1000、1000<=收入<2400、2400<=收入三个分箱并生成导出节点,如图3-3所示。

    图3-3 按收入分箱

    (三)对孩子数量这一属性进行分箱操作。一共分为孩子数量<1、孩子数量>=1二个分箱并生成导出节点,如图3-4所示。

    图3-4 按孩子数量分箱

    (四)对现住址时间这一属性进行分箱操作。一共分为现住址时间<18、18<=现住址时间两个分箱并生成导出节点,如图3-5所示。

    图3-5 按在现住址时间分箱

    (五)对现工作时间这一属性进行分箱操作。一共分为现工作时间<18、18<=现工作时间<96、96<=现工作时间三个分箱并生成导出节点,如图3-6所示。

    图3-6 按现工作时间分箱

    3.2.2对离散输入变量分箱
        在将连续变量分箱完之后,还有两个离散变量需要分箱,分别是国籍和信用卡类别,需要将这两个变量通过别的方式确定分箱的依据。
        (一)按国籍属性分箱,首先汇总国籍属性下的不同国籍违约客户数量,然后使用导出节点计算违约比例,计算公式是违约比例=是否违约_Sum/Record_Count。第三步按照违约比例升序排序,最后使用重新分类节点根据违约比例的排序手动分箱,如图3-7所示。

    图3-7 按国籍分箱

    (二)按信用卡类型属性分箱,首先汇总信用卡类型属性下的不同信用卡类型违约客户数量,然后使用导出节点计算违约比例,计算公式是违约比例=是否违约_Sum/Record_Count。第三步按照违约比例升序排序,最后使用重新分类节点根据违约比例的排序手动分箱,如图3-8所示。

    图3-8 按信用卡类型分箱

    到这里以后,分箱操作就全部完成了,完成分箱操作以后便于后续的操作继续进行,且简化了后面的计算量。

    3.3计算WOE值和IV值

    WOE值意思是证据权重,是对原始自变量的一种编码。WOE的计算公式是这样的:

     

     

     

            IV值意思是信息价值或信息量,可用来表示该变量是否对预测目标变量具有显著意义。根据经验,当IV<0.02时,该变量对预测目标变量几乎无帮助;当0.02<=IV<0.1时,该变量对预测目标变量具有一定帮助;当0.1<=IV<0.3时,该变量对预测目标变量具有较大帮助;当IV>=0.3时,该变量对预测目标变量具有很大帮助。但是当IV>0.5时,该变量对目标变量有过渡预测的倾向,应仔细查看是不是选用了和目标变量有很强因果关系的变量,这种变量是否可用于预测模型。

            IV值的计算公式是这样的:

     

     

     

    3.3.1计算年龄字段的WOE值和IV值

            计算年龄属性的WOE值,需要好客户和坏客户的数量,所以增加一个好客户新变量。选择导出节点,如图3-9所示。

    图3-9 以是否违约为条件导出

            接下来计算好客户与坏客户的数量,这里要做的操作是更改字段名称和去除无用信息,选择过滤器节点,过滤掉前面做过分箱的年龄、收入、孩子数量、在现住址时间、在现工作时间这五个字段,因为已经生成了更简洁的分箱字段。而国籍和信用卡类型不过滤是因为它们是离散的数据,跟连续数据的分箱无关。将是否违约字段重命名为是否坏客户,将是否不违约字段重命名为是否好客户。如图3-10所示。

    图3-10 过滤无用信息并重命名字段

    然后分别从这个节点出发,往后流出两个汇总节点,一个汇总总的好客户和坏客户的数量,一个汇总各个年龄分箱段内的好客户与坏客户数量,如图3-11所示。汇总以后再把两个汇总结果横向合并到一起,如图3-12所示。

    图3-11 分别汇总好坏客户数量

    图3-12 合并汇总的好坏客户数量

            得到上面的数据后,之后分别利用导出节点计算数量占比、好客户占比、坏客户占比以及坏客户比例。再继续用导出节点,算出年龄的WOE值,如图3-13所示。

    图3-13 计算年龄的WOE值

            计算完年龄WOE值之后,我们进行年龄的IV值计算。因为IV值是一个加总的值,所以先计算每一段年龄分箱的IV值再把它们汇总,如图3-14所示。

    图3-14 年龄IV值
    计算完了年龄字段的WOE值和IV值之后,将每段的WOE值导出。
    3.3.2计算剩余字段的WOE值和IV值
        因为已经以年龄字段为例详细展示了怎么计算一个字段的WOE值和IV值,故剩余的收入、孩子数量、在现住址时间、在现工作时间、国籍、信用卡类型几个字段的计算过程就只写出关键步骤,不再每一步都贴图展示。
    (一)收入的WOE值和IV值
    根据计算年龄WOE值和IV值的流,更改必要的字段后即可得出收入的WOE值和IV值,如图3-15所示。

    图3-15收入的WOE值和IV值

            (二)孩子数量的WOE值和IV值

            根据计算年龄WOE值和IV值的流,更改必要的字段后即可得出孩子数量的WOE值和IV值,如图3-16所示。

    图3-16孩子数量的WOE值和IV值

            (三)在现住址时间的WOE值和IV值

            根据计算年龄WOE值和IV值的流,更改必要的字段后即可得出在现住址时间的WOE值和IV值,如图3-17所示。

    图3-17在现住址时间的WOE值和IV值

            (四)在现工作时间的WOE值和IV值

    根据计算年龄WOE值和IV值的流,更改必要的字段后即可得出在现工作时间的WOE值和IV值,如图3-18所示。

    图3-18在现工作时间的WOE值和IV值

            (五)国籍的WOE值和IV值

            根据计算年龄WOE值和IV值的流,更改必要的字段后即可得出国籍的WOE值和IV值,如图3-19所示。

    图3-19国籍的WOE值和IV值

            (六)信用卡类型的WOE值和IV值

            根据计算年龄WOE值和IV值的流,更改必要的字段后即可得出信用卡类型的WOE值和IV值,如图3-20所示。

    图3-20信用卡类型的WOE值和IV值

    3.4建立输入变量与目标变量的Logistic回归模型
    3.4.1导出Logistic回归模型数据
        逻辑回归是一种在预测目标变量为离散变量时广泛采用的数据分析技术。

     

    P是关注结果出现的概率,本案例中指的是坏客户。

            一般情况下,输入变量主要为连续变量,当输入变量为离散变量时,通常采用哑变量的方式将离散变量转化为连续变量再进行处理。但是在构建信用评分卡时,所有变量都已经被转换为了离散变量。作为替代,使用各个变量分箱对应的WOE值作为Logistic回归的输入变量。

           使用Logistic回归进行预测时,除了可以选择让全部变量进入模型之外,也可以让模型选择最终进入模型的变量:前进法、后退法、逐步法。

           在前面做的数据的基础上,建一个新的新的流,首先添加前文导出的总WOE值数据,如图3-21所示。

    图3-21 总WOE值数据

            在读入数据后,使用类型节点,调整各字段的角色,各分箱值不再输入,所以调整角色为无,WOE值是用来预测的自变量,故调整角色为输入,是否违约是与粗目标,故调整角色为目标。特别的是在是否违约这一字段,要改为标记类型的数据,因为是否违约这个字段只有违约和不违约两种结果,所示适用用来表示有两个不同值的标记数据类型。如图3-22所示。

    图3-22 调整字段的类型

            然后使用Logistic模型建立回归模型。如图3-23所示。可以看到现住址时间没有了,这是因为它的预测能力很弱,自动的被省略了。

    图3-23 回归模型结果

            将回归模型的结果导出成.txt格式的文件,再将.txt文件整理为结构化数据回归系数.csv文件。

    3.4.2结构化回归模型数据
    使用变量文件源节点导入.txt文件,输出成表格可以观察到有效数据从第8行开始,到第15行结束,每个系数里有“*”和“+”符号。如图3-24所示。

    图3-24 .txt文件的数据

            在读入数据后首先将字段名field1改为回归系数这几个比较显眼字方便后面做函数时候用,然后选择只显示8到14行的有效数据。如图3-25所示。

    图3-25 更改字段为回归系数并选择有用数据

            之后经过两次条件选择,可以输出有用的数据,最后再过滤一次最开始的那个原始字段,如图3-26和3-27所示。

    图3-26 选择有效数据

    图3-27 过滤原始字段

            之后从过滤节点出发流出两个选择节点,通过保留常数项和丢弃常数项操作,再在包括常数项的节点后面过滤掉变量字段,因为另外一个丢弃常数项的节点里面已经有这个字段。将这两个节点合并后,得到结构化的回归系数,并将回归系数导出成.csv文件,如图3-28所示。

    图3-28 导出结构化回归系数

    3.5建立评分模型
    3.5.1建立模型
        本次试验最终的目的是建立各个变量各个分箱的评分值。将Logistic回归系数转化为信用评分的形式是一个量表编制的过程。应该有这样的限制:将评分控制在一定范围内,如0~1000分之间;在特定分数时,好客户和坏客户具有一定的比例关系(优比odds=好客户占比/坏客户占比=(1-p)/p);评分值增加应该能够反映好客户和坏客户比例关系的变化。
        先将前面导出的数据合并到一起并和回归系数合并到一起,回归系数可以用填充节点处理一下以消除可能存在的文字前后的空格,就可以利用变量关键字合并了。如图3-29所示。

    图3-29 合并WOE值和回归系数

            使用导出节点,用公式计算各分箱的评分,如图3-30所示。

    图3-30 用公式计算评分

    用过滤节点过滤掉不需要的节点后,输出各变量各分箱评分.csv文件,这一小节完成,如图3-31所示。

    图3-31 输出各变量各分箱评分

    3.5.2验证模型
        有些时候,在目标变量中我们关注的取值比例很少的情况下,模型准确率、模型命中率、模型覆盖率等评价指标将会变得没有意义。就本案例来说,使用逐步法建立Logistic回归模型,使用分析节点选中重合矩阵可以看到如图3-32的结果。从图中可以看到准确率达到了96.77%,可是进一步观察重合矩阵就会发现,这个模型将所有的客户都预测为好客户,但我想要的是哪些客户是坏客户,即违约的客户,所以从这个角度来说这个模型的意义并不是很大。但是,这个模型的增益图和提升图还是有意义的,因为它们是根据客户为坏的可能性进行排序得到的图形,如图3-33所示。

    图3-32 分析节点选中重合矩阵

    图3-33 增益图和提升图

            除了上面的两个增益图和提升图,这次还会使用K-S指标来验证模型的优劣。适应于目标变量为标志型的预测模型。在模型有效的情况下,坏客户累计占比曲线应该在好客户累计占比曲线之上,且这两条曲线距离越远,模型效果越好,模型区分好客户和坏客户的能力越强。一般认为区分度在30%以上的模型是可以接受的。

            在SPSSmodeler中,没有直接作出K-S指标及图形的节点,但是可以通过节点的组合生成K-S指标和相关图形。下面就做一个K-S指标的计算。在导入前面生成的建模数据后,先用导出节点的@INDEX生成客户编号,如图3-34所示。

    图3-34 生成客户编号

           在这之后,用过滤节点过滤掉无用字段。然后从这个过滤节点流出6个导出节点,生成新的字段,名字与各变量评分表中的名字一致,这是因为后面要与评分表进行合并。如图3-35所示。

    图3-35 生成新变量

           将6个新生成的数据表追加合并,得到279000条记录。如图3-36所示。

    图3-36 追加合并

            经过字段重排,排序后与前面生成的评分表合并,得到评分数据。如图3-37所示。

    图3-37 评分表数据

            再经过字段重排和排序后,按客户编号汇总评分值。如图3-38所示。

    图3-38 按客户编号汇总评分

            之后按照信用评分排序,排序之后汇总好客户和坏客户数量,再在过滤总数之后与排序节点合并,得到好坏客户数量及评分值的表。

    图3-39 好坏客户数量及评分

            用导出节点分别计算好客户累计占比和坏客户累计占比,如图3-40所示。

    图3-40 好坏客户累计占比

            有了好坏客户的累计占比,就可以计算K-S图,如图3-41所示。

    图3-41 K-S图

            也可以用导出节点得到K-S值,如图3-42所示。

    图3-42 K-S值
    到这一步为止,关于本次试验的实践操作部分已经完成。
    3.6完整数据流
        第一个完整的流,是计算WOE值和IV值的流,如图3-43所示。

    3-43 计算WOE值和IV值的流

    第二个流,是回归模型流,如图3-44所示。

    图3-44 回归模型流

    第三个流是结构化回归系数的流,如图3-45所示。

    图3-45 结构化回归系数流

    第四个流是建立评分模型的流,如图3-46所示。

    图3-46建立评分模型流

    第五个流是验证评分模型的流,如图3-47所示。

    图3-47 验证评分模型流

    第四章 结论及建议
    4.1根据结果对银行的建议
        前面的分析已经随着实验步骤写过了,这里只分析一下最后的结果。从最后的K-S里面可以看出来,信用分大于492分的客户就有很大可能是属于好客户了,所以对于这一类客户的贷款申请可以同意,而对于信用评分低于492分的客户,就本实验所用的数据来推测很可能就是坏客户,因此就不要同意向他们发放贷款。
        当然,本次实验所用的数据并不是特别的丰富,在实际操作中,也可以再收集客户的婚姻状况、固定资产、车子房子等等信息,讲这些信息一并考虑后再决定是不是发放贷款,毕竟贷款是一项长期的业务。
     

    数据源https://download.csdn.net/download/youxinyuchu/16072710

    展开全文
  • 介绍了消费者信用评分在电信信用风险管理中的应用,对电信大数据作为重要的替代数据在金融授信中的应用进行了案例分析,对国内电信大数据如何在信用风险管理中发挥作用,提出了专业的建议和展望。
  • 电子货币的信用风险分析,杨栓军,曾海丽,新的货币形式--电子货币的出现给世界经济和金融的发展提供了更加有力的创新和支持,但是新的货币形式在使用过程之中存在着一些风�
  • 基于VaR的商业银行信用风险管理,卞艮华,,在金融自由化、信用证券化的今天,传统的信用风险管理方法已经很难满足现在的要求。本文介绍了国际银行界广泛使用并且被巴塞尔协
  • 地方政府与公用事业信用风险展望报告
  • 信用风险一直是商业银行管理的热点和难点,在对国外商业银行信用风险管理的主要方法进行详细比较分析的基础上,探讨了我国商业银行信用风险管理方法,构建了相应的信用风险测度框架。以期对提高我国商业银行信用管理...
  • 采用模糊规划的方法,对模糊不确定环境下的信用风险度量和投资优化问题进行了模型的构建与仿真研究。基于具有自对偶性的可信性测度,提出了模糊条件在险价值作为信用风险度量,并构建了带有投资和收益等约束条件限制的...
  • 为了基于通信运营商大数据对个人信用风险进行控制,设计了一种基于运营商大数据的信用风险控制模型。在运营商的用户基础信息、通信行为、上网行为、地理位置等数据的基础上使用分类算法进行数据挖掘得到信用风险控制...
  • 2019年油服装备行业信用风险展望报告
  • 信用风险计量模型

    2019-09-28 02:18:43
    python信用评分卡建模(附代码,博主录制) ...utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 信用风险计量技术简述 ...

    python信用评分卡建模(附代码,博主录制)

     

    信用风险计量技术简述

    https://blog.csdn.net/zhuzhubiji/article/details/16841819 转载

    1.古典信用风险计量模型
    主观判断分析方法、财务比率评分方法、多变量信用风险判别方法(其中最有效,包括线性概率模型、Logit模型、Porbit模型、判别分析模型)
    评级方法:将信用状况分成不同等级,分别使用不同的信用政策。
    评分方法:对影响信用的不同因素确定不同的分值和权重,汇总计算出对应的信用评分。作为给予企业信用额度或贷款额度的依据。Z评分模型、ZETA评分模型。
    专家方法:专家打分,对决定信用状况的主要因素进行评分。5C法。

    2.现代信用风险度量模型
    莫顿Merton将期权定价理论运用到违约证券定价的研究,推出了违约债券的定价公式。
    违约证券估价理论模型都是基于BSM(Black ScholesMerton)的股票期权定价模型,称为结构化模型。
    简约模型:不用公司资产价值数据,而用市场中易于得到的公司违约率、公司信用等级变动以及债券信用利差等市场数据。马尔可夫模型、可尔可夫模型、双因素模型

    信用风险模型大致分三类:
    1.信用转移方法:如J.P. Morgan提出的CreditMetrics模型,研究给定时间水平上信用质量变化的规律。
    2.期权定价方法:又称结构化方法,本质是勇气也未来价值的内生的不确定性解释企业债务的违约风险。如KMV公司的KMV模型。
    3.保险精算方法:如瑞士信贷银行金融产品部CSFP的Credit Risk+模型;麦肯锡公司Mckinsey的CreditPortfolio View模型。

     

    信用风险计量模型汇总

    信用风险计量模型的基本技术路线是,利用借款者的特征指标和宏观经济变量,收集这些特征指标和宏观变量的历史数据,并将其应用于预测违约借款人与履约借款人。预测模型旨在评估未知借款者将来是否还款的信用价值,将潜在借款者的特征值输入模型,从模型中输出信用价值评估,从而可对潜在借款人进行信用评估。

    一般的评级方法可以分为专家经验判断法、参数模型和非参数模型。所谓的专家经验判断,就是相关专家根据主观经验进行打分,后两种方法都是根据模型进行客观的计算。而对于参数模型与非参数模型的区分:用代数方程、微分方程、微分方程组以及传递函数等描述的模型都是参数模型。建立参数模型就在于确定已知模型结构中的各个参数,通过理论分析总是得出参数模型;非参数模型是直接或间接地从实际系统的实验分析中得到的响应,例如通过实验记录到的系统脉冲响应或阶跃响应就是非参数模型。

    下面的例子给大家通俗易懂的解释一下。

    例子:项目组小翟最近喜欢上了一个姑娘,但是非常苦恼姑娘是不是喜欢自己。小翟来咨询他的人生导师-小张姐姐,小张姐姐根据自己的经验判断姑娘不会喜欢他,小翟非常伤心,这就是专家经验判断法。

    之后,小翟又来咨询数据分析高手-小金哥哥,小金哥哥通过分析小翟和姑娘的生辰八字,列出了回归方程,判断姑娘会有37.28%概率喜欢上小翟,小翟非常伤心,这就是参数模型。

    最后,小翟又来咨询数学专业高材生-小沈姐姐,小沈姐姐收集了几十对在一起的情侣又收集了几十对没有在一起的情侣,通过决策树的算法,判断小翟和姑娘的数据更偏向于没有在一起的情侣,小翟非常伤心,这就是非参数模型。

    专家判断法

    专家经验判断

    专家经验判断是根据信贷专家多年从业经验进行定性判断。

    • 层次分析法

    层次分析法(简称AHP)是美国运筹学家Saaty教授于20世纪70年代初提出的,其特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化。作为规划、决策和评价的工具,AHP自问世以来,已在各个领域得到迅速普及和推广,取得了大量的研究成果。层次分析法主要用于确定综合评价的权重系数,所用数学工具主要是矩阵的运算。信用风险的测算是一个复杂的、多层次的评价过程,每个指标要素之间的关系是相互依存、相互作用的,它们是一个整体。

    层次分析法计算过程如下:

    一、每两个指标的相对重要性判断

    • 假设函数f(x,y),它表示评价指标x对于评价指标y的重要程度。约定f(x,y)=1/f(y,x)。如下表所示。
    •  

       

    二、构造判断矩阵

    • 在这里插入图片描述为全部评价指标所组成的一个集,按照上表中所列的各个指标之间的重要程度,对所有同层次之间的评价指标进行两两之间的对比,构造矩阵在这里插入图片描述,其中在这里插入图片描述,并且矩阵C称之为判断矩阵。

     

     

    三、计算权重

    • 根据上述构造的判断矩阵C,通过矩阵运算,计算它的最大特征值在这里插入图片描述,并求出矩阵C关于最大特征值的特征向量在这里插入图片描述,经过归一化处理后的xi就是各评价因子的权重。

    在这里插入图片描述,矩阵A即为权重向量。

    四、一致性检验

      • 根据下式计算一致性指标CI
        在这里插入图片描述

      • 查找平均随机一致性指标RI.

     

     

     根据下式计算一致性比例CR。

    在这里插入图片描述

    当CR<0.10,认为判断矩阵的一致性是可以接受的,否则对判断矩阵进行适当的修改,最终达到一致性要求。

    参数模型

    • 一、逻辑回归

    Logistic回归用于分类的应用比较广泛,利用Logistic回归模型可以将因变量与自变量之间关系的求解转变为求解被解释变量发生类别的相应概率。Logistic回归模型的思想来自于线性回归,是一种非线性概率回归,多元线性回归用来预测由多个连续解释变量构成的函数模型的被解释变量数值的大小,而Logistic回归是用来预测由一个或多个解释变量构成的分类函数中属于其中一类的概率。

    Logistic逻辑回归分析的假设前提为:

    (1) 数据来自随机样本;
    (2)自变量之间不存在多重共线性关系。

    Logistic函数的形式为:

     

     那么在回归模型基础上计算得出的发生的概率和之间存在如下的回归关系:

     

     

    逻辑回归模型是解决0-1回归问题行之有效的方法,模型的曲线为S型,最大值趋近1,最小值趋近0。通过设定临界值作为事件发生与否的标准,如果事件发生的概率大于临界值,则判定事件发生;反之,判定事件不发生。和判别分析方法不同,Logistic回归模型在理论上并不存在“最优”的分割点,分割点的选取取决于模型使用者的具体目的。

    实现方式

    一般逻辑回归数据量不是特别大,spss操作起来简单易懂,同时SAS\Python都可以实现。

    SAS基础代码:

    proc logistic data=数据名 desending;model 因变量=自变量; run;

    判别分析

    纽约大学斯特恩商学院教授爱德华·阿特曼(Edward Altman)在1968年就对美国破产和非破产生产企业进行观察,采用了22个财务比率经过数理统计筛选建立了著名的5变量Z-score模型。Z-score模型是以多变量的统计方法为基础,以破产企业为样本,通过大量的实验,对企业的运行状况、破产与否进行分析、判别的系统。Z-score模型在美国、澳大利亚、巴西、加拿大、英国、法国、德国、爱尔兰、日本和荷兰得到了广泛的应用。


    X1=(流动资产-流动负债)/资产总额;
    X2=(未分配利润+盈余公积金)/资产总额;
    X3=(税前利润十财务费用)/资产总额;
    x4=(每股市价流通股数+每股净资产非流通股数)/负债总额;
    X5=主营业务收入/资产总额
    判断准则:Z<1.8,破产区;1.8≤Z<2.99,灰色区;2.99<Z,安全区

     

    • 二、BSM莫顿模型

    1973年,美国芝加哥大学教授 Fischer Black&Myron Scholes提出了著名的B-S定价模型,用于确定欧式股票期权价格,在学术界和实务界引起了强烈反响;同年,Robert C. Merton独立地提出了一个更为一般化的模型,布莱克-舒尔斯-默顿期权定价模型(下文简称B-S-M模型),并由此导出衍生证券定价的一般方法。舒尔斯和莫顿由此获得了1997年的诺贝尔经济学奖。现在,布莱克—斯科尔斯—莫顿定价公式已被期货市场参与者广泛接受,是金融工程中所有定价理论的基石。
    经典BSM模型:

    信用资产的违约行为表现为借款人到期不能偿还贷款的本金利息。莫顿理论假设一旦借款人的资产市值在一年内低于其现有负债价值,则借款人将发生违约。如果我们能获得资产波动的相关性,借助以资产为基础的违约,就可以获得违约的相关性。而资产波动的相关性,在资本市场上是可以观察到的,并有完整的数据积累。当借款人的资产市场价值小于一个阀值(负债)时,借款人发生违约。

    根据BSM模型,可以将贷款看做一种期权,一旦市值小于其负债就看做执行期权,产生违约。期权执行的概率=N(d2),即违约概率

     

     

    非参数模型

    • 一、聚类分析

    对没有目标变量的数据集根据数据的相似性给出 “自然的”分组,类内对象相似性尽量大,类间对象相似性尽量小。根据结果类的分离性,聚类分为重叠聚类与互斥聚类。

    首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。

    聚类分析可以由SPSS点击实现,也可以由SAS函数实现。聚类分析SAS代码:
    proc varclus data=数据集 outtree=tree;
    var 变量;
    run;
    proc tree data =tree;run;

    • 二、决策树

    决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。

    决策树在SPSS里有成型的算法,直接单击使用即可。SAS中的Proc split或Proc hpsplit函数可以直接调用。R语言中的rpart()函数也可以直接调用生成决策树。

    决策树有很多优点,比如:易于理解、易于解释、可视化、无需大量数据准备。使用决策树(预测数据)的成本是训练决策时所用数据的对数量级。

    但这些模型往往不直接使用,决策树一些常见的缺陷是:

    构建的树过于复杂,无法很好地在数据上实现泛化、数据的微小变动可能导致生成的树完全不同,因此决策树不够稳定、决策树学习算法在实践中通常基于启发式算法,如贪婪算法,在每一个结点作出局部最优决策。此类算法无法确保返回全局最优决策树。、如果某些类别占据主导地位,则决策树学习器构建的决策树会有偏差。因此推荐做法是在数据集与决策树拟合之前先使数据集保持均衡。

    由于决策树容易对数据产生过拟合,因此分支更少(即减少区域 R_1, … ,R_J)的小树虽然偏差略微高一点,但其产生的方差更低,可解释性更强。减少决策树的方差可以通过袋装(bagging)和随机扥林方法来实现,由于随机森林在效果上好于袋装,下面只介绍随机森林函数。

    • 三、随机森林

    顾名思义,森林是由很多颗树构成,随机森林也是由很多个决策树构成。随机森林通过随机扰动而令所有的树去相关,在构建每一棵树时,每一个结点分割前都是采用随机样本预测器。随机森林可以考虑使用大量预测器,不仅因为这种方法减少了偏差,同时局部特征预测器在树型结构中充当重要的决策。

    随机森林可以使用巨量的预测器,甚至预测器的数量比观察样本的数量还多。采用随机森林方法最显著的优势是它能获得更多的信息以减少拟合数值和估计分割的偏差。

    随机森林可由R语言中的randomforest()函数实现。函数默认生成500颗树,并且默认每个节点抽取个变量。

    • 四、支持向量机(SVM)

    支持向量机分类器的基本原理是通过一个非线性变换将一个线性不可分的空间映射到另一个高维的线性可分的空间,并建立一个分类器,这个分类器具有极小的 VC 维数。该分类器仅由大量样本中的极少数支持向量确定,并且具有最大的边界宽度。支持向量机算法的好处在于不是直接计算复杂的非线性变换,而是通过计算非线性变换的点积,因而大大简化了计算量。通过把核函数引入到一些学习算法中来,可以很方便地把线性算法转换为非线性算法,将其与支持向量机一起称为基于核函数的方法。

    从信用评级问题的特点来看,适合采用SVM进行处理。SVM的特点之一是简单、推广能力强和易于解释。银行信用评级历史数据的一个特点是分布零散,各个信用等级的样本数据量差别很大,而且可能存在较多的有缺陷的样本。如果使用一般的模式识别模型,由于各个类别样本数据量不对称,训练过程中分类器分类效果会向样本量大的类别倾斜。然而对商业银行来说,一些高风险类别的对象,其数量虽然少,但是将其识别出来却是至关重要的。

    另一方面,借款人的历史数据中存在缺陷是很正常的,甚至会有虚假信息,这些样本应该被剔除掉。如果使用全部样本训练分类器的话,这些样本的存在可能会对分类器性能产生极大影响。但在SVM模型中,只有支持向量才对优化起作用,而支持向量的数量是非常有限的。因此,可以在使用SVM模型得到结果后。由专家对支持向量集进行研究。既可以得到对结果的深入认识,又可以对支持向量样本进行审查,如果其中包含了有严重缺陷的样本的话可以剔除出去重新训练。

    SVM模型的另一个特点是泛化能力强,SVM模型的复杂度可以由支持向量的数量来描述,而这又很容易控制。因此,SVM模型不会出现过拟合问题,模型的稳定性相当好,能很好满足银行对信用评级系统的稳定性要求。

    支持向量机可以通过R语言中kernlab包的ksvm()函数和e1071包中的svm()函数实现。

    • 五、K紧邻学习-KNN

    最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。

    KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

    R语言里的kknn包可以实现最邻近算法——使用kknn()函数。

    • 六、贝叶斯分类器

    贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。
    经典贝叶斯公式:

     

     

     

    python风控建模实战lendingClub(博主录制,catboost,lightgbm建模,2K超清分辨率)

    https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149

     微信扫二维码,免费学习更多python资源

     

    转载于:https://www.cnblogs.com/webRobot/p/11557638.html

    展开全文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,457
精华内容 982
关键字:

信用风险