精华内容
下载资源
问答
  • 信用风险评级模型的开发过程

    千次阅读 2019-02-18 10:44:25
    信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡F卡;债项评级模型通常按照主体的融资用途,分为企业...

    参考《基于R语言的证券公司信用风险计量和管理》第三章

    一、信用风险评级模型的类型

    信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。

    A卡,又称为申请者评级模型,主要应用于相关融资类业务中新用户的主体评级,适用于个人和机构融资主体。

    B卡,又称为行为评级模型,主要应用于相关融资类业务中存量客户在续存期内的管理,如对客户可能出现的逾期、延期等行为进行预测,仅适用于个人融资主体。

    C卡,又称为催收评级模型,主要应用于相关融资类业务中存量客户是否需要催收的预测管理,仅适用于个人融资主体。

    F卡,又称为欺诈评级模型,主要应用于相关融资类业务中新客户可能存在的欺诈行为的预测管理,适用于个人和机构融资主体。

    我们主要讨论主体评级模型的开发过程。

    二、信用风险评级模型开发流程概述

    图2.1 评级模型开发流程

    典型的评级模型开发流程如图2.1所示。该流程中各个步骤的顺序可根据具体情况的不同进行适当调整,也可以根据需要重复某些步骤。

    信用风险评级模型的主要开发流程如下:

    (1) 数据获取,包括获取存量客户及潜在客户的数据。存量客户是指已经在证券公司开展相关融资类业务的客户,包括个人客户和机构客户;潜在客户是指未来拟在证券公司开展相关融资类业务的客户,主要包括机构客户,这也是解决证券业样本较少的常用方法,这些潜在机构客户包括上市公司、公开发行债券的发债主体、新三板上市公司、区域股权交易中心挂牌公司、非标融资机构等。

    (2) EDA(探索性数据分析)与数据描述,该步骤主要是获取样本总体的大概情况,以便制定样本总体的数据预处理方法。描述样本总体情况的指标主要有缺失值情况、异常值情况、平均值、中位数、最大值、最小值、分布情况等。

    (3) 数据预处理,主要工作包括数据清洗、缺失值处理、异常值处理,主要是为了将获取的原始数据转化为可用作模型开发的格式化数据。

    (4) 变量选择,该步骤主要是通过统计学的方法,筛选出对违约状态影响最显著的指标。

    (5) 模型开发,该步骤主要包括变量分段、变量的WOE(证据权重)变换和逻辑回归估算三部分。

    (6) 主标尺与模型验证,该步骤主要是开发某类主体的主标尺并进行模型的验证与校准。

    (7) 模型评估,该步骤主要是根据模型验证和主标尺设计的结果,评估模型的区分能力、预测能力、稳定性,并形成模型评估报告,得出模型是否可以使用的结论。

    (8) 模型实施,即模型的部署和应用。

    (9) 监测与报告,该步骤主要工作是定期检测模型的使用情况,并关注和定期检验模型的区分能力与预测能力的变化及模型稳定性的变化,在出现模型可能不能满足业务需求的情况时,反馈至模型开发团队,及时进行模型更新或重新开发。

    三、基于Logistic回归的标准评分卡模型开发实现

    3.1 明确要解决的问题

    在开发信用风险评级模型(包括个人和机构)之前,首先要明确我们需要解决的问题。因为,个人信用风险评级模型包括申请者评级、行为评级、催收评级、欺诈评级等几类,开发每一类评级模型所需要的数据也是不同的,例如开发个人申请者评级模型需要的是个人客户申请融资类业务时提交的数据,开发个人行为评级模型需要的是存量个人客户的历史行为数据,这两部分数据及需要解决的问题,也存在较大的差异。因此,在开发信用风险评级模型之前,我们需要明确开发模型的类型。此处以开发个人客户的申请者评级模型为例,来详细讲述此类模型的开发过程。

    开发申请者评分模型所需要的数据是个人客户申请融资类业务时所需的数据,包括反映个人还款意愿的定性数据,应用申请者评分模型的目的是预测该申请客户在未来一段时间发生违约的概率。

    我们做预测模型的一个基本原理是用历史数据来预测未来,申请者评分模型需要解决的问题是未来一段时间(如12个月)融资人出现违约(如至少一次90天或90天以上逾期)的概率。在这个需求中,“未来一段时间”为表现时间窗口(performance window),“融资人出现至少一次90天或90天以上逾期”为观察时间窗口(sample window)。个人主体的违约跟个人行为习惯有很大的相关性,因此我们可以通过分析个人样本总体中客户的历史我违约频率来确定表现时间窗口观察时间窗口。这两个窗口的确定对于我们要解决的问题,有着非常重要的影响,我们将放在第二步中结合具体的数据来分析,并讲述具体的确定方法。

     

    3.2 数据描述和探索性数据分析

    数据准备和数据预处理是整个信用风险模型开发过程中最重要也是最耗时的工作了。通常情况下,数据准备和数据预处理阶段消耗的时间占整个模型开发时间的80%以上,该阶段主要的工作包括数据获取、探索性数据分析、缺失值处理、数据校准、数据抽样、数据转换,还包括离散变量的降维、连续变量的优先分段等工作。

    明确了要解决的问题后,接下来我们就要搜集相关的数据了。此处,我们以互联网上经常被用来研究信用风险评级模型的加州大学机器学习数据库中的german credit data为例,来详细讲述个人客户信用风险评级模型的开发方法。

    German credit data 的数据来自”klaR”包

     

    install.packages(“klaR”)

    library(“klaR”)

    data(GermanCredit)

    View(GermanCredit)      #查看该数据集

    该数据集包含了1000个样本,每个样本包括了21个变量(属性),其中包括1个违约状态变量“credit_risk”,剩余20个变量包括了所有的定量和定性指标,分别如表3.1所示。

    接下来,我们需要检查数据的质量,主要包括缺失值情况、异常值情况及其他处理方法。缺失值和异常值处理的基本原则是处理前后的分布总体保持一致。

     

    3.21 用户数据的缺失值处理:

    3.21 用户数据的缺失值处理:

    在我们搜集样本时,许多样本中一般都含有缺失值,这种情况在现实问题中非常普遍,这会导致一些不能处理缺失值的分析方法无法应用,因此,在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种。

    (1) 直接删除含有缺失值的样本。

    (2) 根据样本之间的相似性填补缺失值。

    (3) 根据变量之间的相关关系填补缺失值。

    直接删除含有缺失值的样本时最简单的方法,尤其是这些样本所占的比例非常小时,用这种方法就比较合理,但当缺失值样本比例较大时,这种缺失值处理方法误差就比较大了。在采用删除法剔除缺失值样本时,我们通常首先检查样本总体中缺失值的个数,在R中使用complete.cases()函数来统计缺失值的个数。

     >GermanCredit[!complete.cases(GermanCredit),]

    >nrow(GermanGredit[!complete.cases(GermanCredit),]

    >GermanCredit<-na.omit(GermanCredit)    #删除包含缺失值的样本

    >View(GermanCredit)                     #查看结果

    根据样本之间的相似性填补缺失值是指用这些缺失值最可能的值来填补它们,通常使用能代表变量中心趋势的值进行填补,因为代表变量中心趋势的值反映了变量分布的最常见值。代表变量中心趋势的指标包括平均值、中位数、众数等,那么我们采用哪些指标来填补缺失值呢?最佳选择是由变量的分布来确定,例如,对于接近正态分布的变量来说,由于所有观测值都较好地聚集在平均值周围,因此平均值就就是填补该类变量缺失值的最佳选择。然而,对于偏态分布或者离群值来说,平均值就不是最佳选择。因为偏态分布的大部分值都聚集在变量分布的一侧,平均值不能作为最常见值的代表。对于偏态分布或者有离群值的分布而言,中位数是更好地代表数据中心趋势的指标。对于名义变量(表3.1中的定性指标),通常采用众数填补缺失值。

    我们将上述分析放在一个统一的函数centralImputation()中,对于数值型变量,我们用中位数填补,对于名义变量,我们用众数填补

    上述按照中心趋势进行缺失值填补的方法,考虑的是数据每列的数值或字符属性,在进行缺失值填补时,我们也可以考虑每行的属性,即为我们要讲述的第三种处理缺失值的方法,根据变量之间的相关关系填补缺失值。

    当我们采用数据集每行的属性进行缺失值填补时,通常有两种方法,第一种方法是计算k个(本文k=10)最相近样本的中位数并用这个中位数来填补缺失值,如果缺失值是名义变量,则使用这k个最近相似数据的加权平均值进行填补,权重大小随着距离待填补缺失值样本的距离增大而减小,本文我们采用高斯核函数从距离获得权重,即如果相邻样本距离待填补缺失值的样本的距离为d,则它的值在加权平均中的权重为:

     

    在寻找跟包含缺失值的样本最近的k个邻居样本时,最常用的经典算法是knn(k-nearest-neighbor) 算法,它通过计算样本间的欧氏距离,来寻找距离包含缺失值样本最近的k个邻居,样本x和y之间欧式距离的计算公式如下:

     

    式中:δ_i ( )是变量i的两个值之间的距离,即

     

    在计算欧式距离时,为了消除变量间不同尺度的影响,通常要先对数值变量进行标准化,即:

     

    我们将上述根据数据集每行的属性进行缺失值填补的方法,封装到knnImputation()函数中

    调用knnImputation()函数,用knn方法填补缺失值

     

    3.22 用户数据的异常值处理:

    离群点检测、

    缺失值处理完毕后,我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值,比如个人客户的年龄大于100时,通常认为该值为异常值。找出样本总体中的异常值,通常采用离群值检测的方法。

    离群值检测的方法有单变量离群值检测、局部离群值因子检测、基于聚类方法的离群值检测等方法。由于本文采用的样本总体GermanCredit已经进行了数据预处理,即已经做了缺失值和异常值处理,因此,我们以随机产生的样本为例来说明离群值检测的方法。

    (1)第一种方法是单变量离群值检测,该方法的原理是通过求解单变量数值的第1个和第3个四分位数的值,将数值小于第1个四分位数和大于第3个四分位数的值定义为离群值。该方法可通过R包grDevices中的boxplot.stats()函数实现。

    我们用随机数来演示获取异常值的方法,

     

     

    需要特别说明的是,在实际的样本搜集和数据预处理中,我们应该首先对个人客户的违约做出定义,并根据对违约的定义对搜集的样本进行必要的校准。一般情况下,我们搜集的数据为非标准化的数据,如表3.2所示,该表中假设搜集的是前10个客户在两年内的历史违约情况。

     

     

    在表3.2所示的数据集中,如果我们假设连续出现三个月逾期可被定义为违约,则客户6至客户9可被确认为违约。然而,为了明确违约的概念,我们还需要确定基准时间和观察时间窗口。如果当前时间是2016年7月末,则只有6和7两个客户为违约,其他客户均属于正常客户,如果当前时间是2016年9月末,则只有6、7、8三个客户为违约,客户9已经自愈,则再次变成正常客户。

    结合上述分析,在明确评分卡要解决的实际问题时,还应该确定表现时间窗口和观察时间窗口,而这两个窗口的确定,需要根据我们搜集的数据来具体确定。他们的确定方法,分别如下:

    在确定变现时间窗口的长度时,我们通常需要客户从开始开立融资类业务时到最近时间点(或至少两年以上的历史逾期情况)的逾期表现,用图形表示,如图3.7所示。

     

    按照图3.7所示的表现时间窗口的定义方法,我们对样本总体进行统计分析,以逾期90天定义为违约,会得出表3.3所示的统计结果。

     

    表3.3中8月最后一列数据3.48%表示,2.1日开立的所有账户中,8个月后出现逾期90天以上的账户占样本的比重为3.48%。我们通过这样统计方法,并绘制样本总体的违约状态变化曲线,即可得到如图3.8所示的曲线。从图3.8所示的曲线中我们可以看出,在账户开立第11个月到第13个月时,客户的违约状态达到稳定状态,曲线变得非常平稳。此时,我们可以确定评分卡的表现时间窗口为11个月到13个月,即我们将违约状态变得稳定的时间段确定为表现时间窗口。这种方法可使我们开发的评分卡模型的区分能力和预测能力准确性均达到最优稳定状态。

     

     

    由图3.8的曲线可以看出,客户开立融资类业务的账户的起始阶段发生违约的频率是不断增多的,但随着时间的推移发生违约的客户的占比处于稳定状态。那么,我们在开发信用风险评分卡模型时,需要选择客户违约处于稳定状态的时间点来作为最优表现时间窗口,这样既可以最大限度地降低模型的不稳定性,也可以避免低估最终的违约样本的比率。例如,当我们选择表现时间窗口为6个月时,样本总体中的违约样本占比仅为3%左右,而实际违约样本占比约为4.5%。

    上例中,观察时间窗口我们确定为90天,当然也可以是60天或30天,但当观察时间窗口确定为30天时,客户的违约状态将会更快地达到稳定状态。如果我们按照某个监管协议(如巴塞尔协议)的要求开发信用风险评分卡模型,则观察时间窗口也要按照监管协议的要求确定。除此之外,观察时间窗口的确定要根据样本总体和证券公司的风险偏好综合考虑确定。但在个人信用风险评级模型开发领域,大多数将逾期90天及以上定义为个人客户的违约状态。

    以上讲的都是开发申请者评分卡模型时表现时间窗口的确定方法,在开发个人客户的行为评分卡和催收评分卡模型时,表现时间窗口的确定方法也算是类似的。但开发这两类模型时,表现时间窗口的长度却跟申请者评分模型有较大不同,如催收评分卡模型的表现时间窗口通常设定为2周,甚至更短的时间。因为实际业务开展过程中,通常客户逾期超过2周,就要启动催收程序了。

    个人客户的信用风险评级模型开发进行至此时,我们已经得到了没有缺失值和异常值的样本总体,违约的定义确定了,表现时间窗口和观察时间窗口也确定了。接下来,我们将进入评分卡模型开发的第三步数据集准备阶段了。

     

    3.3 数据集准备

    在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。

     

    数据集准备:

    在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。

    简单随机抽样:

     

    smp1<-sample(nrow(GermanCredit),10,replace=F)

    样本集可表示为:

     

    train_data=GermanCredit[-smp1,]

    test_data=GermanCredit[smp1,]

    分层抽样:在R中,使用strata()函数来实现上述的分成抽样方法:

    strata(data,stratanames=NULL,size,method=c(“srswor”,”srswr”,”poisson”,”systematic”), pik,description=F)

    其中,data即为待抽样数据集;stratanames为分层所依据的变量名称;size为每层中将要抽出的样本数,其顺序应当与数据集中该变量各水平出现的顺序一致,且在使用该函数前,应当首先对数据集按照该变量进行升序排序;method参数用于选择列示的4中2抽样方法,分别为无放回、有放回、泊松、系统抽样,默认去srswor(无放回);pik用于设置各层中各样本的抽样概率;description用于选择是否输出含有各层基本信息的结果。

    我们假设按照GermanCredit数据集中的housing属性进行分层抽样,每层抽取5个样本,代码如下:

    #分层抽样

    library(sampling)

    x<-GermanCredit[order(GermanCredit[,"housing"]),]

    sub_set<-strata(x,stratanames = "housing",size = c(5,5,5),method = "srswor")

    result<-getdata(GermanCredit,sub_set)

    查看抽样结果可见,抽样数据集的最后多了3列内容,分别是ID_unit表示抽样样本在原样本总体中的ID,Prob表示样本在各层内的抽样概率,Stratum表示抽样样本属于哪一层。

    第三种抽样方法整群抽样,是指以样本总体中的某个变量分群为依据,对样本进行随机抽样的方法。在考虑使用整群抽样时,一般要求各群对数据总体有较好的代表性,即群内各样本的差异较大,而群间的差异较小。因此,当群间差异较大时,整群抽样往往具有样本分布面不广、样本对样本总体的代表性相对较差等缺点,整群抽样方法通常情况下应用较少。

    在R中,我们使用cluster()函数实现整群抽样,其基本格式为:

     

    cluster(data,clustername,size,method=c(“srswor”,”srswr”,”poisson”,”systematic”), pik,description=F)

    该函数的参数中,除了clustername和size略有不同外,其他参数都与strata函数完全相同。clustername是指用来划分群的变量名称,size为一个整数,表示需要抽取的群数。代码如下:

     

    > sub_cluster<-cluster(GermanCredit,clustername = "housing",size = 1,method = "srswor",description = T)

    Number of selected clusters: 1

    Number of units in the population and number of selected units: 1000 713

    > cluster_data<-getdata(GermanCredit,sub_cluster)

    > View(cluster_data)

    根据本文采用的样本总体GermanCredit数据较少的特点,在进行个人主体信用风险评级模型开发时,我们采用基于无放回随机抽样的五折交叉验证的方法来进行模型开发和验证。所谓五折交叉验证是指我们将样本总体随机分为5份,每次都是取其中的4份做模型开发,另外一份做模型验证,连续这样做5次,并对这5次的模型验证的统计指标取平均值,即为模型的最终验证结果。交叉验证也是在样本总体较少时,经常采用的模型开发和验证方法,这种方法得到的评级模型可较好的提高模型的区分能力、预测准确性和稳定性。抽样代码如下:

     

    train_kfold<-sample(nrow(GermanCredit),800,replace=F)

    train_kfolddata<-GermanCredit[train_kfold,]

    test_kfolddata<-GermanCredit[-train_kfold,]

    在接下来的讲解中,我们均以train_kfolddata作为样本集来用作模型开发,以test_kfolddata作为测试集用作模型验证。五折交叉验证时,我们只需要重复上述步骤5次,并选出稳定性和区分能力最优的模型即为我们最终开发的信用风险评级模型。

    3.4 变量筛选

    模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标,作为入模指标来开发模型。接下来,我们将分别介绍定量指标和定性指标的筛选方法。

     

    3.41 定量指标的筛选方法

    模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标,作为入模指标来开发模型。接下来,我们将分别介绍定量指标和定性指标的筛选方法。

    (1)第一种定量指标的筛选方法:用随机森林法寻找自变量中对违约状态影响最显著的指标。

     

    #第一种方法:随机森林法

    #基于变量均值的精度下降,获取自变量的重要性

    #mtry代表在每一棵树的每个节点处随机抽取mtry 个特征,通过计算每个特征蕴含的信息量,特征中选择一个最具有分类能力的特征进行节点分裂。

    #varimp代表重要性函数。

    #经过变量间的相关系数调整后,获取自变量的重要性

    #经过变量间的不平衡性调整后,获取自变量的重要性

     

    (2)第二种定量指标的筛选方法:计算变量间的相对重要性,并通过相对重要性的排序,获取自变量中对违约状态影响最显著的指标,代码如下:

     

    #第二种方法:计算变量间的相对重要性,回归法

    library(relaimpo)

    lmMod<-lm(credit_risk~.,data = quant_GermanCredit)  #线性回归

    relImportance<-calc.relimp(lmMod,type = "lmg",rela = TRUE)

    #计算自变量间的相对重要性

    sort(relImportance$lmg,decreasing = TRUE)

    #排序并输出自变量间的相对重要性

    (3)第三种定量指标的筛选方法:通过自变量间的广义交叉验证法,获取自变量中对违约状态影响最显著的指标,代码如下:

     

    #第三种方法:自变量间的广义交叉验证法

    library(earth)

    marsModel<-earth(credit_risk~.,data = quant_GermanCredit)

    ev<-evimp(marsModel)

    #经过自变量间的广义交叉验证后,获取自变量的重要性

    (4)第四种定量指标的筛选方法:通过自变量的逐步回归法,获取自变量中对违约状态影响最显著的指标,代码如下:

    #第四种方法:自变量的逐步回归法

    base.mod<-lm(credit_risk~1,data = quant_GermanCredit)

            #获取线性回归模型的截距

    all.mod<-lm(credit_risk~.,data = quant_GermanCredit)

            #获取完整的线性回归模型

    stepMod<-step(base.mod,scope = list(lower=base.mod,upper=all.mod),

                  direction = "both",trace = 0,steps = 1000)

            #采用双向逐步回归法,筛选变量

    shortlistedVars<-names(unlist(stepMod[[1]]))

            #获取逐步回归得到的变量列表

    shortlistedVars<-shortlistedVars[!shortlistedVars %in%"(Intercept)"]

            #删除逐步回归的截距

    print(shortlistedVars)

    #输出逐步回归后得到的变量

     

    (5)第五种定量指标的筛选方法:采用“Boruta”法,获取自变量中对违约状态影响最显著的指标,代码如下:

     

    #第五种方法:"Boruta"法

    library(Boruta)

    boruta_output<-Boruta(credit_risk~.,data = na.omit(quant_GermanCredit),

                          doTrace=2)

    boruta_signif<-names(boruta_output$finalDecision[

      boruta_output$finalDecision %in%c("Confirmed","Tentative")])

    #获取自变量中确定的和实验性的指标

    print(boruta_signif)

    #Levels: Tentative Confirmed Rejected

    #Confirmed坚定的;Tentative踌躇的;Rejected拒绝的

     

    plot(boruta_output,cex.axis=.7,las=2,xlab="",main="Variable Importance")

    #绘制变量显著性表示的箱图

    图3.9 箱图表示变量重要性(Boruta法)

     

    综上,我们共计详细使用了五种定量指标入模的方法,在实际的模型开发过程中,我们可以只选择其中一种方法,也可以结合多种方法,来筛选出定量数据的入模指标。综合这五种方法,我们筛选出了对违约状态影响最显著的四个入模指标,如表3.11所示。

     

    3.42 定性指标的筛选方法

    定量指标是数值型的,我们还可以用回归的方法来筛选,那么定性的指标怎么办呢?

    R里面给我们提供了非常强大的IV值计算算法,通过引用R里面的informationvalue包,来计算各指标的IV值,即可得到各定性指标间的重要性度量,选取其中的high predictive指标即可。

    有很多小伙伴不知道informationvalue是什么:

    我大概说一下,IV值衡量两个名义变量(其中一个是二元变量)之间关联性的常用指标。

     

    library(InformationValue)

    library(klaR)

    credit_risk<-ifelse(train_kfolddata[,"credit_risk"]=="good",0,1)

    #将违约状态变量用0和1表示,1表示违约。

    tmp<-train_kfolddata[,-21]

    data<-cbind(tmp,credit_risk)

    data<-as.data.frame(data)

     

    factor_vars<-c("status","credit_history","purpose","savings","employment_duration",

                   "personal_status_sex","other_debtors","property",

                   "other_installment_plans","housing","job","telephone","foreign_worker")

    #获取所有名义变量

    all_iv<-data.frame(VARS=factor_vars,IV=numeric(length(factor_vars)),

                       STRENGTH=character(length(factor_vars)),stringsAsFactors = F)

    #初始化待输出的数据框

    for(factor_var in factor_vars)

    {

      all_iv[all_iv$VARS==factor_var,"IV"]<-InformationValue::IV(X=

                                                                   data[,factor_var],Y=data$credit_risk) 

      #计算每个指标的IV值

      all_iv[all_iv$VARS==factor_var,"STRENGTH"]<-attr(InformationValue::IV(X=

                                                                              data[,factor_var],Y=data$credit_risk),"howgood") 

      #提取每个IV指标的描述

    }

    all_iv<-all_iv[order(-all_iv$IV),]    #排序IV

    由结果可知,可选择的定性入模指标,如表3.12所示。

    https://img-blog.csdn.net/20170802235919157?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGxsMTUyODIzODczMw==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/0/gravity/SouthEast

     

    综上所述,模型开发中定量和定性的入模指标如表3.13所示。

     

    对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段

     

    3.5 WOE值计算

    对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得到对违约状态变量预测能力最强的最优分段。

    我们首先选择对连续变量进行最优分段,在连续变量的分布不满足最优分段的要求时,在考虑对连续变量进行等距分段。此处,我们讲述的连续变量最优分段算法是基于条件推理树(conditional inference trees, Ctree)的递归分割算法,其基本原理是根据自变量的连续分布与因变量的二元分布之间的关系,采用递归的回归分析方法,逐层递归满足给定的显著性水平,此时获取的分段结果(位于Ctree的叶节点上)即为连续变量的最优分段。其核心算法用函数ctree()表示。

     

    评分卡模型开发-WOE值计算:

    http://blog.csdn.net/lll1528238733/article/details/76600598

     

     

    展开全文
  • 信用风险计量模型简述

    千次阅读 2019-03-01 15:10:24
    评级方法:将信用状况分成不同等级,分别使用不同的信用政策。 评分方法:对影响信用的不同因素确定不同的分值权重,汇总计算出对应的信用评分。作为给予企业信用额度或贷款额度的依据。Z评分模型、ZETA评分模型。...

    信用风险计量技术简述

    1.古典信用风险计量模型
    主观判断分析方法、财务比率评分方法、多变量信用风险判别方法(其中最有效,包括线性概率模型、Logit模型、Porbit模型、判别分析模型)
    评级方法:将信用状况分成不同等级,分别使用不同的信用政策。
    评分方法:对影响信用的不同因素确定不同的分值和权重,汇总计算出对应的信用评分。作为给予企业信用额度或贷款额度的依据。Z评分模型、ZETA评分模型。
    专家方法:专家打分,对决定信用状况的主要因素进行评分。5C法。

    2.现代信用风险度量模型
    莫顿Merton将期权定价理论运用到违约证券定价的研究,推出了违约债券的定价公式。
    违约证券估价理论模型都是基于BSM(Black ScholesMerton)的股票期权定价模型,称为结构化模型。
    简约模型:不用公司资产价值数据,而用市场中易于得到的公司违约率、公司信用等级变动以及债券信用利差等市场数据。马尔可夫模型、可尔可夫模型、双因素模型

    信用风险模型大致分三类:
    1.信用转移方法:如J.P. Morgan提出的CreditMetrics模型,研究给定时间水平上信用质量变化的规律。
    2.期权定价方法:又称结构化方法,本质是勇气也未来价值的内生的不确定性解释企业债务的违约风险。如KMV公司的KMV模型。
    3.保险精算方法:如瑞士信贷银行金融产品部CSFP的Credit Risk+模型;麦肯锡公司Mckinsey的CreditPortfolio View模型。
    --------------------- 
    作者:zhuhong_0308 
    来源:CSDN 
    原文:https://blog.csdn.net/zhuzhubiji/article/details/16841819 
    版权声明:本文为博主原创文章,转载请附上博文链接!

    展开全文
  • 信用风险计量模型汇总

    千次阅读 2019-03-01 15:29:29
    信用风险计量模型的基本技术路线是,利用借款者的特征指标宏观经济变量,收集这些特征指标宏观变量的历史数据,并将其应用于预测违约借款人与履约借款人。预测模型旨在评估未知借款者将来是否还款的信用价值,将...

    信用风险计量模型汇总

    信用风险计量模型的基本技术路线是,利用借款者的特征指标和宏观经济变量,收集这些特征指标和宏观变量的历史数据,并将其应用于预测违约借款人与履约借款人。预测模型旨在评估未知借款者将来是否还款的信用价值,将潜在借款者的特征值输入模型,从模型中输出信用价值评估,从而可对潜在借款人进行信用评估。

    一般的评级方法可以分为专家经验判断法、参数模型和非参数模型。所谓的专家经验判断,就是相关专家根据主观经验进行打分,后两种方法都是根据模型进行客观的计算。而对于参数模型与非参数模型的区分:用代数方程、微分方程、微分方程组以及传递函数等描述的模型都是参数模型。建立参数模型就在于确定已知模型结构中的各个参数,通过理论分析总是得出参数模型;非参数模型是直接或间接地从实际系统的实验分析中得到的响应,例如通过实验记录到的系统脉冲响应或阶跃响应就是非参数模型。

    下面的例子给大家通俗易懂的解释一下。

    例子:项目组小翟最近喜欢上了一个姑娘,但是非常苦恼姑娘是不是喜欢自己。小翟来咨询他的人生导师-小张姐姐,小张姐姐根据自己的经验判断姑娘不会喜欢他,小翟非常伤心,这就是专家经验判断法。

    之后,小翟又来咨询数据分析高手-小金哥哥,小金哥哥通过分析小翟和姑娘的生辰八字,列出了回归方程,判断姑娘会有37.28%概率喜欢上小翟,小翟非常伤心,这就是参数模型。

    最后,小翟又来咨询数学专业高材生-小沈姐姐,小沈姐姐收集了几十对在一起的情侣又收集了几十对没有在一起的情侣,通过决策树的算法,判断小翟和姑娘的数据更偏向于没有在一起的情侣,小翟非常伤心,这就是非参数模型。

    专家判断法

    专家经验判断

    专家经验判断是根据信贷专家多年从业经验进行定性判断。

    • 层次分析法

    层次分析法(简称AHP)是美国运筹学家Saaty教授于20世纪70年代初提出的,其特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化。作为规划、决策和评价的工具,AHP自问世以来,已在各个领域得到迅速普及和推广,取得了大量的研究成果。层次分析法主要用于确定综合评价的权重系数,所用数学工具主要是矩阵的运算。信用风险的测算是一个复杂的、多层次的评价过程,每个指标要素之间的关系是相互依存、相互作用的,它们是一个整体。

    层次分析法计算过程如下:

    一、每两个指标的相对重要性判断

    • 假设函数f(x,y),它表示评价指标x对于评价指标y的重要程度。约定f(x,y)=1/f(y,x)。如下表所示。

    二、构造判断矩阵

    • 在这里插入图片描述为全部评价指标所组成的一个集,按照上表中所列的各个指标之间的重要程度,对所有同层次之间的评价指标进行两两之间的对比,构造矩阵在这里插入图片描述,其中在这里插入图片描述,并且矩阵C称之为判断矩阵。
    • 在这里插入图片描述

    三、计算权重

    • 根据上述构造的判断矩阵C,通过矩阵运算,计算它的最大特征值在这里插入图片描述,并求出矩阵C关于最大特征值的特征向量在这里插入图片描述,经过归一化处理后的xi就是各评价因子的权重。

    在这里插入图片描述,矩阵A即为权重向量。

    四、一致性检验

    • 根据下式计算一致性指标CI
      在这里插入图片描述

    • 查找平均随机一致性指标RI.

    根据下式计算一致性比例CR。
    在这里插入图片描述
    当CR<0.10,认为判断矩阵的一致性是可以接受的,否则对判断矩阵进行适当的修改,最终达到一致性要求。

    参数模型

    • 一、逻辑回归

    Logistic回归用于分类的应用比较广泛,利用Logistic回归模型可以将因变量与自变量之间关系的求解转变为求解被解释变量发生类别的相应概率。Logistic回归模型的思想来自于线性回归,是一种非线性概率回归,多元线性回归用来预测由多个连续解释变量构成的函数模型的被解释变量数值的大小,而Logistic回归是用来预测由一个或多个解释变量构成的分类函数中属于其中一类的概率。

    Logistic逻辑回归分析的假设前提为:

    (1) 数据来自随机样本;
    (2)自变量之间不存在多重共线性关系。

    Logistic函数的形式为:
    在这里插入图片描述
    那么在回归模型基础上计算得出的发生的概率和之间存在如下的回归关系:
    在这里插入图片描述

    逻辑回归模型是解决0-1回归问题行之有效的方法,模型的曲线为S型,最大值趋近1,最小值趋近0。通过设定临界值作为事件发生与否的标准,如果事件发生的概率大于临界值,则判定事件发生;反之,判定事件不发生。和判别分析方法不同,Logistic回归模型在理论上并不存在“最优”的分割点,分割点的选取取决于模型使用者的具体目的。

    实现方式

    一般逻辑回归数据量不是特别大,spss操作起来简单易懂,同时SAS\Python都可以实现。

    SAS基础代码:

    proc logistic data=数据名 desending;model 因变量=自变量; run;

    判别分析

    纽约大学斯特恩商学院教授爱德华·阿特曼(Edward Altman)在1968年就对美国破产和非破产生产企业进行观察,采用了22个财务比率经过数理统计筛选建立了著名的5变量Z-score模型。Z-score模型是以多变量的统计方法为基础,以破产企业为样本,通过大量的实验,对企业的运行状况、破产与否进行分析、判别的系统。Z-score模型在美国、澳大利亚、巴西、加拿大、英国、法国、德国、爱尔兰、日本和荷兰得到了广泛的应用。


    X1=(流动资产-流动负债)/资产总额;
    X2=(未分配利润+盈余公积金)/资产总额;
    X3=(税前利润十财务费用)/资产总额;
    x4=(每股市价流通股数+每股净资产非流通股数)/负债总额;
    X5=主营业务收入/资产总额
    判断准则:Z<1.8,破产区;1.8≤Z<2.99,灰色区;2.99<Z,安全区

     

    • 二、BSM莫顿模型

    1973年,美国芝加哥大学教授 Fischer Black&Myron Scholes提出了著名的B-S定价模型,用于确定欧式股票期权价格,在学术界和实务界引起了强烈反响;同年,Robert C. Merton独立地提出了一个更为一般化的模型,布莱克-舒尔斯-默顿期权定价模型(下文简称B-S-M模型),并由此导出衍生证券定价的一般方法。舒尔斯和莫顿由此获得了1997年的诺贝尔经济学奖。现在,布莱克—斯科尔斯—莫顿定价公式已被期货市场参与者广泛接受,是金融工程中所有定价理论的基石。
    经典BSM模型:

    信用资产的违约行为表现为借款人到期不能偿还贷款的本金利息。莫顿理论假设一旦借款人的资产市值在一年内低于其现有负债价值,则借款人将发生违约。如果我们能获得资产波动的相关性,借助以资产为基础的违约,就可以获得违约的相关性。而资产波动的相关性,在资本市场上是可以观察到的,并有完整的数据积累。当借款人的资产市场价值小于一个阀值(负债)时,借款人发生违约。

    根据BSM模型,可以将贷款看做一种期权,一旦市值小于其负债就看做执行期权,产生违约。期权执行的概率=N(d2),即违约概率

     

    非参数模型

    • 一、聚类分析

    对没有目标变量的数据集根据数据的相似性给出 “自然的”分组,类内对象相似性尽量大,类间对象相似性尽量小。根据结果类的分离性,聚类分为重叠聚类与互斥聚类。

    首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。

    聚类分析可以由SPSS点击实现,也可以由SAS函数实现。聚类分析SAS代码:
    proc varclus data=数据集 outtree=tree;
    var 变量;
    run;
    proc tree data =tree;run;

    • 二、决策树

    决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。

    决策树在SPSS里有成型的算法,直接单击使用即可。SAS中的Proc split或Proc hpsplit函数可以直接调用。R语言中的rpart()函数也可以直接调用生成决策树。

    决策树有很多优点,比如:易于理解、易于解释、可视化、无需大量数据准备。使用决策树(预测数据)的成本是训练决策时所用数据的对数量级。

    但这些模型往往不直接使用,决策树一些常见的缺陷是:

    构建的树过于复杂,无法很好地在数据上实现泛化、数据的微小变动可能导致生成的树完全不同,因此决策树不够稳定、决策树学习算法在实践中通常基于启发式算法,如贪婪算法,在每一个结点作出局部最优决策。此类算法无法确保返回全局最优决策树。、如果某些类别占据主导地位,则决策树学习器构建的决策树会有偏差。因此推荐做法是在数据集与决策树拟合之前先使数据集保持均衡。

    由于决策树容易对数据产生过拟合,因此分支更少(即减少区域 R_1, … ,R_J)的小树虽然偏差略微高一点,但其产生的方差更低,可解释性更强。减少决策树的方差可以通过袋装(bagging)和随机扥林方法来实现,由于随机森林在效果上好于袋装,下面只介绍随机森林函数。

    • 三、随机森林

    顾名思义,森林是由很多颗树构成,随机森林也是由很多个决策树构成。随机森林通过随机扰动而令所有的树去相关,在构建每一棵树时,每一个结点分割前都是采用随机样本预测器。随机森林可以考虑使用大量预测器,不仅因为这种方法减少了偏差,同时局部特征预测器在树型结构中充当重要的决策。

    随机森林可以使用巨量的预测器,甚至预测器的数量比观察样本的数量还多。采用随机森林方法最显著的优势是它能获得更多的信息以减少拟合数值和估计分割的偏差。

    随机森林可由R语言中的randomforest()函数实现。函数默认生成500颗树,并且默认每个节点抽取个变量。

    • 四、支持向量机(SVM)

    支持向量机分类器的基本原理是通过一个非线性变换将一个线性不可分的空间映射到另一个高维的线性可分的空间,并建立一个分类器,这个分类器具有极小的 VC 维数。该分类器仅由大量样本中的极少数支持向量确定,并且具有最大的边界宽度。支持向量机算法的好处在于不是直接计算复杂的非线性变换,而是通过计算非线性变换的点积,因而大大简化了计算量。通过把核函数引入到一些学习算法中来,可以很方便地把线性算法转换为非线性算法,将其与支持向量机一起称为基于核函数的方法。

    从信用评级问题的特点来看,适合采用SVM进行处理。SVM的特点之一是简单、推广能力强和易于解释。银行信用评级历史数据的一个特点是分布零散,各个信用等级的样本数据量差别很大,而且可能存在较多的有缺陷的样本。如果使用一般的模式识别模型,由于各个类别样本数据量不对称,训练过程中分类器分类效果会向样本量大的类别倾斜。然而对商业银行来说,一些高风险类别的对象,其数量虽然少,但是将其识别出来却是至关重要的。

    另一方面,借款人的历史数据中存在缺陷是很正常的,甚至会有虚假信息,这些样本应该被剔除掉。如果使用全部样本训练分类器的话,这些样本的存在可能会对分类器性能产生极大影响。但在SVM模型中,只有支持向量才对优化起作用,而支持向量的数量是非常有限的。因此,可以在使用SVM模型得到结果后。由专家对支持向量集进行研究。既可以得到对结果的深入认识,又可以对支持向量样本进行审查,如果其中包含了有严重缺陷的样本的话可以剔除出去重新训练。

    SVM模型的另一个特点是泛化能力强,SVM模型的复杂度可以由支持向量的数量来描述,而这又很容易控制。因此,SVM模型不会出现过拟合问题,模型的稳定性相当好,能很好满足银行对信用评级系统的稳定性要求。

    支持向量机可以通过R语言中kernlab包的ksvm()函数和e1071包中的svm()函数实现。

    • 五、K紧邻学习-KNN

    最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。

    KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

    R语言里的kknn包可以实现最邻近算法——使用kknn()函数。

    • 六、贝叶斯分类器

    贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。也就是说,贝叶斯分类器是最小错误率意义上的优化。
    经典贝叶斯公式:

    贝叶斯分类器可通过R语言朴素贝叶斯包 klaRNaiveBayes()实现。

    -------------------- 
    作者:baidu_41605403 
    来源:CSDN 
    原文:https://blog.csdn.net/baidu_41605403/article/details/83141847 
    版权声明:本文为博主原创文章,转载请附上博文链接!

     

    展开全文
  • 四种信用风险模型

    万次阅读 2016-02-02 10:21:34
    20世纪80年代以后,随着金融理论及计量技术的发展,基于金融市场信息金融理论的现代信用风险量化模型逐渐发展起来。国际上一些大型金融机构开发出各自的信用风险评估系统。这些模型为实现投资分散化具体的授信...

    20世纪70年代以前,金融机构在测定和管理信用风险方面将定性与定量分析相结合,主要通过分析财务报表对客户的信用质量进行主观评价。20世纪80年代以后,随着金融理论及计量技术的发展,基于金融市场信息和金融理论的现代信用风险量化模型逐渐发展起来。国际上一些大型金融机构开发出各自的信用风险评估系统。这些模型为实现投资分散化和具体的授信决策提供量化的、科学的依据,为传统信用分析方法提供很好的补充。

    专家分析法对信用风险的评估取决于专家的主观判断,通过定性分析有关指标来评价客户信用风险。常用的要素分析法有5C分析法,由品格(Character)、资本(Capital)、偿付能力(Capacity)、抵押品(Collateral)和经济周期(Cycle Condition)五个因素对借款人进行判断和权衡。专家分析法是一种比较有效的评价分析债务人信用品质的方法,这种方法对分析者的要求和依赖性很高,还需要培训后备专家,成本很高。此外,这种方法很多时候依赖于债务人的历史表现和专家的主观判断,比较缺乏客观的评价分析。

    财务比率模型采用定量的手段以及判别分析来进行信用风险评价。1968年,Altman提出了Z计分模型。该模型主要是从上市公司财务报告中计算出一组能够反映企业财务危机程度的财务比率,并根据这些比率对财务危机警示作用的大小给予不同的权重,最后进行加权计算得到企业的信用风险总判别分Z,将其与临界值对比就可知企业财务危机或信用风险的大小。

    Logit模型是采用一系列财务比率变量来分析公司破产或违约的概率,然后根据投资者的风险偏好程度设定风险警界线,以此进行风险定位和决策。Logit方法克服了线性判别函数统计假设过于苛刻的不足,对预测企业破产尽管有所改进,但仍不够理想。

    现代信用风险模型主要有以下几种。Credit Metrics由J.P.摩根公司和一些合作机构于1997年推出,是一种信用在险值(Credit VAR)模型。信用在险值是指给定的信用风险期限内,在一定的置信水平下,信贷资产可能遭受的最大损失。Credit Metrics模型简单不复杂,透明度高。Credit Risk+由瑞士信贷银行于1997年发布。模型源于保险精算学,只考虑违约和不违约两种状态,同时假定违约率是随机的。Credit Portfolio View(简称CPV)基于Credit Metrics的思路,通过输入宏观经济变量,如利率、失业率、经济增长率和政府支出等,对各国不同产业间的信用等级转移概率和违约概率的联合条件分布进行模拟。CPV克服了Credit Metrics关于不同时期的评级转移矩阵固定不变的缺点。KMV模型是将期权定价理论应用于贷款和债券估值而开发出的信用监控模型,它通过对上市公司股价波动的分析,来预测股权公开交易公司发生违约的可能性。

    展开全文
  • 信用风险模型在金融科技中的开发及应用,包含建模的基本流程及相关指标监控,可以作为风控人员参考。内容包含:信用风险建模的基本概念,建模的流程,建模的方法及模型上线部署后的监控。模型的应用范围等内容。
  • 信用风险模型评述

    千次阅读 2007-10-14 09:19:00
    信用风险,无论是银行业监管机构还是 银行自身现在都非常关注 现在信用风险的度量方法(模型很多)1. 基于模型精算(关键是选用什么样的模型)2. 基于大量信用数据3. 基于财务评分人工智能 最好的方法 : 精确的...
  • 信用风险评价模型

    千次阅读 2019-10-07 10:45:06
    信用风险评价模型: 指标数据标准化处理 正向指标标准化 Xij第i个指标第j个企业的标准化值 vij第i个指标第j个企业的实际值 m企业数 负向指标标准化 (3)区间指标标准化处理 (4)定性...
  • 为了基于通信运营商大数据对个人信用风险...在运营商的用户基础信息、通信行为、上网行为、地理位置等数据的基础上使用分类算法进行数据挖掘得到信用风险控制模型模型提升了个人征信评级的精准率,降低了业务风险
  • 信用风险计量模型

    2019-09-28 02:18:43
    python信用评分卡建模(附代码,博主录制) ...utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share 信用风险计量技术简述 ...
  • 信用管理》--信用风险模型

    千次阅读 2013-11-20 11:47:14
    KMV模型把贷款看做期权,融入了股票市场价格,认为当公司市场价值下降到某一水平后,公司就会对其债务违约,由此将股权价值与信用风险有机联系起来。 KMV公司提出了预期违约频率EDF模型。该模型利用Black-Scholes...
  • 针对建立客户信用风险等级分类模型时,大量带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度。通过对实际电信客户...
  • 在本文中,我们将详细介绍用Python开发数据驱动的信用风险模型的步骤,以预测违约概率(PD)并将信用评分分配给现有或潜在借款人。 我们将使用易于理解且易于理解的易于理解的计分卡来确定信用分数,从而轻松计算信用...
  • 论文研究-基于信用等级修正半绝对离差风险的银行资产组合优化模型.pdf,
  • 新巴塞尔协议信用风险度量模型的实证模拟——标准法、初级内部评级高级内部评级法的比较
  • 随机森林之信贷风险模型特征工程

    千次阅读 2018-03-08 10:46:20
    信贷风险模型 今天在复习随机森林的时候,突然有了一些思考:信贷风险模型在我的理解,就是为了评估某个客户(企业,个体)在贷款等相关业务中,是否能够有效的将其贷款回收。通过自己的一些了解与猜想,信用评估...
  • 信用风险评估模型的选择直接影响着对上市企业信用等级的评估。本文在建立上市企业信用等级评估指标体系的...可促进上市企业信用评级制度的完善,实现对上市企业信用规范管理的目标,从而建立健全全社会信用评价体系。
  • 构建信用卡客户风险识别模型

    千次阅读 多人点赞 2019-12-25 19:28:49
    构建信用卡客户风险识别模型 需求说明: 为了推进信用卡业务良性发展减少坏账风险,各大银行都进行了信用卡客户风险识别的相关工作,减少坏账风险,各大银行都进行了信用卡客户风险识别的相关工作。某银行研究的...
  • 我们使用信用评级历史记录来评估此模型,并表明混合模型在统计上主导了简单的马尔可夫模型,并且两个模型之间的差异可能具有经济意义。 我们模型的非马尔可夫性质意味着,公司评级的未来分布不仅取决于其当前评级,...
  • 基于数据仓库的银行信用 评级模型的构建 摘要基于数据仓库,利用 ...信用评级 一引言 近年来,商业银行的风险管理成为国际国内金融界关注的 焦点商业银行在运营过程中面临的金融风险主要有信用风险 利率风险汇率风险流动
  • 笔记︱信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化) 原创 2016年06月20日 20:09:51 标签: 申请评分 / 行为评分 / 违约期限 / WOE 14299 ...
  • 信用风险ABC模型有进件申请评分、行为评分、催收评分。 一、数据准备 1、排除一些特定的建模客户 用于建模的客户或者申请者必须是日常审批过程中接触到的,需要排除以下两类人: 异常行为:销户、按条例拒绝、...
  • 信用评分模型

    2019-11-14 09:10:29
    信用评分模型
  • 客户信用风险预测——基于logit模型

    千次阅读 2020-01-23 22:34:56
    在上一篇文章中,介绍了多元线性回归,该模型一般只是用来衡量数值型变量间的线性关系,当解释变量或者被解释变量为分类型变量时,可能就不再适用...引例:信用风险识别,用logit模型对客户的违约行为进行预测。 ...
  • 以1998年1月-2008年12月美国国债的收益率数据及评级机构穆迪的信用评级数据为样本,利用卡尔曼滤波技术与约束非线性最小二乘法对模型进行了参数估计. 主要结果为: 首先, 以似扩散过程的形式引入具有权重影响的共同...
  • 信用风险ABC模型有进件申请评分、行为评分、催收评分。 ———————————————————————————————————— 一、数据准备 1、排除一些特定的建模客户 用于建模的客户或者...
  • 从资产组合管理角度出发,用信用风险修正的方法对企业信用等级阈值进行修正,同时考虑商业银行持续经营的特点,将修正后的信用风险引入到多阶段的模型当中去,建立一个基于信用风险修正的多阶段银行资产组合优化模型。...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,462
精华内容 1,384
关键字:

信用风险模型和信用评级