精华内容
下载资源
问答
  • 导读:本文详细梳理风控领域的基本概念,并将风控模型的使用场景分为8大板块,逐一解析机器学习在其中的应用。作者:梅子行来源:大数据风控机器学习01 风控领域的特点风控领域是新兴的机器学习...


    导读:本文详细梳理风控领域的基本概念,并将风控模型的使用场景分为8大板块,逐一解析机器学习在其中的应用。

    作者:梅子行

    来源:大数据风控与机器学习

    01 风控领域的特点

    风控领域是新兴的机器学习应用场景之一,其特点非常明显:

    • 负样本占比极少,是均衡学习的算法的主战场之一。有标签样本稀缺,从而使得半监督和无监督算法在风控场景下大放异彩。

    • 业务对模型解释性要求偏高。同时对时效性有一定要求,这要求在实际建模中要学会去权衡模型复杂度与精度,并且适当的优化算法内核。

    • 业务模型多样。每一个模型都和业务目标有着非常高的联系,因此每一个从业者对业务和模型都有很好的理解,从而为业务定制合适的模型。

    • 风控数据源丰富。围绕着人展开的数据皆可用,而数据多样带来的就是新兴技术的井喷,结构化数据、图像、文本等等多个领域的方法都在风控领域有一定应用。

    02 信用管理与风险控制

    信用贷款的逻辑可以参见这幅漫画:

    信用好的小鸡是可以赊账的。面对平时信用较差的狐狸,猫老师则想办法拒绝他的赊账需求。这就是基本的信用价值。

    信用管理主要分为两个概念,信用管理。信用意味着先买后付,即使用信用值预支金钱购买相应服务。而管理即通过用户信息对用户的信用度进行评估,并根据信用情况定制风险规避策略。所谓风险控制(风控),即针对用户风险进行管理规避的过程。

    03 风险分类

    在信贷领域有两类风险:一类是信用风险,一类是欺诈风险。

    • 信用风险:指借款人的还款能力和还款意愿在贷款后出现问题。通常由于不可抗力因素导致用户的经济能力和思想状态发生改变。

    • 欺诈风险:指借款人的贷款目的不正当。在贷款初始便没有还款计划。多见于有组织有纪律的中介平台。

    一般情况下,借款人出现信用风险,金融机构可通过风险定价策略等手段进行防范,风险可控性较大。而借款人在一开始,就以骗贷为目的进行借贷并且贷款成功,则金融机构会造成相当一部分的损失。因为平台不仅没有盈利,还会被欺诈者骗走本金。


    尤其在遇上团伙欺诈时,信贷业务会在短时间内遭受非常严重的打击。金融机构面对欺诈风险几乎毫无处置能力,因此欺诈检测是信贷中的风险管控最重要的一环。

    而风险的管控,主要依靠信贷领域的两大类系统:一类是信用评分系统,另一类是欺诈检测系统。信用评分系统是对借款人还款能力和还款意愿进行评估,针对的是信用风险。而欺诈检测系统则是对借款人的目的是否正当进行判断,针对的是欺诈风险

    1. 自动化规则挖掘

    互联网金融是传统信贷业务在互联网场景下的继承与拓展。互联网金融风控体系主要由三大部分组成:数据信息、策略体系、人工智能模型。

    • 数据信息:包括用户基本信息、用户行为信息、用户授权信息、外部接入信息。

    • 策略体系:包括反欺诈规则、准入规则、运营商规则、风险名单、网贷规则。

    • 人工智能模型:包括欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。优质策略的制定需要资深的业务经验以及优秀的数据敏感度保驾护航。因此基于单变量分析以及专家思想从经验出发的策略生成,是风控领域最常用的两种方法。

    然而对于多规则组合的探索优化以及具体规则的阈值确定,需要借助于决策树(Decision Tree)模型。依托于基尼指数和均方差最小化原理对策略的组合进行贪心搜索,从而得到业务期望的优质策略。

    2. 评分卡模型

    信用评分模型的主要目的是为了衡量一个用户的信用风险。相比于策略规则,评分模型的灵活度更高。不会根据某个变量直接对样本群体进行“一刀切”,而是从多个角度进行综合判定。

    在数据源固化的情况下,模型的效果通常与特征工程直接相关。而业内有两套相异的建模方法。一个是简单特征工程与复杂模型结合。另一个是复杂特征工程与简单模型结合。


    在之前的漫画中为什么猫老师不为狡猾的赊账?

    因为…

    传统的评分卡采用逻辑回归模型,就是一种复杂特征工程与简单模型结合的方法。简单特征工程与复杂模型结合的例子有很多,如XGBoost、LightGBM、CNN、RNN、DeepFM等。集成模型在结构化数据上可以自动的实现特征交叉组合。但仍需要部分人工特征工程以保证模型效果。

    而深度学习作为一种表示学习方法,可以自动的抽取数据中的重要信息,其在部分结构化数据上也有较好的表现。复杂模型的优点在于其对新手更加友好,且相比于人工特征工程,其效果通常更好。缺点是对数据量和计算资源的要求较高。否则难以收敛。

    对于复杂模型在风控领域的应用,其最大的问题还在于贷前审批对模型的解释性要求极高,因此对于复杂模型解释性的问题,也需要进行额外关注。SHAP作为一种拥有一致性的特征贡献评判方法,根据训练样本的子集计算整体模型预测均值,可以提供复杂模型中的特征影响期望。对于复杂模型的解释有大帮助。

    3. 项目冷启动

    冷启动,指在没有或只有很少量数据的情况下,从0到1建立业务模型的过程。对于冷启动,基本准则为策略先行,模型为辅。由于策略分析以及模型训练都必须有一定的数据积累,在冷启动业务中,缺乏数据困扰着很多从业者。

    近年来,研究者们提出了多种实现域自适应的模型和算法,本文介绍其中比较常用的三大类算法。

    • 第一类方法:对源域中的样本赋予某种权重,使其分布靠近目标域。

    • 第二类方法:寻找一个低维子空间,使得源域和目标域的数据样本在映射到该子空间后服从相同或相近的分布。

    • 第三类方法:利用低秩矩阵重构数据点,实现域之间的鲁棒自适应。

    部分迁移模型的主要作用为对源域样本进行筛选,从而用于目标域的策略辅助决策。因此即使业务需求是在线上部署策略,迁移模型对其线下分析也有很大帮助。而对于初步数据积累的场景,迁移学习大多可以有效的辅助模型进行决策优化。

    4. 幸存者偏差

    幸存者偏差(SurvivorshipBias)与样本不均衡(Imbalance Learning)问题都是由于风控模型的拒绝属性导致的。但表现形式略有不同。幸存者偏差是指,每次模型迭代时,使用的样本都是被前一个模型筛选过的,从而导致的样本空间不完备。

    只有高于前一版模型分数阈值的样本,才可以进入当前模型进行训练,这些人就是幸存者。他们不携带或者很少携带被拒绝的人的信息,导致样本逐渐偏离真实分布。如下图所示。

    只有绿色样本出现在样本集中,这些绿色的点即为幸存者。而灰色样本由于被模型拒绝,导致未被模型观察到。根据有偏差的样本集学习得到的模型,在应对没能被表征的人群时,很难给出准确的结果。久而久之,随着模型迭代,区分能力强的特征被弱化,甚至对模型起到完全相反的作用(如某个特征的权重系数由正数变为负数)。

    因此,需要使用无偏样本进行修正。在该场景下,迁移学习、增量学习(Incremental Learning)、生成对抗网络(GenerativeAdversative Nets,GAN)、高斯聚类模型(GaussianMixture Model,GMM)、半监督学习等都有一定应用。

    5. 不均衡学习

    通常二分类机器学习任务,期望两种类别的样本是均衡的,即两类样本的总量接近相同。因为在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。但在很多真实场景下,数据集往往是不平衡的。也就是说,在数据集中,有一类含有的数据要远远多于其他类的数据。

    尤其是在风控场景下,负样本的占比要远远小于正样本的占比。通常的思想是从现有数据出发,通过加权或构造更多的相似数据用于样本均衡训练。因此代价敏感学习、迁移学习、多种采样算法、半监督学习在该领域均有一定应用。

    6. 异常检测

    离群点是指样本空间中,分布远离其余样本的点的集合。通常认为样本集由真实数据噪声组成。离群点是和大部分观测量之间有明显不同的观测值,属于样本集中的一部分,它既有可能是真实数据产生的,也有可能是噪声带来的。


    噪声被定义为被测量的变量的随机误差或方差。而离群点的定义是数据集中包含一些数据对象,它们偏离整体数据集的趋势。

    而噪声普遍被认为是正常数据和异常的边界,可以视为一种离群点,但未必能达到异常的标准。大多异常检测算法需要指定量化指标,来度量样本点的离群程度。通常情况下,异常的离群程度是大于噪声的。然而在实际应用中,两者并不容易区分。

    欺诈检测可以细分为个体欺诈检测团伙欺诈检测。其中个体欺诈具有占比极小、与整体显著不同的特点。这与离群点的性质相同。因此常将异常检测技术用于个体欺诈检测。在实践中,配合相关的业务经验,可以达到较好的效果。

    然而无监督模型的建模难点并不在于模型,而在于特征的选取。由于没有标签,因此特征的构造并不能通过数据分析手段进行,通常需要结合领域知识进行精准的特征构造。

    7. 模型优化

    为了在信用评分模型中取得较好的表现,通常要经历数据清洗特征工程模型组合三个步骤。

    模型组合,是指根据不同的数据或模型特点,选择合适的模型训练,再将多个模型进行融合,从而直接或间接地提升模型在未来样本上的表现。如动态数据源模型组合就是一种组合优化方法。

    此外,还有多损失函数适应性组合、决策树与线性模型组合、深度学习与图算法组合等方法。

    8. 网络挖掘

    知识图谱是用于识别团伙欺诈的主要手段,它采用基于图的数据结构,以图的方式存储知识并返回经过加工和推理的关联信息。

    知识图谱在金融领域的主要应用场景有欺诈检测、信用评级、失联管理等。工业界常用的网络挖掘方法包括:计算节点属性、社区发现算法、节点分类算法、网络表示学习等。

    通过网络中的中心度和相似度计算,可以进行基本的团伙欺诈检测规则抽取。比如在网络中中心度超过某一阈值或者和其他节点的相似度超过某一阈值,即会触发预警。但是通过对每一个样本进行遍历的比对相似度,是一种非常低效的做法,实际中更常使用的是社区发现算法。

    而每一个节点的二度联系人和三度联系人,可以作为用户失联后的潜在联系人。由于用户失联后,贷后管理人员无法进行适当的施压,通过网络输出多度联系人,成为了当前失联补全模型的主要手段。


    此外,每一个节点的中心度也可以抽取出来,放入风控模型中作为一种来源于知识图谱的信息,与其他类型的数据一同建立监督模型。类似的方法还有网络表示学习,如随机游走、图卷积神经网络等。

    关于作者:梅子行,系列畅销书《智能风控》作者。历任多家知名金融科技公司风控算法研究员、数据挖掘工程师等职位。现供职于智能物流独角兽——满帮科技。师承Experian、Discover等顶级风控专家。擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法。热衷于数据挖掘以及算法的跨领域优化实践。公众号与知乎专栏:“大数据风控与机器学习”。

    文章内容整理自梅子行老师的手绘风系列书籍——《智能风控》中的《智能风控:原理、算法与工程实践》一书。

    延伸阅读智能风控:原理、算法与工程实践

    推荐语:资深专家,基于Python,原理、算法、实践3维度讲解机器学习的风控实践,21种算法26种解决方案,9位专家推荐

    有话要说????

    Q: 机器学习还有哪些神应用?

    欢迎留言与大家分享

    猜你想看????

    更多精彩????

    在公众号对话框输入以下关键词

    查看更多优质内容!

    PPT | 读书 | 书单 | 硬核 | 干货 

    大数据 | 揭秘 | Python | 可视化

    AI | 人工智能 | 5G | 中台

    机器学习 | 深度学习 | 神经网络

    合伙人 1024 | 大神 | 数学

    据统计,99%的大咖都完成了这个神操作

    ????

    展开全文
  • 文 | 婉龙 Fintech科普大使 | 带你秒懂Fintech ...其实早上世纪80年代,大数据就被著名未来学家阿尔文·托夫勒《第三次浪潮》一书赞颂为 “第三次浪潮”。不过直到21世纪,大数据才真正成为互联


    文 | 婉龙

    Fintech科普大使 | 带你秒懂Fintech

    大数据风控起源于互联网金融的兴起

    有人会把大数据比喻成 “新时代的石油”。业界也有句话叫,得数据者得天下。现如今,在大数据时代下,数据比以往任何时候都更加根植于我们生活的每个角落。

    其实早在上世纪80年代,大数据就被著名未来学家阿尔文·托夫勒在《第三次浪潮》一书中赞颂为 “第三次浪潮”。不过直到21世纪,大数据才真正成为互联网信息技术行业的流行词汇。进入2013年后,互联网金融的火爆发展将大数据推向了新的高潮。

    目前受互联网金融、消费金融的蓬勃发展,央行征信的短板日益凸显,传统风控模式受到严峻考验,急需新的风控手段。

    央行征信的不足:

    • 信息覆盖面不足:目前,央行的个人征信中心收录的自然人数达8.6亿多人,但其中仅有3亿多人有信贷记录;

    • 信息有效性不足:信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在严重短板。

    此时互联网大数据风控应运而生,主要是由于互联网数据具备覆盖面广、数据搜集相对简单便捷的天然条件,可以作为央行征信的有效补充。

    • 数据覆盖面广:信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个;

    • 数据的稀疏性强:用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大,因此数据的稀疏性极为明显。一般情况下,用户行为信息的缺失率均超过50%;

    • 单变量风险区分能力弱:不同于传统风险模型采用的历史履约情况,个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量。

    所以,很多人认为互联网金融是简单的将传统金融模式由线下搬到线上,这显然是有失偏颇。相对于传统风控,深度挖掘互联网大数据信息,开发大数据风控模型,用以弥补央行个人征信信息的不足,既凸显出互联网金融的特定价值,又指明了互联网金融的未来方向。

    由于可期的未来前景,大数据风控已成为互联网金融的核心环节,也成为一个平台的核心竞争力之一。各大平台都在不断加码大数据风控的研究与推广。机器学习是使用到的核心技术之一。

    0?wx_fmt=png


    机器学习是大数据风控的必备手段

    传统风控技术无法满足新业务场景的需要

    传统信用风险评估模型是在原有业务逻辑架构下,利用数据驱动或专家经验,来开发模型模板,并结合统计分析模型得到精准的计量结果。所以,当需要解决互联网大数据的问题时,捉襟见肘。

    • 不满足数据分析需要:由于互联网大数据的介入,其覆盖广阔的特点,导致原有的业务逻辑框架已经不满足数据分析的需求。

    • 传统模型受限严重:由于互联网数据稀疏性强和单变量风险区分能力弱的特点,使得传统统计分析模型也受到严重限制。此时需要使用新的技术来适应这种新的业务场景。

    这时,机器学习开始进入互联网金融的历史舞台。

    机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    近年来,机器学习技术得到飞速的发展,在信息识别、推荐引擎等领域都取得了出色的应用效果,大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性,比较适合互联网金融中数据分析应用的特殊场景。

    由于机器学习拥有可以不断重新组织自身结构以改善自身性能的特点,解决了传统风控技术的短板,所以成为了大数据风控的必备手段。

    机器学习在大数据风控中的发展困境

    由于机器学习技术在金融场景里的应用才刚刚开始,所以还停留在初级阶段,目前急需解决两大难题:

    第一个问题是训练数据太少

    训练数据需要积累,目前数据量太少。

    首先,金融数据是非常稀疏的,过去也没有刻意对相关数据进行搜集,缺少历史的积累。

    其次,现在很多的金融产品形式在以前是根本没有发生过的,需要从头开始积累。

    最后,金融出一个坏账,少则一个月多则几个月,积累数据要有一个较长周期。

    最终导致目前数据量较少,且积累数据较慢。直接影响了机器学习的训练数据积累。导致进展缓慢。

    所以数据较少是阻碍机器学习快速发展的巨大障碍。

    第二个问题是数据维度太多

    数据维度太多,远远超过了人的处理能力。

    由于在金融场景内,特别强调模型的可解释性,需要把人的风控经验和直观感受跟数据表现结果关联起来,做到特征可追溯。而通常互联网的机器学习都是一个黑盒子,一堆数据扔进去,等结果来反馈迭代,这种情况,人的经验无法介入,特征也无法追溯。

    所以过量的数据特征维度,尚需要通过人工的甄别和处理,这也需要一个较长的时间周期。

    0?wx_fmt=png

    常用风险评估模型

    在风控中的信用风险评分模型中,常用的机器学习技术有如下几种:

    1. T-L 核模型

    传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精准的风险计量结果。

    然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。

    因此我们将决策树模型和逻辑回归模型进行嫁接,建立T-L核模型:

    • 在进行统计建模前添加一层决策树模型进行单变量分析。

    • 利用CHAID决策树生成二元决策树变量。

    • 将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。

    2. 决策树模型

    在决策树各种算法中,CHAID(Chi Squared Automatic Interaction Detection)既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID对二元响应和连续型目标变量分别采用了卡方和F检验。

    因此在本文中,选择CHAID算法作为决策树算法。CHAID算法以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,产生一系列二维表,然后分别计算所生成二维表的卡方统计量或F统计量。

    • 如果因变量(目标变量)是定类变量(例如PD模型),则采用卡方检验(Chi-Square-Test);

    • 如果因变量是定距变量(例如LGD,EAD模型),则采用F检验(F-Test)。

    • 如果几个备选变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类变量以及划分作为子节点。

    3.Random Forest模型

    随机森林是由美国科学家Leo Breiman将其在1996年提出的Bagging集成学习理论与Ho在1998年提出的随机子空间方法相结合,于2001年发表的一种机器学习算法。

    随机森林是以决策树为基本分类器的一个集成学习模型,它包含多个由Bagging集成学习技术训练得到的决策树,当输入待分类的样本时,最终的分类结果由单个决策树的输出结果投票决定,如下图所示。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。

    此外,随机森林是由数据驱动的一种非参数分类方法,只需通过对给定样本的学习训练分类规则,同时亦不需要分类的先验知识。

    0?wx_fmt=png

    小结

    如今,从贷款审批到资产管理再到风险评估,机器学习已经成为金融生态中不可或缺的组成部分。未来,机器学习在金融风控领域会发挥越来越重要的作用,对金融科技的健康发展也会起到巨大的积极作用。

    参考文献:

    1.云蜂科技:金融业的未来是大数据风控

    http://www.theqk.com/keji/shuju/3008.html

    2.机器学习在金融大数据风险建模中的应用

    http://www.sohu.com/a/65440540_116235

    3.机器学发展困境

    http://blog.sina.com.cn/s/blog_ab5a51820102xmi8.htm


    机器学习在金融大数据风险建模中的应用

    0?wx_fmt=jpeg文|张权 罗嗣汉

    【摘要】

    在互联网金融、消费金融的蓬勃发展的当下,央行征信在数据时效性、全面性和层次性上的短板日益凸显。深度挖掘互联网大数据信息,开发大数据风控模型,更加精准的评估风险,已经逐渐成为了新一代信用风险模型体系建设的核心课题。

    本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。既大大提升了风险模型区分能力,也保证了模型结构的清晰和评分广泛的应用。

    【关键词】大数据风控 T-L模型 Random Forest ScoreNet

    1.选题背景及意义

    目前,央行的个人征信中心收录的自然人数达8.6亿多人,但其中仅有3亿多人有信贷记录,同时信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在严重短板。因此深度挖掘互联网大数据信息,开发大数据风控模型,弥补央行个人征信信息的不足,在互联网金融蓬勃发展的今天尤为重要。

    无论是线上还是线下的用户消费、社交数据,都有着不同于传统征信信息的独有特征:

    数据的稀疏性强(用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大,因此数据的稀疏性极为明显。一般情况下,用户行为信息的缺失率均超过50%);

    数据覆盖面广(信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个);

    单变量风险区分能力弱(不同于传统风险模型采用的历史履约情况,个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量)。

    传统信用风险评估模型在业务逻辑架构下,利用数据驱动或专家经验开发模型模板,最终结合统计分析模型(逻辑回归、判别分析等)得到精准的计量结果。然而在新的数据画像和业务情景下,不仅丧失了原有的业务逻辑框架,更使得传统统计分析模型的应用受到严重限制。近年来,机器学习技术得到飞速的发展,在信息识别、推荐引擎等领域都取得了出色的应用效果,大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。但机器学习模型的模型逻辑极为复杂,很难把控模型的真实效果,也不易于直观展示和解释变量的风险特性。如何结合传统风险评估模型体系和机器学习技术,在保证业务逻辑和评分广泛应用的前提下,更加精准的评估风险已经成了新一代信用风险模型体系建设的核心课题。

    2.文献综述

    David Durand(1941)在信用评分领域首先使用判别分析,预测贷款者的还贷情况;20世纪50年代,Bill Fair和Earl Isaac发明了基于logistics回归模型的FICO信用评分体系,得益于清晰的业务逻辑和解释性,该评分体系逐渐成为了最为广泛应用的风险模型体系。然而无论是逻辑回归还是判别分析模型,都主要针对线性问题,无法对变量的非线性结构进行分析,同时对数据完整性和有效性要求较高,对数据噪声亦比较敏感,不适用于大数据背景下的模型开发和集成。

    McCulloch, Warren; Walter Pitts(1943)[1]提出了神经网络模型,取得了十分广泛的应用,并首次描绘了机器学习理论的雏形;Ray Solomonoff(1956) [2]在An Inductive Inference Machine一文中,首度提出了机器学习的概念;Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964)[3]在统计学习领域的研究中提出了应用最为广泛的机器学习模型支持向量机(SVM);Breiman, Leo (1996)[4]、Michael Kearns(1988)[5]、Ho, Tin Kam (1995)[6]提出了集成学习算法:Bagging、Boosting、Random Forest,完美的解决了传统机器学习算法过度拟合的困境,使得算法的稳定性、泛化性和鲁棒性都有了显著的提高。近年来,机器学习算法在图像识别、语音识别、信息检索、推荐引擎、非结构化数据挖掘等领域都取得了突破性的进展。推荐算法与风险模型的一致性,及GBDT[7]和Random Forest在推荐算法上优异表现,为我们研究金融大数据风险模型提供了新的方向和挑战。然而无论是单一机器学习算法,还是集成学习算法都有着复杂的模型结构,这种复杂的结构不仅使模型丧失了解释性,而且限制了专业模型分析人员对模型的把控能力,很难实现真正意义上的广泛的应用。

    3.研究的理论框架与模型建设

    本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构,建立了ScoreNet模型。既大大提升了风险模型区分能力,也保证了业务逻辑的清晰和评分广泛的应用。

    3.1.T-L核模型

    传统信用风险评估模型在业务逻辑架构下分析变量的基本属性及风险区分能力,用逻辑回归等统计分析模型进行量化分析,得到精准的风险计量结果。然而用户行为数据独有的稀疏性会使得统计模型极不稳定。决策树对局部数据分析有着极强的稳定性和鲁棒性,同时可以揭示变量风险区分能力的非线性结构关系。因此我们将决策树模型和逻辑回归模型进行嫁接,建立T-L核模型。即在进行统计建模前添加一层决策树模型进行单变量分析,同时利用CHAID决策树生成二元决策树变量,然后将决策树模型的输出结果(单变量、交叉变量及二元决策树变量)一同导入逻辑回归模型中进行统计建模,确定所有风险因子的风险权重。

    3.1.1.决策树模型

    在决策树各种算法中,CHAID[8](Chi-Squared Automatic Interaction Detection)既适用于二值型变量,也适用于连续型变量。针对每一次分叉,CHAID对二元响应和连续型目标变量分别采用了卡方和F检验。因此在本文中,选择CHAID算法作为决策树算法。

    CHAID算法以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类,产生一系列二维表,然后分别计算所生成二维表的卡方统计量或F统计量。如果因变量(目标变量)是定类变量(例如PD模型),则采用卡方检验(Chi-Square-Test);如果因变量是定距变量(例如LGD,EAD模型),则采用F检验(F-Test)。如果几个备选变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类变量以及划分作为子节点。

    3.1.2.逻辑回归模型

    逻辑回归模型[9]是因变量服从二项分布,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型[10],具体数学表达式为:

    0?wx_fmt=jpeg

    由此可以得到

    0?wx_fmt=jpeg

    理论可以证明,如果样本的分布服从多元正态分布,那么该样本正好符合对数回归的假设。对数模型的误差项服从二项分布,因此,在拟合时采用最大似然估计法进行参数估计要比最小平方误差法估计。

    3.2. Random Forest模型

    3.2.1.Random Forest的基本原理

    随机森林是由美国科学家Leo Breiman将其在1996年提出的Bagging集成学习理论[4]与Ho在1998年提出的随机子空间方法[11]相结合,于2001年发表的一种机器学习算法[12]。随机森林是以决策树为基本分类器的一个集成学习模型,它包含多个由Bagging集成学习技术训练得到的决策树,当输入待分类的样本时,最终的分类结果由单个决策树的输出结果投票决定,如下图所示。随机森林克服了决策树过拟合问题,对噪声和异常值有较好的容忍性,对高维数据分类问题具有良好的可扩展性和并行性。此外,随机森林是由数据驱动的一种非参数分类方法,只需通过对给定样本的学习训练分类规则,同时亦不需要分类的先验知识。

    0?wx_fmt=jpeg

    随机森林是以K个决策树为基本分类器

    ,进行集成学习后得到的一个组合分类器。当输入待分类样本时,随机森林输出的分类结果由每个决策树的分类结果简单投票决定。这里的

    是一个随机变量序列,它是由随机森林的两大随机化思想决定的:

    (1)Bagging思想:从原样本集X中有放回地随机抽取K个与原样本集同样大小的训练样本集(每次约有37%的样本未被抽中),每个训练样本集构造一个对应的决策树。

    (2)特征子空间思想:在对决策树每一个节点进行分裂时,从全部属性中等概率随机抽取一个属性子集,再从这个子集中选择一个最优属性来分裂节点。

    由于构建每个决策树时,随机抽取训练样本集和属性子集的过程都是独立的,且总体都是一样的,因此

    是一个独立同分布的随机变量序列。

    训练随机森林的过程就是训练各个决策树的过由于各个决策树的训练是相互独立的,因此随机森林的训练可以通过并行处理来实现,这将大大提高生成模型的效率。随机森林中第

    训练过程如下图所示。

    0?wx_fmt=png

    将以同样的方式训练得到K个决策树组合起来,就可以得到一个随机森林。当输入待分类的样本时,随机森林输出的分类结果由每个决策树的输出结果进行简单投票(即取众数)决定。

    3.2.2.Random Forest模型的缺陷及改进方向

    不难证明随机森林的泛化性误差的上界[12]为:

    0?wx_fmt=png

    3.3. ScoreNet模型

    本文引入3.1中建立的T-L核模型替代3.2中RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。

    0?wx_fmt=png

    ScoreNet模型以传统模型为基础搭建,保留传统模型的业务解释性和稳定性。

    ScoreNet模型以随机森林模型为基本架构搭建了随机模型,客服了传统模型对数据噪声亦比较敏感的缺陷,使模型的泛化性与稳定性有了进一步的提高。

    ScoreNet模型客服了传统模型一般只能容纳10-15个变量的缺陷,模型可以涵盖100+个变量。可以从源头杜绝用户刷分现象,提升模型的公信力。

    ScoreNet模型的在应用层面的高度稳定性与业务解释性,使其有着比纯粹机器学习模型更广泛的应用空间。

    4.模型开发与结果分析

    本文通过互联网爬虫技术及第三方合作机构通过跨商家、浏览器、设备、微信进行实时互联网数据采集分析,包括但不限于:商品消费行为采集与挖掘、资讯、社区与视频阅览行为采集与挖掘、O2O消费行为采集与挖掘、高单价商品消费行为采集与挖掘、金融服务行为采集与挖掘等。

    通过各渠道数据采集与挖掘形成用户全方位的画像数据(如:人口统计学标签、用户通用标签、资产价值标签、消费行为喜好、阅读喜好标签、金融服务标签、社交圈标签等),进而了解用户全方位属性信息。

    本文采用大数据风险模型ScoreNet技术,针对身份信息核查、稳定性信息、金融申请信息、资产评估信息、商品消费信息、媒体阅览信息等6大维度对用户违约风险进行评估。

    0?wx_fmt=png

    4.1数据分析

    4.1.1.数据采集

    本文采集了:身份信息核查、稳定性信息、金融申请信息、重要资产信息、商品消费信息、媒体阅览信息等6大维度近1000个子项的互联网数据。

    0?wx_fmt=png

    从模型表现可看出模型在不同样本上皆具备一定程度的区分能力,表示其稳定性高,未来应用时能适应不同的人群。

    0?wx_fmt=png

    0?wx_fmt=png

    4.3模型结果对比分析

    传统模型与ScoreNet模型对比分析结果:

    0?wx_fmt=png

    传统模型与机器学习模型(Random Forest)对比分析结果:

    0?wx_fmt=png

    模型对比分析结果显示,ScoreNet模型较传统模型(Logistics)在区分能力上有了较大幅度的提高,可提升KS/AR值约0.05,同时延续了传统模型(Logistics)的稳定性和解释性;ScoreNet模型较纯粹机器学习模型(Random Forest)在稳定性、泛化性上有着绝对的优势,区分能力也更加优越。

    5.应用分析及方案建议

    5.1.征信多元化与风险量化

    传统金融机构的征信信息来源主要是央行征信,但央行征信仅有3亿多人有信贷记录,信贷记录又主要来源于商业银行和农村信用社等金融机构。随着互联网不断渗入人们生活,互联网行为数据是央行征信的有效补充,可以不断强化征信数据的时效性、全面性和层次性,从无形中记录用户的行为,去伪存真,还原真实的客户 。从而大大提升信息的利用率和有效性。

    同时,大数据风险模型的应用,可以不断提高金融机构风险识别、计量能力。从而不断完善征信信息体系架构,为精细化风险定价提供必要的基础和土壤。

    5.2.授信审批决策/自动化审批

    传统上,金融机构的授信审批决策主要依赖于信贷人员的主观经验和判断,缺乏统一的标准,不利于金融机构整体风险政策的执行。随着大数据模型开发技术与内部评级体系建设的深度融合,金融机构可更加广泛和全面地将评分/评级结果应用于授信审批,为贷款决策提供参考和支持。

    大数据风险模型优秀的风险排序及区分能力能够大力推进自动化审批的进程及线上产品的改革与创新。对模型评分高于一定级别且满足其它授信决策条件的,授信申请可以自动通过,不需要再经人工审核,对于评分低于一定级别的,模型自动拒绝其申请;只有模型评分介于以上两者之间的客户,才由人工介入进行申请审核。

    5.3风险监控与预警

    风险监控与预警是指借助各类信息来源或渠道,通过对数据与信息进行整合与分析,运用定量和定性分析相结合的方法来发现授信客户及业务的早期风险征兆,准确识别风险的类别、程度、原因及其发展变化趋势,并按规定的权限和程序对问题授信采取针对性处理措施,以及时防范、控制和化解授信风险的一系列管理过程。

    大数据风险模型较传统内部评级体系更为精细和灵敏,可以快速识别贷后风险,为不同的用户设定不同的监控频率、自动筛选高风险客户,制定有针对性的贷后管理措施、贷后管理工作等。

    6.参考文献

    [1]. McCulloch, Warren; Walter Pitts (1943). A Logical Calculus of Ideas Immanent in Nervous Activity. Bulletin of Mathematical Biophysics 5 (4): 115–133.

    [2]. Ray Solomonoff, An Inductive Inference Machine, IRE Convention Record, Section on Information Theory, Part 2, pp., 56-62, 1957.

    [3]. Aizerman, Mark A.; Braverman, Emmanuel M.; and Rozonoer, Lev I. (1964). Theoretical foundations of the potential function method in pattern recognition learning. Automation and Remote Control 25: 821–837.

    [4]. (1996). Bagging predictors. 24 (2): 123–140.

    [5]. Michael Kearns(1988). , Unpublished manu (Machine Learning class project, December 1988)

    [6]. Ho, Tin Kam (1995). . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.

    [7]. Brieman, L(1997). .

    [8]. Belson, William A.; Matching and prediction on the principle of biological classification, Applied Statistics, Vol. 8 (1959), pp. 65–75.

    [9]. Huston, James A. (1966). The Sinews of War: Army Logistics, 1775–1953, (755 pages).

    [10]. ; (1972). Generalized Linear Models. . Series A (General) (Blackwell Publishing) 135 (3): 370–384.

    [11]. Ho T. .IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,(08):832-844.

    [12]. Trevor Hastie; Robert Tibshirani; Jerome Friedman (2008). The Elements of Statistical Learning. California.

    本文由作者投稿至36大数据,并经由36大数据编辑发布,任何不标明作者、来源36大数据及本文链接 http://www.36dsj.com/archives/42843的均属侵权。

    640?wx_fmt=png

    人工智能赛博物理操作系统

    AI-CPS OS

    人工智能赛博物理操作系统(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


    AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


    领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

    1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

    2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

    3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

    AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

    1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

    2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

    3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

    4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

    5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

    AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

    1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

    2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

    3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


    给决策制定者和商业领袖的建议:

    1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

    2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

      评估未来的知识和技能类型;

    3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

      发过程中确定更加明晰的标准和最佳实践;

    4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

      较高失业风险的人群;

    5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


    子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


    如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


    新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





    产业智能官  AI-CPS



    用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链





    640?wx_fmt=png

    640?wx_fmt=png


    长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


    新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”


    点击“阅读原文”,访问AI-CPS OS官网


    本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



    版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com





    展开全文
  • 由于金融风控场景的特殊性,很多算法同学刚进入这个领域容易“水土不服”,为了使机器学习项目(也包括图算法相关的应用)落地更加顺利,本文介绍下实践过程的一些经验和踩过的坑。 金融风控场景的特殊性 与电商...

    由于金融风控场景的特殊性,很多算法同学在刚进入这个领域容易“水土不服”,为了使机器学习项目(也包括图算法相关的应用)落地更加顺利,本文介绍下实践过程的一些经验和踩过的坑。

    金融风控场景的特殊性

    与电商、广告等场景的风控不同,金融风控有关“钱”的安全,决定了公司的营收甚至是公司的生命线。例如360金融月放款200亿,如果违约率上升1个点,损失有多大?当然反过来如果风控做得好,违约率稍微下降一些,大家就可以开心过个好年了:)此外,风险具有滞后性,用户借款后至少要一个月才能知道是否会违约,甚至很多用户在还了半年甚至一年之后才违约。再者,线上获客成本比较高,成本低则百元,高的甚至超过千元,为了提高转化,授信、申请、审核等环节一般都是实时的。

    由于这样的特殊性,在Kaggle比赛、推荐等领域中大发光彩的机器学习算法,却容易在金融风控场景中水土不服。道理很简单,不是算法不够强大,而是没有抓住金融风控的核心:可解释性、稳定性:因为是有关“钱”的安全,风控建模是比较严谨的,保证模型在可掌控、可理解范围内,包括如何评估数据、如何设计模型、如何进行特征工程以及后续模型开发和监控都有一套体系框架;而由于风险滞后性,模型上线后会运行很长时间,故对模型稳定性的要求其实要高于预测能力。

    如何减少水土不服呢?下面笔者从数据质量评估、模型设计、特征工程、线上监控环节介绍下在金融风控场景实践的一些经验和踩过的坑。

    一、数据质量评估:数据是万坑之源

    模型不稳定,效果不好,绝大多数是数据质量的问题,而在金融风控场景表现得更为突出,一方面因为要回溯历史很长时间的数据,另外是因为风控流程比较复杂,模型实时性等特征。

    1. 线上线下一致性评估

    模型离线训练过程应保证与线上应用场景一致,从而使训练的模型具有代表性,这其实是机器学习的问题,但在金融风控场景上不一致这个坑很深又有迷惑性,体会较深,非常痛的领悟。

    数据回溯的坑

    由于数据存储/更新方式等原因,历史数据无法被回溯,直接使用当前数据建模,发生数据穿越,容易造成模型不稳定,效果不达预期。
    这个问题在风控场景会受到更多的关注,一方面原因是时间太久了,相比用户半年甚至一年前借款时的状态,当前状态很有可能发生变化;另一方面是一些老赖在借款后会主动删除资料甚至销号以逃避债务。
    故在建模前需要确认数据是否可回溯,重要的数据在存储时因考虑这个问题。

    那不可回溯的特征都不能用了吗? 如果特征比较重要,且可以构造出稳定的特征,可以评估其带来的增益及风险,让老板/业务方拍板。

    不熟悉业务的坑

    信贷风控流程每个环节的数据是不同的。比如考虑用户体验提高转化,在授信环节无需提交资料,在用户申请时又需要用户提交较多的资料;又如考虑成本问题,在审批时先用自有数据筛选出一批用户,然后再调用第三方数据进一步筛选。
    如果建模时使用了后面环节才会有数据,也会造成不一致问题,故提前沟通需求,了解风控业务流程很重要的:)

    计算逻辑的坑

    当好不容易完成模型开发,评审通过,准备上线时,才发现还又更深的坑在前面。
    一般实时和离线存储和计算是两套逻辑,如果是不同团队负责,容易造成不一致,例如对手机号清洗的正则不同,又比如实时取数和离线取数的逻辑不同。
    之前某次模型开发,使用了数仓团队开发的的特征库建模,结果模型上线验证时发现不一致,排查很久发现是取数逻辑不一致,无法修复,实在太心酸了。
    后面我们开发了统一存储和计算引擎,模型上线周期从月为单位降低到周为单位,极大提高了生产力。

    2.其他评估项

    数据时间项检查

    分析数据起止时间、中间时段是否有缺失、是否有异常等现象,从而评估数据可用性。

    主键是否唯一

    过往每一家公司都遭遇过这种情况:离线数据可能存储时存在重复插入的现象,导致主键不唯一,导致计算“求和”、“次数”等指标会出错。实际为避免这种情况,习惯使用count(distinct key)替代count(key),或事先通过group by 去重。

    缺失值/异常值处理

    不同数据源可能缺失值填充方式不同,需要统一标识;另外在风控场景往往需要考虑缺失或异常值背后的原因是什么,因为可能和风险相关。

    二、模型设计:如何让你的模型更贴近业务

    风险管理的本质不是杜绝坏账,而是追求利润最大化,但这个目标比较难衡量和优化,一般是用通过率坏账率这两个量化指标来替代。
    在信贷产品不同生命周期中,业务对模型的要求是不同的:新产品刚上线时希望能整体提升模型性能;而在放量阶段允许坏账有一定升到而尽可能提高通过率;在存量用户则可能降低坏账为主要目标。

    模型怎么设计满足上述目标呢?一方面是特征工程的侧重性,挖掘的特征是更偏信用还是欺诈,另一方面则是模型设计上下功夫,下面来介绍下信贷风控模型如何设计,包括好坏用户如何定义、模型选型以及模型效果评价

    1. 好坏用户定义

    如何定义好坏用户其实是有“套路的”,首先介绍下图的时间轴中的三个术语:观察点、表现期、观察期

    • 观察点:用于构建样本集的时间点,不同环节定义不同,比较抽象,这里举例说明:如果是申请模型,观察点定义为用户申贷时间,取19年1-12月所有的申贷订单作为构建样本集;如果是贷中行为模型,观察点定义为某个具体日期,如取19年6月15日在贷、没有发生逾期的申贷订单构建样本集。
    • 表现期:定义好坏标签Y的时间窗口,信贷风险具有天然的滞后性,因为用户借款后一个月(第一期)才开始还钱,有得可能还了好几期才发生逾期。
    • 观察期:构造特征的相对时间窗口,例如用户申请订单前12个月平均消费金额。设定观察期是为了每个样本的特征对齐,长度一般根据数据厚度决定。

    所以我们只要定义表现期长度、逾期天数,例如前三期逾期15+为坏用户;前三期未发生逾期的为好用户。
    那这两个这么定义呢?发生过逾期就是坏用户吗? 逾期可能是多方面的,可能只是忘还了,从“利润最大化”的角度,这部分人其实是好人,因为适当逾期其实可以增加公司的营收,接下来引入两个工具:账龄分析和滚动率分析。

    账龄分析:定义表现期

    一般通过账龄分析或者Vintage分析目标用户的“违约成熟度长度”来定义表现期。
    具体方法是将不同时期申贷的用户按“贷款时长”进行对齐,即观察用户还款多少期后,其违约率开始稳定,不会出现较大的变化/转移。由下图可以看出,可以将表现期定义为15期/20期。

    滚动率分析:定义逾期天数

    逾期超过多少天定义为’坏用户‘是合理的呢?对业务而言适当的逾期有助于提高收入的增长,一般可以通过“滚动率”来分析定义坏用户。
    如下图所示:逾期1天的用户中有50%会偿还债务,剩余50%保持原有逾期状态,逾期2天的用户有25%会催收回来,而逾期7天后趋向稳定状态,有95%以上的用户不会偿还债务,则可以定义逾期7+为坏用户,更精细化的化可以结合催收策略及收益来定义。

     

    样本划分

    由于用户随时间变化比较大,信贷模型一般是按时间来切分样本:

    • 首先按时间将分成训练-验证集和测试集(Out of Time,OOT)
    • 然后将训练-验证集随机划分成训练集(In the Sample, INS)和验证集(Out of Sample,OOS)
    • 通过INS训练模型,OOS调参,最终以OOT的效果为准,同时要保证这三个数据集的KS相差不大。

    行业通用模型的样本如何设计

    在乙方由于需要服务于不同场景的客户,如互金、银行、消费金融等,样本来源也多样化,需要设计一套基准来筛选样本,使构建的模型具有通用性并且效果达到预期,主要基于下面几个点:

    1. 特殊样本处理:特殊月份单独拿出来作为测试集/单独建模模型,如暴雷潮、疫情期间的样本。

    2. 时效性:筛选样本的时候,样本的发生日期不宜过早(比如近2年内),各月份样本量相对均衡,且确保有足够的表现期。

    3. 代表性:样本需要来自稳定合规的业务,能反应所在细分市场主流的业务场景,另外避开单一地域限制,剔除局部地域业务为主的合作方样本。

    4. 稳定性:各合作方的样本在各省份上的样本量分布与真实人口分布一致;各合作方在各月份的坏样率要相对稳定。

    5. 样本相对均衡:不同业务场景的样本量要相对均衡,如消金、银行、现金贷场景的样本量要相当。

    2.模型选型:LR真的很差劲吗

    刚接触金融风控时,感觉评分卡用LR太Low,机器学习可以拳打南山猛虎。但评分卡其实从60年代开始至今是依然主流的风控建模方法,存在即合理,因为评分卡是一套标准的建模流程,而不仅仅是LR。由于评分卡使用的模型LR因为是线性的,可解释性性较强,不过也需要在用户分群、特征分箱转换等方面需要耗费较大的精力以增加拟合能力。

    而机器学习模型如XGBoost性能较强大,据对比一般KS能比LR高2-3个点,那机器学习如何嵌入到评分卡中呢? 一般有两种方案:

    1. 仅在建模环节使用机器学习模型替代LR,这样一来就不用进行繁琐的用户分群、特征分箱转换等步骤,但是整个评分卡框架不变,包括样本定义、特征分析、模型设计、模型分析等

    2. 机器学习用于构造特征,如embedding, 这个在下面特征工程模块具体展开。

    具体不展开细讲,不是本文重点。

    3.效果评估:KS表是与业务沟通效果最好的方式

    业务目标是帮助业务达到预期,如模型上线后,坏账率降低多少,通过率提升多少。而模型目标一般用KS来衡量,或者更关注预测概率前10%人群的坏账率,根据不同目标去设计评价函数,此外也关注模型在未来很长时间内的的稳定性,用PSI来衡量。这里想说的是光看KS数值是不够的,还需要分析KS表,这是与业务沟通效果最好的方式,下面介绍下KS表主要的组成及badcase:

    • Rank:将模型预测的用户违约概率进行排序,并等分成k组,(k根据样本规模一般取5、10、20)
    • #Total:每一组用户总数
    • #Bad:每一组坏用户本数量
    • %Total_bad:每一组坏用户在所有坏用户中占比
    • Cum_%_Total_BadCum_%_Total_Good:累积好坏用户占比
    • K-S:每一组的KS=|Cum_%_Total_Bad-Cum_%_Total_Good|,模型的KS值=每一组KS的最大值。

    从上表中可以看出KS=0.28,具有一定区分性。但继续分析,发现**%Total_bad并不保序**,违反了“预测风险越高,其坏账率也越高”的假设,所以这个模型打回重做:)

    KS表还有哪些比较有价值的信息呢? 例如可以看预测风险最高一组是否可以直接拒绝,又如看预测风险最低一组决策进行决策是否可以审批通过。

    三、特征工程

    特征衍生的方法是比较通用的,本章主要介绍实践中一点经验之谈。

    1.特征上线成本与项目周期的平衡

    项目管理意识在金融风控场景是比较重要的,晚一天上线模型,对业务来说是多损失一天的钱,故需要评估特征是否已上线、新上线特征的时间成本、计算成本等因素,以保证项目进度。

    2.特征筛选策略

    • 强规则、调整频繁的规则对应特征不用:模型不稳定会受规则调整影响
    • 稳定性差的特征不用(根据psi计算):一般PSI超过10%的特征,考虑不入模,如果不稳定的特征效果很好,考虑用于规则,这样从特征层面保证模型的稳定性。
    • 特征数量不宜过多,根据top特征的数量与效果的趋势来卡阈值,减少上线成本。
    • 无法解释的特征不用,如随着特征取值增加,风险程度不是随之增高,而是呈U字型,如果无法合理解释,剔除这类特征。

    3.Embedding特征如何使用?

    • 首先需要确保embedding的特征观察期长度相同、未发生数据穿越。
    • 其次看效果,加入embedding特征后的增量及稳定性。
    • 最后应用时一般单独训练一个子模型,子模型的分数作为主模型的输入特征,这种方式相当于在”性能“和”可解释性“上做了折中,并且方便管理和维护。

    四、线上监控:只是刚刚开始

    因为模型要长期运行,线上监控非常重要,主动发现问题,和被业务找上门来是有很大差别的,此外通过监控可以评估模型是否需要迭代。

    1.稳定性监控

    稳定性主要是通过监控模型分数psi、重要特征的psi以及特征缺失比例的变化(线上故障一般会造成某些特征缺失比例特别大)。

    PSI中计算预期分布怎么计算?一般是以OOT样本对应的时间窗下所有申请用户进行计算, 因为模型上线后是对所有的申请用户进行决策。

     

    PSI过高,代表模型不稳定了吗? 一般PSI小于5%说明模型比较稳定,如果超过了10%甚至20%,需要排查原因,有可能是业务拉新导致大量新客群进入,需要及时和业务沟通确定;如果模型PSI持续升高,就需要提前计划迭代了。

     

    2.模型效果监控

    模型上线后,线上KS效果比离线差怎么办?不要慌,模型上线后一般不看KS,而是通过观察逾期率和通过率是否改善了业务。因为模型进入决策,拦掉了较坏的那群人,效果肯定会下降一般保证线上ks在0.2左右,且保序即可。

    五、写在最后

    把握住金融风控的核心,后续机器学习相关应用落地会更顺利,包括但不限于如何设计金融风险图谱进行反欺诈、迁移学习如何解决违约样本获取成本较大的问题、如何用深度学习生成行为序列、风险文本相关的Embedding等等。

     

     

    展开全文
  • 迁移学习在风控建模冷启动应用(简介) 目录 迁移学习在风控建模冷启动应用(简介) 背景与文献回顾 基础理论介绍 迁移学习概念 迁移学习方法 实证分析 实验结论与局限性 现状与展望 背景与...

    迁移学习在风控建模冷启动中的应用(简介)

    目录

    迁移学习在风控建模冷启动中的应用(简介)

    背景与文献回顾

     

    基础理论介绍

    迁移学习概念

    迁移学习方法

     

    实证分析

    实验结论与局限性

    现状与展望


     

    背景与文献回顾

    背景

    • 风控在国家层面的重要性

    三大攻坚战的“作战图”,其中之一就是推动重大风险防范化解取得明显进展。 2020年是进行防范化解金融风险目标的收官之年。

    • 风控在金融机构层面的重要性

    信贷风险控制是贷款机构的生存之本,也是提高收益的关键。

    • 互联网金融风控体系

    互联网金融风控体系有三个构成部分:数据信息,策略信息,人工智能模型。 在风控领域,风险规避手段有规则挖掘和人工智能模型两种。

    • 冷启动问题

    而当从业者面临新业务时,总是会遇到只有很少量数据甚至没有数据的情况,而且在很多场景下,收集标注数据代价是十分昂贵并且十分困难的。冷启动就是指在这种缺少数据的情况下,建立新业务模型的过程。

    文献回顾

          在风险控制领域中,信用评估的方法在初期是定性分析为主,后来统计方法进入到信用评估领域。 近些年来,随着人工智能越来越多得进入到风险控制领域,信用评估又增添了更多的方法。

          以前解决初创期信贷产品的冷启动问题多依赖于业务人员的丰富的经验,可能因为业务理解有偏差而造成建模的不精确。后来针对产品初创期基本无数据积累的特点,提出类产品模型、伪风险模型、综合评价法、相似度模型、第三方通用评分几种建模方案的观点 , 以及无样本可依的风险模型可以根据德尔菲法(也叫做专家调查法)的模型来进行风险控制 。

          机器学习领域,最初的关于迁移学习的基本研究是在研讨话题为“Learning to Learn”的NIPS-95研讨会上,这是关注于保留和重用之前学到的知识的机器学习方法的研讨会。自从1995年开始,越来越多的人开始关注和如今的迁移学习类似的学习方法,比如知识迁移,感应迁移等等。上世纪九十年代,Baxter等学者将迁移学习概念引入到统计学领域并且提出一些迁移学习方法。2005年, 美国国防部高级研究计划局的信息处理技术办公室发表的代理公告,给出了迁移学习的新任务,即把之前任务中学习到的知识运用到新的任务中的能力。21世纪初期,Schuller等对学习任务之间的相关性进行形式化的定义,等等,这些是对迁移学习理论的研究。 上海交大Dai等人提出TrAdaboost方法,在迁移学习领域使用AdaBoost的算法思想。香港科技大学Pan等人提出Transfer Component Analysis(TCA)方法,将MMD作为度量准则。Blitzer等人提出Structural Corresponding Learning(SCL)算法,将一个空间中的一些特征使用映射变换到其他空间中的轴特征上。中科院的赵等人对于无标签和有标签两种情况,提出TransEMDT方法,对前者,使用K均值聚类算法寻找最优化的标定参数,对后者,使用Decision Tree建立Robust的行为识别模型 , 等等。 迁移学习越来越成为研究的热门领域。

     

    基础理论介绍

    迁移学习

          因为迁移学习打破了传统机器学习的独立同分布假设前提,所以,传统的机器学习从每个任务中抓取信息,而迁移学习可以在目标任务缺少高质量的训练数据的时候,从旧任务中获取知识并迁移到目标任务的完成过程中。 概念:给定源域DS和任务TS,一个目标域DT和任务TT,迁移学习使用DS和TS中学到的知识,来进行 DT中目标预测函数的学习,并且有DS≠DT或TS≠TT。当源域和目标域相同且源任务和目标任务相同,则学习问题是一个传统机器学习问题。

    根据迁移什么可分为:

    • 基于样本的迁移学习

    根据一定的权重生成规则,重新加权源域中的一些标记数据,以便在目标域中使用

    • 基于特征的迁移学习

    通过特征变换的方式来迁移,或者将源域、目标域的数据特征变换到统一特征空间中,再利用传统的机器学习方法进行分类识别。

    • 基于模型的迁移学习

    发现源域和目标域之间的共享信息

    • 基于关系的迁移学习

    构建源域和目标域之间的相关性知识的映射,关注源域和目标域的样本之间的关系。

     

    迁移学习方法

    • TrAdaBoost

    给源域中的样本赋予权重,经过迭代逐渐降低与目标域样本最不相同的样本的权重来削弱其影响来使其分布靠近目标域。

    • 数据分布自适应
    1. TCA: 假设如果边缘分布接近,则目标域和源域的条件分布也会接近 目标是减小目标域和源域的边缘概率分布的距离。
    2. JDA: 假设源域和目标域的边缘分布和条件分布不同。其同时适配源域和目标域的边缘分布和条件分布。
    3. BDA: BDA通过采用一种平衡因子μ来动态调整边缘分布以及条件分布的距离。 TCA是μ=0时的BDA,JDA是μ=0.5时的BDA。
    • 其他

    特征选择法SCL, 子空间学习法之统计特征对齐CORAL

     

    实证分析

    (一)数据准备

    • 源域数据

    贷款业务A:贷款期限1-3年,平均贷款金额几千到几万,特点是无抵押,凭信用程度来贷款,即中等额度的信用贷款 数据集A保存在A_train_final.csv(含特征,标签),有40k条,业务A的训练数据。

    • 目标域数据

    贷款业务B:贷款期限7-30天,平均贷款金额为一千,特点是额度小、周期短、无抵押、流程快、利率高,即小额短期现金贷款。 数据集B保存在B_train_final.csv(含特征,标签)中,为4k条,是业务B的训练数据。

          数据集中的特征包括no(用户id),ProductInfo开头的字段,WebInfo开头的字段,UserInfo开头的字段等,特征一共490维。标记:flag,取值0或1。数据集A和数据集B的字段相同。 本文所用的跨产品数据即具有两个不同产品的数据,来自平安旗下专业第三方商业征信机构——前海征信的信用贷款业务和现金贷业务脱敏数据。

    (二)特征工程

    缺失值图

    数据集A的列的无效的简单可视化

    数据集B的列的无效的简单可视化

    数据的缺失比较严重,数据集A绝大多数的列有约40%的缺失,数据集B绝大多数的列有60%多的缺失。且数据集A和数据集B缺失也是有规律的。 不删除, 采用缺失值填充-1的方法。

    相关性

    相关性热力图:

    计算相关系数矩阵,可以发现相关系数大于等于0.9的列数达到了302个。之后利用热力图可以可视化数据表里多个特征两两的相似度,由图可以看到,相关性也有一定的规律。

    其他

          数据部分维度为分类“0-1”变量,数据集缺失值填充-1后,归为离散型变量。其余归为连续型变量。将连续型变量做标准化Normalization处理。

          因为数据不平衡,所以做过采样处理,又因为有分类变量,SMOTE不合适,所以使用SMOTENC增加少数类样本。

    (三)TrAdaBoost迁移学习实验

    为了控制变量,超参数优化后输出相对最优的传统机器学习模型后,将该模型作为相应的TrAdaBoost迁移学习模型的基学习器。使用随机搜索RandomizedSearchCV

     

    模型 

    AUC

    ACC

    precision

    Recall

    F1-score

     

    对照组1

    RandomForest

    0.6843

    0.6842

    0.6430

    0.8271

    0.7235

    TrAdaBoost(RandomForest)

    0.7702

    0.7704

    0.9274

    0.5863

    0.7184

     

    对照组2

    GradientBoosting

    0.7759

    0.7758

    0.7538

    0.8170

    0.7841

    TrAdaBoost(GradientBoosting)

    0.7815

    0.7819

    0.8597

    0.6721

    0.7544

          从以上表格可以发现,TrAdaBoost(RandomForest),TrAdaBoost(GradientBoosting)的precision相比于各自的对照组均较高,而recall较低,模型较为保守。F1-score是综合考虑precision和recall的,但是当两个模型,一个precision较高,recall较低,另一个recall较高,precision较低的时候,f1-score可能是差不多的,也不能基于此来作出选择。 从表格可以看到,以GradientBoosting和RandomForest为基学习器的TrAdaBoost迁移学习模型效果较好,相比于传统机器学习模型RandomForest和GradientBoosting,在AUC上有了一定提升。 总的来看,对于源域和目标域不同的跨产品数据,相比于部分传统机器学习模型来说,TrAdaBoost迁移学习算法可以取得更好的结果。TrAdaBoost迁移学习算法可以成为冷启动问题方面研究的一个方向。

    (四)TrAdaBoost的拓展实验

    选择其中表现较好且运行速度较快的RandomForest进行进一步的实验。

    • 拓展实验1

    TrAdaBoost (RandomForest)评价指标:

    test_size

    AUC

    ACC

    precision

    Recall

    F1-score

    0.3

    0.7758

    0.7769

    0.9297

    0.5960

    0.7264

    0.5

    0.7757

    0.7733

    0.9078

    0.6158

    0.7338

    0.75

    0.7702

    0.7704

    0.9274

    0.5863

    0.7184

    RandomForest评价指标:

    test_size

    AUC

    ACC

    precision

    Recall

    F1-score

    0.3

    0.7247

    0.7240

    0.6817

    0.8341

    0.7502

    0.5

    0.7015

    0.7031

    0.6704

    0.8161

    0.7361

    0.75

    0.6843

    0.6842

    0.6430

    0.8271

    0.7235

          首先看目标域数据划分训练集与测试集的比例对实验结果的影响,选择测试集所占比例(test_size)分别为0.3,0.5,0.75进行实验。 可以看到test_size对训练结果有些影响,从0.3到0.5再到0.75,主要的评价指标AUC逐渐降低。其中,RandomForest和基于RandomForest的迁移学习都是test_size取值为0.3时候效果较好。

    • 拓展实验2

     

    Ratio

    0.01

    0.02

    0.03

    0.04

    0.05

    0.1

    0.2

    0.3

    0.4

    0.5

    RF

     

    0.6322 

    0.6892 

    0.6897 

    0.7165 

    0.7082 

    0.7036 

    0.7090 

    0.7175 

    0.7229 

    0.7238 

    TrAdaBoost(RF)

    0.7783 

    0.7785 

    0.8007 

    0.7841 

    0.7672 

    0.7650 

    0.7670 

    0.7652 

    0.7619 

    0.7511 

    选择test_size=0.3,进行下面的实验。再看目标域训练数据和源域训练数据的比例对训练结果的影响。选择比例0.01,0.02,0.03,0.04,0.05,0.1,0.2,0.3,0.4,0.5。

          可以看到在目标域训练数据量和源域训练数据量相差悬殊(比例小于0.1)的时候,每个模型的AUC的变化相差较大,两个模型之间(RandomForest和使用TrAdaBoost的RandomForest)的AUC相差较大。可以发现,此时使用TrAdaBoost的RandomForest效果明显好于RandomForest。当比例趋于0的时候,未使用TrAdaBoost的RandomForest效果明显下降。 当在目标域训练数据量和源域训练数据量比例在0.1到0.5之间的时候,两个模型各自变化不大,其中RandomForest的AUC缓慢上升,使用TrAdaBoost的RandomForest的AUC则略有缓慢下降的趋势。两者之间的AUC差距在缩小。

          总结可知,目标域训练数据和源域训练数据两者数量相差越悬殊,使用TrAdaBoost的RandomForest的效果比单纯使用RandomForest要好得更多。由TrAdaBoost算法原理也可以更好的解释以上的现象,Tradaboost的主要思想是通过自动调整训练数据的权重,利用Boosting筛选出源域训练数据中与目标域数据很不相同的数据。剩下的源域训练数据被当作额外的训练数据,在目标域训练数据稀缺的情况下,对训练模型大有帮助。

    • 拓展实验3

    TrAdaBoost : AUC

    iters

    0.0500

    0.1000

    0.5000

    5

    0.7346

    0.7087

    0.6520

    10

    0.7672

    0.7650

    0.7511

    30

    0.7776

    0.7800

    0.7762

    50

    0.7857

    0.7675

    0.7856

    70

    0.7836

    0.7744

    0.7768

    90

    0.7739

    0.7863

    0.7788

    最后选择拓展实验2中的比例0.05,0.1,0.5,进行TrAdaBoost中迭代次数(iterations)对结果的影响的实验。

          在迭代次数较低的时候(比如5),模型的效果明显降低,算法原理也可以解释这种情况,每次迭代,对于源域训练数据,当它们被错误地预测时,他们可能是那些与目标域训练数据最不相似的数据。 因此,算法添加了一个机制来减少这些源域训练数据的权重,以削弱它们的影响。

     

    TrAdaBoost: ACC

    iters

    0.0500

    0.1000

    0.5000

    5

    0.7425

    0.7070

    0.6501

    10

    0.7726

    0.7639

    0.7500

    30

    0.7839

    0.7796

    0.7755

    50

    0.7913

    0.7666

    0.7849

    70

    0.7893

    0.7742

    0.7760

    90

    0.7779

    0.7863

    0.7782

    ACC可以大致看作TrAdaBoost中错误率的相反面,随着迭代次数的增加,可以预见TrAdaBoost将逐渐收敛。

    总结可知,在选择迭代次数的时候,迭代次数最好不要选的太小。

    (五)数据分布自适应迁移学习实验

     

    AUC

    ACC

    precision

    Recall

    F1-score

    TCA

    0.5984

    0.5984

    0.6312

    0.4734

    0.5410

    JCA

    0.5758

    0.5758

    0.6036

    0.4415

    0.5100

    BCA

    0.5771

    0.5771

    0.6051

    0.4441

    0.5123

          因为TCA,JDA,BDA的缺点即对于大矩阵还是需要很多计算时间和内存空间,容易内存溢出,以及电脑性能有限的原因 , 所以选取原数据中的10%进行了实验。

          实验数据量偏小,质量较差,原数据缺失值较多 , 并且存在一定的实验误差,在误差范围内,三种方法都取得了不错的效果。

          总体来说,数据分布自适应迁移学习全程没有使用目标域的样本标签,它的效果比TrAdaBoost要差,但是仍然可以作为风控中冷启动问题的研究方法之一。特别是在初期,目标域完全没有标签的时候,这是一种非常实用的方法。之后,在冷启动的中后期有少量样本标签的时候,可以转而使用TrAdaBoost算法。

    (六)其他迁移学习方法初探

    • SCL

    num_pivots

    AUC

    ACC

    precision

    Recall

    F1-score

    5

    0.7238

    0.7222

    0.6831

    0.8102

    0.7412

    10

    0.7266

    0.7249

    0.6877

    0.8000

    0.7396

    30

    0.7165

    0.7146

    0.6772

    0.7912

    0.7297

    50

    0.7078

    0.7083

    0.6829

    0.7856

    0.7307

    100

    0.6846

    0.6841

    0.6570

    0.7619

    0.7056

          SCL实验中,本次实验的公共特征数目(num_pivots)分别取5,10,30,50,100个特征,基本分类器采用RandomForest。结果如下表。SCL方法中,公共特征的数量对结果有一定影响,需要根据风控的实际问题来选择。从表中可以看出,SCL有一定的应用效果。

    • CORAL

     

    AUC

    ACC

    precision

    Recall

    F1-score

    CORAL

    0.5359

    0.5359

    0.5213

    0.8798

    0.6547

    CORAL实验中,将数据的统计特征变换对齐后,利用RandomForest构建分类器学习。结果如下表。评价结果比SCL较差,但也是可以研究应用于冷启动的方法之一。

     

    实验结论与局限性

    实验结论

          在目标域有一定标签的时候,可以选择使用TrAdaBoost。

          另外,本论文对TrAdaBoost进行了扩展实验发现: (1)需要选择合适的目标域划分训练集和测试集的比例 (2)目标域训练数据和源域训练数据的比例对训练结果影响较大,目标域训练数据和源域训练数据两者数量相差越悬殊,使用TrAdaBoost的效果比单纯使用传统机器学习的效果要好的更多,所以在冷启动初期,目标域样本稀缺时候,使用TrAdaBoost迁移学习模型要比传统机器学习要好; (3) TrAdaBoost的迭代次数较低的时候,模型的效果较低,随着迭代次数的增加,TrAdaBoost将逐渐收敛,所以迭代。 次数不能选的太小。

          而之后我们研究了当目标域完全没有标签的时候,可以尝试采用数据分布自适应 . 数据分布自适应完全没有使用目标域样本,它们的效果比TrAdaBoost要差,但是冷启动初期完全没有目标域标签的时候,非常实用的一种方法。可以在冷启动初期采用数据分布自适应的方法,而在有一定目域样本的冷启动中后期采用TrAdaBoost。

          进而本论文提出,可以将特征选择法SCL,统计特征对齐CORAL等迁移学习方法纳入到风控冷启动问题的研究之中。

    局限性与建议

    • 如果源域和目标域不相似却强制迁移,或者源域和目标域虽然相似但是迁移学习方法不够好,都可能造成负迁移。 传递迁移学习(TTL)
    • 特征工程可以使用不同方法,然后对比。比如在实际情景中,基于构造的业务特征进行算法衍生、数学变换、特征交叉与组合等,衍生出有新的含义的特征等;比如尝试使用过滤法、嵌入法、包装法等进行特征选择,来提高预测的准确度等。
    • 本文所用的评价指标较少,主要看的是AUC。而在实际业务中,企业不一定看重AUC指标,例如银行更加看重预期违约的客户是否被筛选出来等等。可以根据实际情景来选择不同的指标,根据不同的场景侧重不同的方面。
    • 由于时间以及篇幅问题,还有很多迁移学习算法并没有尝试和研究, 比如在最小化分布距离的同时,加入实例选择的迁移联合匹配的TJM(Tranfer Joint Matching)方法;以及随着深度学习越来越热,使用深度神经网络进行迁移学习的深度迁移学习(BA,DDC等)。在后续的研究中可以多加尝试。

    现状与展望

    现状难点

    • ​​​​​​​“数据太少”

          在金融领域,目前的做法是使用半监督学习,将业务风控专家的经验和实际的信贷结果相结合,风控专家可以实时的介入,根据输出结果做一些调整,实时反馈到模型训练的迭代提升中。并且,金融的业务结果和样本非常珍贵。之前通过业务A积累数据,后来建立业务B,虽然业务不同,但是业务A的样本不能丢掉。这时候常常在新业务下,尽可能复用旧的知识

    • “数据太多”

          数据特征维度多,问题在于如何将大数据和金融风控的问题挂钩起来,实践中常用的方法有深度学习。并且尝试不同的深度特征编码方法,利用半监督学习对原始数据进行预处理来进行特征的降维。

          模型的可解释性的意义在于:需要和申请人解释打分的结果;金融环境是一个复杂的环境,不能从黑盒中拿出结果,这样是不利于金融风险的估计以及控制的,很有可能存在风险漏洞。常用的方法是利用LIME捕获结果或者局部结果中的关键变量,之后找出是导致结果的变化的特征是什么。

    展望

          对于金融领域数据太少的冷启动问题,迁移学习的应用可以协助解决新领域缺乏数据的问题,并且将金融领域珍贵的已有的业务结果和样本进行充分的运用。

          目前研究者提出多种实现域自适应的算法,可以应用到冷启动中,比如用低秩矩阵来重构数据点,实现域之间的鲁棒自适应;赋给源域中的样本权重,使源域的分布接近目标域等。

          迁移学习TrAdaBoost模型给源域中的样本赋予权重,经过迭代逐渐降低与目标域样本最不相同的样本的权重来削弱其影响来使其分布靠近目标域,并且TrAdaBoost没有在特征空间上做扭曲变换,具有较好的解释性,可以更加广泛得应用于风控领域。而数据分布自适应(TCA,JDA,BDA等)通过一些变换,将目标域和源域的数据概率分布的距离拉近,虽然在解释性上没有TrAdaBoost那么好,但是并不需要目标场景中有真实的样本标签,在冷启动的初期的阶段的应用会更好。特征选择法是通过机器学习方法选择出源域和目标域中公共的特征并且在这些特征上两个领域的数分布是一致的。这种方法可以帮助风控人员找到旧业务和新业务之间特征的联系,对珍贵数据的重用和新业务的建立将大有帮助。另外,还有一些基于经典的特征选择法SCL的扩展工作,比如将特征选择和空间学习相结合,或者特征选择和信息不变性相结合的FSSL,或者在优化目标中同时进行边缘分布自适应和源域样本选择的TJM等等都可以在将来研究如何在风控领域中得到良好的应用。统计特征统计特征对齐是子空间学习法的一种,其中CORAL是将目标域和源域的二阶特征对齐,还有SA、SDA进行目标域和源域的一阶特征对齐。子空间学习法假设在变换后的子空间中,目标域和源域的分布相似。子空间学习法除了统计特征对齐,还有流行学习法,子空间学习法可以和概率分布自适应方法进行结合,比如边缘分布自适应和流形变换相结合等等。

          对新业务样本标签要求的放松以及对新业务样本数量要求不多,还有对旧业务珍贵样本数据的重用等等,这些迁移学习方法在风控领域具有的优点,势必将在风控领域,特别是冷启动缺少数据的阶段得到更多的关注。

     

     

     

    展开全文
  • 今天,你AI了没?关注:决策智能与机器学习,学点AI干货国内国外金融风控领域大致分为两个流派,其中一派为具有统计学背景的人,分布银行、金融消费公司等传统的金融领域,偏...
  • 由于金融风控场景的特殊性,很多算法同学刚进入这个领域容易“水土不服”,为了使机器学习项目(也包括图算法相关的应用)落地更加顺利,本文介绍下实践过程的一些经验和踩过的坑。金融风控场景的特...
  • 基于机器学习的webshell检测(一) https://zhuanlan.zhihu.com/p/58676764 基于机器学习的攻击检测(一) https://zhuanlan.zhihu.com/p/58689080
  • 首先我们简单描述一个机器学习常用的领域:金融风控。 金融风控流程与重点 互联网金融公司,其风控流程因为业务不同而各有所不同。而业务类型,如果按照借款用途来划分,有消费贷款,企业贷款,供应链贷款,融资...
  • 一文看懂机器学习与大数据风控

    千次阅读 2016-11-17 17:23:10
    导语:机器学习在风控中的作用究竟如何,有哪些关键技术,其优势与缺点又有哪些呢? 一个普遍的看法是,机器学习等人工智能技术会最先金融领域落地。金融行业是最早实现信息化的行业,有...
  • 本文主要内容本文详细梳理风控领域的基本概念,并将风控模型的使用场景分为8大板块,逐一解析机器学习在其中的应用风控领域的特点风控领域是新兴的机器学习应用场景之一,其特点非...
  • 本文来自于csdn,本文以特征工程金融风控中应用为切入点,对特征工程的大致内容进行了概述。建模领域人们常说,数据和特征决定机器学习的上限,而模型和算法只是不断地逼近这个上限。所以,特征工程建模起...
  • 作者|风浪(已授权)整理|NewBeeNLP由于金融风控场景的特殊性,很多算法同学刚进入这个领域容易“水土不服”,为了使机器学习项目(也包括图算法相关的应用)落地更加顺利,本文...
  • 引入基于机器学习的特征提取框架(如 random forest,SVM,CNN)来适应不同的数据类型,自动从大量复杂的非结构化数据产生高质量的特征,完成模型训练后可以输出特征的重要性,结合多种方法进行特征选择和解释。...
  • 风控是金融业务的核心组成部分,而信贷风控又是整个风控领域体量最大、挑战最大的类型。...随着统计学、大数据、机器学习的发展,现代信用风控越来越偏向量化模型的手段来得以解决风控问题。 文档内有网盘分享链接
  • 随着国内互联网金融监管加强,小额普惠的定位更加明确(行业回归风险控制的本质),用大数据与机器学习的方式做风控变得越来越重要,相关领域的公司也逐渐受到追捧。 雷锋网独家获悉,Fintech公司CreditX氪信最近...
  • 抵押贷,企业贷不讨论范围。 ◆◆◆ 1. 风控的意义 何为风控?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行,小贷,P2P等)来说,风控的重要性超过流量、体验、品牌这些...
  • 编者按:大数据和机器学习是近年来快速增长的热门领域,各个领域的数据量和数据规模都以惊人的速度增长。本文是近期举行的架构实践日点融网刘利就“机器学习平台点融网业务的应用介...
  • 金融行业风控系统与黑产的攻防几乎是无时不刻的存在着,风控系统用来实时识别风险的机器学习模型需要黑产攻击的手法改变的时候能够及时的对其进行重新识别。而机器学习算法训练过程学习到的黑产的攻击...
  • 组合模型信贷风控中应用 简介:包括违约预测在内的诸多场景,越来越多的建模人员将模型集成的方式应用在实际工作,并且取得了不错的成效。本节课将介绍三种基本的集成方式:Bagging,boosting,stacking。...
  • ⭐️对于序列数据,现在是两种入模方法: 序列特征工程,转化为结构化数据,这块《智能风控》第二本有详细的代码,35个函数,基本输囊括了能用上的所有角度, 序列模型,比较典型的就是循环神经网络(RNN/LSTM/...
  • 一个普遍的看法是,机器学习等人工智能技术会最先金融领域...但机器学习在风控中的作用究竟如何,有哪些关键技术,其优势与缺点又有哪些呢?本期硬创公开课,雷锋网邀请百融金服风险总监郑宏洲,来讲讲机器学习...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,067
精华内容 2,826
关键字:

机器学习在风控中的应用