精华内容
下载资源
问答
  • 机器学习在风控中的应用
    2022-01-15 00:06:52

    f2d645901af86b81f6cba87e9b20fc28.png

    来源:知乎
    本文约5400字,建议阅读10分钟
    本文简要概述在当前大数据和机器学习技术如何在信贷风控场景下的常见应用。

    37bdaa50c6c2b254f4661c18c1da0213.png

    似乎一夜之间,所有的互联网公司在对外的宣传稿中都会提及自己使用机器学习和大数据技术,一时间成为了近几年来最炙手可热的名词,不谈机器学习、大数据似乎都不好意思说自己是做高新技术的了。

    bb02390ad05e2b05fe7bff973b98a55e.png

    百度搜索指数:机器学习

    3c0db71596bd49463a69161300018de5.png

    百度搜索指数:大数据

    上图来自最近7年来这两个词的百度搜索指数,可以看到从2013年开始一直在稳步攀升,在2017年的时候迎来了爆发式的增长,这些都与我们的感知类同。

    00bf4f9f0936e6ca9bcab847f47a72ff.png

    机器学习与人脑思维的区别

    机器学习和大数据应用是相辅相成的,目的是想用机器去模拟人类的思考过程,人类通过自身经历经过思考可以形成经验,并用来解决新的问题,而机器学习是需要利用大量的历史数据去训练一个模型去解决一个特定的问题:比如识别两张脸是否一致、该用户是不是精准客户等。

    虽然这两个词这两年才火起来,但是这些概念早在半个多世纪前就有理论的提出,尤其机器学习的算法已经在几十年前就非常成熟了,但是受制于计算效率、存储等硬件的限制,大数据和机器学习在实际业务上的应用场景十分受限,很难有大规模的场景应用。最近十年来随着存储、芯片等层面的突破让大数据和机器学习的计算应用成本大大降低,这也支撑了基于这两项技术的应用场景呈现爆发式增长。

    除了机器学习之外,我们也发现互联网信贷成为了这几年最火的行业方向,互联网信贷的工作重心在风控。于是天作佳成,正如目前我们看到的,信贷风控成为当前机器学习和大数据技术最适合也是最成熟的应用场景之一:

    1.金融业务自身需要大量的数据且也会产生更多的数据,这天然的让信贷风控成为最适合大数据和机器学习的场景;

    2.风控涉及的数据量大、数据面广、关联复杂,也急需利用大数据和机器学习技术解决风控过程中效率低、缺乏公平准则、风险难以量化的问题;

    所以正是因为这样的相互依赖,信贷风控成为当前大数据和机器学习技术应用最成熟的领域之一。

    信贷风控中的主要问题

    信贷风控最关键的目标就是从全量申请用户样本中找到会逾期的客户,所以风控的核心目的是评估用户的还款意愿和还款能力。从过去的业务实践经验来看,风控当中需要重点关注的问题包括:

    非本人申请:申请人利用虚假身份申请信贷,这一问题在信贷业务高速增长的蛮荒阶段,银行或者互金机构缺乏对黑产全面的认知,在部分业务环节被黑产用虚假/残缺或者非本人身份证欺诈,包括一些知名的持牌消金机构也遇到过大量类似的欺诈案例。

    伪造资料:申请人为了更容易获得贷款或者贷后恶意逾期避免催收,伪造收入证明、联系人、工作地址等资料。

    中介团伙:中介在网络上大量招徕需要信贷申请的用户,使用不同的攻略“教”客户如何有机会以较高概率通过银行/信贷机构的审核。

    历史信用记录:用户历史如果存在大量失信行为,或者存在赌/毒等不良社会行为,那么其逾期失联的概率也很高。

    还款能力不足:申请人负债收入比较高,外部有大量债务且自身收入不稳定,这些都有可能导致用户愿意还款但是却没有能力还款。

    基于大数据和机器学习技术的风控解决方案

    为了解决上述的这些问题,目前业内已经形成了一套基于大数据和机器学习技术的较为完整的解决方案。

    • 非本人申请:人脸识别技术

    目前人脸识别技术已经应用在生活中的方方面面,如刷脸支付、高铁进站甚至公安的天网系统;而在金融业务中,信用卡办理、网贷申请也都普遍使用人脸识别:将申请人照片与在公安系统中身份证存照进行比对,判断两张照片的相似度,可有效避免非本人申请的问题。

    与人类识别面部类似,当我们人类对一个人比较熟悉的时候,我们很容易根据他的面部特征与我们在脑海里过去存储的特征进行比对,就能判断这个人是否是这个人(虽然也会有误判的时候),同样的,人脸识别技术的背后也是一套深度学习的算法,把我们思考的过程转化为模型算法,目前市面上有多家提供人脸识别服务的商业化应用公司,不过其算法的本质基本是类同的,人脸识别的核心思想在于:不同人脸由不同特征组成。

    理解这个思想,首先需要引入的的是“特征”的概念。先看下面这个例子:

    50afc5b87c2a14f4df22a7cb08582197.png

    最简单的人脸特征

    假设这 5 个特征足够形容一张人脸,那每张人脸都可表示为这 5 个特征的组合:

    (特征1,特征2,特征3,特征4,特征5)

    一位双眼皮,挺鼻梁,蓝眼睛,白皮肤,瓜子脸的小姐姐即可用特征表示为(见表格加粗项):(1,1,0,1,0)

    那么遍历上面这张特征表格一共可以代表32张不同的脸。32 张脸可远远不够覆盖70 多亿的人口。为了让不同特征组成的人脸能覆盖足够多人脸,我们需要扩充上面那张特征表。扩张特征表可以从行、列两个角度展开。

    列的角度很简单,只需要增加特征数量:(特征6.脸型,特征7.两眼之间距离,特征8.嘴唇厚薄…)实际应用中通常应用 128,256,512 或者 1024 个不同特征。从行的角度扩充也很好理解,比如“特征3”,除了值 0 代表蓝色,值 1 代表灰色,是不是可以增加一个值 2 代表黑色,值 3 代表没有头发呢?此外,除了这些离散的整数,我们也可以取连续的小数,比如特征 3 的值 0.1,代表“蓝中略微带黑”,值 0.9 代表“灰中带蓝”……

    7523bc1688b9a0e247b5442c8d814a44.png

    百度开源平台:面部特征识别

    经过这样的扩充,特征空间便会变得无限大。扩充后特征空间里的一张脸可能表示为:

    3d761ad0997b592eaa557e60a5b4888d.png

    一张脸提取出128维特征变量

    用于表示人脸的大量特征从哪来?这便是深度学习(深度神经网络)发挥作用的地方。它通过在千万甚至亿级别的人脸数据库上学习训练后,会自动总结出最适合于计算机理解和区分的人脸特征。

    阐明了不同人脸由不同特征组成后,我们便有了足够的知识来分析人脸,算法工程师通常需要一定的可视化手段才能知道机器到底学习到了哪些利于区分不同人的特征:同一人的不同照片提取出的特征,在特征空间里距离很近,不同人在特征空间里相距较远。

    6ab3e5a31803146e0172acfa296d8555.png

    三张不同角度的撒贝宁照片经过神经网络提取出 128 维的特征后,变成了 3 个在 128 维空间中的点(红色),刘德华的特征点为绿色。

    不过在实际应用中在光照较差、遮挡、形变(大笑)、侧脸等诸多条件下,神经网络很难提取出与“标准脸”相似的特征。另外,在金融风控领域还需要解决伪造人脸的情况,面对这些问题,通常采取四种应对措施:

    1. 工程角度:研发质量模型,对检测到人脸质量进行评价,质量较差则不识别/检验。

    2. 应用角度:施加场景限制,比如刷脸解锁、人脸闸机、会场签到时,都要求用户在良好的光照条件下正对摄像头,以避免采集到质量差的图片。

    3. 算法角度:提升人脸识别模型性能,在训练数据里添加更多复杂场景和质量的照片,以增强模型的抗干扰能力。

    4.精准活体识别:通过3D建模软件可以使用用户已有的照片模拟一张真实的头像,以此来骗过人脸识别算法,所以如何验证这个头像是来自一个真实的人同样也是一个机器学习的过程。

    76301f3394a2d9f79482d7fa2765d48e.png 2fa6e88ae0ce823e13942497a1f4fe92.png

    鲲鱼科技-灵犀联合实验室“模拟人脸攻击”示例

    1.基于知识图谱技术的复杂网络

    在影视节目当中,我们经常看到警察办案时会把嫌疑人、证人、受害人及他们之间的关联关系等信息画在墙上,用以分析案情,这就是典型的关系图谱应用。墙上的画便是图,图中有用的信息便是知识,将其进一步扩展到其他事物;人为实体,在图中我们称之为点,人之间代表着关联关系的连线,在图中我们称之为边,就这样点与边共同组成了我们的关系图谱。

    09a8f97e5652a782d66f15119154f23e.png

    构建关系图谱的底层还是大数据的技术:基于庞大的用户数据,从不同的数据源抽取出来存入到图数据库里,所以数据是构建关系图谱的基础。一种是以关系型数据库存储的结构化数据,例如:IP地址,经纬度,设备指纹等,另一种是爬虫采集的非机构化数据,例如行为记录、网上的浏览记录。实践应用中我们利用机器学习、自然语言处理技术把这些数据变成结构化的数据也存入到图谱里。

    从用户大数据和基于大数据的关系图谱体系我们可以实现以下目的:

    2.1 资料伪造识别

    校验用户信息可以用来判断借款人是否可能存在欺诈风险,使用关系图谱做交叉校验,虽然不能保证百分之百的准确性,但是它在人工审核时便是一个有力的参考依据。欺诈用户填写的个人信息通常都是虚假的。例如:比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点。我们将关系图谱数据可视化,可以很直观的发现两者的矛盾,我们便可以判断他们二人至少有一人存在欺诈风险。

    2.2 团伙欺诈分析

    在信贷场景中,团伙欺诈造成的损失更加严重,不过从繁复的数据中发现团伙的难度也很大。基于知识图谱我们通常直观分析多层级的数据,一度关联、二度关联、三度关联,甚至是更多维度关联。团伙虽然使用虚假信息进行授信、支用,但通常都有共有的信息,例如同一个WIFI,同一片区域。LOUVAIN、LPA、SLPA等社区发现算法、标签传播算法可以有效快速的发现团伙。

    d49b9a0b6528c1dab323e085b2d969f8.png

    2.3 失联客户管理

    对于贷后管理来说,用户本人及紧急联系人失联是催收失败最大的原因,这时可以利用关系图谱去发现失联用户的潜在联系人,提高催收成功率。例如张三是失联用户,李四和赵六是张三的联系人也都失联了,这时我们可以试图通过李四的联系人王五,或者与张三使用相同设备的用户老王来达到失联客户管理的目的。

    58bb2cae29967a190710f975216d9601.png

    3.征信数据与信用评分卡

    3.1征信与大数据

    与国外相比,中国最大的差异在于征信体系的不完善。我们的人行征信系统覆盖了8亿人,但是可能只有4亿左右是有信贷记录的,剩下的无任何信贷记录的,我们称之为白户。所以国内银行对于大部分非中高端用户实际上是不愿意也没有能力提供金融服务的。没有征信数据,那套国外搬过来的基于征信数据的方式方法就不管用了。

    不过,我们很快发现,利用互联网技术可以解决征信数据缺失的白户问题,而这些看似与信贷记录不相关的数据在一定程度上却能够评估是否能够给该用户借款:

    (1)All data is credit data:互联网可以提供每个信贷申请用户庞大的、碎片化的、种类繁多的信息。这里面包括用户提交的电子化信息(如身份证、营业执照、房产证、学历证、工资单、社保,银行流水等),第三方权威机构的查询信息(如公民身份证查询中心、教育部学历中心、法院诉讼信息查询中心等可查询信息),还包括了海量的互联网碎片数据,如用户的电商交易信息、微博等社交网络数据,百度搜索引擎数据等。

    (2)互联网的高效性和便捷性使我们能以较低的成本、较短的时间,积累大量的用户数据,为分析建模提供足够的样本量。

    在信贷的业务实践中,常用的行业大数据包括:

    • 央行征信报告:一般持牌金融机构有央行征信介入权限,包括个人的执业资格记录、行政奖励和处罚记录、法院诉讼和强制执行记录、欠税记录等。

    • 司法信息:最高法以及省市各级法院的最新公布名单,包括执行法院、立案时间、执行案号、执行标的、案件状态、执行依据、执行机构、生效法律文书确定的义务、被执行人的履行情况、失信被执行人的行为等信息。

    • 公安信息:覆盖公安系统涉案、在逃和有案底人员信息,包括案发时间、案件详情如诈骗案/生产、销售假药案等信息。

    • 信用卡信息:银行储蓄卡/信用卡支出、收入、逾期等信息。

    • 航旅信息:包含过去一年中,每个季度的飞行城市、飞行次数、座位层次等数据。

    • 社交信息:包含社交账号匹配类型、社交账号性别、社交账号粉丝数等。

    • 运营商信息:核查运营商账户在网时长、在网状态、消费档次、通话习惯等信息。

    • 网贷黑名单:根据个人姓名和身份证号码验证是否有网贷逾期、黑名单信息。

    • 驾驶证状态,租车黑名单,电商消费记录等也是可以考量的因素

    正是因为大数据技术的发展才形成了带着强烈中国特色的官方+民间结合的征信体系,支撑互联网信贷脱离蛮荒可以实现高速发展,信贷从业者可以在合规的前提下获取对提升效率有用的用户信息完善风控策略。

    3.2 机器学习与评分卡

    评分卡我们应该是最为熟悉的,芝麻信用分就是一个典型的信用评分,支付宝官方利用自身积累及外部征信渠道获取的各种数据从五个维度对一个用户进行评分,而这个评分对于每个用户来说是透明的,这也非常好帮助用户理解和改善自身的信用状况。

    从和信贷业内的小伙伴沟通来看,芝麻的信用评分还是比较有区分度的,这与阿里的大数据积累息息相关,阿里体系内积累了大量用户特有数据可以对用户形象进行更好的刻画。

    a80f147edac670e12ce6a5866f1d473f.png

    这套评分卡的背后其实是一套依赖在大数据基础上的机器学习算法,因此在本身拥有大量数据的基础上如何挖掘出一套有效的客户评分这就是机器学习需要做的事情。

    机器学习中目前应用最广泛的就是有监督学习:这类模型最复杂的地方在于模型的训练过程,算法人员根据这些历史用户的表现打上标签(逾期/不逾期),基于这些用户大量数据,使用不同的算法(一般来说都会使用逻辑回归算法)来对这些用户进行评分,得到一个在各维度评价指标来看都能过关的模型,并用这个模型来预测未来的数据表现。

    51ac6b78d9b3ee7d3f1c9d9fac1a357b.png

    目前银行信用卡体系、网贷体系基本都是使用类似的方法构建评分卡,当然不同的场景、不同的行业所用的评分卡也不尽相同。基于这套评分卡我们基本上可以在用户申请环节实现量化风险的目的。基于大数据的机器学习并不是完全改变传统风控,实际是丰富传统风控的数据纬度和量化风险的方式。

    结语

    本文简单介绍了大数据和机器学习在信贷风控领域的应用场景。机器学习听起来很高大上,在实际工作中也经常会遇到一味炒作概念的人,过分夸大机器学习所能起到的作用,或者盲目的追求高深复杂的算法。不过无论是机器学习还是大数据其本质还是为了服务业务,提高业务的效率降低成本是其最根本的目的。

    随着信贷行业的不断发展,机器学习和大数据技术的越来越成熟,二者结合的应用场景相信也会愈加丰富,相信在这块未来会有更多新颖的应用场景。

    编辑:王菁

    338f80546815306aa38c60698edb6f82.png

    更多相关内容
  • 6-1+图机器学习在度小满金融风控中应用
  • 每天给你送来NLP技术干货!分享嘉宾:李宗纯 度小满 AI产品经理编辑整理:高倩重庆理工大学出品平台:DataFunTalk导读:本文主要介绍度小满的超大规模图平台,以及它真实金融风控...

    每天给你送来NLP技术干货!


    分享嘉宾:李宗纯 度小满 AI产品经理

    编辑整理:高倩 重庆理工大学

    出品平台:DataFunTalk

    导读:本文主要介绍度小满的超大规模图平台,以及它在真实金融风控业务中的应用。其中会包括一些应用方法和案例,希望能为大家在图机器学习落地产品化方面提供一些参考。

    今天的分享主要有以下四部分:

    • 相关背景介绍

    • 度小满超大规模图平台 Dxm Eros 功能

    • Dxm Eros 应用

    • 总结与展望

    01

    相关背景介绍

    1. 金融科技发展趋势

    1821745de16566762ee493f01cfaf9b1.png

    金融科技发展趋势可以分成以下三个阶段:

    第一阶段:金融信息化阶段(1986年之前)

    金融行业完成初步信息化,通过传统IT技术实现办公电子化,自动化的过程。

    第二阶段:互联网金融阶段(1987年-2009年)

    互联网大规模扩张,市场上萌生大量信息科技公司,通过互联网实现信息收集、共享和业务融合,实现金融业务的互联互通。

    第三阶段:金融科技深度融合阶段(2010年至今)

    大数据、云计算、人工智能及区块链等新技术为传统金融带来了变革,催生了新的金融行为。比如大数据征信以及智能风控等。

    2. 金融风控技术演进

    2ef74cdacdffec986fb31c4aa628534b.png

    常见的金融风险大致可分为两个类型:可防可控风险,难防难控风险。比如用户违约风险,以及用户收入降低导致购买力下降风险,我们统称信用风险。黑产,中介,团伙欺诈等属于欺诈风险。信用风险,欺诈风险以及操作风险,这些都是可以通过各类的不同等级的金融风控技术来极大程度地降低的。

    金融风控技术的演进可以基于所需要处理的数据的维度而抽象成从点到线再到面:是从人工审核到规则,到算法模型再到图谱;对应的技术分别是从数据分析到机器学习再到知识图谱。过程如下:

    第一阶段-审核:主要依赖对信息的人工审核。但身份证、手机号码、银行流水等材料的伪造成本很低,金融机构需投入大量人力审核信息主体的身份及材料的真实性

    第二阶段-规则:基于数据分析而制定的各种策略和规则:通过收集大量多样化的数据,如第三方信息等对信息的真实性进行交叉验证。比传统的人工审核具有更强的反欺诈能力。但由于数据来源多、规模日益庞大,如何整合多元异构数据源,利用已有数据交叉验证成为新挑战

    第三阶段-模型:用机器学习模型,将多源异构的大数据整合成机器可以理解的知识,通过机器学习模型来判断节点的好与坏

    第四阶段-知识图谱:将单点身份和单条链路的资料转换成对于面的形式的风险检测,不仅关注节点个体本身,而是更加关注个体之间的关系,从而实现欺诈的识别和防御。

    3. 图在金融风控领域应用

    e606e23525a9aff522cdda4fb8b9ca07.png

    在传统的金融企业中,图技术并没有被大规模的应用。这些企业仍然使用了关系型数据去进行数据存储,进行的风控也仅仅从个体本身来出发去分析个体之间的差异。但由于信息伪造成本极低,导致欺诈风险的欺诈行为高发且难防。其实,他们所拥有的这些数据隐含着海量的挖掘价值,而传统的金融企业却无从下手,所以越来越多的金融科技公司开始着手对图技术进行研究与应用,使用图数据库去存储数据,并且利用图分析算法来甄别团伙欺诈行为,这就极大程度地提高了数据存储和数据挖掘的能力,也可以为金融风控业务提供实时有效的风险信息。

    02

    Dxm Eros 功能

    1. 图平台 Eros 框架

    46083e324a7a1d135c2675cac17b1fd3.png

    上图是度小满超大规模图平台Eros的框架示意图。

    底层基础设施:海量的关联数据池,异构计算集群资源,大规模高性能数据库。

    图数据库:存储各类的关系型的数据,如企业和人和证件间的关系等。

    平台能力:满足各方向用户不同的应用需求和应用场景下的风控图可视化平台、数据融合实验平台、可调整模型结构的快速涂模型实验的平台、基础算法模型库(经典的图算法图模型、自研的图模型等)。

    Eros平台主要应用在金融信贷的全链路场景当中,从一开始的智能获客到智能反欺诈,智能风控和贷后审核等。

    2. 图存储模块

    512b39a773ee1acfd5b43f2a08a095ca.png

    图数据库用于数据存储管理,主要就是将非结构化数据存储并管理起来。在传统的关系型数据库当中,数据关联非常不直观,比如对于用户提交的数据的存储,往往需要通过用户表、进件表、企业表等多个映射的表单来进行存储,最后用了很多个关系表来代表一个非常简单的数据结构,这很难适应图模型的训练和查询的要求。相较于关系型数据库,图数据库是对关系型数据库功能的拓展,它真正关注的是个体与个体之间的关系,它的结构是由顶点和边所组成的,它支持的图结构也更加灵活。度小满的图数据库主要具备以下几点优势:

    • 存储规模:支持千亿节点千亿边的超大图存储,具有可扩展可伸缩的存储和计算能力;

    • 高性能:毫秒级响应,二度查询50ms以下,可以说是业界比较领先的一个水平;

    • 查询分析一体化:同时支持同查询和图分析算法;

    • 简单易用的一站式图平台:良好的可视化界面,助力用户快速查询。

    3. 图分析模块

    bd797bbe2980dc8260c608b5cc9cbfb6.png

    第二个模块是图分析算法模块。度小满的Eros平台上支持了各类的图分析算法以及图表式学习算法,除了一些顶点类,路径类以及社团类的经典的图分析和图表示学习算法,还有根据最新的研究成果支持的图模型和图算法,以及自研的算法。例如,对于图分析算法,我们可以将其按照顶点、边、社团来进行划分,分别支持各类图分析算法。对于图表示学习,也支持基于因子分解、随机游走和深度学习等方法的图算法。

    4. 图建模

    2b9a01a27058460c19d1107cacb28752.png

    第三个模块是图建模。由于很多图模型算法比较新,利用图技术来进行建模有一定的门槛,而很多数据科学家也希望能够应用我们图模型产生的数据、应用我们图模型的能力。所以我们为他们打造了一个自动图建模功能-AutoGraph。AutoGraph可以在无人工参与的情况下,自动生产直推式图结构嵌入特征,并通过增量式训练和异构图算法支持,增加对最新数据和复杂图数据的覆盖。AutoGraph可以提供端到端的自动图建模能力,弥补技术与业务之间的壁垒,让不懂技术的同学也可以利用图技术建模,从而应用在贷前贷中风控模型中和贷后催收与审核中。

    5. 可视化模块

    36f08a549a2e34f39e831290faef8672.png

    最后一个模块图平台可视化模块。左图是从平台上截取的一个图的layout。除了在宏观上查看一个图网络结构、点边分布和统计信息之外,还为用户提供了微观分析功能,如图N度邻居查询、关键信息展示、基于条件的过滤与统计功能等,可以辅助业务分析。同时,也包含基础的图管理功能:

    • 图导入导出:用户可以自定义要导入的数据、任务的启停时间和周期等;也可以从异构大图中导出子图;

    • 实例监控管理:查看数据分布以及健康性;

    • 训练管理:选择模型和数据进行训练。

    除此之外,还从节点、路径、社团不同级别分别提供了可视化功能,满足各类用户的使用需求。比如可疑节点分析、关系可视化、路径标记和社团发现等,可以分别应用于反欺诈、审核、反洗钱等环节。

    03

    Dxm Eros 应用

    967b87cbd24175af78a75d04e03211fa.png

    作为一个产品,它的设计是从用户需求出发的。作为一站式超大规模的图平台,它的应用可以从贷前到贷中一直贯穿到贷后整个流程,所以它的用户也可以覆盖到算法、策略、信审以及反洗钱等不同角色不同团队。对于不同团队,不同人群,他们的应用场景和应用需求,产品的设计需要侧重不同方面。

    • 对于算法同学,他们更多的使用场景是图建模,图挖掘。他们更关心的是快速的进行图实验,并且快速、直观的得到实验结果。所以我们的产品就可以为其提供自动的数据预处理,自动的特征工程,自动建模调参,自动部署上线等功能。

    • 对于策略的同学,他们使用这个平台做反欺诈分析,所以他们希望能够在这个平台查询某一个节点的风险是怎样的一个等级。为他们提供的是可疑节点标记和可疑社团标记。

    • 对于信审审核同学,他们既往的审核工作往往是通过在互联网各种平台上进行多个轮次的搜索,过程繁琐且不直观。所以图平台主要是提升他们的工作效率,使他们查询和审核的过程更加快速,更加直观,更加便捷。为他们提供的功能包括人企关联查询,企业风险提示和特殊关系提示等;

    • 对于反洗钱团队,我们希望为他们在追踪资金链路以及关键节点当中提供一些帮助,辅助他们的工作提升效率。所以也相应的为他们推关键路径分析和关键节点识别的一些功能。

    1. 智能图挖掘

    智能图挖掘方便算法同学快速地进行各类实验并且查看结果这个功能,只需要用户选择需要使用的数据,就可以自动实现图挖掘。这赋能了很多不熟悉技术,不熟悉算法的同学,让他们也可以将图模型应用到业务上。要做到智能图建模图挖掘,只需要这里所展示的五个步骤:

    2475fd5908b639a5ae0e19986a4e1c40.png

    Step1:数据整合/创建数据集

    这个步骤实现了从原始的raw-data到数据整合,数据压缩以及最后训练使用的二进制文件生产的全流程。对用户来说只需要填入不同月份的XY即可,无需关注和图相关的任何细节。在数据阶段支持使用额外的填充特征来丰富数据图的信息量,提升模型训练效果。

    Step2:自定义模型与训练脚本

    针对不同技术背景,不同层级的用户推出了两种不同方案。对于一些不太关心或者不熟悉最新图模型用户,他们可以直接选择系统内已经有的模型,对于算法专家,他们可以自定义上传他们所需要训练的模型。在这一个步骤,平台也支持不同的模型和不同训练脚本的任意组合,灵活度非常高。

    Step3&4:一键训练&调优

    平台支持一键训练,用户可以自己手动设置这些关键参数,也可以直接使用平台已经内置好的一个Auto模式一键训练模型平台。在这个过程当中,会根据既往的一些经验和策略,自动的选择合适的模型,也可以自动地根据规模去调整运行申请的资源量,模型训练好后,也会进一步进行自动调优,使模型调到最优。

    Step5:一键产出OOT打分

    用户只需要配置他们所需要打分的月份或数据,就可以一键产出打分结果。

    下面是智能图挖掘的两个案例。

    案例一:征信数据

    e365d6e1487568dfafbb14af427d94af.png

    基于征信数据的图模型充分挖掘了用户在空间、时间上的特征,以及用户和企业之间的关联关系,其中用户节点有10亿+,包含了用户的基础风险特征,征信风险特征等;还包括了一些公司节点和位置节点。区别于传统的关联网络,图神经网络是基于异构图以及全网用户的实时更新的风险特征属性来建立的一个端到端的深度实时模型,而传统的关联网络往往只是依赖于节点之间关联的紧密程度。智能图挖掘帮助我们在复杂的模型自动地寻找高级高阶的组合特征,而不仅仅是依赖于专家的一些经验来加工有限的特征。

    案例二:风控模型

    a5d5c7e11de243b22ac2f55b8172e9aa.png

    基于风控数据的图子模型,这个模型适用于信贷风险分析,判断用户的风险。模型引入了实体和实体的关系,包括人和人、人和公司之间的关系等。具有12亿顶点和80亿边,其中每个人又选择了94维以征信为主的特征。这个模型的网络结构设计了双层的GraphSAGE和GAT融合的模型。利用智能图挖掘的功能之后,整体的模型效果对于风控的AB卡有1%以上的效果提升。

    2. 智能反欺诈

    4901e6ed8ddeb5aa19ba396cb42b6ecc.png

    面向策略同学所打造的智能反欺诈功能,主要包含了图可视化和图分析功能。当用户输入需要查询的节点信息后,可以基于过滤条件自定义查询相关节点以及关系信息。在这个图可视化的区域,会呈现宏观上的信息,如这个节点所处的社团的点边分布等,除此之外还会再细粒度地展示出部分关键信息,这个关键信息可以辅助策略进行一些反欺诈分析。这些关键信息包括社团当中的各个节点的分层信息、社团总申请数量、社团组总欺诈率、违约率等。

    dd409f7f0c739195fb1e204ed8fc09f9.png

    除了上述的统计信息之外,我们也基于一致性检验技术,社团发现的技术,为策略同学提供了一键式的风险检测功能。这个功能可以同时检测个人欺诈和团购团伙欺诈。

    对于个人欺诈行为,我们通过度中心性、紧密中心性、介数中心度及特征向量中心等指标,分析各节点的信息度量,判定与其关联的人是否存在于黑名单中,或是根据一致性分析判断三角关系是否成立,来为其欺诈风险进行分级。

    与个人欺诈行为相比,团伙欺诈事件发生的频率更高,团伙往往具有明确的分工和计划,熟悉目标平台的各项业务流程,欺诈手段是非常复杂且多变的。对于团伙欺诈,我们的平台主要是提供对关键节点、关键路径和关键社区发现和标记的功能。

    • 关键节点:星状节点。金融领域较为常见的一个羊毛党的网络结构,它极有可能是一个人通过群控很多人从而实现团伙欺诈。

    • 关键路径:链状路径。团伙欺诈时为了节省成本,往往多数人共用一套身份信息(如身份证、手机号、住址、联系人等);一个节点连接多个社区且社区内人群多数信贷不良,那么这个路径上的团伙很可能是黑产或黑中介。

    • 关键社区:完全子图。任意两点都相连的图具有较高的风险性。这种网络内的人相互都有关联,这种也是目前很容易识别的欺诈团伙。

    除了通过以上方法排查出可疑团体外,还可借助关联图谱的可视化分析功能,如节点查询、关系扩散、节点pagerank值计算、最短路径分析、图谱信息统计等功能,辅助我们进行分析和审核。

    3. 智能反洗钱

    09506c5276c9b8d76aca5953d012700a.png

    洗钱作为一种犯罪行为,对金融机构和国家安全造成越来越严重的威胁。

    传统的反洗钱的形式,主要是通过大额可疑交易和黑名单用户这两个规则来设计。当系统检测出有大额可疑交易,或发起交易的用户是存在于黑名单当中的,就会根据规则筛选出这些信息,送入人工进行二次审核。但利用图技术之后,我们可以利用一些关键交易追踪,交易结构识别和资金路径分析功能,对这些信息进行及时的预测和发现,比如一些频繁汇入汇出,集中汇入汇出交易,很可能存在较高洗钱风险。对于存在风险的交易,平台会实时标记出来,帮助反洗钱团队实时展示关键交易路径以及交易结构。

    4. 智能审核

    62896a7188d83465f6851cadcb60aceb.png

    在人工审核流程中,用户需要自己准备好材料,亲自前往线下网点提交材料。审核专员则需要手动整理材料,完成录入,并通过多轮搜索或电话回访,来验证用户身份及用户提交材料的真实性。待材料整理录入完成,再提交上级,等待审批意见下来再联系用户,让用户回到线下网点继续办理后续的手续。这样的审核流程人工成本非常高,且极易出错,搜索过程繁琐且不直观,同时用户等待的时间也非常长,体验很差。

    利用知识图谱技术,融合OCR以及NLP技术,平台上可以自动实现进件秒批。当用户在手机端提交材料, OCR技术将会对文字信息进行检测、识别以及结构化提取,同时进行质量检测和篡改检测。接着利用NLP的技术进行文本分词、分类和关键词识别。最后送入知识图谱,完成信息抽取和信息可视化,最终实现自动秒批。

    4d47f5314f318533d1db5fbbdd41798c.png

    比如对于企业的风险评估,我们会根据企业的信息去构建一个企业风险评估的体系,在平台上会提示企业所处的风险等级。信审人员可以在平台上实时去查询企业投资或涉诉的信息,包括企业最终控制人等,不需要再跳转至其他平台去进行多轮次的搜索。它能够提升审核的效率,降低人工成本。

    对于每一个进件,平台都为它提供三层网络的搜索可视化:首先关联到提交证件里的提交人,提交人相关的空间时序、征信风险等信息都会展示出来;其次会关联到提交人所关联的企业信息;第三,与跟这个企业存在关联的二度关联人的信息也可以在平台当中查询得出。

    04

    总结与展望

    3401250507b7e3800dc1b3e5facd5789.png

    总体来说,图机器学习在金融风控中的应用非常广泛,它可以贯穿从贷前、贷中到贷后整个流程。并且我们可以通过可视化的工具来落地图机器学习的应用,为不同类型的用户在不同场景下的不同需求提供不同的的功能。

    未来我们希望能够持续地降低图学习的门槛,提供更丰富的可视化工具,提出更通用的行业解决方案,让越来越多的人可以应用图技术去做模型挖掘。

    05

    精彩问答

    Q:度小满图数据库是根据开源数据库改造的么?

    A:是的。

    Q:社区的客户分层是什么意思?

    A:社区分层是指通过各类风控指标,用户风控属性的一些评估所给到用户的一个不同的分层,或者是平台上给到企业的不同分层,比如某个企业涉诉的情况很多,或者它的上下游企业出现过破产倒闭这些行为,它的风险等级就会更高,我们可能会利用红色突出展示。

    Q:关联的人或企业数据,没有授权,你们是如何做到融合的?

    A:度小满用的数据都是已经授权的,不会使用没有授权的。

    Q:人与人之间的数据是怎么获得的,可以利用来做一个研究的共享吗?

    A:平台用的比较多的是人与企业和企业与企业之间的关系数据。我们会根据征信报告去解读这些关系信息。


    下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
    下载二:南大模式识别PPT  后台回复【南大模式识别】

    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    bc7a27c522d6ce678b59c18ea7c049ba.png

    记得备注呦

    整理不易,还望给个在看!
    展开全文
  • 机器学习峰会-7-5 图机器学习在蚂蚁安全风控场景的应用
  • 来源:DataFunTalk 本文约6900字,建议阅读10+分钟 本文主要介绍度小满的超大规模图平台,以及它真实金融风控业务应用。其中会包括一些应用方法和案例,希望能为大家机器...

    af039b964a0c6158372a117ae157e14e.png

    来源:DataFunTalk
    本文约6900字,建议阅读10+分钟
    本文主要介绍度小满的超大规模图平台,以及它在真实金融风控业务中的应用。其中会包括一些应用方法和案例,希望能为大家在图机器学习落地产品化方面提供一些参考。

    今天的分享主要有以下四部分:

    • 相关背景介绍

    • 度小满超大规模图平台 Dxm Eros 功能

    • Dxm Eros 应用

    • 总结与展望

    01 相关背景介绍

    1. 金融科技发展趋势

    3e66c2c9543f1321182493205682ce45.png

    金融科技发展趋势可以分成以下三个阶段:

    第一阶段:金融信息化阶段(1986年之前)

    金融行业完成初步信息化,通过传统IT技术实现办公电子化,自动化的过程。

    第二阶段:互联网金融阶段(1987年-2009年)

    互联网大规模扩张,市场上萌生大量信息科技公司,通过互联网实现信息收集、共享和业务融合,实现金融业务的互联互通。

    第三阶段:金融科技深度融合阶段(2010年至今)

    大数据、云计算、人工智能及区块链等新技术为传统金融带来了变革,催生了新的金融行为。比如大数据征信以及智能风控等。

    2. 金融风控技术演进

    2bb90c2149b59ebbd4ad3b1258ba7f94.png

    常见的金融风险大致可分为两个类型:可防可控风险,难防难控风险。比如用户违约风险,以及用户收入降低导致购买力下降风险,我们统称信用风险。黑产,中介,团伙欺诈等属于欺诈风险。信用风险,欺诈风险以及操作风险,这些都是可以通过各类的不同等级的金融风控技术来极大程度地降低的。

    金融风控技术的演进可以基于所需要处理的数据的维度而抽象成从点到线再到面:是从人工审核到规则,到算法模型再到图谱;对应的技术分别是从数据分析到机器学习再到知识图谱。过程如下:

    第一阶段-审核:主要依赖对信息的人工审核。但身份证、手机号码、银行流水等材料的伪造成本很低,金融机构需投入大量人力审核信息主体的身份及材料的真实性

    第二阶段-规则:基于数据分析而制定的各种策略和规则:通过收集大量多样化的数据,如第三方信息等对信息的真实性进行交叉验证。比传统的人工审核具有更强的反欺诈能力。但由于数据来源多、规模日益庞大,如何整合多元异构数据源,利用已有数据交叉验证成为新挑战

    第三阶段-模型:用机器学习模型,将多源异构的大数据整合成机器可以理解的知识,通过机器学习模型来判断节点的好与坏

    第四阶段-知识图谱:将单点身份和单条链路的资料转换成对于面的形式的风险检测,不仅关注节点个体本身,而是更加关注个体之间的关系,从而实现欺诈的识别和防御。

    3. 图在金融风控领域应用

    91eec4b72e65636ec7160a6c7a8a5925.png

    在传统的金融企业中,图技术并没有被大规模的应用。这些企业仍然使用了关系型数据去进行数据存储,进行的风控也仅仅从个体本身来出发去分析个体之间的差异。但由于信息伪造成本极低,导致欺诈风险的欺诈行为高发且难防。其实,他们所拥有的这些数据隐含着海量的挖掘价值,而传统的金融企业却无从下手,所以越来越多的金融科技公司开始着手对图技术进行研究与应用,使用图数据库去存储数据,并且利用图分析算法来甄别团伙欺诈行为,这就极大程度地提高了数据存储和数据挖掘的能力,也可以为金融风控业务提供实时有效的风险信息。

    02 Dxm Eros 功能

    1. 图平台 Eros 框架

    9fe6e195e1fa897f909048fcf899a4ee.png

    上图是度小满超大规模图平台Eros的框架示意图。

    底层基础设施:海量的关联数据池,异构计算集群资源,大规模高性能数据库。

    图数据库:存储各类的关系型的数据,如企业和人和证件间的关系等。

    平台能力:满足各方向用户不同的应用需求和应用场景下的风控图可视化平台、数据融合实验平台、可调整模型结构的快速涂模型实验的平台、基础算法模型库(经典的图算法图模型、自研的图模型等)。

    Eros平台主要应用在金融信贷的全链路场景当中,从一开始的智能获客到智能反欺诈,智能风控和贷后审核等。

    2. 图存储模块

    29aca55fda89f5fb0b598908ab998912.png

    图数据库用于数据存储管理,主要就是将非结构化数据存储并管理起来。在传统的关系型数据库当中,数据关联非常不直观,比如对于用户提交的数据的存储,往往需要通过用户表、进件表、企业表等多个映射的表单来进行存储,最后用了很多个关系表来代表一个非常简单的数据结构,这很难适应图模型的训练和查询的要求。相较于关系型数据库,图数据库是对关系型数据库功能的拓展,它真正关注的是个体与个体之间的关系,它的结构是由顶点和边所组成的,它支持的图结构也更加灵活。度小满的图数据库主要具备以下几点优势:

    • 存储规模:支持千亿节点千亿边的超大图存储,具有可扩展可伸缩的存储和计算能力;

    • 高性能:毫秒级响应,二度查询50ms以下,可以说是业界比较领先的一个水平;

    • 查询分析一体化:同时支持同查询和图分析算法;

    • 简单易用的一站式图平台:良好的可视化界面,助力用户快速查询。

    3. 图分析模块

    457b1110e2ed669e2afb455e9ba9e1c4.png

    第二个模块是图分析算法模块。度小满的Eros平台上支持了各类的图分析算法以及图表式学习算法,除了一些顶点类,路径类以及社团类的经典的图分析和图表示学习算法,还有根据最新的研究成果支持的图模型和图算法,以及自研的算法。例如,对于图分析算法,我们可以将其按照顶点、边、社团来进行划分,分别支持各类图分析算法。对于图表示学习,也支持基于因子分解、随机游走和深度学习等方法的图算法。

    4. 图建模

    498cc4acf72eddc65394934484d0255a.png

    第三个模块是图建模。由于很多图模型算法比较新,利用图技术来进行建模有一定的门槛,而很多数据科学家也希望能够应用我们图模型产生的数据、应用我们图模型的能力。所以我们为他们打造了一个自动图建模功能-AutoGraph。AutoGraph可以在无人工参与的情况下,自动生产直推式图结构嵌入特征,并通过增量式训练和异构图算法支持,增加对最新数据和复杂图数据的覆盖。AutoGraph可以提供端到端的自动图建模能力,弥补技术与业务之间的壁垒,让不懂技术的同学也可以利用图技术建模,从而应用在贷前贷中风控模型中和贷后催收与审核中。

    5. 可视化模块

    eab3af41944bdaf4d75b31e6c754f26c.png

    最后一个模块图平台可视化模块。左图是从平台上截取的一个图的layout。除了在宏观上查看一个图网络结构、点边分布和统计信息之外,还为用户提供了微观分析功能,如图N度邻居查询、关键信息展示、基于条件的过滤与统计功能等,可以辅助业务分析。同时,也包含基础的图管理功能:

    • 图导入导出:用户可以自定义要导入的数据、任务的启停时间和周期等;也可以从异构大图中导出子图;

    • 实例监控管理:查看数据分布以及健康性;

    • 训练管理:选择模型和数据进行训练。

    除此之外,还从节点、路径、社团不同级别分别提供了可视化功能,满足各类用户的使用需求。比如可疑节点分析、关系可视化、路径标记和社团发现等,可以分别应用于反欺诈、审核、反洗钱等环节。

    03 Dxm Eros 应用

    2df7c589c3d0a47c75cc6376e48d7d2a.png

    作为一个产品,它的设计是从用户需求出发的。作为一站式超大规模的图平台,它的应用可以从贷前到贷中一直贯穿到贷后整个流程,所以它的用户也可以覆盖到算法、策略、信审以及反洗钱等不同角色不同团队。对于不同团队,不同人群,他们的应用场景和应用需求,产品的设计需要侧重不同方面。

    • 对于算法同学,他们更多的使用场景是图建模,图挖掘。他们更关心的是快速的进行图实验,并且快速、直观的得到实验结果。所以我们的产品就可以为其提供自动的数据预处理,自动的特征工程,自动建模调参,自动部署上线等功能。

    • 对于策略的同学,他们使用这个平台做反欺诈分析,所以他们希望能够在这个平台查询某一个节点的风险是怎样的一个等级。为他们提供的是可疑节点标记和可疑社团标记。

    • 对于信审审核同学,他们既往的审核工作往往是通过在互联网各种平台上进行多个轮次的搜索,过程繁琐且不直观。所以图平台主要是提升他们的工作效率,使他们查询和审核的过程更加快速,更加直观,更加便捷。为他们提供的功能包括人企关联查询,企业风险提示和特殊关系提示等;

    • 对于反洗钱团队,我们希望为他们在追踪资金链路以及关键节点当中提供一些帮助,辅助他们的工作提升效率。所以也相应的为他们推关键路径分析和关键节点识别的一些功能。


    1. 智能图挖掘

    智能图挖掘方便算法同学快速地进行各类实验并且查看结果这个功能,只需要用户选择需要使用的数据,就可以自动实现图挖掘。这赋能了很多不熟悉技术,不熟悉算法的同学,让他们也可以将图模型应用到业务上。要做到智能图建模图挖掘,只需要这里所展示的五个步骤:

    a2da458bd9795c92caf6375141d00c9b.png

    Step1:数据整合/创建数据集

    这个步骤实现了从原始的raw-data到数据整合,数据压缩以及最后训练使用的二进制文件生产的全流程。对用户来说只需要填入不同月份的XY即可,无需关注和图相关的任何细节。在数据阶段支持使用额外的填充特征来丰富数据图的信息量,提升模型训练效果。

    Step2:自定义模型与训练脚本

    针对不同技术背景,不同层级的用户推出了两种不同方案。对于一些不太关心或者不熟悉最新图模型用户,他们可以直接选择系统内已经有的模型,对于算法专家,他们可以自定义上传他们所需要训练的模型。在这一个步骤,平台也支持不同的模型和不同训练脚本的任意组合,灵活度非常高。

    Step3&4:一键训练&调优

    平台支持一键训练,用户可以自己手动设置这些关键参数,也可以直接使用平台已经内置好的一个Auto模式一键训练模型平台。在这个过程当中,会根据既往的一些经验和策略,自动的选择合适的模型,也可以自动地根据规模去调整运行申请的资源量,模型训练好后,也会进一步进行自动调优,使模型调到最优。

    Step5:一键产出OOT打分

    用户只需要配置他们所需要打分的月份或数据,就可以一键产出打分结果。

    下面是智能图挖掘的两个案例。

    案例一:征信数据

    9d437397d3414565c54fcd65b9310871.png

    基于征信数据的图模型充分挖掘了用户在空间、时间上的特征,以及用户和企业之间的关联关系,其中用户节点有10亿+,包含了用户的基础风险特征,征信风险特征等;还包括了一些公司节点和位置节点。区别于传统的关联网络,图神经网络是基于异构图以及全网用户的实时更新的风险特征属性来建立的一个端到端的深度实时模型,而传统的关联网络往往只是依赖于节点之间关联的紧密程度。智能图挖掘帮助我们在复杂的模型自动地寻找高级高阶的组合特征,而不仅仅是依赖于专家的一些经验来加工有限的特征。

    案例二:风控模型

    d0dc61b15bd6c90891206a8a977bda18.png

    基于风控数据的图子模型,这个模型适用于信贷风险分析,判断用户的风险。模型引入了实体和实体的关系,包括人和人、人和公司之间的关系等。具有12亿顶点和80亿边,其中每个人又选择了94维以征信为主的特征。这个模型的网络结构设计了双层的GraphSAGE和GAT融合的模型。利用智能图挖掘的功能之后,整体的模型效果对于风控的AB卡有1%以上的效果提升。

    2. 智能反欺诈

    c736453eb9f413a12cd805f37a349641.png

    面向策略同学所打造的智能反欺诈功能,主要包含了图可视化和图分析功能。当用户输入需要查询的节点信息后,可以基于过滤条件自定义查询相关节点以及关系信息。在这个图可视化的区域,会呈现宏观上的信息,如这个节点所处的社团的点边分布等,除此之外还会再细粒度地展示出部分关键信息,这个关键信息可以辅助策略进行一些反欺诈分析。这些关键信息包括社团当中的各个节点的分层信息、社团总申请数量、社团组总欺诈率、违约率等。

    130b85984d020d9a008a80953b567e00.png

    除了上述的统计信息之外,我们也基于一致性检验技术,社团发现的技术,为策略同学提供了一键式的风险检测功能。这个功能可以同时检测个人欺诈和团购团伙欺诈。

    对于个人欺诈行为,我们通过度中心性、紧密中心性、介数中心度及特征向量中心等指标,分析各节点的信息度量,判定与其关联的人是否存在于黑名单中,或是根据一致性分析判断三角关系是否成立,来为其欺诈风险进行分级。

    与个人欺诈行为相比,团伙欺诈事件发生的频率更高,团伙往往具有明确的分工和计划,熟悉目标平台的各项业务流程,欺诈手段是非常复杂且多变的。对于团伙欺诈,我们的平台主要是提供对关键节点、关键路径和关键社区发现和标记的功能。

    • 关键节点:星状节点。金融领域较为常见的一个羊毛党的网络结构,它极有可能是一个人通过群控很多人从而实现团伙欺诈。

    • 关键路径:链状路径。团伙欺诈时为了节省成本,往往多数人共用一套身份信息(如身份证、手机号、住址、联系人等);一个节点连接多个社区且社区内人群多数信贷不良,那么这个路径上的团伙很可能是黑产或黑中介。

    • 关键社区:完全子图。任意两点都相连的图具有较高的风险性。这种网络内的人相互都有关联,这种也是目前很容易识别的欺诈团伙。

    除了通过以上方法排查出可疑团体外,还可借助关联图谱的可视化分析功能,如节点查询、关系扩散、节点pagerank值计算、最短路径分析、图谱信息统计等功能,辅助我们进行分析和审核。

    3. 智能反洗钱

    acae3b2606be13f78473762eef854056.png

    洗钱作为一种犯罪行为,对金融机构和国家安全造成越来越严重的威胁。

    传统的反洗钱的形式,主要是通过大额可疑交易和黑名单用户这两个规则来设计。当系统检测出有大额可疑交易,或发起交易的用户是存在于黑名单当中的,就会根据规则筛选出这些信息,送入人工进行二次审核。但利用图技术之后,我们可以利用一些关键交易追踪,交易结构识别和资金路径分析功能,对这些信息进行及时的预测和发现,比如一些频繁汇入汇出,集中汇入汇出交易,很可能存在较高洗钱风险。对于存在风险的交易,平台会实时标记出来,帮助反洗钱团队实时展示关键交易路径以及交易结构。

    4. 智能审核

    012895263ec6a374e190c95a53b4d8aa.png

    在人工审核流程中,用户需要自己准备好材料,亲自前往线下网点提交材料。审核专员则需要手动整理材料,完成录入,并通过多轮搜索或电话回访,来验证用户身份及用户提交材料的真实性。待材料整理录入完成,再提交上级,等待审批意见下来再联系用户,让用户回到线下网点继续办理后续的手续。这样的审核流程人工成本非常高,且极易出错,搜索过程繁琐且不直观,同时用户等待的时间也非常长,体验很差。

    利用知识图谱技术,融合OCR以及NLP技术,平台上可以自动实现进件秒批。当用户在手机端提交材料, OCR技术将会对文字信息进行检测、识别以及结构化提取,同时进行质量检测和篡改检测。接着利用NLP的技术进行文本分词、分类和关键词识别。最后送入知识图谱,完成信息抽取和信息可视化,最终实现自动秒批。

    fc3f6b7529948f043788c203957624ac.png

    比如对于企业的风险评估,我们会根据企业的信息去构建一个企业风险评估的体系,在平台上会提示企业所处的风险等级。信审人员可以在平台上实时去查询企业投资或涉诉的信息,包括企业最终控制人等,不需要再跳转至其他平台去进行多轮次的搜索。它能够提升审核的效率,降低人工成本。

    对于每一个进件,平台都为它提供三层网络的搜索可视化:首先关联到提交证件里的提交人,提交人相关的空间时序、征信风险等信息都会展示出来;其次会关联到提交人所关联的企业信息;第三,与跟这个企业存在关联的二度关联人的信息也可以在平台当中查询得出。

    04 总结与展望

    d55c68f6f086c7316292484dfa4fe867.png

    总体来说,图机器学习在金融风控中的应用非常广泛,它可以贯穿从贷前、贷中到贷后整个流程。并且我们可以通过可视化的工具来落地图机器学习的应用,为不同类型的用户在不同场景下的不同需求提供不同的的功能。

    未来我们希望能够持续地降低图学习的门槛,提供更丰富的可视化工具,提出更通用的行业解决方案,让越来越多的人可以应用图技术去做模型挖掘。

    05 精彩问答

    Q:度小满图数据库是根据开源数据库改造的么?

    A:是的。

    Q:社区的客户分层是什么意思?

    A:社区分层是指通过各类风控指标,用户风控属性的一些评估所给到用户的一个不同的分层,或者是平台上给到企业的不同分层,比如某个企业涉诉的情况很多,或者它的上下游企业出现过破产倒闭这些行为,它的风险等级就会更高,我们可能会利用红色突出展示。

    Q:关联的人或企业数据,没有授权,你们是如何做到融合的?

    A:度小满用的数据都是已经授权的,不会使用没有授权的。

    Q:人与人之间的数据是怎么获得的,可以利用来做一个研究的共享吗?

    A:平台用的比较多的是人与企业和企业与企业之间的关系数据。我们会根据征信报告去解读这些关系信息。

    编辑:王菁

    校对:杨学俊

    fb678823f9025f6cc8aa07a67bd465ac.png

    展开全文
  • 导读:本文详细梳理风控领域的基本概念,并将风控模型的使用场景分为8大板块,逐一解析机器学习在其中的应用。作者:梅子行来源:大数据风控机器学习01 风控领域的特点风控领域是新兴的机器学习...


    导读:本文详细梳理风控领域的基本概念,并将风控模型的使用场景分为8大板块,逐一解析机器学习在其中的应用。

    作者:梅子行

    来源:大数据风控与机器学习

    01 风控领域的特点

    风控领域是新兴的机器学习应用场景之一,其特点非常明显:

    • 负样本占比极少,是均衡学习的算法的主战场之一。有标签样本稀缺,从而使得半监督和无监督算法在风控场景下大放异彩。

    • 业务对模型解释性要求偏高。同时对时效性有一定要求,这要求在实际建模中要学会去权衡模型复杂度与精度,并且适当的优化算法内核。

    • 业务模型多样。每一个模型都和业务目标有着非常高的联系,因此每一个从业者对业务和模型都有很好的理解,从而为业务定制合适的模型。

    • 风控数据源丰富。围绕着人展开的数据皆可用,而数据多样带来的就是新兴技术的井喷,结构化数据、图像、文本等等多个领域的方法都在风控领域有一定应用。

    02 信用管理与风险控制

    信用贷款的逻辑可以参见这幅漫画:

    信用好的小鸡是可以赊账的。面对平时信用较差的狐狸,猫老师则想办法拒绝他的赊账需求。这就是基本的信用价值。

    信用管理主要分为两个概念,信用管理。信用意味着先买后付,即使用信用值预支金钱购买相应服务。而管理即通过用户信息对用户的信用度进行评估,并根据信用情况定制风险规避策略。所谓风险控制(风控),即针对用户风险进行管理规避的过程。

    03 风险分类

    在信贷领域有两类风险:一类是信用风险,一类是欺诈风险。

    • 信用风险:指借款人的还款能力和还款意愿在贷款后出现问题。通常由于不可抗力因素导致用户的经济能力和思想状态发生改变。

    • 欺诈风险:指借款人的贷款目的不正当。在贷款初始便没有还款计划。多见于有组织有纪律的中介平台。

    一般情况下,借款人出现信用风险,金融机构可通过风险定价策略等手段进行防范,风险可控性较大。而借款人在一开始,就以骗贷为目的进行借贷并且贷款成功,则金融机构会造成相当一部分的损失。因为平台不仅没有盈利,还会被欺诈者骗走本金。


    尤其在遇上团伙欺诈时,信贷业务会在短时间内遭受非常严重的打击。金融机构面对欺诈风险几乎毫无处置能力,因此欺诈检测是信贷中的风险管控最重要的一环。

    而风险的管控,主要依靠信贷领域的两大类系统:一类是信用评分系统,另一类是欺诈检测系统。信用评分系统是对借款人还款能力和还款意愿进行评估,针对的是信用风险。而欺诈检测系统则是对借款人的目的是否正当进行判断,针对的是欺诈风险

    1. 自动化规则挖掘

    互联网金融是传统信贷业务在互联网场景下的继承与拓展。互联网金融风控体系主要由三大部分组成:数据信息、策略体系、人工智能模型。

    • 数据信息:包括用户基本信息、用户行为信息、用户授权信息、外部接入信息。

    • 策略体系:包括反欺诈规则、准入规则、运营商规则、风险名单、网贷规则。

    • 人工智能模型:包括欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。优质策略的制定需要资深的业务经验以及优秀的数据敏感度保驾护航。因此基于单变量分析以及专家思想从经验出发的策略生成,是风控领域最常用的两种方法。

    然而对于多规则组合的探索优化以及具体规则的阈值确定,需要借助于决策树(Decision Tree)模型。依托于基尼指数和均方差最小化原理对策略的组合进行贪心搜索,从而得到业务期望的优质策略。

    2. 评分卡模型

    信用评分模型的主要目的是为了衡量一个用户的信用风险。相比于策略规则,评分模型的灵活度更高。不会根据某个变量直接对样本群体进行“一刀切”,而是从多个角度进行综合判定。

    在数据源固化的情况下,模型的效果通常与特征工程直接相关。而业内有两套相异的建模方法。一个是简单特征工程与复杂模型结合。另一个是复杂特征工程与简单模型结合。


    在之前的漫画中为什么猫老师不为狡猾的赊账?

    因为…

    传统的评分卡采用逻辑回归模型,就是一种复杂特征工程与简单模型结合的方法。简单特征工程与复杂模型结合的例子有很多,如XGBoost、LightGBM、CNN、RNN、DeepFM等。集成模型在结构化数据上可以自动的实现特征交叉组合。但仍需要部分人工特征工程以保证模型效果。

    而深度学习作为一种表示学习方法,可以自动的抽取数据中的重要信息,其在部分结构化数据上也有较好的表现。复杂模型的优点在于其对新手更加友好,且相比于人工特征工程,其效果通常更好。缺点是对数据量和计算资源的要求较高。否则难以收敛。

    对于复杂模型在风控领域的应用,其最大的问题还在于贷前审批对模型的解释性要求极高,因此对于复杂模型解释性的问题,也需要进行额外关注。SHAP作为一种拥有一致性的特征贡献评判方法,根据训练样本的子集计算整体模型预测均值,可以提供复杂模型中的特征影响期望。对于复杂模型的解释有大帮助。

    3. 项目冷启动

    冷启动,指在没有或只有很少量数据的情况下,从0到1建立业务模型的过程。对于冷启动,基本准则为策略先行,模型为辅。由于策略分析以及模型训练都必须有一定的数据积累,在冷启动业务中,缺乏数据困扰着很多从业者。

    近年来,研究者们提出了多种实现域自适应的模型和算法,本文介绍其中比较常用的三大类算法。

    • 第一类方法:对源域中的样本赋予某种权重,使其分布靠近目标域。

    • 第二类方法:寻找一个低维子空间,使得源域和目标域的数据样本在映射到该子空间后服从相同或相近的分布。

    • 第三类方法:利用低秩矩阵重构数据点,实现域之间的鲁棒自适应。

    部分迁移模型的主要作用为对源域样本进行筛选,从而用于目标域的策略辅助决策。因此即使业务需求是在线上部署策略,迁移模型对其线下分析也有很大帮助。而对于初步数据积累的场景,迁移学习大多可以有效的辅助模型进行决策优化。

    4. 幸存者偏差

    幸存者偏差(SurvivorshipBias)与样本不均衡(Imbalance Learning)问题都是由于风控模型的拒绝属性导致的。但表现形式略有不同。幸存者偏差是指,每次模型迭代时,使用的样本都是被前一个模型筛选过的,从而导致的样本空间不完备。

    只有高于前一版模型分数阈值的样本,才可以进入当前模型进行训练,这些人就是幸存者。他们不携带或者很少携带被拒绝的人的信息,导致样本逐渐偏离真实分布。如下图所示。

    只有绿色样本出现在样本集中,这些绿色的点即为幸存者。而灰色样本由于被模型拒绝,导致未被模型观察到。根据有偏差的样本集学习得到的模型,在应对没能被表征的人群时,很难给出准确的结果。久而久之,随着模型迭代,区分能力强的特征被弱化,甚至对模型起到完全相反的作用(如某个特征的权重系数由正数变为负数)。

    因此,需要使用无偏样本进行修正。在该场景下,迁移学习、增量学习(Incremental Learning)、生成对抗网络(GenerativeAdversative Nets,GAN)、高斯聚类模型(GaussianMixture Model,GMM)、半监督学习等都有一定应用。

    5. 不均衡学习

    通常二分类机器学习任务,期望两种类别的样本是均衡的,即两类样本的总量接近相同。因为在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。但在很多真实场景下,数据集往往是不平衡的。也就是说,在数据集中,有一类含有的数据要远远多于其他类的数据。

    尤其是在风控场景下,负样本的占比要远远小于正样本的占比。通常的思想是从现有数据出发,通过加权或构造更多的相似数据用于样本均衡训练。因此代价敏感学习、迁移学习、多种采样算法、半监督学习在该领域均有一定应用。

    6. 异常检测

    离群点是指样本空间中,分布远离其余样本的点的集合。通常认为样本集由真实数据噪声组成。离群点是和大部分观测量之间有明显不同的观测值,属于样本集中的一部分,它既有可能是真实数据产生的,也有可能是噪声带来的。


    噪声被定义为被测量的变量的随机误差或方差。而离群点的定义是数据集中包含一些数据对象,它们偏离整体数据集的趋势。

    而噪声普遍被认为是正常数据和异常的边界,可以视为一种离群点,但未必能达到异常的标准。大多异常检测算法需要指定量化指标,来度量样本点的离群程度。通常情况下,异常的离群程度是大于噪声的。然而在实际应用中,两者并不容易区分。

    欺诈检测可以细分为个体欺诈检测团伙欺诈检测。其中个体欺诈具有占比极小、与整体显著不同的特点。这与离群点的性质相同。因此常将异常检测技术用于个体欺诈检测。在实践中,配合相关的业务经验,可以达到较好的效果。

    然而无监督模型的建模难点并不在于模型,而在于特征的选取。由于没有标签,因此特征的构造并不能通过数据分析手段进行,通常需要结合领域知识进行精准的特征构造。

    7. 模型优化

    为了在信用评分模型中取得较好的表现,通常要经历数据清洗特征工程模型组合三个步骤。

    模型组合,是指根据不同的数据或模型特点,选择合适的模型训练,再将多个模型进行融合,从而直接或间接地提升模型在未来样本上的表现。如动态数据源模型组合就是一种组合优化方法。

    此外,还有多损失函数适应性组合、决策树与线性模型组合、深度学习与图算法组合等方法。

    8. 网络挖掘

    知识图谱是用于识别团伙欺诈的主要手段,它采用基于图的数据结构,以图的方式存储知识并返回经过加工和推理的关联信息。

    知识图谱在金融领域的主要应用场景有欺诈检测、信用评级、失联管理等。工业界常用的网络挖掘方法包括:计算节点属性、社区发现算法、节点分类算法、网络表示学习等。

    通过网络中的中心度和相似度计算,可以进行基本的团伙欺诈检测规则抽取。比如在网络中中心度超过某一阈值或者和其他节点的相似度超过某一阈值,即会触发预警。但是通过对每一个样本进行遍历的比对相似度,是一种非常低效的做法,实际中更常使用的是社区发现算法。

    而每一个节点的二度联系人和三度联系人,可以作为用户失联后的潜在联系人。由于用户失联后,贷后管理人员无法进行适当的施压,通过网络输出多度联系人,成为了当前失联补全模型的主要手段。


    此外,每一个节点的中心度也可以抽取出来,放入风控模型中作为一种来源于知识图谱的信息,与其他类型的数据一同建立监督模型。类似的方法还有网络表示学习,如随机游走、图卷积神经网络等。

    关于作者:梅子行,系列畅销书《智能风控》作者。历任多家知名金融科技公司风控算法研究员、数据挖掘工程师等职位。现供职于智能物流独角兽——满帮科技。师承Experian、Discover等顶级风控专家。擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法。热衷于数据挖掘以及算法的跨领域优化实践。公众号与知乎专栏:“大数据风控与机器学习”。

    文章内容整理自梅子行老师的手绘风系列书籍——《智能风控》中的《智能风控:原理、算法与工程实践》一书。

    延伸阅读《智能风控:原理、算法与工程实践》

    推荐语:资深专家,基于Python,原理、算法、实践3维度讲解机器学习的风控实践,21种算法26种解决方案,9位专家推荐

    有话要说????

    Q: 机器学习还有哪些神应用?

    欢迎留言与大家分享

    猜你想看????

    更多精彩????

    在公众号对话框输入以下关键词

    查看更多优质内容!

    PPT | 读书 | 书单 | 硬核 | 干货 

    大数据 | 揭秘 | Python | 可视化

    AI | 人工智能 | 5G | 中台

    机器学习 | 深度学习 | 神经网络

    合伙人 1024 | 大神 | 数学

    据统计,99%的大咖都完成了这个神操作

    ????

    展开全文
  • 机器学习峰会-7-5 图机器学习在蚂蚁安全风控场景的应用.pdf
  • 本文来自于csdn,本文以特征工程金融风控中应用为切入点,对特征工程的大致内容进行了概述。建模领域人们常说,数据和特征决定机器学习的上限,而模型和算法只是不断地逼近这个上限。所以,特征工程建模起...
  • 章节7: 机器学习模型信贷风控中应用二:DNN模型 章节8: 机器学习模型信贷风控中应用一:XGBoost模型 章节9: 组合模型评分卡应用 章节10: 评分卡模型(B卡)的开发 章节11: 评分卡模型的前沿...
  • 文 | 婉龙 Fintech科普大使 | 带你秒懂Fintech ...其实早上世纪80年代,大数据就被著名未来学家阿尔文·托夫勒《第三次浪潮》一书赞颂为 “第三次浪潮”。不过直到21世纪,大数据才真正成为互联
  • 首先我们简单描述一个机器学习常用的领域:金融风控。 金融风控流程与重点 互联网金融公司,其风控流程因为业务不同而各有所不同。而业务类型,如果按照借款用途来划分,有消费贷款,企业贷款,供应链贷款,融资...
  • ML之ME/LF:机器学习风控业务常用模型监控指标CSI(特征稳定性指标)的简介、使用方法、案例应用之详细攻略目录CSI(特征稳定性指标)的简介1、如何计算CSI?2、CSI值的意义3、CSI值的特点CSI(特征稳定性指标)的使用...
  • 每天给你送来NLP技术干货!分享嘉宾:朱晓海萨摩耶云编辑整理:Hoh Xil内容来源:作者授权发布出品平台:DataFunTalk导读:迁移学习利用数据、模型之间的相似性,不同领域之间...
  • 今天,你AI了没?关注:决策智能与机器学习,学点AI干货国内国外金融风控领域大致分为两个流派,其中一派为具有统计学背景的人,分布银行、金融消费公司等传统的金融领域,偏...
  • 人工智能与内容安全风控-7-4 图机器学习在度小满征信建模应用
  • 机器学习在金融风控的经验总结!

    千次阅读 2020-09-18 17:59:00
    ↑↑↑关注后"星标"Datawhale每日干货&每月组队学习,不错过Datawhale干货作者:风浪-知乎,来源:NewBeeNLP由于金融风控场景的特殊...
  • 机器学习在度小满金融风控中应用 图神经网络的对抗攻防研究 图神经网络反欺诈领域的应用 图神经网络实时风控应用 7. 生物计算与图 基于梯度向量场的分子三维结构生成 基于最优传输理论的无监督图压缩及其...
  • 使用机器学习的方法可以解决越来越多的实际问题,它现实世界应用越来越广泛,比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制,等等。我们都知道,机器学习可以分为三大类:监督学习...
  • ML之ME:机器学习风控业务常用模型评估指标PSI(人群偏移度指标)的的简介、使用方法、案例应用之详细攻略目录PSI(稳定度指标)的简介1、如何计算PSI?(1)、PSI计算过程(2)、案例理解—评估特征稳定性(3)、案例理解...
  • 由于金融风控场景的特殊性,很多算法同学刚进入这个领域容易“水土不服”,为了使机器学习项目(也包括图算法相关的应用)落地更加顺利,本文介绍下实践过程的一些经验和踩过的坑。 金融风控场景的特殊性 与电商...
  • 本文主要内容本文详细梳理风控领域的基本概念,并将风控模型的使用场景分为8大板块,逐一解析机器学习在其中的应用风控领域的特点风控领域是新兴的机器学习应用场景之一,其特点非...
  • 机器学习在金融风控中应用 基于图神经网络的欺诈检测—从研究到应用 图神经网络反欺诈领域的应用机器学习在智能反欺诈上的探索与实践 图神经网络的对抗攻防研究 图神经网络实时风控应用 基于最优传输...
  • 基于大数据与机器学习的银行运维智能风控体系研究与实践.pdf
  • 金融信贷风控机器学习实战视频课程,面向开发人员,从实际应用讲起

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,753
精华内容 3,501
关键字:

机器学习在风控中的应用