精华内容
下载资源
问答
  • 大数据风控
    千次阅读
    2018-05-29 10:59:24
    

    转载自:http://www.cnblogs.com/nxld/p/6364686.html 

    大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。

     

    金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。

    传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据纬度为十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等,金融企业参考用户提交的数据进行打分,最后得到申请人的信用评分,依据评分来决定是否贷款以及贷款额度。其他同信用相关的数据还有区域、产品、理财方式、行业、缴款方式、缴款记录、金额、时间、频率等。

    互联网金融的大数据风控并不是完全改变传统风控,实际是丰富传统风控的数据纬度。互联网风控中,首先还是利用信用属性强的金融数据,判断借款人的还款能力和还款意愿,然后在利用信用属性较弱的行为数据进行补充,一般是利用数据的关联分析来判断借款人的信用情况,借助数据模型来揭示某些行为特征和信用风险之间的关系。

     

    互联网金融公司利用大数据进行风控时,都是利用多维度数据来识别借款人风险。同信用相关的数据越多地被用于借款人风险评估,借款人的信用风险就被揭示的更充分,信用评分就会更加客观,接近借款人实际风险。常用的互联网金融大数据风控方式有以下几种:

     

    1验证借款人身份

    验证借款人身份的五因素认证是姓名、手机号、身份证号、银行卡号、家庭地址。企业可以借助国政通的数据来验证姓名、身份证号,借助银联数据来验证银行卡号和姓名,利用运营商数据来验证手机号、姓名、身份证号、家庭住址。

     

    如果借款人是欺诈用户,这五个信息都可以买到。这个时候就需要进行人脸识别了,人脸识别等原理是调用国政通/公安局API接口,将申请人实时拍摄的照片/视频同客户预留在公安的身份证进行识别,通过人脸识别技术验证申请人是否是借款人本人。

     

    其他的验证客户的方式包括让客户出示其他银行的信用卡及刷卡记录,或者验证客户的学历证书和身份认证。

     

    2分析提交的信息来识别欺诈

    大部分的贷款申请都从线下移到了线上,特别是在互联网金融领域,消费贷和学生贷都是以线上申请为主的

    线上申请时,申请人会按照贷款公司的要求填写多维度信息例如户籍地址,居住地址,工作单位,单位电话,单位名称等。如果是欺诈用户,其填写的信息往往会出现一些规律,企业可根据异常填写记录来识别欺诈。例如填写不同城市居住小区名字相同、填写的不同城市,不同单位的电话相同、不同单位的地址街道相同、单位名称相同、甚至居住的楼层和号码都相同。还有一些填写假的小区、地址和单位名称以及电话等。

    如果企业发现一些重复的信息和电话号码,申请人欺诈的可能性就会很高。

    3分析客户线上申请行为来识别欺诈

    欺诈用户往往事先准备好用户基本信息,在申请过程中,快速进行填写,批量作业,在多家网站进行申请,通过提高申请量来获得更多的贷款。

    企业可以借助于SDK或JS来采集申请人在各个环节的行为,计算客户阅读条款的时间,填写信息的时间,申请贷款的时间等,如果这些申请时间大大小于正常

    客户申请时间,例如填写地址信息小于2秒,阅读条款少于3秒钟,申请贷款低于20秒等。用户申请的时间也很关键,一般晚上11点以后申请贷款的申请人,欺诈比例和违约比例较高。

    这些异常申请行为可能揭示申请人具有欺诈倾向,企业可以结合其他的信息来判断客户是否为欺诈用户。

     

    4利用黑名单和灰名单识别风险

    互联网金融公司面临的主要风险为恶意欺诈,70%左右的信贷损失来源于申请人的恶意欺诈。客户逾期或者违约贷款中至少有30%左右可以收回,另外的一些可以通过催收公司进行催收,M2逾期的回收率在20%左右。

     

    市场上有近百家的公司从事个人征信相关工作,其主要的商业模式是反欺诈识别,灰名单识别,以及客户征信评分。反欺诈识别中,重要的一个参考就是黑名单,市场上领先的大数据风控公司拥有将近1000万左右的黑名单,大部分黑名单是过去十多年积累下来的老赖名单,真正有价值的黑名单在两百万左右。

     

    黑名单来源于民间借贷、线上P2P、信用卡公司、小额借贷等公司的历史违约用户,其中很大一部分不再有借贷行为,参考价值有限。另外一个主要来源是催收公司,催收的成功率一般小于于30%(M3以上的),会产生很多黑名单。

     

    灰名单是逾期但是还没有达到违约的客户(逾期少于3个月的客户),灰名单也还意味着多头借贷,申请人在多个贷款平台进行借贷。总借款数目远远超过其还款能力。

     

    黑名单和灰名单是很好的风控方式,但是各个征信公司所拥有的名单仅仅是市场总量的一部分,很多互联网金融公司不得不接入多个风控公司,来获得更多的黑名单来提高查得率。央行和上海经信委正在联合多家互联网金融公司建立统一的黑名单平台,但是很多互联网金融公司都不太愿意贡献自家的黑名单,这些黑名单是用真金白银换来的教训。另外如果让外界知道了自家平台黑名单的数量,会影响其公司声誉,降低公司估值,并令投资者质疑其平台的风控水平。

     

    5利用移动设备数据识别欺诈

    行为数据中一个比较特殊的就是移动设备数据反欺诈,公司可以利用移动设备的位置信息来验证客户提交的工作地和生活地是否真实,另外来可以根据设备安装的应用活跃来识别多头借贷风险。

     

    欺诈用户一般会使用模拟器进行贷款申请,移动大数据可以识别出贷款人是否使用模拟器。欺诈用户也有一些典型特征,例如很多设备聚集在一个区域,一起申请贷款。欺诈设备不安装生活和工具用App,仅仅安装和贷款有关的App,可能还安装了一些密码破译软件或者其他的恶意软件

    欺诈用户还有可能不停更换SIM卡和手机,利用SI;6利用消费记录来进行评分;大数据风控除了可以识别出坏人,还可以评估贷款人的;按照传统金融的做法,在家不工作照顾家庭的主妇可能;常用的消费记录由银行卡消费、电商购物、公共事业费;互联网金融的主要客户是屌丝,其电商消费记录、旅游;据分析,只要客户授权其登陆电商网站,其可以借助于;7参考社会关系来评估信用情况;物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

     

    欺诈用户还有可能不停更换SIM卡和手机,利用SIM卡和手机绑定时间和频次可以识别出部分欺诈用户。另外欺诈用户也会购买一些已经淘汰的手机,其机器上面的操作系统已经过时很久,所安装的App版本都很旧。这些特征可以识别出一些欺诈用户。

     

    6利用消费记录来进行评分

    大数据风控除了可以识别出坏人,还可以评估贷款人的还款能力。过去传统金融依据借款人的收入来判断其还款能力,但是有些客户拥有工资以外的收入,例如投资收入、顾问咨询收入等。另外一些客户可能从父母、伴侣、朋友那里获得其他的财政支持,拥有较高的支付能力。

    按照传统金融的做法,在家不工作照顾家庭的主妇可能还款能力较弱。无法给其提供贷款,但是其丈夫收入很高,家庭日常支出由其太太做主。这种情况,就需要消费数据来证明其还款能力了。

    常用的消费记录由银行卡消费、电商购物、公共事业费记录、大宗商品消费等。还可以参考航空记录、手机话费、特殊会员消费等方式。例如头等舱乘坐次数,物业费高低、高尔夫球俱乐部消费,游艇俱乐部会员费用,奢侈品会员,豪车4S店消费记录等消费数据可以作为其信用评分重要参考。

    互联网金融的主要客户是屌丝,其电商消费记录、旅游消费记录、以及加油消费记录都可以作为评估其信用的依据。有的互联金融公司专门从事个人电商消费数据分析,只要客户授权其登陆电商网站,其可以借助于工具将客户历史消费数据全部抓取并进行汇总和评分。

     

    7参考社会关系来评估信用情况

    物以类聚,人与群分。一般情况下,信用好的人,他的朋友信用也很好。信用不好的人,他的朋友的信用分也很低,

    参考借款人常联系的朋友信用评分可以评价借款人的信用情况,一般会采用经常打电话的朋友作为样本,评估经常联系的几个人(不超过6六个人)的信用评分,去掉一个最高分,去掉一个最低分,取其中的平均值来判断借款人的信用。这种方式挑战很大,只是依靠手机号码来判断个人信用可信度不高。一般仅仅用于反欺诈识别,利用其经常通话的手机号在黑名单库里面进行匹配,如果命中,则此申请人的风险较高,需要进一步进行调查。

     

    8参考借款人社会属性和行为来评估信用

    参考过去互联网金融风控的经验发现,拥有伴侣和子女的借款人,其贷款违约率较低;

    年龄大的人比年龄低的人贷款违约率要高,其中50岁左右的贷款人违约率最高,

    30岁左右的人违约率最低。贷款用于家庭消费和教育的贷款人,其贷款违约率低;

    声明月收入超过3万的人比声明月收入低于1万5千的人贷款违约率高;

    贷款次数多的人,其贷款违约率低于第一次贷款的人。 

    经常不交公共事业费和物业费的人,其贷款违约率较高。

    经常换工作,收入不稳定的人贷款违约率较高。

    经常参加社会公益活动的人,成为各种组织会员的人,其贷款违约率低。

    经常更换手机号码的人贷款违约率比一直使用一个电话号码的人高很多。

    午夜经常上网,很晚发微博,生活不规律,经常在各个城市跑的申请人,其带贷款违约率比其他人高30%。

    刻意隐瞒自己过去经历和联系方式,填写简单信息的人,比信息填写丰富的人违约概率高20%。

    借款时间长的人比借款时间短短人,逾期和违约概率高20%左右。拥有汽车的贷款人比没有汽车的贷款人,贷款违约率低10%左右。

    9利用司法信息评估风险

    涉毒涉赌以及涉嫌治安处罚的人,其信用情况不是太好,特别是涉赌和涉毒人员,这些人是高风险人群,一旦获得贷款,其贷款用途不可控,贷款有可能不会得到偿还。

    寻找这些涉毒涉赌的嫌疑人,可以利用当地的公安数据,但是难度较大。也可以采用移动设备的位置信息来进行一定程度的识别。如果设备经常在半夜出现在赌博场所或赌博区域例如澳门,其申请人涉赌的风险就较高。另外中国有些特定的地区,当地的有一部分人群从事涉赌或涉赌行业,一旦申请人填写的居住地址或者移动设备位置信息涉及这些区域,也要引起重视涉赌和涉毒的人员工作一般也不太稳定或者没有固定工作收入,如果申请人经常换工作或者经常在某一个阶段没有收入,这种情况需要引起重视。涉赌和涉毒的人活动规律比较特殊,经常半夜在外面活动,另外也经常住本地宾馆,这些信息都可以参考移动大数据进行识别。 

    总之,互联网金融的大数据风控采用了用户社会行为和社会属性数据,在一定程度上补充了传统风控数据维度不足的缺点,能够更加全面识别出欺诈客户,评价客户的风险水平。互联网金融企业通过分析申请人的社会行为数据来控制信用风险,将资金借给合格贷款人,保证资金的安全。

    更多相关内容
  • 大数据风控调研报告.pdf
  • 大数据风控实践

    2021-06-16 07:59:31
    本课程从实践出发,系统总结互金行业个人小额信贷使用的量化风控方法和技术手段。...本课程作为入门级教程,深入浅出揭开大数据风控神秘面纱,给从业人员以参考。 主要面向对象风控政策人员/现金贷创业人员/程序员。
  • 大数据风控有效吗——基于统计评分卡与机器学习模型的对比分析.pdf
  • 消费金融大数据风控整体解决方案
  • 智慧方案
  • 大数据风控.xmind

    2019-09-26 19:00:25
    大数据风控.xmind 贷前(精准营销等) 贷中(设备监控等) 贷后(监控等)
  • 如何建立大数据风控解决方案,提供基本思路和方法。。。
  • 大数据风控那点事儿

    2018-04-10 21:41:01
    金融大数据风控 原理。核心风控要素。个人消费金融授信的5P 原则
  • 大数据风控 张孝昆 著
  • 大数据风控体系如何搭建,分为哪些架构及原理,文档中有详细解释
  • 导读:大数据风控业务的开展依赖智能风控平台,智能风控平台的技术基础是大数据技术,智能风控系统技术架构也是以大数据系统技术架构为基础演进而来的。智能风控系统技术架构主要分为访问层、展现层、系...

    导读:大数据风控业务的开展依赖智能风控平台,智能风控平台的技术基础是大数据技术,智能风控系统技术架构也是以大数据系统技术架构为基础演进而来的。

    智能风控系统技术架构主要分为访问层、展现层、系统层、大数据平台四部分,其中大数据平台又分为接入层、清洗层、计算层、数据层四部分。本文主要介绍大数据风控平台。

    智能风控系统技术架构图

    大数据平台是智能风控系统技术架构的持久层,但又超越了传统的持久层功能,是以持久层为基础进行了技术应用的丰富。持久层又叫数据访问层,是指把数据永久地保存在存储设备中,它直接与数据库交互。

    大数据平台的创建不仅服务于智能风控体系,还服务于业务的其他场景,例如业务的营销场景、运营场景等。考虑到智能风控系统技术架构的数据还会服务其他业务场景,因此在初期搭建规划的时候应该考虑数据层的通用性、易用性、非耦合性等;并且伴随互联网业务的快速增长以及大数据技术的广泛运用,传统持久层的设计也不再局限于数据库以及数据的交互,而是以持久层为基础升级革新为大数据平台,统筹管理、规划数据的应用。

    智能风控系统技术架构的大数据平台划分为接入层清洗层计算层数据层四部分,这里只着重介绍接入层、清洗层、数据层的技术应用。

    01

    接入层

    接入层负责智能风控平台的内部接入,包括大数据平台以及系统层的系统产品的数据接入,通常接入的数据有结构化数据和非结构化数据两类,常用的技术应用有MQ、HTTP、HTTPS、FTP等,具体的技术介绍如下。

    • MQ(Message Queue,消息队列)是基础数据结构中“先进先出”的数据结构,一般用来解决应用解耦、异步消息、流量削峰等问题,是一种能够实现高性能、高可用、可伸缩和最终一致性的架构。

    • HTTP(Hyper Text Marked Language,超文本标记语言)是一种标识性语言,包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的网络资源连接为一个逻辑整体。

    • HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全为目标的HTTP通道,在HTTP的基础上加入SSL层通过传输加密和身份认证保证了传输过程的安全性,被广泛用于万维网上安全敏感的通信,例如交易支付等方面。

    • FTP(File Transfer Protocol,文件传输协议)是在网络上进行文件传输的一套标准协议,用于将文件传输到主机或与主机交换文件。FTP可以使用用户名和密码进行身份验证,匿名FTP允许用户从互联网访问文件、程序和其他数据,而无须用户ID或密码。

    02

    清洗层

    清洗层是数据清洗处理层,负责智能风控平台接入数据的清洗处理。清洗处理后的数据再被推送到计算层、系统层和数据层。通常大数据平台清洗层使用的技术应用有Kafka、ETL,具体的技术介绍如下。

    • Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者在网站中的所有动作流数据。但大部分研发人员都会把kafka当作一个分布式消息队列,利用它的高性能、持久化、多副本备份、横向扩展等能力。生产者向队列里写消息,消费者从队列里取消息进行业务逻辑运算。

    • ETL(Extract-Transform-Load)是用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到数据仓库中。虽然ETL一词常用在数据仓库,但其对象并不限于数据仓库。

    03

    数据层

    数据层是数据的载体层,大数据技术的基础是数据,因此大数据平台的基础是数据层。大数据平台的数据层为智能风控平台提供系统产品使用的数据,而智能风控平台系统产品产生的数据会回传到大数据平台的数据层,两个平台的数据相互循环迭代,数据量不断增加。数据层实际就是数据库,数据库根据数据存储方式分为关系型数据库、非关系型数据库,同时随着知识图谱技术的发展和应用,图数据库也被用到智能风控平台中。

    大数据平台常用的数据库有MySQL、MongoDB、HBase、Giraph、SSD等,具体的技术介绍如下。

    • MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一,在Web应用方面,MySQL是最好的关系数据库管理系统应用软件之一。

    • MongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为Web应用提供可扩展的高性能数据存储解决方案。

    • HBase(Hadoop Database)是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC设备上搭建起大规模结构化存储集群。

    • Giraph是一个迭代的图计算系统,是基于Hadoop建立的上层应用。

    • SSD(Solid State Disk或Solid State Drive,固态驱动器),俗称固态硬盘,用于数据库等文件的存储。

    智能风控系统技术架构中用户通过访问层触发访问请求命令,由展现层承载访问请求命令并且传输请求命令到系统层,再由系统层根据请求命令获取大数据平台的数据,然后将数据传输到计算层进行分析计算,计算结果返回到系统层进行功能逻辑处理,最后输出系统层的服务结果到展现层或者以接口的形式提供给外部系统。整个智能风控平台通过智能风控系统技术高效、稳定运转,数据在智能风控平台中循环流转、迭代。

    智能风控的核心技术是大数据风控技术,智能风控系统技术架构的设计应该以大数据平台为基础,充分融入大数据系统技术架构。

    本书摘编自《智能风控平台:架构、设计与实现》,经出版方授权发布。

    关于作者:郑江,资深的互联网金融风控从业人员,现就职于融360。资深产品经理,尤其擅长风控平台的产品设计和研发,曾参与和主导了AI风控平台、SaaS风控云平台、大数据风控平台等各种类型的风控平台的建设,积累了丰富的经验。

    推荐语:本书从智能风控平台的业务架构、功能架构、技术架构以及产品的设计与实现角度详细讲解了如何构建一个完整的、通用的智能风控平台,从而让风控变得更容易、更高效、更精准和更智能。


    扫码关注【华章计算机】视频号

    每天来听华章哥讲书

    更多精彩回顾

    书讯 | 9月书讯 | 秋天的第一本书,来了

    资讯 | 什么是Serverless?有哪些应用?终于有人讲明白了

    书单 | 10本书,帮你看清未来的科技趋势

    干货 | Linux30岁生日:Linux 成功的真正原因

    收藏 | 终于有人把Scrapy爬虫框架讲明白了

    上新 | 【新书速递】“帆船书”——数据库领域殿堂级作品,全新升级第7版!

    赠书 | 【第71期】破案了!库里为何会花18万美元买一个猴子头像?

    点击阅读全文优惠购买

    展开全文
  • 一、大数据风控是什么? 大数据风控按照通俗的概念解析:通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。 这句话涵盖大数据风控必要的4个要素: 1. 原材料:大数据 2. 实现方式:技术模型 3. ...

    一、大数据风控是什么?

    大数据风控按照通俗的概念解析:通过运用大数据构建模型的方法对借款人进行风险控制和风险提示。

    这句话涵盖大数据风控必要的4个要素:

    1. 原材料:大数据

    2. 实现方式:技术模型

    3. 目标人群:场景中的群体。

    由于本文主要指个人借贷场景,则目标人群是借款人。还有其他场景,例如信用卡场景对于信用卡申请人、购物场景针对分期用户、租房场景针对租金分期用户、投保场景针对投保人、投资理财针对投资人等。

    4. 目的:风险控制和风险提示。一般机构主要有2个目的:

    • 目的1:针对降低损失,需要对好坏用户进行识别
    • 目的2:针对获取最大化利润,需要对用户资质分层。

    潜在的特点是可以大批量实时实现风险控制和风险提示。

    二、传统风控与大数据风控的区别

    大数据风控的叫法其实就是为了与传统风控做区分。

    传统风控在2016年之前相对比较普遍,其特点是线下风控场景为主,需要用户填写一大堆个人信息及提供工作证明、流水证明、住址证明等,审核时间一般为1-3天,银行体系会更长3-7天左右。

    正常情况,一份用户资料表需要填写包括以下这些信息:姓名、性别、年龄、身份证号、家庭地址、学历、家庭人数、婚姻状态、单位名称、单位电话、工作职务、单位性质、收入来源、收入水平、配偶详情、经营企业详情、其他资质等信息。

    除了这些信息,还需要提供纸质的身份证复印件、工作收入证明(盖章)、半年银行流水、水电费或房屋租赁合同等。

    另外,银行等持牌机构还会查询用户在央行的征信报告,用于辅助风控。

    这些数据潜在的意义可以这样解读:除了年龄代表准入门槛,一般的借贷产品要求借款人需要有22岁以上才可以申请,现金贷产品会把年龄门槛放到18-20岁及以上。部分产品要求学历是高中及以上,或者要求非在校生。其他的分组后分别代表借款用户的还款能力,负债情况及信用情况(这里不细分还款意愿)。

    直接体现或者间接体现还款能力的:

    1. 家庭人数。家里人多,你还不起,催收后有人可以帮你还;
    2. 2.婚姻状态,大部分家庭,结婚的比未婚的家庭收入或经济稳定更好;
    3. 3.单位名称、单位电话、工作职务、单位性质、收入来源、收入水平,直接体现收入水平及收入稳定性情况;
    4. 4.经营企业详情、其他资质等信息。

    体现负债情况和信用情况的:央行征信报告

    拿到这些信息及材料后,由风控专员凭借经验及按照标准化流程审核材料真实性。例如工作收入证明通过拨打公司电话核查有无本人及职位情况、其他资质材料看印章判断真实性,流水会打银行电话抽查真实性等。

    传统风控的模式及节奏是不符合互联网金融高速发展的节奏的,互联网金融时代都是按秒级几百上千用户群同时发起贷款申请,如果按照人工审核,从进件到批核整个流程可能要1个月时间都没法完成。

    传统风控向大数据风控的升级,即是行业发展的需要,也受益于各类用户数据被标准化对外,也就是API的形式对外输出,金融机构可以直接接入各种必须的数据接口,用于获取用户的数据。

    整个流程从用户填写将近所有的信息,变成只要提供姓名、身份证、银行卡号、手机号这个4个要素就可以获得全部或大部分风控必需的用户信息。

    大数据风控的快捷得益于各种标准化的数据接口,但由于代表用户的各种数据是分别存在与不同的机构中,这些数据原则上需要用户授权才能对外,而且数据输出需要进行合规脱敏的处理。

    所以,大数据风控需要获取到与传统风控要求用户填写的所有信息、或者直接或间接证明用户还款能力、还款意愿、负债情况及信用情况必须的数据,每个类型需要接入几个数据来源,缺失的类型还需要找到能够替代的数据接口。

    大数据风控需要的数据类型,在后面章节再详解。

    三、哪些行业及场景需要大数据风控

    除了借贷场景,还有哪些场景需要用到大数据风控?

    这里,猎人简单举几个例子:

    金融行业最常见就是投融资板块,投资板块,需要对非法集资、洗钱、资金盗刷等风险进行防控。

    借贷板块,需要进行贷前进行反欺诈及用户风险识别、授信风险评估、贷中风险评估及贷后风险预警。

    电商行业需要在用户注册环节进行防薅羊毛、对已注册充值用户需要防止其资金被盗刷、账户被盗及发生交易后对经常拒付的情况需要识别。

    保险行业特别是寿险产品,需要对投保人身份进行核实,防止有不良行为投保用户过审发生骗保。

    除了这些常见的行业场景,其实各行各业只要涉及到个人信息及资金交易的,都会用到大数据风控,唯一的区别就是针对不同场景的需要的数据及策略是不一样的。

    四、大数据风控行业有哪些机构参与

    传统风控基本都是由金融机构内部的风险部门及门店经理组成,大数据风控更多是由第三方机构提供。

    大数据风控行业主要有以下7大类型机构参与:

    1. 监管部门旗下或牵头的机构:百行征信、互金协会及小贷协会等;
    2. 非银放贷机构旗下金融科技公司:持牌小贷公司、P2P机构等,例如玖富及宜信;
    3. 电商旗下金融科技公司:京东金融、蚂蚁金服等;
    4. 互联网巨头旗下金融科技公司:度小满金融、腾讯云等;
    5. 银行系金融科技公司:银联智策、建行金科等;
    6. 企业服务类:系统服务商、技术提供商、数据中介商等,例如同盾及百融;
    7. 支付机构旗下金融科技公司:天翼征信:新颜征信等。

    这些机构拥有场景、资金、放贷业务三者全部或者其中一块要素,这些要素决定了其在大数据风控的竞争壁垒。

    场景代表有源源不断的数据,及精准的客群画像,可以无成本或低成本用于风控业务;

    资金代表了可以随意切进任一借贷场景,获取数据及影响产品形态;

    放贷业务表示在特定场景有一定的用户借贷表现的数据及基础的风控能力,部分机构的成熟风控能力还可以直接对外输出变现,切入到体系外的场景获取更多的数据。

    因此,数据量级、数据成本、风控经验、资金风险承受能力综合决定了一家机构在大数据风控是否有足够的竞争力。

    五、大数据风控机构存在的意义

    个人借贷金融板块的大数据风控行业的前景,主要可以看2方面:

    一个是不含房贷的国内消费金融市场规模及渗透情况。只要消费金融市场的存量客户,有复贷需求,且增量客群还有转化空间,代表着借贷业务是持续发生的,则这里对风控的需求是持续不断的。

    我国个人消费金融的市场规模从2013年的12亿到2018年的将近38亿,翻了3倍有多;而不含房贷的规模到2018年则到了8亿,渗透率为22.36%。如果到2020年渗透率可以提升2.5%,则市场规模有个3.5万亿的提升。这个空间足够众多公司在此竞争。

    大数据风控机构其中的一个收入来源就是数据接口的调用次数计费,这个调用次数息息相关的是借贷用户数量。

    而央行内收录的大部分信贷记录用户都是属于银行等相对高质量用户群体,这些群体都有可能下沉到非银系的互联网金融中发生贷款行为,同时不在央行体系的信贷用户,都是互联网消费金融机构的潜在客户。

    通过央行查询量,可以侧面知道在银行体系信贷需求的用户数量,这部分用户80%以上是无法获取银行体系的贷款的,因此理论上是可以成为消费金融机构的潜在客群。

    2015年的6.3亿次查询到2018的17.6亿次查询,说明需要信贷的用户非常多,但这么大的查询量,有信贷记录人数才增加了1亿,说明大部分用户都无法获得贷款或者非常需要贷款,会同时在多个机构申请贷款,才会每人产生近10次的查询次数。

    六、处于消费金融产业链什么位置

    已知大数据风控机构在消费金融场景中是非常有前景的,我们了解下其在消费金融产业链中的角色及功能,消费金融产业链的角色包括:

    1. 监管机构:银保监会、中国人民银行等;
    2. 消费金融服务提供商:商业银行、电商平台、持牌公司、分期平台、非持牌机构;
    3. 资金提供方:自有资金、信托、ABS、银行借贷、同业拆及P2P;
    4. 第三方支付机构:负责提供支付通道,给予消金机构放款或者代扣还款;
    5. 催收或不良资产机构:负责贷后逾期不还及失联客户;
    6. 消费者:不同场景的消费需要的资金需求是不一样的;
    7. 风控及征信机构:负责提供大数据风控服务,包括数据、技术服务、模型策略等。

    除了消费者外,产业链中的各个角色都有附加风控及征信机构角色的可能,对外输出大数据风控能力。

    七、个贷风控场景及解决方案

    猎人将消费金融大数据风控场景分为5个环节6个应用场景:5个环节包括反欺诈、身份核验、贷前审核、贷中监控及贷后催收;6个应用场景分别对应不同的环节。

    反欺诈环节:

    对申请借贷的用户群体进行反欺诈识别,识别能力主要依赖于风险名单,高危名单(在逃、黄赌毒、涉案)、法院失信被执行人等名单,另外还有虚拟手机号、风险IP、风险地区等名单,通过名单进行反欺诈识别。

    再深入点,可以在用户使用的设备端进行反欺诈识别,查看是否是风险设备;还可以通过群体关联,找出是否团伙欺诈行为。例如申请集中在一个IP地址,一个户籍地,通讯录都有同一个人联系方式等。

    身份核验环节:

    进行借贷同行业身份核验。在反欺诈识别过程中,无风险用户来到身份核验环节,这里可以通过身份证2要素接口,核验用户的姓名身份证号是否正真实;通过活体识别判断是否用户本人在操作;通过运营商核验接口,核验用户的姓名身份证手机号是否一致,手机号是否本人实名使用;通过银行卡核验,核验用户的提供的银行卡是否本人,防止贷款成功后,贷款资金到他人账户被冒用。

    贷前审核环节:

    授权信息获取,针对身份核验通过的用户,进行有感知或无感知的必要信息获取,为后续模型评分准备好数据。无感知获取的包括多头借贷数据、消费金融画像数据、手机号状态和时长数据等;有感知(需要用户提供相关账户密码)获取的数据有:运营商报告、社保公积金、职业信息、学历信息、央行征信等。

    借贷用户的分层及授信,针对以获取的用户相关数据,根据不同的算法模型输出针对用户申请环节的评分卡、借贷过程的行为评分卡、授信额度模型、资质分层等模型。不同机构对于不同环节的模型评分叫法不一样,目的都是围绕风险识别及用户资质评估。

    贷中监控:

    之前环节获取的数据大部分还可以用于贷后监控,监控各项正常指标是否往不良转变,例如本来无多头借贷情况的,申请成功贷款后发现该用户在别的地方有多笔借贷情况,这时可以将该用户列为重点关注对象,防止逾期。

    贷后催收:

    此时需要催收的主要针对失联部分客户,这部分客户在贷款时填写的号码已经不可用,需要通过大数据风控公司通过某些手段获得该客户实名或非实名在用的其他号码,提高催收人员的触达几率。

    八、大数据风控常用的数据类型

    大数据风控离不开数据,这些数据猎人将主要的7大类型,这7大类型的存在主要有2大原因:

    一是这些数据维度基本可以直接或间接体现用户的还款能力、负债情况、信用情况及其他潜在风险,大部分数据维度都已在金融信贷风控环节得到有效的验证,除了个别场景对于少部分类型数据不太合适外。

    二是这些数据都经过标准化的处理,且在其体系内与合作的借贷机构客群最低的交叉比例超过40%以上,也就是借贷机构的100个用户中可以在这个数据接口中查到其中40人及以上的数据。

    还有一些原因是这些数据来源的更新频率足够满足风控公司的要求,特别是高风险名单这些要求是实时的,而身份证要素这些则无需更新实时问题也不大。

    数据类型主要有:

    • 身份信息:身份证、银行卡、手机卡、学历、职业、社保、公积金;
    • 借贷信息:注册信息、申请信息、共债信息、逾期信息;
    • 消费信息:POS消费、保险消费、淘宝消费、京东消费;
    • 兴趣信息:APP偏好、浏览偏好、消费类型偏好;
    • 出行信息:常出没区域、航旅出行、铁路出行;
    • 公检法画像:失信被执行、涉诉、在逃、黄赌毒;
    • 其他风险画像:航空铁路黑名单、支付欺诈、恶意骗贷。

    九、大数据风控的数据源头

    大数据风控需要的数据类型这么多,那来源是哪里,或者说这些数据掌握在哪些机构中?

    • 身份证数据源头:公安一所、公安三所、身份证信息查询中心;
    • 银行卡数据源头:各类银行、各地银联;
    • 手机号数据源头:移动、联通、电信;
    • 学历数据源头:学信网;
    • 社保公积金数据源头:社保局、公积金管理中心;
    • 借贷数据数据源头:央行征信中心、有信贷业务的银行、消费金融机构、小贷公司、P2P及有放贷业务的金融机构(保理机构);
    • 出行数据数据源头:中航信、铁路总局、出行APP、运营商、有定位的APP;
    • 消费数据:银行、电商平台、第三方支付、场景平台;
    • 兴趣爱好数据源头:运营商、各类PC平台网站、各类APP、搜索引擎、手机系统商。

    其实以上源头直接从事数据输出业务的只是一小部分,原因是大部分源头公司对数据合规输出及场景管理无专门部分负责,而且数据业务盈利不是其主要的业务。

    因此活跃在大数据风控行业,提供数据业务的是一些通过相关关系获得代理权的数据代理商,及为这些源头公司提供系统服务的系统商。

    十、人工规则及机器模型

    大数据风控的实现方式是传统风控的专家经验模型、及现今依赖算法模型两种方式结合较多。原因是算法模型在大多数常规情况是可以准确识别风险情况,但少部分特殊情况需要人工参与干涉修正及调优的。

    专家经验模型的流程是将遇到的新问题(新申请用户的资料)作为入参,风控专家根据历史出现的情况(不同客群的好坏表现)归纳起来,从中找出相关规律(A客群对应好的,B客群对应坏的,C客群没遇到过,但可能是好的等),从而判断新问题可能发展的路径情况(新客户贷后是好的或者坏的)。

    算法模型,主要依赖统计学公式,流程是将新数据(新申请用户的资料)作为入参,算法模型(随机森林、决策树、逻辑回归等)在大量的历史客户样本喂养后,已经可以区分出不同客群的好坏表现,从中而判断新用户在模型结果中对应的是好还是坏客户分类。这其中会引入第三方的数据源(KS 、IV、AUC等都是判断第三方数据有效性的指标),看哪些数据能够提升算法模型的识别准确率。

    其实从流程看出,算法模型无非把人工经验环节换成了算法模型替代,以此实现批量找出能够判断好坏客户的规律,并将其标准化。但遇到一些不在历史数据中的情况时,算法模型就可能无效,需要人工参与调优,为了解决新问题算法模型表现不太好的情况,现在有机构尝试用新的算法或逻辑去模仿人工调优这个工作。

    十一、大数据风控的产品形态

    大数据风控行业中最常见的产品形态有4种:

    1. API接口:主要输出裸字段、脱敏后字段或者评分值;
    2. SDK:爬虫类产品、设备指纹等;例如学历爬虫接口,输入用户账号密码可以登录学信网将用户的学历学籍信息爬取下来。
    3. H5报告:用户风险报告、用户评分报告等;
    4. 机器模型及决策引擎。

    API接口及SDK一般是有风控模型团队机构需求较大,需要详细字段入参来喂养模型;部分无模型团队的机构,但有技术部门支持开发的,一般喜欢直接采用API的评分或H5报告;而机器模型及决策引擎主要是有钱但不熟悉风控行业或者现有技术团队不熟悉大数据风控的,会直接购买模型及决策引擎直接启动信贷业务。

    以上的产品形态主要还是针对B端客户,有些大数据风控机构开拓C端业务的推出APP内置报告的产品形态。

    最后

    大数据风控是个很复杂的体系,其在个贷风控领域的应用已相对成熟,这个场景的竞争现处于白热化阶段,已知这个细分市场的风控产品的创新已经到了一个瓶颈,无论机构大小只能围绕数据覆盖率及风控识别能力两个维度进行优化。

    同时由于有消费金融需求的个体基本都得到了刚好甚至超出其还款能力的信贷服务,因此开拓新客群的获客成本明显高于前两年,这是大多金融机构合规产品获利能力无法覆盖的,规模维稳甚至紧缩的情况导致提供个人风控的大数据风控机构的收入水平其实在下降。

    另一个状况是针对小微企业端的风控服务重新被大数据风控机构重视并逐渐加大研发力度,望在小微企业风控的白热化到来前,先占据一定的市场规模,形成有力的壁垒活下去。

    展开全文
  • 大数据风控项目实战 Drools规则引擎

    千次阅读 2022-02-19 13:12:43
    一、风控项目背景介绍 对一个复杂支付系统提供统一、全名高效的风险控制服务 特定: 1、数据全 2、响应快 二、风控项目系统架构 实时风控: 规则前处理、统一规则引擎、规则后处理 非实时风控: 数据收集入库、...

    可以借鉴的干货

    1,统一存储服务,包含:多种存储库连接封装和服务封装   在统一存储服务
    2.获取配置的环境    类:EnvVariable
    

    一、风控项目介绍

    对一个复杂支付系统提供统一、全面、高效的风险控制服务
    
    特定:
    	1、数据全
    	2、响应快
    

    二、风控项目系统架构与技术

    系统架构:
    	实时风控:  规则前处理、统一规则引擎、规则后处理
    	非实时风控: 数据收集入库、流式计算引擎、批量计算引擎
    	统一存储服务:数据存储
    	BFF:非核心模块,一些基础配置信息,比如设置日交易额最大为500
    
    系统环境需要安装的组件;
    	mysql + hbase + redis 
    	kafka + flink
    	maven私服Nexus(主要存储.drl文件,供Drools读取加载规则)
    
    用到的技术:
    	实时风控模块:SpringBoot + Netty + Drools规则引擎
        非实时风控模块:Flink
    

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    三、规则设计与规则引擎

    1、规则设计

    5种典型规则

    1、简单型规则:直接读取请求报文进行规则判断
    	规则示例:AQ001:对于交易渠道为XXX的所有交易,如果交易手机号和银行签约的手机号一致,则不做任何规则限制
    
    2、数据画像型规则:需要在请求报文基础上添加一些风控因子进行补充判断
    	规则示例:LG001:外部导入一批黑名单数据,黑名单用户禁止登录
    
    3、累计型数据规则:需要对用户以往的交易进行进行累计计算的规则
    	规则示例:LJ001:设定用户的日交易额为500,超过日交易额的用户,禁止当日所有的交易
    
    4、批量计算型规则:需要对用户以往的交易行为进行批量统计的规则
    	规则示例:LJ002:同一个手机号,三日内支付次数超过10次,支付总金额不超过100元,禁止支付12小时
    
    5、复杂事件型规则:需要对用户以往行为组合甄别的规则
       规则示例:LG002:同一个用户,在一天内,连续登录失败5次,则锁定账号,3天内禁止登录
       
    

    2、规则引擎

    a、什么是规则引擎?为什么要用规则引擎?

    简单来看,规则引擎就是将一段字符串当作一段逻辑运行
    
    使用规则引擎,能够将数据的准备和处理过程分离解耦
    	简单的规则引擎:Aviator表达式引擎
    

    b、Drools规则引擎?

    官网
    中文网

    1、drools基础使用
    1.pom引入四个依赖
    2.resources下写test.drl规则文件
    3.java类调用规则文件启动规则引擎
    
    //1、pom依赖
    <dependencies>
            <!--drools-->
            <dependency>
                <groupId>org.drools</groupId>
                <artifactId>drools-core</artifactId>
                <version>6.5.0.Final</version>
            </dependency>
            <dependency>
                <groupId>org.drools</groupId>
                <artifactId>drools-compiler</artifactId>
                <version>6.5.0.Final</version>
            </dependency>
            <!--kie knowledge is everything-->
            <dependency>
                <groupId>org.kie</groupId>
                <artifactId>kie-api</artifactId>
                <version>6.5.0.Final</version>
            </dependency>
            <dependency>
                <groupId>org.kie</groupId>
                <artifactId>kie-ci</artifactId>
                <version>6.5.0.Final</version>
            </dependency>
            <dependency>
                <!--lombok-->
                <groupId>org.projectlombok</groupId>
                <artifactId>lombok</artifactId>
                <version>1.18.16</version>
            </dependency>
        </dependencies>
    
    //2、test.drl规则文件
    
    /**
    	package xxx.xxx.xxx        所在包名,需要与主运行类一致KnowledgeBase
    	import xxx.xxx.xxx         跟java类似,规则中引入的类 Student
    	globals xxx.xxx.xxx        全局对象,用于处理多个配置文件中都需要定义的相同对象
    	function                  定义一些处理函数,基本跟java类似
    	queries                    定义一些查询方法
    	rule                       规则
     
    
     rule就是三大块中得规则体,以rule开头,以end结尾,每个规则文件可以包含多个rule。规则体分为三个部分,LHS RHS 属性三大部分
        LHS, LeftHand Side, 指的是条件部分 
        RHS, RightHnad Size,指的是then后面的部分
    */
    
    //包名
    package com.test
    import com.test.Student
    
    rule "rule1"
     salience 1   //优先级  越大越早执行(2比1早执行)
        when
            $student:Student(age>10)     //这里叫 LHS
        then
            System.out.println("age>10岁的人:" + $student.getName());  //这里叫 RHS
        end
    
    
    rule "rule2"
     salience 2   //优先级
        when
            $student:Student(gender=="男",age>10)  //这里就是 LHS
        then
            System.out.println("性别为男,age>10岁的人:" + $student.getName());
        end
    
    
    
    
    //3、主运行类调用规则文件启动规则引擎
    
    import org.drools.core.io.impl.ClassPathResource;
    import org.kie.api.io.ResourceType;
    import org.kie.internal.KnowledgeBase;
    import org.kie.internal.KnowledgeBaseFactory;
    import org.kie.internal.builder.KnowledgeBuilder;
    import org.kie.internal.builder.KnowledgeBuilderFactory;
    import org.kie.internal.definition.KnowledgePackage;
    import org.kie.internal.runtime.StatefulKnowledgeSession;
    
    import java.math.BigDecimal;
    import java.util.ArrayList;
    import java.util.Collection;
    import java.util.List;
    
    public class TestDrools2 {
        public static void main(String[] args) {
            //1、获取规则配置文件
            KnowledgeBuilder knowledgeBuilder = KnowledgeBuilderFactory.newKnowledgeBuilder();
            knowledgeBuilder.add(new ClassPathResource("test.drl"), ResourceType.DRL);
            Collection<KnowledgePackage> collection = knowledgeBuilder.getKnowledgePackages();
            KnowledgeBase knowledgeBase = KnowledgeBaseFactory.newKnowledgeBase();
            knowledgeBase.addKnowledgePackages(collection);
            //2、获取引擎
            StatefulKnowledgeSession statefulKnowledgeSession = knowledgeBase.newStatefulKnowledgeSession();
            //3、引擎根据规则运行
            List<Student> students = getStudent();
            for (Student student : students) {
                statefulKnowledgeSession.insert(student);
            }
            statefulKnowledgeSession.fireAllRules();
            statefulKnowledgeSession.dispose();
            System.out.println("结束...");
    
        }
    
        private static List<Student> getStudent() {
            List<Student> students = new ArrayList<Student>();
            students.add(new Student("张三", 13, "男", new BigDecimal(13)));
            students.add(new Student("李四", 14, "男", new BigDecimal(14)));
            students.add(new Student("王五", 15, "男", new BigDecimal(15)));
            students.add(new Student("赵六", 16, "女", new BigDecimal(16)));
            return students;
        }
    }
    
    2、drools高级使用 (规则文件test.drl从maven私服读取)
    从maven私服加载规则文件
    StatefulSessionStatelessfulSession的使用以及区别。
    基于Kie组件动态更新Maven仓库中的规则文件。
    

    四、统一存储服务

    数据量小,访问也不会太频繁的元数据                   mysql:事务控制比较好
    数据量小,业务价值比较高的数据(计算出来的数据)         redis
    数据量大,业务价值相对比较低的数据,大而全             hbase、clickHouse、es
    
    
    1、数据层封装(对各种连接的封装):
    	drisk-common-service项目———connector包
    		与各种数据源的交互如:DataBaseRedisKafkaHbase、HTTP
    	
    	
         
         
    2、统一服务封装
    	drisk-common-service项目——services包
    
    

    在这里插入图片描述

    五、网络协议层封装(netty)

    drisk-realtime-server
    
     启动类也顺带启动netty服务
    

    六、实时风控引擎整体流程

    drisk-realtime-server
    
    在这里插入代码片
    

    最后、看完这个项目,延伸思考

    1、如果不想用netty,如何构建微服务体系?
    	 构建message对象,直接丢给engine调用engine的方法,在网络协议层封装里面
    	 
    2、如果不想用Drools,如何引入新的规则引擎
    3、如何保证规则与数据是同步的
    
    展开全文
  • 智能风控和评分卡二、机器学习介绍1.概念2.分类三、评分卡模型介绍1.申请评分卡2.读入数据总结 前言 提示: 这里可以添加本文要记录的大概内容: 例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,...
  • 常见的大数据分析平台架构有Hadoop、Spark、Storm、Samza等,而基于Hadoop构建大数据风控平台具有分布式云存储和云计算能力,提供了核心分布式数据仓库、分布式列数据库解决方案,还具有良好的扩展性,常用在银行...
  • 大数据风控系统全面解决方案.pdf
  • 携程大数据风控实践.pdf
  • 大数据风控实践.pdf

    2020-07-20 01:32:35
    大数据风控实践 2016.07 1 应用欺诈无处不在 垃圾文本 行为欺诈 信贷欺诈 薅羊毛 评论弹幕私信 刷榜刷人气 电商O2O 反欺诈行业面临挑战 01 对手越来越专业变化越来越快 02 反欺诈团队人手紧疲于应付 03 依赖更多维度...
  • 大数据风控系统概述

    千次阅读 2020-01-19 10:14:06
    为什么要做风控系统 不做的话,会有以下风险: 各种小号、垃圾账号泛滥 撞库攻击、盗号、毁号、拖库等 拉新 10w 留存率不到 5% 百万营销费用,却增加不了用户粘性 投票票数差距非常悬殊 各种榜单被垃圾账号占领 ...
  • 主要介绍了大数据风控相关技术方案
  • 2018年中国大数据风控调研报告,智能风控
  • 大数据风控介绍.pdf

    2021-10-14 06:24:39
    大数据风控介绍.pdf
  • 大数据风控是基于庞大的数据通过技术方式构建模型对借款人进行风险控制和风险提示,风控的目的是对好坏用户进行识别从而降低损失,对用户资质进行分层从而获取更大的利润。  目前,大数据风控主要围绕以下几个方面...
  • SAS大数据风控审批策略应用
  • 2018年中国大数据风控调研报告,智能风控
  • 大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。 金融的本质是风险管理,风控是所有金融...
  • 大数据风控调研报告.pptx

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 14,786
精华内容 5,914
关键字:

大数据风控

友情链接: Experienment 6-5.rar