2016-11-24 17:42:03 leiphone 阅读数 2605
  • SAS数据分析:从入门到企业实战

    随着中国数据行业的发展,SAS在包括金融、风控、医药、互联网等行业中应用得越来越广泛。SAS语言作为第四代语言,具有面向问题、非过程化、上手容易等特点,同时因为其功能、函数琐碎,难以建立系统化知识结构,导致SAS语言的进阶难度较大。 本课程采用视频讲解+现场编程+真实案例的教学模式,让你快速入门SAS。同时也安排老师答疑与课后习题精讲,让你建立SAS编程的系统化认知,在职场中更上一层楼。

    615 人正在学习 去看看 杨俊
导语:如何通过海量数据与欺诈风险进行博弈?

如何利用大数据做金融风控?| 硬创公开课

随着金融科技、科技金融等概念的热起,以及互联网金融、无金融服务群体的刚性需求下,大数据风控技术也获得越来越广泛地重视和应用。但是,如何利用大数据、机器学习等前沿技术做金融风控?如何通过海量数据与欺诈风险进行博弈?本次硬创公开课我们邀请了同盾科技首席风险官董骝焕博士为我们解答。

董骝焕是南开大学概率统计博士,他博士毕业后加入中科院,2007年加入IBM/ ILOG从事决策模型在各种业务问题中的应用。2010年至2013年先后在FICO和SAS支持金融反欺诈事业。2015年5月15日,董骝焕加入同盾科技,负责反欺诈以及数据分析。目前他仍担任上海财经大学统计管理学院兼职硕导和教育指导委员会成员。

如何利用大数据做金融风控?| 硬创公开课

以下是本次公开课要点:

同盾提倡跨行业联防联控,一个维度是打破企业之间的数据孤岛,即企业与企业、平台之间的数据交通障碍。另一方面是行业与行业之间也存在一定的风险重合,比如信贷行业与电商行业、O2O行业之间,需要一定的机制来打破数据障碍。

风控体系:事前、事中、事后调控

整个风控体系包括几个环节:

事前:在风险发生之前就要通过对风险舆情的监控发现风险,比如在某些恶意的欺诈团伙即将发动欺诈攻击前就采取措施来提前防御,比如通过规则加紧,把模型阈值调高等方法。

事中:信贷借款申请,在线上注册激活的过程中,根据自动风险评估,包括申请欺诈,信用风险等来选择是否拒绝发放贷款。

事后:贷款发放以后的风险监控,如果借款人会出现与其他平台的新增申请,或者长距离的位置转移,或者手机号停机等信号,可作为贷后风险预警。

如何提前在网络中把骗子揪出?

最基础的技术:设备指纹

如何利用大数据做金融风控?| 硬创公开课

在介绍整个风控体系时我认为,对于网络行为或者线上借贷,最最基础或者最最重要的技术是设备指纹。为什么呢?从上图中我们可以看到,网络上的设备模拟或攻击,比如各种各样的自动机器人,实际上是对网络环境造成极大的干扰,在信贷中会导致信用风险的误判。这个是第一道。

网络设备最关键的地方是要实现对设备唯一性的保证,第二是抗攻击,抗篡改。网上有各种高手会进行模拟器修改,修改设备的信息和干扰设备的定位等以各种手段来干扰设备的唯一性认定。

所以对抗这样的情况的技术要点在于:抗攻击、抗干扰、抗篡改。另一方面能够识别出绝大部分的模拟器。

设备定位:基站和WiFi三角定位

接下来就是设备定位。

  • 非GPS定位

值得注意的是,在模拟器或者智能设备系统里面它可以把GPS定位功能关掉。而如果通过将基站的三角计算或者WIFI的三角计算定位结合起来,定位的精度较高,且不受GPS关闭的影响。

这可以应用在信贷贷后管理,用来监测借款人的大范围位置偏移。

  • 地址的模糊匹配

如何利用大数据做金融风控?| 硬创公开课

对于位置来讲还有一个重要方面是地址的模糊匹配。在信用卡或者线下放贷中,地址匹配是一个重要的风险审核因素,但是地址审批过程存在一个问题:平台与平台之间因为输入格式不同或者输入错误等问题造成难以匹配,那就需要模糊算法来进行两两匹配,以及数个地址之间进行比对,或者在存量库中搜索出历史中的风险或者相关性名单来进行比对。这其中涉及的技术包括模糊匹配算法和海量地址的管理和实时比对。

复杂网络

复杂网络有时候大家称之为知识图谱,但这中间有点区别:复杂网络更偏向于从图论的角度进行网络构建后进行实体结构算法分析,知识图谱更偏重于是在关联关系的展现。

如何利用大数据做金融风控?| 硬创公开课

网络分析最重要的一点是具有足够的数据量,能够对大部分网络行为进行监控和扫描,同时形成相应的关联关系,这不仅是实体与实体之间、事件与事件的关系,并且体现出“小世界(7步之内都是一家人)”、“幂分布”等特征。

如何利用大数据做金融风控?| 硬创公开课

举个例子:团伙性欺诈嫌疑识别。有一个被拒绝的用户中,关联出来了一个失信的身份证和设备,而且发现其设备有较多的申请行为,那么,这个被关联出来的用户或将需要严格的人工审核,甚至可以直接拒绝。

通过对借款事件的深入挖掘,我们可以关联出大量的借款事件。这个需要进行一些算法分团,可以把相关的联系人都分到一个地方,然后进行关联成团的团伙性分析,根据图论上的属性如团的密集程度和某些路径的关键程度等,比如介数,图直径等角度来估计风险。

数据抽样结果案例:骗子遁形


通过对内部大量数据的抽样分析,可以看到一些意思的现象:潜在的威胁者,出于恶意目的,他的行为会和正常的用户有所不同。这里面有几个例子可以分享:

如何利用大数据做金融风控?| 硬创公开课


其中一个是设备与关联账户的数量与欺诈风险的关系。当然这不仅包括了信贷行业的欺诈,还包括账户层面的盗取账户、作弊、交易等欺诈风险。可以看到,当设备关联账户量大于3-5个时,其风险系数明显增高。此外,当关联数量大于五时,风险率也是明显偏高。


另外一个是对于多头负责与不良率的比较:7天内贷款平台数高于5时其风险也是明显偏高的。虽然这个数据还没有做进一步的清洗和交叉衍生新的变量,但也可以看出其中的风险相关程度。

如何利用大数据做金融风控?| 硬创公开课


另外是某个特定客群的建模抽样分析。例如多次借款申请人如果180天内夜间申请借款的比例——就是有借款行为的同时,如果大于四分之一的借款申请是在夜间的,其风险明显增加。

数据都是客观的,取决于数据形成后对业务的分析和解读。

优秀的决策引擎是怎样的?

一个优秀的决策引擎包括以下几点:

灵活可配——不但可以配规则,还可以配规则的字段和权重。业务友好就不用说了。

快速部署——配置好的规则模型可以实时生效,当然如果涉及一般规则修改时,可以做一个灰度部署。

决策流——它可以把不同的规则和模型串到一起,形成一个决策流,实现贷前、贷中、贷后的全流程监控。它要可以实现对数据的按需调用,比如把成本低的数据放到前面,逐步把成本较高的数据放到后面。因为有些决策在前面成本较低的数据下已经可以形成,就不必调用高成本的数据。

AB测试和冠军挑战——对于规则修改、调优时尤其重要。两套规则跑所有的数据,最终来比较规则的效果。另一种是分流——10%跑新规则,90%跑老规则,随着时间的推移来根据测试结果的有效性。

支持模型的部署——线性回归、决策树等简单模型容易将其变成规则来部署,但支持向量机、深度学习等对模型支持的功能有更高的要求。

信用评估

那经过以上的手段,我们基本可以具有一个很强的力度来排除信用风险,那么以下便是信用评估阶段。

评分卡模型

评分卡分为申请、行为、催收评分卡。申请评分卡用于贷前审核;行为评分卡作为贷中贷后监控,例如调额,提前预知逾期风险。它可以通过历史的数据和个人属性等角度来预测违约的概率。信用评分主要用于信用评分过程中的分段,高分段可以通过,低分段可以直接拒绝。

因为行业不同,客群与业务不同,评分卡的标准也有所不同。对于有历史表现的客户,我们可以将双方的XY变量拿出来,进行一个模型共建,做定制化的评分。

如何利用大数据做金融风控?| 硬创公开课

构建一个评分卡模型,目前传统的方法是银行体系中使用的:数据清洗、变量衍生、变量选择然后进行逻辑回归这样一个建模方式。

那么机器学习和传统方法最主要的区别是变量选取过程的不同——如果还是基于传统的变量选取方法,那通过机器学习训练出来的模型,其实还是传统的模型,其模型虽然一个非线性模型,但是其背后体现不出机器学习的优势。

核心技术与挑战

在目前围绕大数据、大数据决策为核心的风控技术体系中,整体的数据量达到一定水平,存在的挑战将会是数据的稀疏化。随着风控业务覆盖的行业越来越多,平台间的数据稀疏问题就越明显。(雷锋网(公众号:雷锋网)注:“稀疏数据”即矩阵中含零元素特别多,这意味着无益于增加数据信息量的无用元素很多,对于数据从存储,处理到建模都有挑战。)

此外,其实对于大数据来说,即便具有数据和大数据决策,如果没有一个很稳定的落地平台也是一个空中楼阁。大数据应用要做到完整,还需要符合以下要求的平台:一是容纳量,能够容纳特别多的数据;一个是响应:任何决策都能实时响应;一个是并发,在大量数据并发时也能保持调用。此外,安全性自不待言。

问答:

问:深度学习是怎么用于风险控制的呢?

董骝焕:深度学习本身个框架,是结合非监督学习和监督学习的神经网络训练和部署的框架,只要有目标,有数据就可以衍生特征,就可以做目标训练,可以当成一般机器学习去用。当然深度学习有些优势,比如无监督的特征选取方式,另外训练的过程中虽然计算量比较大,但也是可以接受的。

概括地说你可以认为深度学习是模型的一种。因为深度学习有些特殊的优势,比如特征选取的自动产生,即无监督方式。 另外,它可以实现稀疏数据结构的特征生成,而且可以通过正则化的方式来控制特征的生成,这对于具有大量数据,同时维度特别多,而且稀疏化的情况时就特别有用。

问:有一个问题,有没有一种可能,对于用户画像,判断的维度越多,得到的一些结论是冲突的。这个情况如果存在,是怎么协调,看权重么?

董骝焕:如果传统的方法,这些维度,比如几千个维度经过模型变量的筛选,有些变量是值越高越正面,有些是值越低越正面,就是WOE是不同的方向,这种情况下可以通过建模的方式来进行权重的训练,来做一个协调。

问:根据最新关于互联网金融平台法规的实施,从数据平台的角度分析下,大数据是否会取代以后的人工审核?您对互金风控未来的发展趋势认为是什么样的?

董骝焕:确实取决于不同信贷产品。比如小微的信贷产品,其立足点也许是经营性的评估,甚至包括现场的实际调研——水、电、煤,以及税务调查。而对于一些小额分散的信贷产品,比如信用卡代偿,这些由于量太大金额又很小,人工审核的话成本会太高。当然还有一些中间层面的,比如几千到几万元的借贷,这种情况当前更多还是互相并存的方式。

至于“未来互联网审核取代人工审核”这个命题,我认为更多取决于线上个人身份认证问题的解决。也就是说,目前线上没有真正能完全规避伪冒的风险,包括活体认证和手持拍照等措施,尤其是大金额,走线上途径还是有一定风险的,因此需要从信贷流程的各个维度来控制。

对于未来的风控我认为是往风险经营走,2个方向:一个是个人定制化,让每个人都有不同的风险识别,以及对应的信贷产品。另外是最优化的授信,实现平台的某个目标的最大化,比如收入最大化、利润最大化,此外还有市场占有最大化——对于低风险人群的容忍,这当然取决于一个平台的风险偏好,但这个风险偏好最大的基础是对风险的准确识别,这样相应的风险优化才是有效的。

雷锋网原创文章,网页转载请注明来自雷锋网,署名作者和原文链接。移动端转载授权,请联系雷锋网公众号,详情见转载须知

2018-06-10 16:40:13 sinat_26566137 阅读数 1642
  • SAS数据分析:从入门到企业实战

    随着中国数据行业的发展,SAS在包括金融、风控、医药、互联网等行业中应用得越来越广泛。SAS语言作为第四代语言,具有面向问题、非过程化、上手容易等特点,同时因为其功能、函数琐碎,难以建立系统化知识结构,导致SAS语言的进阶难度较大。 本课程采用视频讲解+现场编程+真实案例的教学模式,让你快速入门SAS。同时也安排老师答疑与课后习题精讲,让你建立SAS编程的系统化认知,在职场中更上一层楼。

    615 人正在学习 去看看 杨俊

大数据金融风控的预测案例
1)数据准备
a)离群点处理
总体上先对数据进行了解,做一些简单统计,对连续性数值与字符型数值的处理;
离群点的处理:
首先,离群点的定义:是与其他大多数样本的行为或特征分布不一致的那些点;
处理方式:方法1—首先统计每个样本下缺省的特征(列)数,然后进行排序,画图,拆分成训练集与测试集进行对比,这样可以保证训练集与测试集分布一致;(注:在一些模型的训练中,结果往往得不到想要的,有可能是训练集与测试集的样本有偏,即不是接近标准的正态分布,可以对样本取对数来避免此种情况——这样处理的更深层次的原因:机器学习的模型本就是基于大样本服从大数定律的规律建立的,因此,其能较好处理满足正态分布的数据);
b)缺失值处理
对于列类型为连续型数值,首先先判断该列特征数值是否有数值大小的意义,如果有,进一步判断如果该列特征缺失率约为10%,可考虑用中值等来填充,如果缺失值为60%及以上,需要结合数据业务知识,判断其重要性,如不重要则删除,如重要则考虑通过其他手段将其补全;对于列类型为字符型的取值,如果该列缺失率较多,可将“缺失”作为一种字符型取值进行填充,表示其缺失;如果较少,可以考虑取较多的那一类型填充;
c)针对字符型列类型的字母大小写统一的处理;
d)对空格的处理
e)对字符型数值取值较多(通常由于分的太细),导致一些取值样本量太少,训练的时候无法获取权重,这种情况可以将一些取值合并成较大类的字符型变量,例如将北京、上海等合并为一线城市,等等。

2)特征工程
例如:地理信息
a)特征列的增加(特征细粒度进一步划分)与组合(例如col1/col2,log(col1*col2)等方式组合)
考虑业务知识,地理信息考虑进去会比较有用;如果列中关于地理信息的字段不能突出其两者间的差别,可以考虑增加一些特征,例如城市的经纬度进去;相当于增加细粒度的特征,(前提是获取增加的特征诸如经纬度比较容易)
b)删除常变量
某些变量其标准差非常小,接近于常量,波动性不大,这与我们模型(例如决策树)是基于特征列波动性较大的特性进行划分类别的相违背,因此可以考虑将它删除。
c)针对字符型变量进行转逻辑处理
利用one-hot独热编码,pandas自带的get Dummy的函数即可实现。
3)特征选择
主要方法如下:
最大信息系数(MIC),皮尔逊相关系数,正则化(L1,L2),基于模型的特征排序(通常建议用这个方法——现在kaggle竞赛神器xgboost通常可以用来进行特征排序)
4)建模
多模型处理:可以分别建立多个模型:例如建立两种参数取值的xgb模型、GDBT模型、决策树模型;然后通过线性LR模型去拟合各个模型的输出关于最终样本数据的标签之间的回归关系,相当于将每个模型进行线性的组合,得到最终的结果;
5)样本不平衡的问题
针对样本不平衡问题:有两种方法解决——a)在训练模型设置类别权重,也叫代价敏感学习;
b)over sampleing 过采样技术,(推荐采用这个方法)

补充:对于交叉验证,其可以帮助我们选择最佳的模型超参数,选择K折,K的值依赖于我们想要多少量级的数量作为训练样本,70000的样本量 7折的话,相当于每次训练量级为10000

2016-09-11 21:39:35 scorpio3k 阅读数 5744
  • SAS数据分析:从入门到企业实战

    随着中国数据行业的发展,SAS在包括金融、风控、医药、互联网等行业中应用得越来越广泛。SAS语言作为第四代语言,具有面向问题、非过程化、上手容易等特点,同时因为其功能、函数琐碎,难以建立系统化知识结构,导致SAS语言的进阶难度较大。 本课程采用视频讲解+现场编程+真实案例的教学模式,让你快速入门SAS。同时也安排老师答疑与课后习题精讲,让你建立SAS编程的系统化认知,在职场中更上一层楼。

    615 人正在学习 去看看 杨俊

金融主要分为资产、负债和非息业务。现在的很多互联网金融产品也都是基于这些业务衍生出来的,例如三方支付、投资理财、P2P、消费信贷、分期、白条等等,而在这其中P2P、消费信贷、分期、白条等都属于信贷类业务,对于信贷类业务,其核心就是风险控制。


贷款的风险控制分为贷前,贷中,贷后三个阶段贷前调查是指贷款发放前银行对贷款申请人基本情况的调查,并对其是否符合贷款条件和可发放的贷款额度做出初步判断;贷中主要是贷款人的信息审查以及在贷款调查、审查意见的基础上,按授权权限进行审批,决定贷与不贷,贷多贷少以及贷款方式、期限和利率;贷后管理是指从贷款发放或其他信贷业务发生后直到本息收回或信用结束的全过程的信贷管理,包括贷款发放后,贷款人对借款人执行借款合同情况及借款人的经营情况进行追踪调查和检查,如果发现借款人未按规定用途使用贷款等造成贷款风险加大的情形,可提前收回贷款或采取相关保全措施。


贷前检查决定用户可以得到多少的授信以及是否具备贷款的偿还能力,包括用户的基本情况、财务状况、信用状况、经营情况、自身素质、担保情况等等,可以说贷前是大数据可以施展的重要环节,可以通过大数据获取用户更完善的征信信息,为授信提供依据。


通过大数据,可以对用户的每项调查进行打分,最后通过相关的运算得到用户总的信用得分,得分越高的用户越容易获取贷款。其实这也就是贷前检查中常用的打分卡技术(另外一个常用的方法是德国IPC技术)。


打分卡使用场合很多,包括营销评分、申请评分、行为评分、回款催收评分等等,按照具体的产品还可以分为信用卡、车贷、房贷、经营性贷款评分等等,还有按照不同地域的评分等等。根据不同的业务战略,打分卡的各项参数要做设定。

打分卡开发方法,包括逻辑回归、神经网络、决策树、马尔科夫链、生存分析等等,用的最多的,还是传统的逻辑回归,采用逻辑回归的打分卡开发基本流程大致为选取样本、定义好坏标准、寻找可用变量、选择变量、评分模型开发、设置取舍点(cutoff)六个过程,其主要工作量在前面几部。打分卡模型一般包含15个左右变量,这是由于变量之间一般都会有耦合,比如职务和职称,职务高的人一般职称也高,但不应该重复计算。如果变量太多,去掉变量间耦合会比较困难,也会使模型不稳定,某个变量的小小变化可能导致分值变化很大。

打分卡技术相对于其他技术,可以有效的减少人工干预,甚至做到自动放款,因此也是互联网金融中使用的比较多的方法。


大数据做征信,关键的一点还是数据要全、要广泛、要有深度,并通过相应的规则将分散的结构化和非结构化的数据转化为可用的授信评分。在此过程中,需要对不同的信息采用不同的模型进行计算,并在实际运行过程中不断的对征信模型进行优化



大数据在贷中和贷后主要是侧重于动态的进行授信再评估,对已经放款的贷款进行监控,当发现对贷款偿还产生影响时可以及时进行预警。对于银行而言,将贷款的还款能力分为五个等级,分别为正常、关注、次级、可疑、损失:

正常:正常是指借款人申请了贷款后,一直能够正常的还本付息,银行对借款人可以按期偿还贷款有充分的把握,贷款的损失率为零;

关注:关注类是指借款人目前有能力偿还本息,但有一些因素可能会干扰偿还贷款,银行判别贷款的损失率为百分之五;

次级:次级表示借款人的还款能力出现了明显的问题,依靠其目前的收入情况无法正行还款,需要通过抵押或者融资的方式才能还清贷款。贷款损失率在百分之三十到百分之五十之间;

可疑:可疑表示借款人已无法偿还贷款,就算是通过抵押或者担保的方式还款也会造成一定的损失。贷款的损失率在百分之五十到百分之七十五之间;

损失:损失是指借款人无论采取何种方式都无法偿还贷款。贷款损失率达到了百分之七十五到百分之一百之间。


大数据风控是一个广义词和一个时代的热词,量化风险控 制就是利用数据分析和模型进行风险评估,依据评估分数,预测还款人的还款能力、还款意愿、以及欺诈风险。

大数据主要是指全量数据和用户行为数据,目前领先的数据风控或者大数据风控使用的还是小数据,使用的是围绕客户周围的信用数据,这些数据的特点是和用户的信用情况高度相关。之所以叫做大数据风控,完全是一个是时代用语,确切地说就是利用数据实施科学风控。



(关注微信公众号,获取更多内容)



2017-08-01 16:27:00 weixin_34198881 阅读数 17
  • SAS数据分析:从入门到企业实战

    随着中国数据行业的发展,SAS在包括金融、风控、医药、互联网等行业中应用得越来越广泛。SAS语言作为第四代语言,具有面向问题、非过程化、上手容易等特点,同时因为其功能、函数琐碎,难以建立系统化知识结构,导致SAS语言的进阶难度较大。 本课程采用视频讲解+现场编程+真实案例的教学模式,让你快速入门SAS。同时也安排老师答疑与课后习题精讲,让你建立SAS编程的系统化认知,在职场中更上一层楼。

    615 人正在学习 去看看 杨俊

http://mp.weixin.qq.com/s/VYOpB761y4RLLU-0wL68fg

2016年,大数据就在一片喧嚣的气氛中过去。之所以说“喧嚣”,是从2015年开始的大数据热在不断地继续升温,加剧。凡事必须跟大数据扯上点关系才算时髦,才算符合时代潮流

做个最普通不过的统计分析报告,也要冠以“大数据XX报告”。“大数据征信”,“大数据金融风控”,“大数据XX”更是比比皆是。在我看来,真正属于纯粹大数据的项目并不多,多数都在混淆概念。

个人认为,大数据的高潮并未到来。大数据在今天,也并不像大家听到的那么美好。尽管它的未来很美好,但今天,它还很不“美好”。

一方面,在过去的一年里,大数据确实如我年初所料,正在朝各行业纵深发展,市场在加速,极有可能是一个拐点;另一方面,市场还处于一个量变到质变的过程中,发展的速度恐怕“不尽如人意”。

这里所说的“不尽如人意”并不是贬义,不是由于什么人为的失误导致产业的发展缓慢,而是一个新兴市场发展起来所必须的过程。这一过程只是不如一些投资方所预期那样呈现“爆发性”的增长罢了。

下面,我将分几个部分逐一展开我对2016年大数据发展的回顾以及对2017年的一些展望和建议。因为个人在过去的一年里主要做的是大数据在金融领域以及网约车反刷单领域的业务,所以对市场的认知仅限于这两个领域,文中的观点可能并不适用其他领域的,欢迎批评指正。

格局

进入一个市场,首先要明白自己扮演的身份是什么,想做什么事儿,赚哪块儿钱。大数据经过了过去几年的发展,已经逐渐形成了一定的产业格局。在一些环节上,已经尘埃落定,再无大的机会。

所以,对于每一个从业者来说,如果你还没有在一个环节,一个领域上占据霸主地位的话,最好还是先想清楚,你要挣哪份钱。

年初的时候,我曾经写过一篇关于大数据产业格局的文章。《大数据跑马圈地的时代已过 逐渐清晰的产业格局将上演“厮杀”》按照从数据源到客户之间的先后次序,将大数据产业链划分成四个角色,即数据交易商,数据优化商,算法提供商和数据解决方案提供商。这四种角色,也就是我们多数大数据从业公司在市场中的身份。

  1. 数据交换商,即以数据本身或者数据的粗加工产品作为交易的对象,以赚取数据产品的差价为生意模型。
  2. 数据的优化商,是指在数据交换商和客户之间,还存在比较大的数据清洗、数据整理方面的差距,而数据交换商又没有这方面的能力交付,就需要专业的第三方团队来为客户服务。
  3. 算法提供商,就是以数据建模为擅长,可以依靠算法输出赚取服务费为商业模型。
  4. 数据解决方案提供商。前面几种角色都是客户清楚地知道自己要什么,通过什么样的数据,什么样的处理办法能解决他们的什么问题,能解决到什么程度。但是在我近几年的工作中,发现在客户和数据源之间,具有非常大的鸿沟。用户既不知道用什么样的数据,用什么样的数据处理办法,来解决他们的问题。因为他根本不知道现在市场上都有哪些外部数据。而市场上号称大数据的公司有很多,但真正能给他们提供端到端的解决方案的却很少。这就是我看到的很有意思的一个现象,每家成功的大数据公司的老板基本都是大销售,销售人才奇缺。这让我想起二十多年前,系统集成行业在国内刚兴起的时候,几乎与现在的景象别无二致。

客户对这一新兴的技术还准备不足。而且,比以前的系统集成更不好掌握的是,多数客户都没接触过外部数据本身。所以,势必存在一个阶段,市场上需要有这样一支队伍,弥补数据和客户需求之间的空白。

这就是数据的解决方案提供商,也可以叫做数据的系统集成商。只不过,这次集成的不是别的,而是“数据”。

经过了2016年的发展,我对年初的大数据产业链判断应该有所修正。目前的产业链只有两个半角色,即数据的平台服务提供商,数据解决方案提供商以及半个算法提供商。

之所以说算法提供商算半个,是因为出于生存的压力,算法提供商不得不去跟行业接轨,贴近行业,扮演一部分解决方案提供商的角色,而放弃了最初自己的独立算法提供商的角色。

数据平台服务提供商,融合了数据交换商和数据优化商的角色。他们既拥有庞大的数据生产能力,也拥有庞大的数据处理团队。

对后向,他们建成了数据池的体系,不断地吸收新的数据源来扩充自身的覆盖范围和种类;对前向,他们还建成了类似于中间件的数据服务平台,支持很多数据解决方案提供商来做各行业的解决方案。最终形成“生态链”,使数据完成闭环,并流动起来。

这类企业一般都发展了3-5年,得到了资本市场的不断支持,现在格局已定,对后来者没有机会了。

数据的解决方案提供商,目前应该已经完成了第一轮的角逐。不管是已经做了一年,还是两年,对后来者还有些机会。这类企业,也多以中小规模为主。

他们的特点是专业,既知道国内数据源的状况,也做过大量的数据处理项目,更贴近市场,了解客户的需求。知道使用什么样的数据,用什么样的数据处理方法来帮助用户解决什么样的问题。他们一般都会锁定一到两个行业,深度耕耘。

目前应该已经完成了跟行业的第一轮接触,形成了初步的解决方案和产品,正在向纵深发展。我们团队就属于这类。

目前的大数据产业格局并没有如我年初预料的那样细分。这说明市场还处于早期,没有细分的必要。一方面是市场没有那么多机会可以让不同角色的人都能“吃饱”;另一方面也看到,市场没有那么多人才可以允许细分。

现状

如前面所说,这一年虽然很热闹,但还没有质的飞跃。

从数据的积累或者说成熟度上来看,依然很不乐观。如果你在这一年做过“征信”、“反欺诈”、“金融风控模型”中的任何一项,你会发现“数到用时方恨少”。

掌握单维度数据的很多,但能够掌握足够足够维度数据的很少。数据散乱在不同的角落,打通起来依然困难。再加上有些不良商家,在数据中掺杂假数据,就使得这一任务雪上加霜。这也是这一领域欧美与国内的最大不同。

数据源也如我年初分析的那样,正在越来越汇聚到几家最大的数据平台服务提供商那里,只能寄希望于这一动作早日完成,并且他们愿意向第三方开放。

作为拥有很多优质数据源的主体之一—政府,并没有在数据开放方面走多远。虽然很多地方都在大张旗鼓地搞大数据交易中心,但多数都是雷声大雨点小。

在平台上交易的大多还是第三方数据,而非政府各部门所掌握的数据。未来,这一大块数据的开放,也将会是推动国内大数据市场成熟的一个很有意义的标志。有比较大的想象空间。

个人认为,大数据进入应用阶段,底层基础的数据以及数据优化的市场,门槛其实很高,垄断在几个巨头手里(不一定只有BAT,还有很多移动互联网崛起的大数据公司,如Talking Data,极推等),格局已基本确定,跟大多数公司是没有关系的。一些只掌握了些网上爬来的单维度的数据,如果没想清楚拿来干什么,还是趁早洗洗睡吧。

在大数据的市场里,到目前没有发现多少爆发性增长的神话。大数据是一门技术,它跟典型的互联网项目不同。它不但可以应用到互联网上,而且可以应用到很多传统行业上。

应用到互联网上的情况,多数为企业自身的数据团队,用自己业务产生的数据,进行数据处理,再反哺回业务本身。目前只有为数不多的第三方数据团队,为企业来提供此项服务,如GrowthIO。无论是自己用,还是第三方提供,均还未看到爆发性的增长。

应用到传统行业,就更是慢节奏了。除去行业本身甲方的慢节奏不说,改变一个行业本身就不是短期的事情。就拿很多人喊了一年的所谓“大数据征信“,”大数据风控模型“为例。

首先,改变一个行业的流程,尤其是改变一个几十年沉淀下来的体系,绝不是一两年的功夫。如果想要彻底改变”大数据征信“的局面,让它能成为现实,那么首先要打破原有的FICO建立了几十年的统计模型体系,与风控形成闭环,并且达到甚至超过原有体系的效果。在此之前,还是现实点吧。不是每一个人都有机会改变世界。

大市场需要大驱动,金融风控的市场很大,很多其他行业的市场也很大,但是需要很长的周期去重新建立一套体系,并不断使之成熟。否则,不要轻言革命,尤其在金融领域。

大数据在金融领域的今天,还只能唱配角。不可否认,大数据的引入,给金融领域带来了一股新风。它可以提高金融机构数据的时效性和准确性;同时还可以利用第三方的外部数据来为金融机构有效地提供反欺诈等服务;在催收方面,也可以非常有效地完成失联修复。但,在金融机构的核心业务贷前审批和贷后管理,仍然以传统的统计模型为主。

消费金融是个特例,因为消费金融的特殊性,单笔的交易金额小。对于消费金融而言,欺诈风险大于金融风险。

这就是我目前所看到的数据以及数据应用的现状(当然还是局限在金融行业为主,其他领域没做过,不了解)。有局部亮点,但还没有本质的变化,还处于一个量变到质变的过程中。这也是一个行业发展的必然规律。

模式

在大数据的企业里面,大致我看到三种商业模式, 2C,2B,B2B2C。2C见得少,除了印象中的无线广告平台,互联网精准投放平台,没想起来其他的案例。目前还在奋战的企业主要多以2B和B2B2C 为主。

2B和B2B2C看起来一样,我也曾经考虑过B2B2C是否是一个伪命题。但仔细思考过后,觉得还是不一样。这里面最大的区别在于中间那个B在B2C环节中干预的比重。

比如说,我们去年曾经服务过的一个行业的客户,其反欺诈的部分业务外包给我们,我们成了他为客户提供2C业务的一部分。这样我其实是跟它们捆绑在一起,伴随它的业务增长而增长的。换句话说,如果它得业务呈现一个爆发式的增长,那么我的业务就也有爆发性的增长。

反观2B业务,大数据企业提供的服务,基本被终结在甲方本身。而甲方再去独立地为它的2C用户提供服务。这一模型最典型的就是银行。可以看到,很多一线的大数据公司基本都把注意力集中在这里。没办法,既然找不到爆发性增长的路子,还是做确定性的市场比较好。

2B最大的优点就是确定性,有因必有果。但同时,做2B的市场也有一个最大的弊病,在开始的时候不会有像互联网2C项目那种井喷式爆发增长的可能。这也是在过去的一年里,大数据的发展似乎不“尽如人意”的主要原因。但我认为,这是一个市场良性发展的必然。宝剑锋自磨砺开,梅花香自苦寒来。

按照以往我做行业的经验,2B的市场会以3、5、8年的时间周期呈现阶段性的大发展。

我们正在经历一个大的变革,自然也要付出更多的努力。

方向

在过去的一年里,不管2B也好,B2B2C也好,不可否认的是,客户的数据思维正在建立。虽然市场上很多人分不清楚什么是典型的传统数据业务,什么是典型的大数据业务。但起码,现在越来越多的人开始拿数据来说话。

没有客户了,要用精准营销平台找到用户,而不是简单地拿大炮轰蚊子了;有用户了,要用数据来为用户进行画像,更多地了解用户,为用户提供更优质的服务,要用数据提高转化率;在我们下决策之前,也要看看数据统计分析报告了。

总之,我们做业务有了数据的支持,越来越理性了。数据已经渗透到行业的各个环节。

从银行的主要业务来讲,分为“申请审批放款贷后管理催收”五个环节。这五个环节,除了申请和放款两个操作性动作跟数据无关之外,其余三个核心环节均跟数据有着很强的关联性。

同样,保险也是如此。从精准营销到核保、定价,数据的身影都无处不在。

我们的行业客户,正在用他们的数据思维,去重构,优化他们的业务。甚至,如果没有数据的支撑,他们都无法推出很多新的业务。一点不夸张地说,数据科技是他们的未来。

我们正在经历一个IT到DT的变革时代。数据思维已然形成,数据已经渗透到各个环节,各个角落。数据时代的潮流是不可逆转的。

人工智能也罢,机器学习也罢,都是这一潮流中的一个个弄潮儿。现在才只是开始。这一时代的到来绝非昙花一现,而是会持续未来十数年的一次盛宴。互联网可能是进入了下半场,可DT时代才刚刚开始。

清楚了这次浪潮的性质以及量级,再重新审视我们今天所做的事情,是否显得过于急躁了呢?

不管是AI,还是deep learning,任何一项先进的技术,都是为客户服务的,而不是束之高阁的,孤芳自赏的艺术品。是骡子是马拉出来溜。好与不好不是科学家说了算,而是客户说的算,是效果说了算,是为客户创造的价值说了算!

不用说大数据如何变现,大数据什么什么还看不清楚。今天,我们已经可以利用大数据为我们的客户解决他们遇到的问题,创造价值。路在脚下,多一些行动,少一些浮躁。

所谓的核心竞争力,就是你在一个正确的方向上比别人走得时间更长,走得更远。

挑战

在相当长的一段时间里,数据还是各大数据公司面临最大的难题。没有足够维度的数据,没有足够数量的数据,没有足够质量的数据,做起应用来依然会感觉巧妇难为无米之炊。

目前的大量数据依然把持在几家巨头手里。又缺乏一个机制,让他们放心地将自己的全量优质数据去与别人打通。这就造成了数据的一个个“孤岛”,也阻碍了数据的横向流动。数据只能在内部循环,形成纵向流动。

还有一大部分高质量数据掌握在政府手里或者行业手里。这部分数据的不开放,也制约了数据行业发展的速度。

这一问题的解决就得看行业管理者如何来制定行业规则,促进几大数据平台服务提供商的数据开放了。当然,还有未来几年政府数据的开放进程。

再有一个比较明显的挑战就是人才。目前大数据人才的供应显然跟不上市场的需求,也造成了中短期的人才匮乏的局面。但随着行业的进一步发展,市场格局的逐渐清晰,这一局面应该在一年后得到缓解。

一方面行业将会重新洗牌,优胜劣汰;另一方面,这种供需的极大不平衡造成的短期人力资源价格的非理性上涨,势必会造成更多的新人加入到这个队伍中来。过去的很多行业都是如此,相信大数据也会如此。

最后,当然还有诸多技术方面的挑战。这里我就不啰嗦了。我认为相比前两个挑战,这个还会往后排一些;而且,也会有更多更专业的人来阐述。

大数据,正在处于一个量变到质变的过程中。我们所能做的,就是脚踏实地去把眼前的路走好,走扎实;去不断地在数据应用的道路上践行,积累经验,静静地等待质变的到来。

把今天的事儿做到极致,下一步自然会来到眼前。


本文作者:中关村老李

来源:51CTO

2017-07-04 13:39:00 weixin_34293902 阅读数 10
  • SAS数据分析:从入门到企业实战

    随着中国数据行业的发展,SAS在包括金融、风控、医药、互联网等行业中应用得越来越广泛。SAS语言作为第四代语言,具有面向问题、非过程化、上手容易等特点,同时因为其功能、函数琐碎,难以建立系统化知识结构,导致SAS语言的进阶难度较大。 本课程采用视频讲解+现场编程+真实案例的教学模式,让你快速入门SAS。同时也安排老师答疑与课后习题精讲,让你建立SAS编程的系统化认知,在职场中更上一层楼。

    615 人正在学习 去看看 杨俊

重庆市国资委今天通报:重庆银行日前联合成都数联铭品科技公司打造大数据金融风控平台,破解小微企业融资难题。

重庆银行联合成都数联铭品科技公司打造的大数据金融风控平台“Holo Cfedit”近日成功上线,凭借大数据分析与建模技术,实现对小微企业在线信用 评估,打破小微企业有效信息少、银行很难对其进行信用评估这道融资瓶颈。平台推出“数e融”系列小微企业贷款产品,小微企业无需任何担保,仅通过信用评分 即可获得信用贷款。平台将贷款申请、审核、放款等流程搬到线上,实现了针对小微企业贷款的“纯线上”信贷操作。





====================================分割线================================


本文转自d1net(转载)

风控建模

博文 来自: sunyaowu315
没有更多推荐了,返回首页