2008-08-27 20:57:00 yunfeizhong 阅读数 5570
  • T型总裁决策+大数据

    大数据时代,T型总裁如何发挥大数据的威力,大幅优化决策的质量,降低决策风险? 君不见,股市投资之神 巴菲特在进行投资评估时,基于详尽的数据分析,删除高风险的方案,实践他〈不打没把握的仗〉的原则,大幅降低长期投资风险。这是以大数据来检验长期决策的模式,有效补捉未来机会,降低风险。

    7281 人正在学习 去看看 高煥堂
 

【案例名称】药物选择决策支持

【案例类型】数据挖掘

【所属行业】医药卫生

【案例版本】1.0

【完成日期】200372

【应用软件】Clementine 7.2英文版

【遵循标准】CRISPDM

【案例数据来源】Clementine 7.2 Demo自带数据

【案例应用模型】神经网络、C5.0Logistic回归

【案例制作】钟云飞

【案例用途】通过案例实现以下目的:

1、  CRISPDM的标准流程及在解决具体业务问题过程中的应用;

2、  理解如何提高数据挖掘模型的效果;

3、  理解结果发布的几种方式。

【案例简要描述】

针对病人的病情和体质情况,医生往往需要采用不同的用药。本案例通过数据挖掘,对医院积累的历史数据进行分析,确定病人选择何种药物对治疗疾病最为有效。并开发了相应的药物选择决策支持系统的应用系统。

案例正文

【背景介绍】

       XX病是一种常见的疾病,目前有5种药物可以对其治疗,分别是——ABCXY。不同的药物对病人有不同的疗效。历史上,医院往往根据医生的经验去判断针对特定的病人应该选择何种药物。但是由于新医生的加入,这种仅仅靠经验判断的做法造成了很多误诊。

       该医院有比较完善的病例留存,为了改变以上局面,也为了更好的利用历史数据和专家经验,该医院决定通过数据挖掘技术对历史数据进行分析研究,并期望能够建立一套有效的药物选择决策支持系统。

【数据说明】

       目前有历史病例数据1200条,咨询专家意见,我们提取了其中影响选择药物的若干个变量记入数据库,它们是年龄、性别、血压、胆固醇含量、钠含量、钾含量,最后一个变量是我们需要确定的选择药物,数据存贮在Microsoft Access数据库中。

【数据挖掘过程】

1、 商业理解

在这个阶段我们主要需要描述清楚业务问题,并对我们手头拥有的资源有一个非常清晰的认识。在这个案例中,我们需要根据病人的个人情况和身体特征来确定何种药物对它最为合适。由于问题比较简单,我们的商业理解也比较简单。

2、 数据理解

数据理解阶段用来完成对数据质量、数据之间的基本关系进行探索性分析等项工作。在这个阶段,我们对历史数据中的1200条数据进行图形观察,初步观察病人的情况和身体特征是否与选择药物关系明显。数据流图见图1 

1:数据理解

下面是产生的一些典型图形,图形解释略。

2:对数据的初步探索性分析


3、 数据准备

数据准备主要完成对不同的数据源的整合,并且对数据进行适当的变换,使之适合数据挖掘的需要,对于特定的模型,需要把原始数据集合拆分成训练数据集和检验数据集也在这个步骤中完成。

对于本案例来说,由于数据源只有一个,并且数据格式也相对单一简单,我们在数据准备中主要完成对原始数据集的拆分,从而用训练数据集建立模型,用检验数据集对模型的效果进行评估。

Clementine中,对数据集的拆分,是通过引入一个中间变量来完成的。在本案例中,我们把全部1200条数据中的2/3左右(800左右)作为训练数据集,把1/3左右(400左右)作为检验数据集。我们引入了一个二分变量——拆分变量,这个二分变量对应1200条原始数据有2/3左右为“真”(T),1/3左右为“假”(F)。我们挑出那些拆分变量值取“真”(T)的记录作为训练数据集,那些拆分变量值取“假”(F)的记录作为检验数据集。实现该过程的数据流见图3

 

3:数据准备

4、 模型建立和评估

在模型建立阶段,我们将逐步建立和调整模型,并对如何提高模型的预测效果进行尝试。

(1)       建立最简单的模型。对于训练数据集,我们首先把病人的年龄、性别、血压、胆固醇含量、钠含量、钾含量等不经过任何处理,全部作为预测选择药物的输入变量,而把选择药物作为待预测变量(输出变量)。数据流图见图4,我们建立了神经网络、C5.0Logistic回归三个模型。

 

4:药物选择决策支持模型1

接下来我们用检验数据集对模型进行检验,数据流图见图5。模型检验结果见图6。从检验结果我们可以看出,Logistic模型的评估效果最好,达到了96.21%

 

 

5:药物选择决策支持模型1检验

 


6:药物选择决策支持模型1检验结果

 

讨论——如何提高模型的效果:从模型检验中我们可以看出,三个模型中可能有不一致的情况,这就使得我们有一种思路,即我们在发布模型的时候,可以考虑把那些三个模型预测一致的才作为预测,而把三者预测不一致的作为待判记录随后进行深入的分析,这样我们就使得模型的精度提高到了98.29%,但是作为牺牲,我们也会约有12%左右的病人是无法判断的,需要我们对记录做进一步的研究。

(2)       为了更好的建立和调整模型,我们对业务进行深入了解,引入医生的业务经验。根据医生对医学理论的讨论和过去实践经验的积累,他们认为人体中的钠含量和钾含量对病人选择何种药物的作用并不是特别明显,但是他们的比例却是影响选择何种药物的一个关键因素,所以在我们下面建立的模型中,我们生成新变量——钠钾比例,而剔除钠含量和钾含量两个变量。数据流图见图7,模型我们仍旧采用神经网络,C5.0Logistic回归三种模型。

 

7:药物选择决策支持模型2

类似(1),我们对模型效果进行检验,检验数据流和检验结果分别如图8和图9所示。

 

8:药物选择决策支持模型2检验

 

9:药物选择决策支持模型2检验结果

从结果中,我们可以看出,随着我们业务经验的引入,我们的模型效果有了显著的提高,并且我们选择模型也发生了变化。精度由原来的Logistic回归最优96.21%提高到了C5.0最优99.75%

5、 模型发布

模型建立是为了应用,我们前面的全部工作都在于我们建立的模型能够被最终的业务人员所使用,假设我们由以下10个病人的资料数据,需要根据他们的情况判断使用什么药物最好。

1:病人资料

年龄

性别

血压

胆固醇

钠含量

钾含量

25

F

HIGH

HIGH

0.675996

0.074834

17

F

HIGH

HIGH

0.539756

0.030081

23

M

LOW

NORMAL

0.556453

0.03618

24

M

NORMAL

NORMAL

0.845236

0.055498

74

F

LOW

HIGH

0.849624

0.076902

40

F

NORMAL

HIGH

0.67683

0.049634

32

F

HIGH

HIGH

0.581664

0.024803

70

M

LOW

HIGH

0.716359

0.036936

64

M

HIGH

NORMAL

0.640789

0.078302

45

M

HIGH

HIGH

0.664105

0.047819

该病人资料也被我们存放在Access数据库中。我们可以考虑以下三种方式对我们的模型进行发布供业务人员(医生)使用。

(1)       直接写报告的方式,通过HTML展示。数据流图10,结果展示实际效果如图11

 

10:模型发布数据流1

 

11:报告方式发布结果示例

(2)       把选择药物直接写回数据库。数据流如图12,结果大致情形如图13

 

12:模型发布数据流2

 

13:模型发布—把结果写回数据库

(3)       通过Clementine Solution Publisher结合Visual C++开发应用系统界面,业务人员(医生)可以直接输入病人资料,实时的得到药物推荐。发布数据流见图14,系统界面如图15

 

14:模型发布数据流3

 

15:模型发布——开发应用系统

2018-08-14 15:05:45 qq_41185868 阅读数 9514
  • T型总裁决策+大数据

    大数据时代,T型总裁如何发挥大数据的威力,大幅优化决策的质量,降低决策风险? 君不见,股市投资之神 巴菲特在进行投资评估时,基于详尽的数据分析,删除高风险的方案,实践他〈不打没把握的仗〉的原则,大幅降低长期投资风险。这是以大数据来检验长期决策的模式,有效补捉未来机会,降低风险。

    7281 人正在学习 去看看 高煥堂

ML之LoR:利用LoR二分类之非线性决策算法案例应用之划分正负样本

 

 

目录

输出结果

实现代码


 

 

 

输出结果

1、对数据集进行特征映射
2、正则化 → 正则化 → 过度正则化

 

实现代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from scipy.optimize import minimize

#加正则化项的损失函数
def costFunctionReg(theta, reg, *args):
    m = y.size
    h = sigmoid(XX.dot(theta))
    
    J = -1*(1/m)*(np.log(h).T.dot(y)+np.log(1-h).T.dot(1-y)) + (reg/(2*m))*np.sum(np.square(theta[1:]))
    
    if np.isnan(J[0]):
        return(np.inf)
    return(J[0])

 

 

 

 

 

 

 

 

 

2019-06-29 14:22:37 weixin_44400573 阅读数 119
  • T型总裁决策+大数据

    大数据时代,T型总裁如何发挥大数据的威力,大幅优化决策的质量,降低决策风险? 君不见,股市投资之神 巴菲特在进行投资评估时,基于详尽的数据分析,删除高风险的方案,实践他〈不打没把握的仗〉的原则,大幅降低长期投资风险。这是以大数据来检验长期决策的模式,有效补捉未来机会,降低风险。

    7281 人正在学习 去看看 高煥堂

一、决策树

  • 决策树(Desicision Tree)是一种基本的分类与回归方法。决策树呈现树形结构,它可以认为是if-then规则的集合,可以认为是定义在特征空间与类空间上的条件概率分布。
  • 学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型
  • 预测时,对新的数据利用决策树模型进行分类。
  • 决策树学习通常包括3个步骤:
    · 特征选择
    · 决策树的生成
    · 决策树的修剪
  • 决策树的算法主要包括三大算法:
    · Quin 1986年提出的ID3.0算法
    · Quin 1993年提出的C4.5算法
    · Breiman等人 1984年提出的CART算法
    在这里插入图片描述
    下面将分别介绍这三大算法。

1.1 ID3算法

1.1.1 ID3决策树算法的过程

· ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
在这里插入图片描述
在这里插入图片描述

  • 具体方法是:
    · 从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子结点;
    · 再对子结点递归地调用以上方法,构建决策树;
    · 直到所有特征的信息增益均很小或没有特征可以选择为止,最后得到一个决策树。
    · ID3相当于用极大似然法进行概率选择模型。
ID3.0算法的优缺点

在这里插入图片描述

以上ID3.0算法生成树的过程,涉及到核心准则就是信息增益,那么什么是信息增益呢?

1.1.2 信息增益

  • 定义:特征A对训练数据集DD的信息增益g(D,A)g(D,A),定义为集合DD的经验熵H(D)H(D)与特征AA给定条件下DD的经验条件熵H(DA)H(D|A)之差,即
    g(D,A)=H(D)H(D,A)g(D,A) = H(D)-H(D,A)
  • 一般的,熵H(Y)H(Y)与条件熵H(YX)H(Y|X)之差称为互信息(mutual information)
  • 决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
  • 那么什么是熵与条件熵呢

· 在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设XX是一个取有限个值得离散随机变量,其概率分布为
P(X=Xi)=pi,i=1,2,...,n P(X=X_i)=p_i, i = 1,2,...,n
· 则随机变量X的熵的定义为
H(X)=i=1npilogpi H(X) = -\sum^{n}_{i=1}p_ilogp_i

  • pi=0p_i=0,则定义0log0=00log0=0. 通常,对数以2为底或以e为底(自然对数)。
  • 熵只依赖于XX的分不,而与XX的取值无关。
  • 熵值越大,其分布的不确定性就越大。
  • 有句话说的好,自然界所有的事物都是一个熵增的过程。【由有序转化为无序】
    在这里插入图片描述
  • p=0.5p=0.5时,熵取值最大,随机变量的不确定性最大。

条件熵

  • 设有随机变量(X,Y)(X,Y),其联合概率分布为P(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,mP(X=x_i,Y=y_j)=p_{ij } , i = 1,2,...,n; j = 1,2,...,m
  • 条件熵H(YX)H(Y|X)表示在已知随机变量XX的条件下随机变量YY的不确定性。
  • 随机变量XX给定的条件下随机变量YY的条件熵(conditional entropy) H(YX)H(Y|X),定义为XX给定条件下YY的条件概率分布的熵对XX的数学期望H(YX)=i=1npiH(YX=xi) H(Y|X)=\sum^{n}_{i=1}p_iH(Y|X=x_i)
  • 这里pi=P(X=xi),i=1,2,...,np_i = P(X=x_i), i=1,2,...,n
  • 当熵和条件熵的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy)。
  • 信息增益 information gain表示得知特征XX的信息而使得类Y的信息的不确定性减少的程度。

在这里插入图片描述

信息增益算法

在这里插入图片描述

  • k=1kCk=D \sum^{k}_{k=1}|C_k|=|D|
  • Ck|C_k|相加等于D|D|
  • 特征AA的取值累加Di|D_i|D|D|
  • i=1nDi=D\sum^{n}_{i=1}|D_i|=|D|
    1、计算数据集DD的经验熵H(D)H(D)
    在这里插入图片描述
    2、计算特征AA对数据集DD的经验条件熵H(DA)H(D|A)
    在这里插入图片描述
    3、计算信息增益
    在这里插入图片描述
    4、计算信息增益比
    信息增益比:特征AA对训练数据集DD的信息增益比gR(D,A)g_R(D,A)定义为其信息增益g(D,A)g(D,A)与训练数据集DD关于特征AA的值的熵HA(D)H_A(D)之比
    gR(D,A)=g(D,A)/HA(D)g_R(D,A)=g(D,A)/H_A(D)
    gR(D,A)=g(D,A)HA(D)g_R(D,A)={\frac{g(D,A)}{H_A(D)}}
    其中,HA(D)=i=1nDiDlog2DiDH_A(D)=-\sum^{n}_{i=1}{\frac{|D_i|}{|D|}}log_2{\frac{|D_i|}{|D|}}
    nn是特征AA取值的个数

案例计算

在这里插入图片描述

计算信息增益

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

计算信息增益比

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.2 C4.5算法

基于信息增益比来计算结点【树结构】
在这里插入图片描述

  • 信息增益比的计算过程在ID3.0算法中有提到,基于信息增益的计算过程。
    在这里插入图片描述
    在这里插入图片描述

1.3 CART

分类与回归树(Classification and Regression Tree,CART)是应用广泛的决策树学习方法。
二叉树
在这里插入图片描述

1.3.1 回归决策树生成

在这里插入图片描述

回归树的简单计算过程,可参考该链接

https://mp.weixin.qq.com/s/k8jj4meb3DKYCGUzaOGDAg

1.3.2 分类树的生成【基尼指数最小】

在这里插入图片描述
在这里插入图片描述

  • 基尼指数越大,样本集合的不确定性越大,这一点与熵值一样。
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    • CART回归树的计算过程
    • 在这里插入图片描述
  • 由于CART生成的是二叉树,所以特征选择时,只有是与否两种选择
    在这里插入图片描述

  • Gini(D,A1=1)Gini(D,A_1=1)分为是青年,不是青年

  • Gini(D,A1=2)Gini(D,A_1=2)分为是中年,不是中年

  • Gini(D,A1=3)Gini(D,A_1=3)分为是老年,不是老年
    在这里插入图片描述

  • CART分类树的生成决策树的过程和ID3的决策树生成过程一样。

参考文献:
[1]李航.统计学习方法
[2]决策树计算:https://mp.weixin.qq.com/s/k8jj4meb3DKYCGUzaOGDAg

2019-07-05 20:59:54 dsdaasaaa 阅读数 2929
  • T型总裁决策+大数据

    大数据时代,T型总裁如何发挥大数据的威力,大幅优化决策的质量,降低决策风险? 君不见,股市投资之神 巴菲特在进行投资评估时,基于详尽的数据分析,删除高风险的方案,实践他〈不打没把握的仗〉的原则,大幅降低长期投资风险。这是以大数据来检验长期决策的模式,有效补捉未来机会,降低风险。

    7281 人正在学习 去看看 高煥堂

如果能够引入外部数据,还可以进一步加快数据价值的变现。外部数据中比较好的有社交数据、电商交易数据、移动大数据、运营商数据、工商司法数据、公安数据、教育数据和银联交易数据等。

大数据在金融行业的应用范围较广,典型的案例有花旗银行利用 IBM 沃森电脑为财富管理客户推荐产品,并预测未来计算机推荐理财的市场将超过银行专业理财师;摩根大通银行利用决策树技术,降低了不良贷款率,转化了提前还款客户,一年为摩根大通银行增加了 6 亿美金的利润。

从投资结构上来看,银行将会成为金融类企业中的重要部分,证券和保险分列第二和第三位,如图 1 所示。下面将分别介绍银行、证券和保险行业的大数据应用情况。

中国金融行业大数据应用投资结构
图 1  中国金融行业大数据应用投资结构

银行大数据应用场景

比较典型的银行的大数据应用场景集中在数据库营销、用户经营、数据风控、产品设计和决策支持等。目前来讲,大数据在银行的商业应用还是以其自身的交易数据和客户数据为主,外部数据为辅以描述性数据分析为主,预测性数据建模为辅,以经营客户为主,经营产品为辅。

银行的数据按类型可以分为交易数据、客户数据、信用数据、资产数据等 4 大类。银行数据大部分是结构化数据,具有很强的金融属性,都存储在传统关系型数据库和数据仓库中,通过数据挖掘可分析出其中的一些具有商业价值的隐藏在交易数据之中的知识。

国内不少银行已经开始尝试通过大数据来驱动业务运营,如中信银行信用卡中心使用大数据技术实现了实时营销,光大银行建立了社交网络信息数据库,招商银行则利用大数据发展小微贷款。如图 2 所示,银行大数据应用可以分为 4 大方面:客户画像、精准营销、风险管控、运营优化。

银行大数据应用的 4 大方面
图 2  银行大数据应用的 4 大方面

1)客户画像

客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力、兴趣、风险偏好等数据;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据,以及相关产业链的上下游等数据。需要指出银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果,甚至可能得出错误的结论。

例如,如果某位信用卡客户月均刷卡 8 次,平均每次刷卡金额 800 元,平均每年打 4 次客服电话,从未有过投诉,如果按照传统的数据分析,该客户是一位满意度较高,流失风险较低的客户,但是,如果看到该客户的微博,得到的真实情况是,工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户的流失风险较高。所以银行不仅仅要考虑银行自身业务所采集到的数据,更应整合外部更多的数据,以扩展对客户的了解。

① 客户在社交媒体上的行为数据

通过打通银行内部数据和外部社会化的数据,可以获得更为完整的客户画像,从而进行更为精准的营销和管理,例如,光大银行建立了社交网络信息数据库。

② 客户在电商网站的交易数据

通过客户在电商网站上的交易数据就可以了解客户的购买能力和购买习惯,从而帮助银行评判客户的信贷能力。例如,建设银行将自己的电子商务平台和信贷业务结合起来,阿里金融根据用户过去的信用即可为阿里巴巴用户提供无抵押贷款。

③ 企业客户的产业链的上下游的数据

如果银行掌握了企业所在的产业链的上下游的数据,则可以更好地掌握企业的外部环境发展情况,从而预测企业未来的状况。

④ 其他有利于扩展银行对客户兴趣爱好的数据

还有其他有利于扩展银行对客户兴趣爱好的数据,如网络广告界目前正在兴起的 DMP 数据平台的互联网用户行为数据。

2)精准营销

在客户画像的基础上,银行可以有效地开展精准营销

① 实时营销

实时营销是根据客户的实时状态来进行营销的,例如,根据客户当时的所在地、客户最近一次消费等信息有针对性地进行营销。当某客户采用信用卡采购孕妇用品时,可以通过建模推测怀孕的概率,并推荐孕妇类喜欢的业务。也可以将客户改变生活状态的事件(换工作、改变婚姻状况、置居等)视为营销机会。

② 交叉营销

交叉营销就是进行不同业务或产品的交叉推荐,例如,招商银行可以根据客户交易记录进行分析,有效地识别小微企业客户,然后用远程银行来实施交叉销售。

③ 个性化推荐

银行可以根据客户的喜好进行服务或者银行产品的个性化推荐,例如,根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在的金融服务需求,进而有针对性地营销推广。

④ 客户生命周期管理

客户生命周期管理包括新客户获取、客户防流失和客户赢回等。例如,招商银行通过构建客户流失预警模型,对流失率等级前 20% 的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了 15 个和 7 个百分点。

现代化的商业银行正在从经营产品转向经营客户,因此目标客户的寻找,已经成为银行数据商业应用的主要方向。通过数据挖掘和分析,发现高端财富管理和理财客户成为吸收存款和理财产品销售的主要应用领域。

① 利用数据库营销,挖掘高端财富客户

利用数据库营销是一种挖掘高端财富客户的有效方法。银行可以从物业费代缴服务中寻找高端理财客户。通过帮助一些物业公司,特别是包含较多高档楼盘的物业公司,进行物业费的代扣代缴,银行可以依据物业费的多少,来识别高档住宅的业主。

例如,银行可以从数据库中发现物业费代扣金额超过 4000 元的客户,然后结合其在本行的资产余额,进行针对性的分析,从而可以帮助银行找到一些主要资产不在本行的高端用户,为这些用户提供理财服务和资产管理服务。某家股份制商业银行曾经利用该营销方法,在两个月内吸引到十多亿的存款。

② 利用刷卡记录来寻找财富管理人群

高端财富人群是所有银行财富管理重点发展的人群。中国具有上百万的高端财富人群,他们平均可支配的金融资产在一千万人民币。高端财富人群具有典型的高端消费习惯,覆盖奢侈品、游艇、豪车、手表、高尔夫、古玩、字画等消费场景。银行可以参考 POS 机的消费记录,结合移动设备的位置数据识别出这些高端财富管理人群,为其提供定制的财富管理方案,吸收其成为财富管理客户,增加存款和理财产品销售。

③ 利用外部数据找到白金卡用户

白金信用卡主要面对高端消费人群,是信用卡公司希望获得的高价值用户。尽管这些人群很难通过线下的方式进行接触,但是银行可以通过参考客户乘坐头等舱的次数、出境游消费金额、境外数据漫游费用等来发现这些潜在的白金卡客户。通过与其他行业的消费信息进行关联分析发现潜在客户是典型的大数据关联应用消费场景。

3)风险管控

利用大数据技术可以进行对中小企业贷款风险的评估和对欺诈交易的识别,从而帮助银行降低风险。

① 中小企业贷款风险评估

信贷险一直是金融机构需要努力化解的一个重要问题。为数众多的中小企业是金融机构不可忽视的客户群体,市场潜力巨大。但是,中小企业贷款偿还能力差,财务制度普遍不健全,难以有效评估其真实经营状况,生存能力相对比较低,信用度低。

据测算,对中小企业贷款的平均管理成本是大型企业的 5 倍左右,而风险成本却高很多。这种成本、收益和险的不对称导致金融机构不愿意向中小企业全面敞开大门。

现在,通过使用大数据分析技术,银行可通过将企业的生产、流通、销售、财务等相关信息与大数据挖掘方法相结合的方式进行贷款风险分析,从而量化企业的信用额度,更有效地开展中小企业贷款。例如,“阿里小贷”依据会员在阿里巴巴平台上的网络活跃度、交易量、网上信用评价等,结合企业自身经营的财务健康状况进行贷款决定。

“阿里小贷”首先通过阿里巴巴 B2B、淘宝、天猫、支付宝等电子商务平台,收集客户积累的信用数据,包括客户评价数据、货运数据、口碑评价等,同时引入海关、税务、电力等外部数据加以匹配,建立数据模。

其次,通过交叉检验技术辅以第三方验证确认客户的真实性,将客户在电子商务平台上的行为数据映射为企业和个人的信用评价,并通过评分卡体系、微贷通用规则决策引擎、风险定量化分析等技术,对地区客户进行评级分层。

最后,在风险监管方面,开发了网络人际爬虫系统,可获取和整合相关人际关系信息,并通过设计规则及其关联性分析得到风险评估结论,再通过与贷前评级系统的交叉验证,构成风险控制的双保险。

② 欺诈交易识别

银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式等,结合智能规则引擎进行实时的交易反欺诈分析,例如,IBM 金融犯罪管理解决方案帮助银行利用大数据有效地预防与管理金融犯罪;摩根大通银行利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯。

4)运营优化

大数据分析方法可以改善经营决策,为管理层提供可靠的数据支撑,使经营决策更加高效、敏捷,精确性更高。

① 市场和渠道分析优化

通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化,同时,银行也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。

② 产品和服务优化

银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。例如,兴业银行通过对还款数据的挖掘来比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。

③ 舆情分析

银行可以通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息,并通过自然语言处理技术进行正负面判断,尤其是及时掌握银行以及银行产品和服务的负面信息,及时发现和处理问题;对于正面信息,可以加以总结并继续强化。同时,银行也可以抓取同行业的正负面信息,及时了解同行做得好的方面,以作为自身业务优化的借鉴。

证券行业数据应用场景

证券行业的主要收入来源于经纪业务、资产管理、投融资服务和自由资金投资等。外部数据的分析,特别是行业数据的分析有助于其投融资服务和投资业务。

证券行业拥有的数据类型有个人属性信息(如用户名称、手机号码、家庭地址、邮件地址等)、交易用户的资产和交易纪录、用户收益数据。证券公司可以利用这些数据和外部数据来建立业务场景,筛选目标客户,为用户提供适合的产品,提高单个客户收入。

证券行业需要通过数据挖掘和分析找到高频交易客户、资产较高的客户和理财客户。借助于数据分析的结果,证券公司就可以根据客户的特点进行精准营销,推荐针对性服务。

如果客户平均年收益低于 5%,交易频率很低,就可以建议其购买证券公司提供的理财产品。如果客户交易比较频繁,收益也比较高,那么就可以主动推送融资服务。如果客户交易不频繁,但是资金量较大,就可以为客户提供投资咨询服务,激活客户的交易兴趣。客户交易的频率、客户的资产规模和客户交易量都是证券公司的主要收入来源,通过对客户交易习惯和行为的分析,可以帮助证券公司获得更多的收益。

除了利用企业财务数据来判断企业经营情况以外,证券公司还可以利用外部数据来分析企业的经营情况,为投融资以及自身投资业务提供有力支持。

例如,利用移动 App 的活跃和覆盖率来判断移动互联网企业的经营情况,电商、手游、旅游等行业的 App 活跃情况完全可以说明企业的运营情况。另外,海关数据、物流数据、电力数据、交通数据、社交舆情、邮件服务器容量等数据可以说明企业经营情况,为投资提供重要参考。

目前,国内外证券行业的大数据应用大致有以下 3 个方向:股价预测,客户关系管理和投资景气指数预测。

1)股价预测

2011 年 5 月,英国对冲基金 Derwent Capital Markets 建立了规模为 4 000 美金的对冲基金。该基金是基于社交网络的对冲基金,通过分析 Twitter 的数据内容来感知市场情绪,从而指导进行投资,并在首月的交易中实现盈利,其以 1.85% 的收益率,让平均数只有 0.76% 的其他对冲基金相形见绌。

麻省理工学院的学者,根据情绪词将 Twitter 内容标定为正面或负面情绪。结果发现,无论是如“希望”的正面情绪,还是如“害怕”“担心”的负面情绪,其占总 Twitter 内容数的比例,都预示着道琼斯指数、标准普尔 500 指数、纳斯达克指数的下跌。

美国佩斯大学的一位博士则采用了另外一种思路,他追踪了星巴克、可口可乐和耐克三家公司在社交媒体上的受欢迎程度,同时比较它们的股价。他发现,Facebook 上的粉丝数、Twitter 上的听众数和 Youtube 上的观看人数都和股价密切相关。另外,根据品牌的受欢迎程度,还能预测股价在 10 天、30 天之后的上涨情况。

2)客户关系管理

① 客户细分

客户细分是指通过分析客户的账户状态(类型、生命周期、投资时间)、账户价值(资产峰值、资产均值、交易量、佣金贡献和成本等)、一交易习惯(周转率、市场关注度、仓位、平均持股市值、平均持股时间、单笔交易均值和日均成交量等)、投资偏好(偏好品种、下单渠道和是否申购)及投资收益(本期相对和收益、今年相对和收益和投资能力等),来进行客户聚类和细分,从而发现客户交易模式类型,找岀最有价值和盈利潜力的客户群,以及他们最需要的服务,更好地配置资源和政策,改进服务,抓住最有价值的客户。

② 流失客户预测

券商可根据客户历史交易行为和流失情况来建模,从而预测客户流失的概率。例如,2012 年海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”主要应用在客户深度画像及基于画像的用户流失概率预测中。

通过对海通 100 多万样本客户、半年交易记录的海量信息分析,建立了客户分类、客户偏好、客户流失概率的模型。该项技术通过客户行为的量化分析来测算客户将来可能流失的概率。

3)投资景气指数预测

2012 年,国泰君安推出了“个人投资者投资景气指数”(简称“31指数”),其通过一个独特的视角传递个人投资者对市场的预期、当期的风险偏好等信息。国泰君安研究所通过对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后,得到了综合性投资景气指数。

“31 指数”通过对海量个人投资者真实投资交易信息的深入挖掘分析,来了解交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期及当前的风险偏好等信息。在样本选择上,国泰君安研究所选择了资金在 100 万元以下、投资年限在 5 年以上的中小投资者,样本规模高达 10 万,覆盖全国不同地区,所以,这个指数较为有代表性,在参数方面,主要根据中小投资者持仓率的高低、是否追加资金、是否盈利这几个指标,来看投资者对市场是乐观还是悲观。

“31 指数”每月发布一次,以 100 为中间值,100~120 属于正常区间,120 以上表示趋热,100 以下则是趋冷。从实验数据看,从 2007 年至今,“31 指数”的涨跌波动与上证指数走势的拟合度相当高。

保险行业数据应用场景

保险行业主要通过保险代理人与保险客户进行连接,对客户的基本信息和需求掌握很少,因此极端依赖外部保险代理人和渠道(银行)。在竞争不激烈的情况下,这种连接客户的方式是可行的。但是随着互联网保险的兴起,用户会被分流到互联网渠道,特别是年轻人会更加喜欢通过互联网这个渠道来满足自己的需求。未来线上客户将成为保险公司客户的重要来源。

保险行业的产品是一个长周期性产品,保险客户再次购买保险产品的转化率很高,所以,经营好老客户是保险公司的一项重要任务。保险公司内部的交易系统不多,交易方式比较简单,数据主要集中在产品系统和交易系统之中。保险公司的主要数据有人口属性信息、信用信息、产品销售信息和客户家人信息等,但是缺少客户兴趣爱好、消费特征、社交等信息。

保险行业的数据业务场景是围绕保险产品和保险客户进行的,典型的数据应用有,利用用户行为数据来制定车险价格,利用客户外部行为数据来了解客户需求,向目标用户推荐产品等。

例如,依据个人属性和外部养车 App 的活跃情况,为保险公司找到车险客户;依据个人属性和移动设备位置信息,为保险企业找到商旅人群,推销意外险和保障险等;依据家人数据和人生阶段信息,为用户推荐理财保险,寿险,保障保险,养老险,教育险等;依据自身数据和外部数据,为高端人士提供财产险和寿险等;利用外部数据,提升保险产品的精算水平,提高利润水平和投资收益。

保险公司也需要同外部渠道进行合作,以开发出适合不同业务场景的保险产品,如航班延误险、旅游天气险、手机被盗险等新的险种。目的不仅仅是靠这些险种盈利,还是找到潜在客户,为客户提供其他保险产品。另外,保险公司应该借助于移动互联网连接客户,利用数据分析来了解客户,降低对外部渠道的依赖,降低保险营销费用,提高直销渠道投入和直销销售比。

总而言之,保险行业的大数据应用可以分为 3 大方面:客户细分及精细化营销、欺诈行为分析和精细化运营。如图 1 所示。

保险行业的大数据应用
图 1  保险行业的大数据应用

1)客户细分和精细化营销

① 客户细分和差异化服务

风险偏好是确定保险需求的关键。风险喜好者、风险中立者和风险厌恶者对于保险需求有不同的态度。一般来讲,风险厌恶者有更大的保险需求。在进行客户细分时,除了利用风险偏好数据外,还要结合客户职业、爱好、习惯、家庭结构、消费方式偏好数据,利用机器学习算法来对客户进行分类,并针对分类后的客户提供不同的产品和服务策略。

② 潜在客户挖掘及流失用户预测

保险公司可通过大数据整合客户线上和线下的相关行为,通过数据挖掘手段对潜在客户进行分类,细化销售重点。保险公司通过大数据进行挖掘时,可综合考虑客户的信息、险种信息、既往出险情况、销售人员信息等,筛选出影响客户退保或续期的关键因素,并通过这些因素和建立的模型“对客户的退保概率或续期概率进行估计,找出高风险流失客户,及时预警,制定挽留策略,提高保单续保率。

③ 客户关联销售

保险公司可以通过关联规则找出较佳的险种销售组合,利用时序规则找出顾客生命周期中购买保险的时间顺序,从而把握保户提高保额的时机,建立既有保户再销售清单与规则,促进保单的销售。借助大数据,保险业还可以直接锁定客户需求。

以淘宝运费退货险为例,据统计,淘宝用户运费险索赔率在50%以上,该产品给保险公司带来的利润只有5%左右。但是客户购买运费险后,保险公司就可以获得该客户的个人基本信息,包括手机号和银行账户信息等,并能够了解该客户购买的产品信息,从而实现精准推送。假设该客户购买并退货的是婴儿奶粉,我们就可以估计该客户家里有小孩,可以向其推荐儿童疾病险、教育险等利润率更高的产品。

④ 客户精准营销

在网络营销领域,保险公司可以通过收集互联网用户的各类数据,如地域分布等属性数据,搜索关键词等即时数据,购物行为、浏览行为等行为数据,以及兴趣爱好、人脉关系等社交数据,在广告推送中实现地域定向、需求定向、偏好定向、关系定向等定向方式,实现精准营销。

2)欺诈行为分析

欺诈行为分析是指基于企业内外部交易和历史数据,实时或准实时预测和分析欺诈等非法行为,包括医疗保险欺诈与滥用分析,以及车险欺诈分析等。

① 医疗保险欺诈与滥用分析

医疗保险欺诈与滥用通常可分为两种:一种是非法骗取保险金,即保险欺诈;另一种则是在保额限度內重复就医、浮报理赔金额等,即医疗保险滥用。保险公司能够利用过去数据,寻找影响保险欺诈的更为显著的因素及这些因素的取值区间,建立预测模型,并通过自动化计分功能,快速将理赔案件依照滥用欺诈可能性进行分类处理。

② 车险欺诈分析

保险公司能够利用过去的欺诈事件建立预测模型,将理赔申请分级处理,可以很大程度上解决车险欺诈问题,包括车险理赔申请欺诈侦测、业务员及修车厂勾结欺诈侦测等。

3)精细化运营

① 产品优化

过去保险公司把很多人都放在同一风险水平之上,客户的保单并没有完全解决客户的各种风险问题。使用精细化的数据分析,保险公司可以通过自有数据及客户在社交网络的数据,解决现有的风险控制问题,为客户制定个性化的保单,获得更准确及更高利润率的保单模型,给每一位顾客提供个性化的解决方案。

② 运营分析

运营分析是指基于企业内外部运营、管理和交互数据分析,借助大数据平台,全方位统计和预测企业经营和管理绩效,基于保险保单和客户交互数据进行建模,借助大数据平台快速分析和预测再次发生的或新的市场风险、操作风险等。

③ 保险销售人员甄选

保险销售人员甄选是指根据保险销售人员业绩数据、性别、年龄、入司前工作年限、其他保险公司经验和代理人人员思维性向测试等,找出销售业绩相对较好的销售人员的特征,优选高潜力销售人员。

推荐学习目录:大数据在金融行业的应用

2014-10-08 09:38:03 lin91o7c 阅读数 604
  • T型总裁决策+大数据

    大数据时代,T型总裁如何发挥大数据的威力,大幅优化决策的质量,降低决策风险? 君不见,股市投资之神 巴菲特在进行投资评估时,基于详尽的数据分析,删除高风险的方案,实践他〈不打没把握的仗〉的原则,大幅降低长期投资风险。这是以大数据来检验长期决策的模式,有效补捉未来机会,降低风险。

    7281 人正在学习 去看看 高煥堂

本篇文章主要是继续上一篇Microsoft决策树分析算法后,采用另外一种分析算法对目标顾客群体的挖掘,同样的利用微软案例数据进行简要总结。

应用场景介绍

通过上一篇中我们采用Microsoft决策树分析算法对已经发生购买行为的订单中的客户属性进行了分析,可以得到几点重要的信息,这里做个总结:

1、对于影响购买自行车行为最重要的因素为:家中是否有小汽车,其次是年龄,再次是地域

2、通过折叠树对于比较想买自行车的顾客群体特征主要是:家里没有车、年龄在45岁一下、不在北美地区、家里也没有孩子(大米国里面的屌丝层次)、

%26nbsp;%26nbsp;%26nbsp;%26nbsp; 同样还有就是家里有一辆车、年龄在37到53之间、通勤距离小于10Miles,家里孩子少于4个,然后年收入在58000$以上(大米国的高富帅了)

其实决策树算法最主要的应用场景就是分析影响某种行为的因素排序,通过这种算法我们可以知道某些特定群体他们都会有几个比较重要的属性,比如家里有没有车、年龄等,但是我们想要分析这部分特定群体其特有属性就没法做到,而要分析这种特定群体所共同含有的共同属性就需要今天我们的Microsoft聚类分析算法出场了,简单点讲就是:物以类分、人以群分,通过聚类分析算法我们要找到那些将要买自行车的顾客群里都有哪些属性,比如当我们晚上进入广场会看到,广场大妈一群、儿童扎在一群、打篮球的一群、还有一群情侣在广场边幽暗的树林里等等,而他们这些团队之间是有差别的,若果要去卖儿童玩具...那种群体是你最想靠近的自然而然了。

技术准备

(1)同样我们利用微软提供的案例数据仓库(AdventureWorksDW2008R2),两张事实表,一张已有的历史购买自行车记录的历史,另外一张就是我们将要挖掘的收集过来可能发生购买自行车的人员信息表,可以参考上一篇文章

(2)VS、SQL Server、 Analysis Services没啥可介绍的,安装数据库的时候全选就可以了。


下面我们进入主题,同样我们继续利用上次的解决方案,依次步骤如下:

(1)打开解决方案,进入到%26ldquo;挖掘模型%26rdquo;模板

通过上面可以看到已经存在一种决策树算法了,我们来添加另外一种算法。

2、右键单击%26ldquo;结构%26rdquo;列,选择%26ldquo;新建挖掘模型%26rdquo;,输入名称即可

点击确定,这样我们新建立的聚类分析就会增加在挖掘模型中,这里我们使用的主键和决策树一样,同样的预测行为也是一样的,输入列也是,可以更改。

下一步,部署处理该挖掘模型。


结果分析

同样这里面我们采用%26ldquo;挖掘模型查看器%26rdquo;进行查看,这里挖掘模型我们选择%26ldquo;Clustering%26rdquo;,这里面会提供四个选项卡,下面我们依次介绍,直接晒图:

同行这里面我们选择要发生购买自行车的群里,颜色最深的为最会购买自行车的群里,图中箭头我们已经显示出来了,同样我们也可以找到最不想买自行车的一群人,也就是%26ldquo;分类四%26rdquo;,他们之间线条的强弱表示关联关系强弱,当然这里为了好记我们可以给他们改改名,直接选择类,右键重命名。

如上图,下面我们要做的就是要分析这些群体有啥特征了,当然我们最关心的为:最想买车的一群人、不想买车的也可以的,至于不想真相的群体、路人群体甲、乙...这个都是些打酱油的了,我们就不分析了。

我们打开%26ldquo;分类剖面图%26rdquo;看看:

哈...这几类群体的特征已经展示出来了,如果玩数据久了,会对图表有一种直观敏锐,对数据也要保持一种特定的嗅觉。今晚我先不分析图表中这群最想买车的银的特征了,明天继续分析,又看出的可以帮我简单分析下,同样先晒几张结构图:

%26nbsp;

明晚分析结果,然后将这两种算法的特点进行对比分析。对大数据有兴趣的不要忘记你的%26ldquo;推荐%26rdquo;哦。

晒一句数据挖掘的力量:我就知道你会这么做!

%26nbsp;

(未完待续.....)

%26nbsp;

没有更多推荐了,返回首页