2009-06-22 20:16:00 xuelang0319 阅读数 1214
  • 大数据环境下的关联规则挖掘

    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。

    13742 人正在学习 去看看 赵修湘

数据挖掘在CRM中的应用及方法

                              

   

 

关键字:数据挖掘,客户关系管理,应用,方法

摘要:客户关系管理(CRM)逐渐成为企业竞争的焦点,数据挖掘的应用增强了企业的CRM。本文简单的介绍了数据挖掘和CRM,阐述了数据挖掘在CRM中的应用,总结了CRM中常用的数据挖掘方法。

 

激烈的同行竞争和多变的外部环境使得越来越多的企业意识到客户是企业竞争的核心的重要来源。因此,企业必须不断的寻找新的解决办法,实施新的战略来适应消费者的需求。企业的核心问题已经从大批量生产和销售转变到如何维护客户关系上来。面对企业海量的信息,如何发现有价值的知识和规律是企业急需解决的问题。数据挖掘技术通过对海量的信息进行进行挖掘和深层系的分析,从中发现有价值的客户,利用模式和知识,对客户需求进行预测,为企业的决策提供帮助。因此,研究数据挖掘技术在CRM中的应用是十分必要的。

1. 数据挖掘概述

数据挖掘(Date Mining  DM),又称数据库中的知识发现(Knowledge Discovery in Datebase,是指从大型数据库或者数据仓库中提取隐含的、未知的、非平凡的及潜在应用价值的信息或者模式。数据挖掘的功能用于指定数据挖掘任务中要寻找的模式类型,数据挖掘任务一般可以分为两类:验证驱动型数据挖掘和发现驱动型数据挖掘。验证驱动型数据挖掘是指用户首先提出自己的假设,然后利用各种工具通过反复的、递归的检索查询以及验证或否定自己的假设。发现驱动型数据挖掘通过使用机器学习、统计和数据可视化等技术来发现新的假设。

实施数据挖掘有四个关键条件:1)要踏踏实实的做好基础数据库的建设。一个企业实现数据挖掘的前提和基础是拥有大量的、真是的数据积累。没有数据积累,数据挖掘将无用武之地;2)企业要有明确的挖掘目标,盲目的数据挖掘是很难成功的;3)数据挖掘必须由来自不同领域的人员参与,包括行业专家、数据管理员、数据分析人员、业务分析人员、数据挖掘专家等。通过合作,寻找到一套适合自己的企业开发方法,并逐步建立起模型库。

4)构建数据挖掘系统,不仅需要很高的资金投入,而且挖掘结果是供决策层决策使用的,因此必须得到最高决策管理层的支持、认可和参与。

2. 客户关系管理CRM(Customer Relationship Management)

  对于CRM,可以从三个方面进行理解:

  CRM 首先是一种管理理念。它起源于西方的市场营销理论,产生于美国,并得到了迅速发展。理论的核心是将企业的客户(包括最终客户、分销商和合作伙伴)作为企业最重要的资源,通过完善的客户服务和深入的客户分析来满足客户的需求,保证客户最终价值的实现。

  CRM 是一种新型的管理机制。它要求企业从“以产品为中心”的商业模式向以“客户为中心”的模式转移。也就是说,企业关注的焦点转向客户关系,企业的业务流程和组织流程重点从“产品”转向“客户”。

  CRM 也是一种管理软件和技术。它将最佳的商业实践和数据挖掘、数据仓库、一对一营销、销售自动化以及其他信息技术紧密结合在一起,为企业的营销、销售、客户服务和决策支持领域提供一个业务自动化的解决方案,使企业拥有一个基于电子商务、面对客户的前沿,从而顺利实现由传统企业模式到电子商务为基础的现代企业模式的转化。

3. 数据挖掘在CRM中的应用

  数据挖掘可以应用到以客户为中心的企业决策分析和管理的各个不同领域和阶段。

  1)识别潜在的客户。挖掘客户数据时,充分利用数据技术可以寻找有潜在价值的客户。识别这些潜在的客户主要是对已有的客户数据进行分析,对已有的客户分成不同的类型,对不同类型的客户群提供不同的客户服务和销售方案,并为这些客户提供有针对性的产品和服务来满足这些客户的要求。通过对已有客户的分类更容易使企业识别潜在的客户,并最终向着把潜在的客户转变成企业真正的客户,最终转变成忠诚客户。

2)交叉销售或者增值销售。交叉销售或者增值销售是客户关系发展的重要环节,是企业与客户之间实现双赢的重要手段。交叉销售是让客户购买企业的其他产品或者服务,增值销售是让客户购买附加的产品或服务,使客户购买的产品向着高价值的方向发展,两种销售都有延长客户关系的效果。对客户来讲,要想得到更多的产品和服务并能从中受益对企业来讲,这样会促进销售额的增长,从而从中获益。数据挖掘可以帮助企业找出最合理的销售搭配方案。例如,从企业掌握的客户的购买行为的信息中,尤其是购买前的信息中,就可以分析出这个客户决定下一次购买的关键因素,从而做出有针对性的调整。数据挖掘可以帮助企业找到影响客户行为的因素。

3)已有客户的维持。企业业务的增长不仅要靠获得新的客户,更重要的一点是留住已有的客户。现在获得新的客户的成本在不断的上升,因此留住老客户不失为企业发展的一个重要方向。数据挖掘可以识别出潜在的客户群,提高市场的回应率,做到有的放矢。另外,数据挖掘可以帮助企业识别出有离开意愿的客户,使企业采取合适的措施留住这批客户。

4)客户诚信度分析。数据挖掘中的差异性分析可用于发现客户的不良行为,分析客户的诚信度,从而获得诚信度好的客户。

5)优化客户服务。可以利用数据挖掘技术获得不同类型客户对服务的要求,挖掘出客户的购买趋势以掌握客户的需求,适时的调整产品结构,从而有针对性的提供客户服务。来提高客户群的满意度,达到挽留客户的目的。

6)提高供应链效率。供应链效率低的主要原因是供应链中的环节过多,数据挖掘中的关联原则分析可以分析买家和卖家的相关性,以减少供应链的中间环节,提高供应链效率。

7)提供决策支持。在大量的客户信息库中,运用数据挖掘技术,使客户数据可视化,直观形象的反应客户的信息,及时全面和动态的反应销售质量,为管理人员提供决策支持提供有效的手段和数据支持。

4. CRM中常用的数据挖掘的方法

  数据挖掘的主要方法包括关联分析、时序分析、分类、聚类、偏差分析以及预测等,它们可以应用到客以客户为中心的企业决策分析及管理的不同领域和阶段。

 1)关联分析。其目的就是挖掘出隐藏在数据间的相互关系。例如:啤酒和尿布的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这就是一条关联信息。

2)时序模式。通过时间序列搜索重复发生概率较高的模式,这里强调时间序列的影响。例如,某段时间内,购买了A产品的人中,60%的人还会购买B

3)分类。找出一个类别的概念描述,它代表了这类数据的整体信息。分类是数据挖掘中应用最多的任务。要为每个类别做出准确的描述或者简历分析模型或者挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。

4)聚类。按照一定规则将数据分为一系列有意义的子集。是“物以类聚”的一种方法,其职能是对一批样本和或者指标按它们在性质上的亲疏程度进行分类,采用不同的类聚方法,对于相同的记录集合可能有不同的划分结果。

5)偏差分析。从数据库中找出异常数据。

6)预测。利用历史数据找出规律,建立模型,并用此模型预测未来数据的种类,特征等。

5. 结束语

 数据挖掘技术在CRM中贯穿于客户生命周期的各个阶段,为企业的决策支持和商业智能发挥了核心作用。随着数据挖掘技术的进一步发展和深化,必然会给CRM带来更广泛的前景和市场。

 

参考文献:

《基于数据挖掘的分析型CRM应用研究》  华中科技大学管理学院         王侃

《数据挖掘技术在CRM中的应用》        南京中医药大学经贸管理学院   宋慧勇

《数据挖掘技术在CRM中的应用》        山东财政学院                 董宁

《数据挖掘技术在客户关系管理_CRM_中的应用》  四川行政学院          魏晓云

《数据挖掘技术在移动客户管理中的应用》 四川信息职业技术学院         母中旭

《数据挖掘在CRM中的应用》    叶曦

《数据挖掘在电信客户关系管理的应用》  同济大学                       何明轩

《数据挖掘在客户关系管理中的应用》    武汉理工大学                   吴彦熹

《数据挖掘在移动通信业客户关系管理中的应用研究》  江苏大学    顾桂芳,李文元

《数据挖掘技术在电信行业CRM中的应用研究》    安徽大学             欧阳庆

 

2014-03-24 09:31:54 lihang421 阅读数 831
  • 大数据环境下的关联规则挖掘

    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。

    13742 人正在学习 去看看 赵修湘

数据挖掘应用研究案例精选合集


数据挖掘(英语:Data mining),掌握数据挖掘技能,金矿就在您的脚下。基于数据挖掘技术的精确智能营销随着大数据、移动应用等的快速发展,已经越来越重要,企业对这方面人才需求缺口也越来越大。本文集主要从数据挖掘应用演讲案例方向介绍了数据挖掘的实际应用,从宏观角度帮助你了解什么是数据挖掘。


阅读全文 和小伙伴们一起来吐槽


2019-04-16 16:26:36 q947448283 阅读数 3361
  • 大数据环境下的关联规则挖掘

    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。

    13742 人正在学习 去看看 赵修湘

数据挖掘其实是一种深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
应用的技术包括:数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。

数据挖掘的目标是
从数据库中发现隐含的、有意义的知识,主要有以下五类功能。
    1.自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

    2.关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。

    3.聚类数据库中的记录可被划分为一系列有意义的子集,即聚类。

    4.概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

    5.偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

  数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。

  1.关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也
经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是
事件发生的概率和条件概率应该符合一定的统计意义。

2.序列分析
序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,

3.分类分析
分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。
主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法及支持向量机。

4.聚类分析
聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

5.预测
预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,
而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。

6.时间序列
分析时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。

数据挖掘的流程大致如下:

1.问题定义在开始数据挖掘之前,最先的也是最重要的要求就是熟悉背景知识,弄清
用户的需求。缺少了背景知识,就不能明确定义要解决的问题,就不能为挖掘准备优质的数
据,也很难正确地解释得到的结果。要想充分发挥数据挖掘的价值,必须对目标有一个清晰
明确的定义,即决定到底想干什么。

2.建立数据挖掘库
要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数
据库中,而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修改要挖掘的数
据,而且还会遇到采用外部数据的情况;另外,数据挖掘还要对数据进行各种纷繁复杂的统
计分析,而数据仓库可能不支持这些数据结构。
3.分析数据
分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,用聚
类分析区分类别,最终要达到的目的就是搞清楚多因素相互影响的、十分复杂的关系,发现
因素之间的相关性。
4.调整数据
通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解
决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删,按照对整个数据
挖掘过程的新认识组合或生成一个新的变量,以体现对状态的有效描述。
5.模型化在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型。
这一步是数据挖掘的核心环节,一般运用神经网络、决策树、数理统计、时间序列分析等方
法来建立模型。
6.评价和解释
上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准
确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有
效的、有用的模式。评估的一种办法是直接使用原先建立的挖掘数据库中的数据来进行检验,
另一种办法是另找一批数据并对其进行检验,再一种办法是在实际运行的环境中取出新鲜数
据进行检验

2010-10-20 22:51:00 wenjie847 阅读数 5054
  • 大数据环境下的关联规则挖掘

    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。

    13742 人正在学习 去看看 赵修湘

数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录,就有数据挖掘的价值。

搜集以下案例,希望有一定的启发和学习价值。


1. 哪些商品放在一起比较好卖?

  这是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。

  另外,大家都知道在沃尔玛牙膏的旁边通常配备牙刷,在货价上这样放置,牙膏和牙刷才能都卖的很好。

2. 库存预测

  过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。

  使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Services 以及 SQL Server 数据仓库,采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销,准确性为 98.52%。平均来说,预测该书是否将在未来两周内脱销的准确性为 86.45%。详情见https://www.microsoft.com/china/technet/prodtechnol/sql/2005/ipmvssas.mspx

3. 股票预设

  预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。

4. NBA教练如何布阵以提升获胜机会?

  美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。

  系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。

  在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。

  Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。

  Advanced Scout的开发人,因德帕尔.布罕德瑞,开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员,他演示了一个技术新手应该如何使用数据挖掘。布罕德瑞说:“教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略”。与此同时,另一个正式的体育联盟,国家曲棍球联盟,正在开发自己的数据挖掘应用NHL-ICE,联盟与IBM建立了一个技术型的合资公司,去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与Advanced Scout相似的数据挖掘应用,可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的比赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。

5. 出了一个新成品,哪些老客户最可能购买?

  蒙特利尔银行是加拿大历史最为悠久的银行,也是加拿大的第三大银行。在 20 世纪 90 年代中期,行业竞争的加剧导致该银行需要通过交叉销售来锁定 1800 万客户。银行智能化商业高级经理 Jan Mrazek 说,这反映了银行的一个新焦点--客户(而不是商品)。银行应该认识到客户需要什么产品以及如何推销这些产品,而不是等待人们来排队购买。然后,银行需要开发相应商品并进行营销活动, 从而满足这些需求。

  在应用数据挖掘之前,银行的销售代表必须于晚上 6 点至 9 点在特定地区通过电话向客户推销产品。但是,正如每个处于接受端的人所了解的那样,大多数人在工作结束后对于兜售并不感兴趣。因此,在晚餐时间进行电话推销的反馈率非常低。

  几年前,该银行开始采用 IBM DB2 Intelligent Miner Scoring,基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能性。该系统能够通过浏览器窗口进行观察,使得管理人员不必分析基础数据,因此非常适合于非统计人员。

  "我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。现在,当进行更具针对性的营销活动时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案,甚至确定利息费用。"

  蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息,从而帮助他们对于从营销到产品设计的任何事情进行决策。

6. 电子商务网站公共页面该放哪些内容最可能产生购买行为?

  圣地亚哥的 Proflowers.com 通过采用 HitBox,即 WebSideStory 的数据挖掘 ASP 服务,使企业的计划者在业务高峰日也能够对销售情况做出迅速反应。由于鲜花极易枯萎,Proflowers 不得不均匀地削减库存,否则可能导致一种商品过快地售罄或库存鲜花的凋谢。

  由于日交易量较高,管理人员需要对零售情况进行分析,比如转换率,也就是多少页面浏览量将导致销售产生。举例来说,如果 100 人中仅有 5 人看到玫瑰时就会购买,而盆景的转换率则为 100 比 20,那么不是页面设计有问题,就是玫瑰的价格有问题。公司能够迅速对网站进行调整,比如在每个页面上都展示玫瑰或降低玫瑰的价格。对于可能过快售罄的商品,公司通常不得不在网页中弱化该商 品或取消优惠价格,从而设法减缓该商品的销售。

  采用 HitBox 的优势在于借助便于阅读的显示器来展现销售数据和转换率。Proflowers 营销副总裁 Chris d'Eon 说:"自己分析数据是浪费时间。我们需要一种浏览数据的方式,能够让我们即刻采取行动。"

7. 登录网站的当前用户现在最可能购买什么东西?

  丹佛的 eBags 旨在针对常旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、J.D. Edwards 财务系统、客户服务电子邮件和呼叫中心,从而获得客户购买行为习惯方面的信息。数据分析能够帮助公司确定是哪个页面导致了客户的高采购率,并了解是什么内容推动了销售。

  eBags 技术副总裁 Mike Frazini 说:"我们尝试展示不同的内容,来观察哪些内容的促销效果最好。我们最终的目标是完全个性化。"与设计页面以鼓励大部分消费者采购的做法不同,一个个性化的解决方案将不停地创建页面以适合每个具体的访问者。因此 ,如果访问者的浏览记录显示其对手提包感兴趣,网站将创建突出这些商品的客户化页面。Frazini 指出,用于当前实施数据挖掘的分析方法也能用于部署自动化的网站定制规则。

  寻找基于较少的数据和商业规则来创建个性化网页是客户化网站减少资源耗费的方法之一。开利(Carrier)公司--位于美国康涅狄格州 Farmington 的一家空调制造厂商--声称,仅仅通过利用邮政编码数据,其升级版 B2C 网站的每位访问者所产生的平均收益在一个月内从 1.47 美元提高到了 37.42 美元。

  当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到 WebMiner 服务器,也就是一个数据挖掘ASP。然后,WebMiner 的数据挖掘软件将对客户进行假设,并基于这些假设来展示商品。例如,如果客户来自富裕的郊外地区,网站将显 示出带有遥控器的空调机;如果客户的邮政编码显示邻近大量公寓楼,则弹出式广告将展示窗式空调机。

  通过采用这种相对简易的方法,该公司能够在数秒内生成网页。Carrier 全球电子商务经理 Paul Berman 说:"与通常的想法相反,客户化电子商务在创建有针对性的服务时并不需要询问客户8条或9条信息。我们只需要 1 条信息,而且实际证明效果确实不错。"

  和 Carrier 一样,"音乐家之友"(Musician's Friend)也正在减少用于确定客户化内容的商业规则。它是 Guitar Center 有限公司的目录和 Web 分支机构。

2012-06-20 11:53:28 iteye_3126 阅读数 23
  • 大数据环境下的关联规则挖掘

    大数据集环境下的关联规则发现日益受到重视,如何在大数据环境下进行数据分析和数据挖掘成为了企业要面对的首要难题!本次课程将讲解大数据环境下关联规则挖掘面临的挑战以及应用实践。

    13742 人正在学习 去看看 赵修湘

 

随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据 量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分 布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。

图1 企业面临着在不同数据源上进行数据挖掘的挑战
图1 企业面临着在不同数据源上进行数据挖掘的挑战

如何从海量应用挖掘出合理的数据

对于企业而言,如何将各种SaaS应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数 据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。

云时代企业数据挖掘也面临如下挑战。

  • 挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。
  • 多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。 如图1所示。
  • 异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。

适合云应用数据挖掘的模式建议

数据仓库建模阶段

为了应对SaaS应用大量异构数据,引入XML标记和交换数据。 由于XML能够使不同来源的结构化数据很容易地结合在一起,因而使搜索多样的不兼容的数据库成为可能,从而为解决Web数据挖掘难题带来了希望。XML的扩展性和灵活性允许XML描述不同种类应用软件中的数据,从而能描述搜集的Web页中的数据记录。

引入MapReduce算法,提高数据抽取转换的效率。 MapReduce 算法是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。当前的实现方法是指定一个Map(映射)函数用来把一组键值对映射成 一组新的键值对,指定并发的Reduce(化简)函数用来保证所有映射的键值对中的每一个共享相同的键组。

MapReduce更适合如下场景。

  • ETL(数据提取转化加载)类的应用:从多个不同的源读取日志信息;分析以及清理日志数据;执行复杂的变换,比如“会话转换”;决定存储什么样的属性以及把信息装载到DBMS或者其他存储引擎中。
  • 复杂分析应用:这种挖掘类型的应用需要对数据进行多步骤的计算和处理,通常一个程序的输出会是另外一个程序的输入,因此很难用单个SQL语句来表示,这种应用场合下,MapReduce是很好的候选方案。
  • 半结构化数据:因为不需要对数据的存储进行格式定义,所以MapReduce比较适合处理半结构化数据,这些数据通常都是一些键值对。这些场合下,MapReduce非常适合做ETL的事情。
  • 快速实施的系统:完善和健壮的低成本开源解决方案是MapReduce最大的优点。
    图2 数据挖掘模式图
    图2 数据挖掘模式图

引入HDFS的分布式存储模式。 HDFS 系统简单,利于提高实施效率,适合海量数据挖掘。HDFS架构基于GFS体系架构(Google File System,简称GFS,是由Google 设计并实现的一个分布式文件系统,基于大量安装有Linux操作系统的普通PC构成的集群系统),但比GFS架构精简。GFS和HDFS都采用“单一主控 机+多台工作机”的模式,通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和性能。GFS允许文件被多次或者多个客户端同时打开以追加数据,以 记录为单位。而在HDFS中,文件只允许一次打开并追加数据。GFS中采用主从模式备份Master的系统元数据,当主Master失效时,可以通过分布 式选举备机接替主Master继续对外提供服务,而由于Replication及主备切换本身有一定的复杂性,HDFS Master的持久化数据只写入 到本机(可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害),出现故障时需要人工介入。GFS通过内部采用Copy-on-Write的 数据结构实现集群快照功能,而HDFS不提供快照功能。

引入Hive架构。 Hive 是建立在Hadoop上的数据仓库基础构架,是一种可以存储、查询和分析Hadoop中大规模数据的机制,提供了一系列工具用来进行数据ETL操作。 Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。这个语言也允许熟悉MapReduce开发者自定义Mapper和 Reducer来处理内建的Mapper 和Reducer无法完成的复杂分析工作。

数据挖掘阶段

引入数据分析中间件,提供数据处理、数据探索、数据建模及模型应用等一系列功能,开发多种数据挖掘算法和统计建模方法,并能够方便、快速、高效地处理海量数据,为商业智能的应用提供更方便、更灵活的工具和服务。

数据呈现阶段

BI作为云计算的一种SaaS服务提供给企业,建立行业数据库。面对林林总总的SaaS应用,BI同样可作为一种SaaS服务提供给企业。同时,数据挖掘 工具进行数据分析,可以发现重要的数据模式,这对构建知识库做出了巨大贡献——数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据“坟墓”转换成知 识“金块”。

数据挖掘模式图

我们设计的数据挖掘模式图如图2所示。

  • 企业数据层:企业数据来源于各类应用,如 SaaS应用、企业内部应用数据和专有云应用。
  • 数据仓库层:主要引入HDFS分布存储系统和Hive体系架构,通过MapReduce算法对数据梳理和提取。
  • 数据挖掘层:引入基于XML数据分析中间件,实现统计查询和数据挖掘功能。
  • 数据分析与BI应用层:将BI以SaaS服务的模式提供给企业使用。

总结

随着云时代的到来,企业面临的应用方式更加多元化,通过云的手段提供海量数据挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘应用的推广以及专业的行业知识库的构建。

没有更多推荐了,返回首页