精华内容
下载资源
问答
  • 构建面向CRM的数据挖掘应用13章;客户关系;数据挖掘;与商业过程的关联;DM与CRM;数据挖掘辅助基于数据库的销售 定位销售活动 模拟客户行为 ;DM与CRM;数据挖掘与数据仓库;DW简单介绍;数据仓库ROI;操作与信息数据存储;...
  • 数据仓库概念 数据仓库体系结构及组件 数据仓库设计 数据仓库技术(与数据库技术的区别) 数据仓库性能 数据仓库应用 数据挖掘应用概述 数据挖掘技术与趋势 数据挖掘应用平台
  • 电力行业数据挖掘应用方案
  • 本文将云计算的服务模式应用到数据挖掘应用平台的设计中,提出了3层4模式的云计算服务层次体系,并将此体系应用到数据挖掘平台的构建中,构建了基于云计算服务模式的数据挖掘应用平台框架,详述了平台各子系统的功能...
  • 面向数据挖掘应用的商业数据质量分析研究,封毅,潘栋,本文旨在探索面向数据挖掘应用的商业数据质量问题。首先,从数据挖掘的视角,分析了商业数据的特点及其对数据挖掘的影响。随后,
  • 精品文档可编辑 值得下载 数据仓库与数据挖掘技术在建筑施工企业管理中的应用 摘要新兴的数据仓库数据挖掘技术能够从海量的企业管理数据中发现一些未知的有价值的规律为建筑施工企业提高管理水平提供了强有力的工具...
  • 构建面向CRM的数据挖掘应用13章 郭 建 奎 2004 . 9 . 24 客户关系 数据挖掘和数据仓库 客户关系管理 客户关系 什么是数据挖掘 与商业过程的关联 数据挖掘与客户关系管理 数据挖掘 数据挖掘是从数据库中发现相关的...
  • 数据挖掘数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD)数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的...

    数据挖掘

    数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD)

    数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。

    1 数据挖掘概述

    数据挖掘的定义

    1.1技术上的定义及含义

      数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

      与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。

      ----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

      这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

    1.2商业角度的定义

      数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

      简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

    因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

    2 数据挖掘常用的方法

    利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。

      ①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

      ②回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

      ③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

      ④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

      ⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

      ⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

    ⑦Web页挖掘。随着Internet的迅速发展及Web 的全球普及, 使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

    3数据挖掘的功能

    数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

      1)自动预测趋势和行为

      数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

      2)关联分析

      数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

      3)聚类

      数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

      4)概念描述

      概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

      5)偏差检测

    数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

    4数据挖掘常用技术

    1. 人工神经网络
    2. 决策树
    3. 遗传算法
    4. 近邻算法
    5. 规则推导

    4.1数据挖掘的流程

    1)数据挖掘环境

      数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识.   

    2)数据挖掘过程图

    下图描述了数据挖掘的基本过程和主要步骤

    6c4f6739ee41b94d44be0fe7b96ed5ea.png

    数据挖掘的基本过程和主要步骤

    3)数据挖掘过程工作量

    在数据挖掘中被研究的业务对象是整个过程的基础,它驱动了整个数据挖掘过程,也是检验最后结果和指引分析人员完成数据挖掘的依据和顾问.图2各步骤是按一定顺序完成的,当然整个过程中还会存在步骤间的反馈.数据挖掘的过程并不是自动的,绝大多数的工作需要人工完成.图3给出了各步骤在整个过程中的工作量之比.可以看到,60%的时间用在数据准备上,这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的10%.

    61112e902fb5437877dff5c835ff382b.png

    图3数据挖掘过程工作量比例

    4)数据挖掘过程简介

      过程中各步骤的大体内容如下:

      (1). 确定业务对象

      清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.

      (2). 数据准备

      1)、数据的选择

      搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.

      2)、数据的预处理

      研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.

      3)、数据的转换

      将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.

      (3). 数据挖掘

      对所得到的经过转换的数据进行挖掘.除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成.

      (4). 结果分析

      解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.

      (5). 知识的同化

      将分析所得到的知识集成到业务信息系统的组织结构中去.

    5)数据挖掘需要的人员

      数据挖掘过程的分步实现,不同的步会需要是有不同专长的人员,他们大体可以分为三类.

      业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求.

      数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.

      数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.

    从上可见,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投入的过程.这一过程要反复进行牞在反复过程中,不断地趋近事物的本质,不断地优先问题的解决方案。数据重组和细分添加和拆分记录选取数据样本可视化数据探索聚类分析神经网络、决策树数理统计、时间序列结论综合解释评价数据知识数据取样数据探索数据调整模型化评价。

    5数据挖掘与传统分析方法的区别

    数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.

    先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系.

    6数据挖掘和数据仓库

    大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见图1)。从数据仓库中直接得到进行数据挖掘的数据有许多好处。就如我们后面会讲到的,数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已经被你解决了。

    8460390a5f6e033e9e6e4b42d31463f7.png

    数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据挖掘库。

    当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。

    5f2b727310cfbf08eca8a9ad41997951.png

    7 数据挖掘和在线分析处理(OLAP)

    一个经常问的问题是,数据挖掘和OLAP到底有何不同。下面将会解释,他们是完全不同的工具,基于的技术也大相径庭。

      OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证这个假设是否正确。比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。

      也就是说,OLAP分析师是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。

      数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。比如,一个用数据挖掘工具的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。

      数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。

    而且在知识发现的早期阶段,OLAP工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识发现的过程。

    8数据挖掘,机器学习和统计

    数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。

      数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。

      一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。

    数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

    9软硬件发展对数据挖掘的影响

     使数据挖掘这件事情成为可能的关键一点是计算机性能价格比的巨大进步。在过去的几年里磁盘存储器的价格几乎降低了99%,这在很大程度上改变了企业界对数据收集和存储的态度。如果每兆的价格是¥10,那存放1TB的价格是¥10,000,000,但当每兆的价格降为1毛钱时,存储同样的数据只有¥100,000!

      计算机计算能力价格的降低同样非常显著。每一代芯片的诞生都会把CPU的计算能力提高一大步。内存RAM也同样降价迅速,几年之内每兆内存的价格由几百块钱降到现在只要几块钱。通常PC都有64M内存,工作站达到了256M,拥有上G内存的服务器已经不是什么新鲜事了。

      在单个CPU计算能力大幅提升的同时,基于多个CPU的并行系统也取得了很大的进步。目前几乎所有的服务器都支持多个CPU,这些SMP服务器簇甚至能让成百上千个CPU同时工作。

      基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的办法就是利用一个本地的并行数据库。

    所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。

    《来源科技文献,经本人综合评估,分享广大网友,互通有无》

    展开全文
  • 超市内的数据挖掘应用 超市内的数据挖掘应用
  • 数据挖掘应用现状与产品分析,对现有数据挖掘应用产品的分析
  • 超市内的数据挖掘应用.doc 超市内的数据挖掘应用.doc
  • 数据挖掘应用研究案例精选合集 数据挖掘(英语:Data mining),掌握数据挖掘技能,金矿就在您的脚下。基于数据挖掘技术的精确智能营销随着大数据、移动应用等的快速发展,已经越来越重要,企业对这方面人才...

    数据挖掘应用研究案例精选合集


    数据挖掘(英语:Data mining),掌握数据挖掘技能,金矿就在您的脚下。基于数据挖掘技术的精确智能营销随着大数据、移动应用等的快速发展,已经越来越重要,企业对这方面人才需求缺口也越来越大。本文集主要从数据挖掘应用演讲案例方向介绍了数据挖掘的实际应用,从宏观角度帮助你了解什么是数据挖掘。


    阅读全文 和小伙伴们一起来吐槽


    展开全文
  • 数据挖掘 应用案例集

    2014-11-21 17:01:27
    数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录...

      数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录,就有数据挖掘的价值。

      搜集以下案例,希望有一定的启发和学习价值。

      1. 哪些商品放在一起比较好卖?

      这是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。

      另外,大家都知道在沃尔玛牙膏的旁边通常配备牙刷,在货价上这样放置,牙膏和牙刷才能都卖的很好。

      2. 库存预测

      过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。

      使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Services 以及 SQL Server 数据仓库,采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销,准确性为 98.52%。平均来说,预测该书是否将在未来两周内脱销的准确性为 86.45%。

      3. 股票预设

      预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。

      4. NBA教练如何布阵以提升获胜机会?

      美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。

      系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。

      在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。

      Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。

      Advanced Scout的开发人,因德帕尔.布罕德瑞,开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员,他演示了一个技术新手应该如何使用数据挖掘。布罕德瑞说:“教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略”。与此同时,另一个正式的体育联盟,国家曲棍球联盟,正在开发自己的数据挖掘应用NHL-ICE,联盟与IBM建立了一个技术型的合资公司,去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与Advanced Scout相似的数据挖掘应用,可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的比赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。

      5. 出了一个新成品,哪些老客户最可能购买?

      蒙特利尔银行是加拿大历史最为悠久的银行,也是加拿大的第三大银行。在 20 世纪 90 年代中期,行业竞争的加剧导致该银行需要通过交叉销售来锁定 1800 万客户。银行智能化商业高级经理 Jan Mrazek 说,这反映了银行的一个新焦点--客户(而不是商品)。银行应该认识到客户需要什么产品以及如何推销这些产品,而不是等待人们来排队购买。然后,银行需要开发相应商品并进行营销活动, 从而满足这些需求。

      在应用数据挖掘之前,银行的销售代表必须于晚上 6 点至 9 点在特定地区通过电话向客户推销产品。但是,正如每个处于接受端的人所了解的那样,大多数人在工作结束后对于兜售并不感兴趣。因此,在晚餐时间进行电话推销的反馈率非常低。

      几年前,该银行开始采用 IBM DB2 Intelligent Miner Scoring,基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能性。该系统能够通过浏览器窗口进行观察,使得管理人员不必分析基础数据,因此非常适合于非统计人员。

      "我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。现在,当进行更具针对性的营销活动时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案,甚至确定利息费用。"

      蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息,从而帮助他们对于从营销到产品设计的任何事情进行决策。

      6. 电子商务网站公共页面该放哪些内容最可能产生购买行为?

      圣地亚哥的 Proflowers.com 通过采用 HitBox,即 WebSideStory 的数据挖掘 ASP 服务,使企业的计划者在业务高峰日也能够对销售情况做出迅速反应。由于鲜花极易枯萎,Proflowers 不得不均匀地削减库存,否则可能导致一种商品过快地售罄或库存鲜花的凋谢。

      由于日交易量较高,管理人员需要对零售情况进行分析,比如转换率,也就是多少页面浏览量将导致销售产生。举例来说,如果 100 人中仅有 5 人看到玫瑰时就会购买,而盆景的转换率则为 100 比 20,那么不是页面设计有问题,就是玫瑰的价格有问题。公司能够迅速对网站进行调整,比如在每个页面上都展示玫瑰或降低玫瑰的价格。对于可能过快售罄的商品,公司通常不得不在网页中弱化该商 品或取消优惠价格,从而设法减缓该商品的销售。

      采用 HitBox 的优势在于借助便于阅读的显示器来展现销售数据和转换率。Proflowers 营销副总裁 Chris d'Eon 说:"自己分析数据是浪费时间。我们需要一种浏览数据的方式,能够让我们即刻采取行动。"

      7. 登录网站的当前用户现在最可能购买什么东西?

      丹佛的 eBags 旨在针对常旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、J.D. Edwards 财务系统、客户服务电子邮件和呼叫中心,从而获得客户购买行为习惯方面的信息。数据分析能够帮助公司确定是哪个页面导致了客户的高采购率,并了解是什么内容推动了销售。

      eBags 技术副总裁 Mike Frazini 说:"我们尝试展示不同的内容,来观察哪些内容的促销效果最好。我们最终的目标是完全个性化。"与设计页面以鼓励大部分消费者采购的做法不同,一个个性化的解决方案将不停地创建页面以适合每个具体的访问者。因此 ,如果访问者的浏览记录显示其对手提包感兴趣,网站将创建突出这些商品的客户化页面。Frazini 指出,用于当前实施数据挖掘的分析方法也能用于部署自动化的网站定制规则。

      寻找基于较少的数据和商业规则来创建个性化网页是客户化网站减少资源耗费的方法之一。开利(Carrier)公司--位于美国康涅狄格州 Farmington 的一家空调制造厂商--声称,仅仅通过利用邮政编码数据,其升级版 B2C 网站的每位访问者所产生的平均收益在一个月内从 1.47 美元提高到了 37.42 美元。

      当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到 WebMiner 服务器,也就是一个数据挖掘ASP。然后,WebMiner 的数据挖掘软件将对客户进行假设,并基于这些假设来展示商品。例如,如果客户来自富裕的郊外地区,网站将显 示出带有遥控器的空调机;如果客户的邮政编码显示邻近大量公寓楼,则弹出式广告将展示窗式空调机。

      通过采用这种相对简易的方法,该公司能够在数秒内生成网页。Carrier 全球电子商务经理 Paul Berman 说:"与通常的想法相反,客户化电子商务在创建有针对性的服务时并不需要询问客户8条或9条信息。我们只需要 1 条信息,而且实际证明效果确实不错。"

      和 Carrier 一样,"音乐家之友"(Musician's Friend)也正在减少用于确定客户化内容的商业规则。它是 Guitar Center 有限公司的目录和 Web 分支机构。

    文章来源:http://www.mfqyw.com/

    展开全文
  • 让大数据挖掘来告诉你真相!超市里,牛奶到底和哪种商品摆放一起销量更高?啤酒为什么与尿不湿摆放在一起会卖得更多?乍一看,它们似乎毫无联系,而大数据挖掘却能告诉你它们之间的关联。那么,大数据挖掘是什么呢?...

    3fe10c74e45c0e7e4db78ba063ca8d30.png

    牛奶到底和谁摆放一起销量高?啤酒为什么与尿不湿摆放一起卖得更多?让大数据挖掘来告诉你真相!

    8fd9afadc2f853a7f8d365b28a505e70.png

    超市里,牛奶到底和哪种商品摆放一起销量更高?啤酒为什么与尿不湿摆放在一起会卖得更多?乍一看,它们似乎毫无联系,而大数据挖掘却能告诉你它们之间的关联。那么,大数据挖掘是什么呢?又有哪些方法?

    简单来说,大数据挖掘即指从大量数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,其常用方法有分类、聚类、回归分析、关联规则、神经网络方法、Web数据挖掘等。

    分类

    数据被喻为蕴藏能量的煤矿,就像煤炭可以分为焦煤、无烟煤、肥煤、贫煤等一样,每种数据也有自身的特点,比如频率、量、速度、类型和真实性等等,从而将数据分出来。像好坏、高低、胖瘦……这些就是生活中最简单的分类方法。

    再比如,信用卡公司将持卡人信誉分为良好、一般和较差三类,如果建立“信誉良好的客户是那些收入在5万元以上,年龄在40至50岁之间的人士”这样一个模型,就可以根据这个模型对新的记录进行分类,从而判断一个新持卡人的信誉等级是什么。

    聚类

    聚类与分类相似,但目的不同。聚类是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。

    比如在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,用购买模式刻画不同的客户群的特征;在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。

    关联规则

    什么会促进蛋挞的销量?是飓风,飓风天气下蛋挞更受欢迎;啤酒与哪类产品摆放在一起会卖得更多? 是尿不湿,父亲们在购买尿不湿的时候总是喜欢再买些啤酒……这些事物彼此之间看似毫无关联,但里面却隐藏着关联规则。

    关联规则是隐藏在数据项之间的关联或相互关系,即可根据一个数据项的出现推出其他数据项。关联规则的挖掘过程有两个阶段:第一阶段是从海量原始数据中找出所有的高频项目组;第二阶段是从这些高频项目组产生关联规则。关联规则挖掘技术已被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的 ATM机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

    回归分析

    回归分析反映了数据库中数据属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

    神经网络方法

    神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及以模糊、不完整、不严密的知识或数据为特征的处理问题。

    人工神经网络首先要以一定的学习准则进行学习,然后才能工作。人工神经网络对手写“A”“B”两个字母的识别,如果规定当“A”输入网络时,输出“1”,而当输入为“B”时,输出为“0”。通过多次的学习模拟,来强化网络对上述规则的记忆,因而减少犯错误的可能性。一般说来,网络中所含的神经元个数越多,则它能记忆、识别的模式也就越多。

    Web数据挖掘

    Web数据挖掘是一项综合性技术,指Web从文档结构和使用的集合C中发现隐含的模式P,如果将C看做是输入,P看做是输出,那么Web挖掘过程就可以看做是从输入到输出的一个映射过程。当前越来越多的Web数据都是以数据流的形式出现的,因此对Web数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM算法。这三种算法提到的用户都是笼统的用户,并没有区分用户的个体。目前Web数据挖掘面临着一些问题,包括:用户的分类问题、网站内容时效性问题,用户在页面停留时间问题,页面的链入与链出数问题等。

    展开全文
  • 数据挖掘应用案例集

    千次阅读 2013-01-10 17:34:41
    数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求少”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录...
  • 可视化数据挖掘应用实例一则——某银行信贷规则评估 吴源林 (上海财经大学MBA 学院,上海 200083) 摘要:本文应用 Clementine 工具,通过对某银行评估客户信用申请的资料挖掘,展示 了数据挖掘中遇到的问题和解决...
  • 「摘要」在以互联网为核心,信息不断发展的...文本挖掘作为数据挖掘的分支,就是指从文本数据中抽取有价值的,事先未知的、可理解、最终可用的信息和知识的过程,即数据挖掘的对象全部由文本信息组成。文本挖掘的...
  • 数据仓库的基本概念 多维数据模型 数据仓库的系统结构 数据仓库的实现 基于数据仓库的数据挖掘
  • 作者:宋莹本文长度为10427字,建议阅读20+分钟本文为你介绍数据挖掘的知识及应用。引言最近笔者学到了一个新词,叫做“认知折叠”。就是将复杂的事物包装成最简单的样子,让大家不用关心里面的细节就能方便使用。...
  • 由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及。例如在销售数据中发掘客户的消费习惯,并从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与突出...
  • 发布时间:2005.11.29 11:53 ...但是,随着数据挖掘应用的深入,对该项技术的误解也在增多,加上目前数据挖掘本身的局限和人为的局限,导致数据挖掘在应用过程中容易出现一些问题。本文讨论了当前的困境,并对未来...
  • 电信公司CRM数据挖掘应用客户流失分析和交叉销售是数据挖掘在电信行业的主要应用,是电信运营商用来获取利润最直接最有效的手段。 在目前竞争激烈的电信市场中,企业和客户之间的关系是经常变动的,一旦成为电信企业...
  • 基于超市商务智能的数据挖掘应用模型设计.pdf
  • 数据挖掘的价值:寿险行业数据挖掘应用分析北京理工大学 刘勇 张丽平2003-12-9 14:47:04 寿险是保险行业的一个重要分支,具有巨大的市场发展空间,因此,随着寿险市场的开放、外资公司的介入,竞争逐步升级,群雄...
  • 数据挖掘应用案例

    千次阅读 2012-09-07 05:49:57
    但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是...
  • 转载一篇介绍Kaggle上各种数据挖掘应用的文章 假设你想知道价格上涨5%之后会导致多少顾客流失,或者是预测市场对大量抛售股票的反应,又或者是估算一下借款人拖欠还款的可能性,试试卡歌网(Kaggle)吧。这...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 16,029
精华内容 6,411
关键字:

数据挖掘应用