精华内容
下载资源
问答
  • 数据挖掘案例

    万次阅读 2018-10-19 16:32:48
    图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这需要大数据科学家和行业...

     

    图中的左边是SPSS1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。

    1.理解商业问题。这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做,最后的项目一定是失败的。

    2.分析数据。当明确了业务问题之后,我们就需要去分析数据,看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在这个阶段,我们可能发现数据不足,或者数据质量太差,这个时候就可能要寻求第三方数据的帮助,或者规划如何去采集更多的数据了。

    3.数据挖掘。前两步都是在做数据挖掘前的准备,当业务明略,数据可用时,我们就正式开始数据挖掘了。

    3.1提取特征

    首先我们要对数据进行处理,从数据中提取特征。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。

    良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。举个例子,我们要辨别一个西瓜是好是坏,可能颜色是一个特征,条纹,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是绿色的,所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹,重量,瓜蒂是判别一个西瓜是好是坏非常重要的因素,因此他们是好特征。

    我们在解决不同问题时,所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此,我们必须紧密的联系业务,去选择合适的特征。

    在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的大数据处理技能。

    3.2建立模型。

    当特征提取完毕后,我们就需要去应用算法建立模型了。在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何加速算法计算速度,是一个非常突出的问题。

    此外,由于传统的数据挖掘算法都是针对小数据集的,当数据规模到了一台服务器无法处理的程度,传统的数据挖掘算法就不再使用。此时,我们需要有新的数据挖掘技术来支持大数据上的数据挖掘

    当模型建立完成之后,我们需要对模型进行评估,来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。

    3.3后期工作。

    当一个效果非常好的模型建立完毕了,我们的数据挖掘就结束了吗?传统的数据挖掘软件往往只做到模型建立这一步,但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来,如何去管理、运行、维护、扩展模型。

    我们先来看看DataInsight对业务的支持。

     

    用户需要针对不同的业务去建立不同的模型,这个建模过程可以由用户自己完成,也可以由明略的大数据科学家去完成。建立好的模型以插件的形式插入到DataInsight中去,方便模型的管理和扩展。

    用户的业务系统会通过APIDataInsight进行通信,来运行或者更新DataInsight中插入的模型。

    一个典型的DataInsight模型运行过程如下:用户通过API调用DataInsight,在请求中指定模型,模型的输入和模型的输出。DataInsight会将数据从数据源中取出,送入模型,并且将模型分成多个步骤,并行化的在分布式执行引擎中运行。当模型运行完毕后,结果将送入用户指定的目的数据库中。这样,用户的应用系统就可以直接从目的数据库中获得模型运行的最新结果了。

    DataInsight中将解决客户业务问题的模型成为业务模型,或者应用。DataInsight对业务模型也进行了一定层次的抽象。每个业务模型都是由若干步骤组成的。每个步骤被称作一个算子。

    上图是一个文本分类的业务模型,其解决的问题是将若干文本进行分类。例如我们有很多文章,我们要对每篇文章的情感进行分类,就可以使用这个模型。

    我们将文本分类模型抽象为很多算子的组合。每个算子都是对数据进行了某种转换,将一组输入转化为一组输出。这个转化过程可能是对数据进行的预处理,也可能是某种机器学习算法。

    每个算子都有输入和输出,且算子的输出可以作为另外一个算子的输入。这样,整个业务模型就抽象成了一个有向无环图(DAG)。DataInsight在执行模型时,会去调度模型中的每个算子,将适合分布式计算的算子送入不同的执行容器中去运行,加速了整个模型的计算速度。

    DataInsight总体的体系架构见下图:

    下面我们介绍一下明略在各个领域中的一些案例。由于时间关系,我这里只举两个案例。

    精准营销

    明略是从秒针系统拆分出来的,秒针系统是一家以互联网精准营销为主要业务的公司,因此明略在精准营销方面有着接近10年的积累。

    首先,明略的大数据平台MDP会将企业各种自由数据,包括CRM数据、交易行为数据以及官网数据等,和第三方数据一起收集起来,并对这些数据进行关联和打通,一起存储到大数据平台MDP中去。

    我们针对企业不同的业务,建立多个模型,例如智能推荐模型,用户画像模型,消费预测模型,商圈聚类模型等等,这些模型作为插件插入到我们的大数据挖掘平台DataInsight中去。

    我们可以将原始数据从MDP中取出,进过DataInsight中模型的计算之后,生成最终的结果数据,结果数据将送入用户画像系统和推荐系统的离线部分。

    用户的推荐系统分为在线和离线两个部分,离线推荐的结果就是DataInsight中计算出来的结果。在线推荐系统将会接收一个在线的推荐请求,通过客户画像系统和离线推荐结果,并结合当时的一些场景,共同计算出最终向用户推荐的物品。

    明略的精准营销系统已经应用到了个性化推荐、精准营销、用户洞察、广告投放等多个领域,并取得了良好的效果。

    智能推荐算法。

    和传统的协同过滤算法不一样,这个算法是采用了分类的思想,通过分类的方法来实现推荐的。

    首先,在进行推荐之前,我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品,也可以是广告,甚至是文章、电影、音乐等等。

    然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库,用户CRM数据库,以及用户行为数据。

    解决了目标和数据之后,我们就需要采集一批有标注的样本。因为是采用的分类算法,这是有监督的算法,所以标注样本是建模的第一步工作。标注就是通过人工来判定用户是否对某个物品感兴趣。

    标注问题解决后,我们就需要从数据中提取特征。我们的特征分为3类:物品自身属性,比如我们推荐的是手机,手机型号,手机价格,手机颜色都是物品的自身属性。其次,我们要提取人的属性,比如人的性别、年龄、收入、教育程度一类。最后,我们还需要知道人和物品的交互关系,他是浏览过商品还是加入过购物车,还是点击过商品,甚至购买过该商品。除了和推荐的商品之间的关系之外,我们还可以将用户和其他商品之间的关系也作为特征。

    这样,我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试,诸如GBDT,逻辑回归,SVM等等。

    当模型建立完毕之后,我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣,以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。

    有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序,最后选出TopK个结果作为最终结果返回。

    设备诊断

    我们的第二个案例是有关设备诊断方案的。 我们知道,工业4.0是目前比较火热的一个话题。而设备诊断正是工业4.0中非常重要的一个应用。

    设备诊断又分为故障诊断和故障预测两大类。故障诊断是当一个设备出现故障,我们需要辨别该故障的类型。故障预测是我们要预测出某个设备在未来会不会出现故障。这是两个截然不同的问题,但是处理的方法是类似的。故障诊断和故障预测已经在多个行业中得到应用,并且已经取得了非常突出的效果。

    明略的故障诊断方案如下图:

    首先,各种设备的数据通过ETL汇聚进大数据平台中去。这些数据包括传感器实时数据,设备历史数据,时间历史数据等等。

    然后,在DataInsight中建立故障诊断和故障预测模型,来对原始的数据进行分析,并得到诊断和预测结果。

    DataInsight中的模型会部署到生产系统中去,通过API和故障诊断和故障预测应用进行交互,提供最终的分析结果给到应用,在应用中根据分析结果进行各种统计和可视化的展现。

    进行故障诊断和故障预测建模有两种方式,其一是传统的方式,其二是通过深度学习的方式。

    这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。

    对于传统方法而言,最复杂的部分是特征选取。上文我们也讲到,只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。

    当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。

    深度学习

    在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:

    比起传统的方法,故障标注这一步是省不掉的,因为我们用的还是一个有监督的方法,这个方法必须要有一批标注好的样本。

    和传统方法不一样的是,我们直接将样本送入深度学习算法,常用的如卷积神经网络去进行训练,来得到最终的故障诊断和预测的结果。

    相比传统方法,深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习,省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道,或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型,其效果往往好于传统方法的模型。

    但是,深度学习算法对数据量的要求非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。

    Q&A

    Q1:数据互联行业主要是指哪些业务?

    A1:数据互联是明略将第三方数据引入到企业中和企业自有数据结合起来去做数据挖掘的业务,这个业务需要对第三方数据如何与企业数据融合,去进行数据挖掘有比较深的理解.

    简单的说,就是帮助用户分析需要什么样的数据,以及从何处去获得这些数据,外部数据和内部数据如何打通,如何去数据挖掘

    Q2:请问领域知识和数据专业知识哪个在实际工作中起的作用更大?

    A2:领域知识和数据专业知识应用的场景不一样。在进行数据挖掘之前,我们首先需要有领域知识。必须明白要解决的问题是什么。只有有了领域知识,并且有数据知识,才能把业务转化为数据挖掘的问题,在进行数据挖掘过程中,数据挖掘知识可能是更关键的,因为你要知道如何去解决这个问题。但是,进行数据挖掘时,还必须根据业务对模型进行调整。

    刚才我也说了,模型调优必须建立合理的评价指标。这个评价指标根据不同的业务可能是不一样的。所以必须有业务知识才能知道如何去调优,才能知道什么样的模型是符合业务需要的,所以,在实际的数据挖掘过程中,领域知识和数据挖掘专业知识都是非常重要的,如果缺乏了任何一种,可能都很难取得比较好的效果。另外大数据挖掘中大数据处理能力也很重要,如果不会处理大数据,或者没有良好的编程能力,也是很难做好的

    Q3:请问一下明略大数据在特征工程上有哪些比较好的经验呢?

    A3:其实特征工程是一个非常dirty的活,需要大量的尝试性工作,明略的经验就是,在做特征工程时,了解业务是第一位,然后需要深入的去调查客户的每一张表,搞明白每一张表的每一个字段,以及字段间的关联关系,我们在实际工作中,经常要调研几百张表去找到我们需要的数据,此外,作为一个合格的数据挖掘人员,或者数据科学家,敏锐力非常重要,能够结合业务知道可以从数据中提取哪些特征。特征提取出来之后,是否是一个好的特征其实是不知道的。我们可以大胆的尝试,多选取一些特征过来。然后在通过特征选择去进行筛选。特征工程是实际建模中最耗人力的过程。我们建模大概70-80%的时间都耗费在这个上面。

    Q4:请问在进行数据挖掘之前的怎么解决数据质量问题?

    A4:坦白的说,数据质量也是困扰我们的问题,目前我们遇到的客户,坦白的说数据很多都是碎片化的。可能是因为之前他们忽略了某些数据的收集,或者他们的数据只是总体样本的一小部分,对于第一种客户,我们会帮助他们制定如何去收集更多的数据,只有数据有了积累,数据质量问题才会解决。对于第二种客户,我们会帮助引入第三方数据,用第三方数据来补充客户现有的数据,大数据的数据质量差是有目共睹的,但是,正是由于数据量大,数据类型多,我们才能从大数据的沙子中挖到金子。如果传统数据是富矿石,大数据就是贫矿石,大数据数据只能以量去取代质。

    Q5:目前未回答问题中排名最高的是这个:二分类分类算法中,负面情况占比很小,训练集数据负面数据如何按比例分?训练集需要调高负面数据的比例吗?对算法有什么影响?

    A5:分类问题中对正负样本的平衡是必须的,这个也是影响最后分类结果的一个很重要的因素,如果样本不平衡,能做的事情是样本增益和样本抽样。比如正样本远远小于负样本,可以对正样本进行复制,或者加上随机扰动来扩充正样本,或者直接对负样本进行抽样。达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合,达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合。

     

    展开全文
  • 数据挖掘案例分析

    2015-04-25 19:25:00
    数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录...

    数据挖掘应用目前在国内的基本结论是“大企业成功案例少,中小企业需求小”。但是对于市场来说,如果不是真的“没有人买”所以“没有人卖”,那一定是创新的机会所在。个人的判断是,一个数据库只要有几十万以上记录,就有数据挖掘的价值。

    搜集以下案例,希望有一定的启发和学习价值。


    1. 哪些商品放在一起比较好卖?

    这 是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原 因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分 析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。

    另外,大家都知道在沃尔玛牙膏的旁边通常配备牙刷,在货价上这样放置,牙膏和牙刷才能都卖的很好。

    2. 库存预测

    过 去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一 些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。

    使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Services 以及 SQL Server 数据仓库,采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销,准确性为 98.52%。平均来说,预测该书是否将在未来两周内脱销的准确性为 86.45%。

    3. 股票预设


    预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。

    4. NBA教练如何布阵以提升获胜机会?

    美 国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带领你的球队取得胜利呢?当然,最 容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了 IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。

    系 统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为-17分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创 (Darrell Armstrong)组合时,魔术队得分为正14分。

    在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿 姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖 掘支持的阵容没能拖住热队,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。

    Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类,按得分、助 攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。

    Advanced Scout的开发人,因德帕尔.布罕德瑞,开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员,他演示了一个技术新手应该如何使用 数据挖掘。布罕德瑞说:“教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略”。与此同时,另一个正式的体育联盟,国家曲棍球联盟,正在开 发自己的数据挖掘应用NHL-ICE,联盟与IBM建立了一个技术型的合资公司,去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与 Advanced Scout相似的数据挖掘应用,可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的 比赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。

    5. 出了一个新成品,哪些老客户最可能购买?

    蒙 特利尔银行是加拿大历史最为悠久的银行,也是加拿大的第三大银行。在 20 世纪 90 年代中期,行业竞争的加剧导致该银行需要通过交叉销售来锁定 1800 万客户。银行智能化商业高级经理 Jan Mrazek 说,这反映了银行的一个新焦点--客户(而不是商品)。银行应该认识到客户需要什么产品以及如何推销这些产品,而不是等待人们来排队购买。然后,银行需要 开发相应商品并进行营销活动, 从而满足这些需求。

    在应用数据挖掘之前,银行的销售代表必须于晚上 6 点至 9 点在特定地区通过电话向客户推销产品。但是,正如每个处于接受端的人所了解的那样,大多数人在工作结束后对于兜售并不感兴趣。因此,在晚餐时间进行电话推销的反馈率非常低。

    几 年前,该银行开始采用 IBM DB2 Intelligent Miner Scoring,基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能 性。该系统能够通过浏览器窗口进行观察,使得管理人员不必分析基础数据,因此非常适合于非统计人员。

    "我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。现在,当进行更具针对性的营销活动时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案,甚至确定利息费用。"

    蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息,从而帮助他们对于从营销到产品设计的任何事情进行决策。

    6. 电子商务网站公共页面该放哪些内容最可能产生购买行为?


    圣 地亚哥的 Proflowers.com 通过采用 HitBox,即 WebSideStory 的数据挖掘 ASP 服务,使企业的计划者在业务高峰日也能够对销售情况做出迅速反应。由于鲜花极易枯萎,Proflowers 不得不均匀地削减库存,否则可能导致一种商品过快地售罄或库存鲜花的凋谢。

    由于日交易量较高,管理人员需要对零售情况进行分析,比如转换 率,也就是多少页面浏览量将导致销售产生。举例来说,如果 100 人中仅有 5 人看到玫瑰时就会购买,而盆景的转换率则为 100 比 20,那么不是页面设计有问题,就是玫瑰的价格有问题。公司能够迅速对网站进行调整,比如在每个页面上都展示玫瑰或降低玫瑰的价格。对于可能过快售罄的商 品,公司通常不得不在网页中弱化该商 品或取消优惠价格,从而设法减缓该商品的销售。

    采用 HitBox 的优势在于借助便于阅读的显示器来展现销售数据和转换率。Proflowers 营销副总裁 Chris d'Eon 说:"自己分析数据是浪费时间。我们需要一种浏览数据的方式,能够让我们即刻采取行动。"

    7. 登录网站的当前用户现在最可能购买什么东西?


    丹 佛的 eBags 旨在针对常旅客销售手提箱、手提袋、钱包以及提供其它旅行服务。该公司采用 Kana 软件公司的 E-Marketing Suite 来整合其网站的 Oracle 数据库、J.D. Edwards 财务系统、客户服务电子邮件和呼叫中心,从而获得客户购买行为习惯方面的信息。数据分析能够帮助公司确定是哪个页面导致了客户的高采购率,并了解是什么内 容推动了销售。

    eBags 技术副总裁 Mike Frazini 说:"我们尝试展示不同的内容,来观察哪些内容的促销效果最好。我们最终的目标是完全个性化。"与设计页面以鼓励大部分消费者采购的做法不同,一个个性化 的解决方案将不停地创建页面以适合每个具体的访问者。因此,如果访问者的浏览记录显示其对手提包感兴趣,网站将创建突出这些商品的客户化页面。 Frazini 指出,用于当前实施数据挖掘的分析方法也能用于部署自动化的网站定制规则。

    寻找基于较少的数据和商业规则来创建个性化网 页是客户化网站减少资源耗费的方法之一。开利(Carrier)公司--位于美国康涅狄格州 Farmington 的一家空调制造厂商--声称,仅仅通过利用邮政编码数据,其升级版 B2C 网站的每位访问者所产生的平均收益在一个月内从 1.47 美元提高到了 37.42 美元。

    当客户登录网站时,系统将指示他们提供邮政编码。这些邮政编码信息将被发送到 WebMiner 服务器,也就是一个数据挖掘ASP。然后,WebMiner 的数据挖掘软件将对客户进行假设,并基于这些假设来展示商品。例如,如果客户来自富裕的郊外地区,网站将显示出带有遥控器的空调机;如果客户的邮政编码显 示邻近大量公寓楼,则弹出式广告将展示窗式空调机。

    通过采用这种相对简易的方法,该公司能够在数秒内生成网页。Carrier 全球电子商务经理 Paul Berman 说:"与通常的想法相反,客户化电子商务在创建有针对性的服务时并不需要询问客户8条或9条信息。我们只需要 1 条信息,而且实际证明效果确实不错。"

    和 Carrier 一样,"音乐家之友"(Musician's Friend)也正在减少用于确定客户化内容的商业规则。它是 Guitar Center 有限公司的目录和 Web 分支机构。

    转载于:https://www.cnblogs.com/xlfhnny/p/4456442.html

    展开全文
  • R语言数据挖掘案例

    2018-03-27 08:31:04
    R语言数据挖掘案例,压缩包文件,欢迎下载。,,,,,,
  • SAS数据挖掘数据挖掘简介:数据挖掘(Data Mining)是一项知识发现、商业智能、预测模型的集合,目的在于帮助用户探析数据,以发现有意义的规则模式过程。数据挖掘技术最显著的特征如下:海量数据:随现代企业级数据的...

    SAS数据挖掘

    数据挖掘简介:

    数据挖掘(Data Mining)是一项知识发现、商业智能、预测模型的集合,目的在于帮助用户探析数据,以发现有意义的规则模式过程。数据挖掘技术最显著的特征如下:

    海量数据:随现代企业级数据的膨胀,“TB级别”的数据库存储已并不罕见,诸如银行、医疗、零售、电信、保险等行业,由此带来的问题是传统统计算法的效率偏低,无法满足时间上的需求,显然数据挖掘算法解决了很大一部分的时间效率问题,但也由于分析工具或计算机本身的局限,因此数据挖掘也在不同的技术层面上展开——统计算法问题和计算机分布式问题。

    42971461728889.png

    Map-reduce

    有意义的规则模式:业务产生数据,也必然产生行为规则模式,数据库知识发现也许并不困难, 不过具有核心意义的是——是否能带来利润的提升;在成本和收益最大化的基础上,提高客户响应,最大程度保留客户、洞察市场,提出运营策略,作为决策的有用支撑,这也许就决定了数据挖掘算法与业务的紧密性。

    21401461728889.png

    规则模式

    消费者行为偏好:服务或产品最终要回归消费者,消费者信息的获取,如人口信息、行为偏好、关系渠道是预测消费行为,尤其是选择性偏好的核心因素,这使得数据挖掘技术在消费者的信息管理与消费行为取向间起到桥梁连接作用,将信息和行为整合在一个行为框架中,更有利于全面的解析消费者的下一个购买行为。

    4871461728889.png

    行为倾向

    学员对象

    1.从事银行、电商、医药、电信等行业的业务人员或数据分析人员;

    2.有志于从事银行、电商、医药、电信等行业数据挖掘的本科生、研究生;

    3.从事于数据库营销、执行方案规划人士;

    4.希望快速掌握sas软件的基础、提升统计分析实战能力的分析人员。

    课程目标

    1.掌握数据处理的一般过程及其商业模式下的数据分析过程;

    2.帮助学员完成常用数据访问工作,如访问数据库、本地文件及其不同格式的转换;

    3.灵活地运用sas软件进行数据清理、管理等预分析的工作;

    4.能够灵活应用常用的建模方法,由浅入深,了解基本建模分析和高级建模分析;

    5.掌握商业报告的基本格式——表格、图形、报告。

    课程特色

    1.灵活的咨询与培训形式,企业可以根据实际业务需求定制培训方案。

    2.本课程的内容安排遵循数据处理的一般流程,有助于研习数据挖掘方法及其分析思路,既可以帮助初学者熟悉数据挖掘的基本概念与应用,也适合有一定基础和应用经验的学员快速回顾软件与算法。课程内容通俗易懂,由浅入深。

    3.统计与业务问题相结合,不同的实际问题对应着不同参数的调整,力求算法与业务的有效整合,从而能精确定位模型与业务问题,提供策略方案。

    4.每个章节设有问题情境及其真实案例分析,可以在巩固知识点的同时进一步加深软件操作与实务。最终实现问题与工具的综合运用。

    课程目录大纲:

    1.数据挖掘简介

    1.1数据挖掘流程简介

    ——案例串讲:需求、数据、清理、建模、报告

    ——SEMM分析流程

    ——业务分析流程

    1.2数据挖掘与统计分析

    ——项目分析流架构(需求、算法、时间)

    1.3数据挖掘软件简介

    2.数据源:访问数据库及其不同文件格式

    ——访问文本文件

    ——访问Excel文件

    ——访问常用统计软件的文件格式

    ——访问数据库(Oracle、db2等)

    ——SAS数据源DMDB;

    3.数据挖掘案例分析

    3.1RFM查询模型

    ——案例:衡量客户价值模型(RFM),使用抽样、合并、制表等技术。

    3.2预测分析:DM回归与logistic、神经网络、决策树

    ——案例1:库存的优化方案(回归和神经网络),使用测量级别、变量筛选、缺失值分析等技术;

    ——案例2:客户流失模型(神经网络),使用数据审核、变量变换、主成分、分区、图形等技术。

    ——案例3:客户欺诈分析(logistic),使用变量整合与分箱技术。

    ——案例4:客户流失分析(决策树),制作报告;

    3.3关联分析:购物篮分析

    ——案例1:购物篮分析及商品最优结构特征优化;

    ——案例2:购物序列分析及购买推断;

    3.4市场细分:聚类分析

    ——案例:细分客户特征及异常检测(聚类),使用海量样本的两步聚类;

    3.5自动建模:组合模型

    ——案例:用户行为偏好的组合预测及模型整合技术。

    展开全文
  • 目录 第一部分 金融行业应用 5 1. 前言 5 1.1 客户细分 使客户收益最大化的同时最大程度降低风险 5 1.2 客户流失 挽留有价值的客户 6 1.3 交叉销售 6 ...信用风险分析 7 ...如何进行客户流失分析?...数据挖掘部署策略 119
  • 所谓的数据挖掘其实就是在大量的的非结构化数据里搜索可用的数据,并提取隐含在其中、人们事先不知道的、但又有潜在应用价值的过程。 Smartbi数据挖掘工具揭示的是未知的、将来的数据关系。数据挖掘的知识领域涵盖了...

    所谓的数据挖掘其实就是在大量的的非结构化数据里搜索可用的数据,并提取隐含在其中、人们事先不知道的、但又有潜在应用价值的过程。

    Smartbi数据挖掘工具揭示的是未知的、将来的数据关系。数据挖掘的知识领域涵盖了数据库技术、统计学知识、机器学习、可视化等多学科知识的综合应用。

    Smartbi Mining平台是一个注重于实际生产应用的数据分析预测平台,它旨在为个人、团队和企业所做的决策提供预测。该平台不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。此外,它内置了多种实用的、经典的机器学习算法,并基于Smartbi对企业客户的长期经验,提供了大量实用的企业级平台特性。具体特性如下:

    适应大型企业

    1、分布式云计算,线性扩展,保证性能

    2、与BI平台无缝整合,一键发布挖掘模型

    3、模型库提高知识复用,减少重复投入

    4、支持跨库查询,统一控制数据访问权限

    5、训练自动化、模型自学习,提供企业级模型工厂

    适应普通用户

    1、直观易上手的流式建模,极简风格的节点配置界面

    2、支持可视化探索,轻松理解数据质量和数据关联

    3、流程节点在线帮助,随用随查

    4、模型超参数自动调整,降低使用门槛

    专业算法能力

    1、内置5大类机器学习成熟算法

    2、支持文本分析处理

    3、支持使用Python扩展挖掘算法

    4、支持使用SQL扩展数据处理能力

    5、自动特征组合,实现有效的特征生成

    下面介绍企业应用Smartbi 的数据挖掘案例
    建设背景:

    Ø XX一卡通有限公司经过数年的运营及发展,目前业务已经普及到公交、地铁、出租车、停车场、公租自行车、轮渡等。

    Ø 项目要实现一卡通对内的日常运营展示和统计、对外的定制分析、GIS展示、BI数据挖掘和决策支持,达到最大化满足政府、一卡通公司、运营业主和商户等对公共交通大数据的分析需求。

    建设目标:

    一卡通的可视化业务辅助决策平台

    一卡通各应用场景进行数据分析及挖掘

    提供精准实时的商业洞察

    持续解决互联互通管理问题

    技术架构:

    的撒旦撒旦.png

    业务建设方案:

    sa'fa'fa爱上发发发发.png

    成果举例:

    1、流向省外交易数据

    的方法大师傅地方的第三方.png

    2、外地到本地交易数据分析

    烦烦烦的三十分大师.png

    项目价值:

    • 通过BI大屏的各项指标监控,对供应链各个透明化管理,提升了一卡通的互联互通

    • 准确快速的反应客户动向,及时判断客户问题

    • 业务部门可自行挖掘数据,持续解决管理问题

    • 各个业务场景进行数据挖掘,辅助各个部门决策

    数据挖掘还能火几年这个暂时还没办法预测,其实我们大部分人都是在摸着石头过河,没有前人经验和教训作参考,时代总是在不停地发展的,整个世界都处在一个高速发展的状态,总是往前走,终有一天,人工智能和机器学习会颠覆一些的传统行业。

    展开全文
  • 基于数据挖掘算法的审计数据分析及案例应用.pdf
  • 通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析...数据挖掘是一门科学,有科学的方法和模型作为基础 数据挖掘又是一门艺术,需要使用者对商业问题的深入理解和模型适用条件深刻的认识
  • 五所矿业类高校学术优势发展潜力的对比分析——高校文献计量与数据挖掘案例设计.pdf
  • 3、负责日常各门店总仓销售、库存数据统计分析及编制相关报表等工作; 4、协助货品主管做好货品月度、季度、年度货品分析,并提出合理改进的意见; 5、每月提供准确的仓库店铺各季货品的库存、销量、销售进度等...
  • 分析方法:通过对客户基本资料、客户存取贷款记录、客户金融产品购买等信息数据进行深入分析,建立客户的群体划分标准,以针对不同客户群体进行针对性营销;建立客户消费行为的分析模型和评价指标体系,以进行客户...
  • 电商经济形态背景下数据挖掘大数据分析技术实用案例.ppt
  • 包括:数据挖掘技术的基本知识理论、主要应用场景常用算法和针对具体应用的技术实现路线
  • 数据挖掘:实用案例分析》 基本信息 作者: 张良均 陈俊德 刘名军 陈荣 丛书名: 大数据技术丛书 出版社:机械工业出版社 ISBN:9787111425915 上架时间:2013-7-4 出版日期:2013 年7月 开本:16开 页码...
  • sas 编程与数据挖掘商业案例数据 篇一 sas 编程与数据挖掘商业案例数据 下载地址 电子版仅供预览支持正版喜欢的请购买正版书籍 图书简介 从 pdv 角度详尽剖析 basesas 常用语句代码应用数据挖掘理论 和商业应用...
  • 数据挖掘典型案例及在高速铁路运营期的应用展望.pdf
  • sas 编程与数据挖掘商业案例数据 篇一 sas 编程与数据挖掘商业案例数据 下载地址 电子版仅供预览支持正版喜欢的请购买正版书籍 图书简介 从 pdv 角度详尽剖析 basesas 常用语句代码应用数据挖掘理论 和商业应用...
  • 数据挖掘流程总结及案例分析

    千次阅读 2019-05-25 21:11:13
    数据采用:Kaggle上有这样一个比赛:城市自行车共享系统使用状况。 https://www.kaggle.com/c/bike-sharing-demand可以下载 #coding=utf-8 import pandas as pd data = pd.read_csv("train.csv", header = 0,error_...
  • 网络游戏运营中的数据挖掘技术相关案例分析 摘 要 数据挖掘技术在网络游戏客户关系管理中的应用现今数据挖掘技术已经在各个 领域得以应用并有了相当的发展许多学者对数据挖掘 的研究及其在客户关 系管理中的应用上...
  • 1.4 数据挖掘现状应用前景  “数据海量,信息缺乏”是大多数金融企业所面对的尴尬。目前,金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用信息,例如...
  • 电商经济形态背景下的数据挖掘 大数据分析技术窦用案例 F袋 引言 随着云计算物联网社交网络等新兴服务的兴起,人类社会的数 据种类和规模正以前所未有的速度增长,大数据时代正式到来数据从 单的处理对象开始转变为...
  • 数据挖掘案例实战:利用LDA主题模型提取京东评论数据 网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品和购物,产生了海量的用户行为数据,其中用户对商品的评论数据对商家具有重要的意义。利用好...
  • 数据挖掘应用案例

    千次阅读 2012-09-07 05:49:57
    但是沃尔玛一年内数据挖掘的结果显示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是...
  •  广州TipDM团队在多年的数据挖掘项目实施过程中,积累了一套行之有效的数据挖掘方法论,数据挖掘建模过程如图3-2所示。 3.2.1 定义挖掘目标  针对具体的数据挖掘应用需求,首先要非常清楚:本次的挖掘目标是什么?...
  • 电商经济形态背景下的数据挖掘 太数据分析技术实用案例 引言 随着云计算物联网社交网络等新兴服务的兴起,人类社会的数 据种类和规模正以前所未有的速度增长,大数据时代正式到来数据从 简单的处理对象开始转变为_种...
  • 《R语言数据挖掘》R代码和案例数据《R语言数据挖掘》R代码和案例数据《R语言数据挖掘》R代码和案例数据
  • data.index = range(1994, 2014) data.loc[2014] = None data.loc[2015] = None

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 26,821
精华内容 10,728
关键字:

数据挖掘的案例及分析