精华内容
下载资源
问答
  • 基于Python实现的新冠疫情数据挖掘案例分析.pdf
  • 数据挖掘案例分析

    2018-12-04 12:45:53
    从三个案例,全面系统地阐述了大数据挖掘的整个过程 包括Jupyter Notebook的Python代码、数据集、和一些简单的解释说明。 教学课件
  • 大数据数据挖掘案例 篇一大数据数据挖掘案例 本文为系列文该篇为第一篇下面是正文 简而言之数据挖掘 data mining 是有组织有目的地收集数据 通过分析数据使之成为信息从而在大量数据中寻找潜在规律以形 成规则或知识...
  • 数据挖掘流程一. 数据读取与统计分析二. 特征分析 & 缺失值填充2.1 性别与获救2.2 船舱等级与获救2.3 年龄与获救2.4 姓名(称谓) 与获救2.5 填充缺失值2.6 登船地点与获救2.7 兄弟姐妹的数量2.8 父母和孩子的数量2.9...
  • 数据挖掘案例

    万次阅读 2018-10-19 16:32:48
    图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这需要大数据科学家和行业...

     

    图中的左边是SPSS1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。

    1.理解商业问题。这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做,最后的项目一定是失败的。

    2.分析数据。当明确了业务问题之后,我们就需要去分析数据,看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在这个阶段,我们可能发现数据不足,或者数据质量太差,这个时候就可能要寻求第三方数据的帮助,或者规划如何去采集更多的数据了。

    3.数据挖掘。前两步都是在做数据挖掘前的准备,当业务明略,数据可用时,我们就正式开始数据挖掘了。

    3.1提取特征

    首先我们要对数据进行处理,从数据中提取特征。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。

    良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。举个例子,我们要辨别一个西瓜是好是坏,可能颜色是一个特征,条纹,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是绿色的,所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹,重量,瓜蒂是判别一个西瓜是好是坏非常重要的因素,因此他们是好特征。

    我们在解决不同问题时,所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此,我们必须紧密的联系业务,去选择合适的特征。

    在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的大数据处理技能。

    3.2建立模型。

    当特征提取完毕后,我们就需要去应用算法建立模型了。在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何加速算法计算速度,是一个非常突出的问题。

    此外,由于传统的数据挖掘算法都是针对小数据集的,当数据规模到了一台服务器无法处理的程度,传统的数据挖掘算法就不再使用。此时,我们需要有新的数据挖掘技术来支持大数据上的数据挖掘

    当模型建立完成之后,我们需要对模型进行评估,来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。

    3.3后期工作。

    当一个效果非常好的模型建立完毕了,我们的数据挖掘就结束了吗?传统的数据挖掘软件往往只做到模型建立这一步,但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来,如何去管理、运行、维护、扩展模型。

    我们先来看看DataInsight对业务的支持。

     

    用户需要针对不同的业务去建立不同的模型,这个建模过程可以由用户自己完成,也可以由明略的大数据科学家去完成。建立好的模型以插件的形式插入到DataInsight中去,方便模型的管理和扩展。

    用户的业务系统会通过APIDataInsight进行通信,来运行或者更新DataInsight中插入的模型。

    一个典型的DataInsight模型运行过程如下:用户通过API调用DataInsight,在请求中指定模型,模型的输入和模型的输出。DataInsight会将数据从数据源中取出,送入模型,并且将模型分成多个步骤,并行化的在分布式执行引擎中运行。当模型运行完毕后,结果将送入用户指定的目的数据库中。这样,用户的应用系统就可以直接从目的数据库中获得模型运行的最新结果了。

    DataInsight中将解决客户业务问题的模型成为业务模型,或者应用。DataInsight对业务模型也进行了一定层次的抽象。每个业务模型都是由若干步骤组成的。每个步骤被称作一个算子。

    上图是一个文本分类的业务模型,其解决的问题是将若干文本进行分类。例如我们有很多文章,我们要对每篇文章的情感进行分类,就可以使用这个模型。

    我们将文本分类模型抽象为很多算子的组合。每个算子都是对数据进行了某种转换,将一组输入转化为一组输出。这个转化过程可能是对数据进行的预处理,也可能是某种机器学习算法。

    每个算子都有输入和输出,且算子的输出可以作为另外一个算子的输入。这样,整个业务模型就抽象成了一个有向无环图(DAG)。DataInsight在执行模型时,会去调度模型中的每个算子,将适合分布式计算的算子送入不同的执行容器中去运行,加速了整个模型的计算速度。

    DataInsight总体的体系架构见下图:

    下面我们介绍一下明略在各个领域中的一些案例。由于时间关系,我这里只举两个案例。

    精准营销

    明略是从秒针系统拆分出来的,秒针系统是一家以互联网精准营销为主要业务的公司,因此明略在精准营销方面有着接近10年的积累。

    首先,明略的大数据平台MDP会将企业各种自由数据,包括CRM数据、交易行为数据以及官网数据等,和第三方数据一起收集起来,并对这些数据进行关联和打通,一起存储到大数据平台MDP中去。

    我们针对企业不同的业务,建立多个模型,例如智能推荐模型,用户画像模型,消费预测模型,商圈聚类模型等等,这些模型作为插件插入到我们的大数据挖掘平台DataInsight中去。

    我们可以将原始数据从MDP中取出,进过DataInsight中模型的计算之后,生成最终的结果数据,结果数据将送入用户画像系统和推荐系统的离线部分。

    用户的推荐系统分为在线和离线两个部分,离线推荐的结果就是DataInsight中计算出来的结果。在线推荐系统将会接收一个在线的推荐请求,通过客户画像系统和离线推荐结果,并结合当时的一些场景,共同计算出最终向用户推荐的物品。

    明略的精准营销系统已经应用到了个性化推荐、精准营销、用户洞察、广告投放等多个领域,并取得了良好的效果。

    智能推荐算法。

    和传统的协同过滤算法不一样,这个算法是采用了分类的思想,通过分类的方法来实现推荐的。

    首先,在进行推荐之前,我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品,也可以是广告,甚至是文章、电影、音乐等等。

    然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库,用户CRM数据库,以及用户行为数据。

    解决了目标和数据之后,我们就需要采集一批有标注的样本。因为是采用的分类算法,这是有监督的算法,所以标注样本是建模的第一步工作。标注就是通过人工来判定用户是否对某个物品感兴趣。

    标注问题解决后,我们就需要从数据中提取特征。我们的特征分为3类:物品自身属性,比如我们推荐的是手机,手机型号,手机价格,手机颜色都是物品的自身属性。其次,我们要提取人的属性,比如人的性别、年龄、收入、教育程度一类。最后,我们还需要知道人和物品的交互关系,他是浏览过商品还是加入过购物车,还是点击过商品,甚至购买过该商品。除了和推荐的商品之间的关系之外,我们还可以将用户和其他商品之间的关系也作为特征。

    这样,我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试,诸如GBDT,逻辑回归,SVM等等。

    当模型建立完毕之后,我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣,以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。

    有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序,最后选出TopK个结果作为最终结果返回。

    设备诊断

    我们的第二个案例是有关设备诊断方案的。 我们知道,工业4.0是目前比较火热的一个话题。而设备诊断正是工业4.0中非常重要的一个应用。

    设备诊断又分为故障诊断和故障预测两大类。故障诊断是当一个设备出现故障,我们需要辨别该故障的类型。故障预测是我们要预测出某个设备在未来会不会出现故障。这是两个截然不同的问题,但是处理的方法是类似的。故障诊断和故障预测已经在多个行业中得到应用,并且已经取得了非常突出的效果。

    明略的故障诊断方案如下图:

    首先,各种设备的数据通过ETL汇聚进大数据平台中去。这些数据包括传感器实时数据,设备历史数据,时间历史数据等等。

    然后,在DataInsight中建立故障诊断和故障预测模型,来对原始的数据进行分析,并得到诊断和预测结果。

    DataInsight中的模型会部署到生产系统中去,通过API和故障诊断和故障预测应用进行交互,提供最终的分析结果给到应用,在应用中根据分析结果进行各种统计和可视化的展现。

    进行故障诊断和故障预测建模有两种方式,其一是传统的方式,其二是通过深度学习的方式。

    这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。

    对于传统方法而言,最复杂的部分是特征选取。上文我们也讲到,只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。

    当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。

    深度学习

    在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:

    比起传统的方法,故障标注这一步是省不掉的,因为我们用的还是一个有监督的方法,这个方法必须要有一批标注好的样本。

    和传统方法不一样的是,我们直接将样本送入深度学习算法,常用的如卷积神经网络去进行训练,来得到最终的故障诊断和预测的结果。

    相比传统方法,深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习,省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道,或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型,其效果往往好于传统方法的模型。

    但是,深度学习算法对数据量的要求非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。

    Q&A

    Q1:数据互联行业主要是指哪些业务?

    A1:数据互联是明略将第三方数据引入到企业中和企业自有数据结合起来去做数据挖掘的业务,这个业务需要对第三方数据如何与企业数据融合,去进行数据挖掘有比较深的理解.

    简单的说,就是帮助用户分析需要什么样的数据,以及从何处去获得这些数据,外部数据和内部数据如何打通,如何去数据挖掘

    Q2:请问领域知识和数据专业知识哪个在实际工作中起的作用更大?

    A2:领域知识和数据专业知识应用的场景不一样。在进行数据挖掘之前,我们首先需要有领域知识。必须明白要解决的问题是什么。只有有了领域知识,并且有数据知识,才能把业务转化为数据挖掘的问题,在进行数据挖掘过程中,数据挖掘知识可能是更关键的,因为你要知道如何去解决这个问题。但是,进行数据挖掘时,还必须根据业务对模型进行调整。

    刚才我也说了,模型调优必须建立合理的评价指标。这个评价指标根据不同的业务可能是不一样的。所以必须有业务知识才能知道如何去调优,才能知道什么样的模型是符合业务需要的,所以,在实际的数据挖掘过程中,领域知识和数据挖掘专业知识都是非常重要的,如果缺乏了任何一种,可能都很难取得比较好的效果。另外大数据挖掘中大数据处理能力也很重要,如果不会处理大数据,或者没有良好的编程能力,也是很难做好的

    Q3:请问一下明略大数据在特征工程上有哪些比较好的经验呢?

    A3:其实特征工程是一个非常dirty的活,需要大量的尝试性工作,明略的经验就是,在做特征工程时,了解业务是第一位,然后需要深入的去调查客户的每一张表,搞明白每一张表的每一个字段,以及字段间的关联关系,我们在实际工作中,经常要调研几百张表去找到我们需要的数据,此外,作为一个合格的数据挖掘人员,或者数据科学家,敏锐力非常重要,能够结合业务知道可以从数据中提取哪些特征。特征提取出来之后,是否是一个好的特征其实是不知道的。我们可以大胆的尝试,多选取一些特征过来。然后在通过特征选择去进行筛选。特征工程是实际建模中最耗人力的过程。我们建模大概70-80%的时间都耗费在这个上面。

    Q4:请问在进行数据挖掘之前的怎么解决数据质量问题?

    A4:坦白的说,数据质量也是困扰我们的问题,目前我们遇到的客户,坦白的说数据很多都是碎片化的。可能是因为之前他们忽略了某些数据的收集,或者他们的数据只是总体样本的一小部分,对于第一种客户,我们会帮助他们制定如何去收集更多的数据,只有数据有了积累,数据质量问题才会解决。对于第二种客户,我们会帮助引入第三方数据,用第三方数据来补充客户现有的数据,大数据的数据质量差是有目共睹的,但是,正是由于数据量大,数据类型多,我们才能从大数据的沙子中挖到金子。如果传统数据是富矿石,大数据就是贫矿石,大数据数据只能以量去取代质。

    Q5:目前未回答问题中排名最高的是这个:二分类分类算法中,负面情况占比很小,训练集数据负面数据如何按比例分?训练集需要调高负面数据的比例吗?对算法有什么影响?

    A5:分类问题中对正负样本的平衡是必须的,这个也是影响最后分类结果的一个很重要的因素,如果样本不平衡,能做的事情是样本增益和样本抽样。比如正样本远远小于负样本,可以对正样本进行复制,或者加上随机扰动来扩充正样本,或者直接对负样本进行抽样。达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合,达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合。

     

    展开全文
  • 数据挖掘医院案例.py

    2019-09-11 22:13:16
    数据挖掘案例解析 一、本次数据分析,通过提供的数据,分析出月均销售额、月均销售次数、客单价、报销金额 1、 读取'xx医院2019年销售数据.xlsx',将前5行数据打印输出,确保数据正确。 二、数据清洗 1、 将”购药...
  • 数据挖掘*实验报告 实验项目名称 对全国 31 个地区农村居民人均年食品消费量09 年的聚类分析 信息技术学院 软件技术与数据库教研室 实验概述对全国不同地区农村居民每人年食品消费量的聚类分析 1. 实验目的 运用数据...
  • 新闻文本数据挖掘案例——基于词向量化得数据挖掘
  • 银行业数据挖掘案例.

    2016-06-07 20:55:24
    银行业、数据挖掘、看看案例
  • 大数据数据挖掘案例 篇一大数据数据挖掘案例 本文为系列文该篇为第一篇下面是正文 简而言之数据挖掘 data mining 是有组织有目的地收集数据 通过分析数据使之成为信息从而在大量数据中寻找潜在规律以形 成规则或知识...
  • 数据挖掘案例利用数据挖掘发掘金融市场交易规则 许多投资者在金融市场交易中大n采用技术分析用于 技术分析的道氏理论早在 1884年就已经出现1997年 Edwards写了本新的技术分析方面的专著技术分析包括 k 线技术图形...
  • 库存管理数据挖掘案例(库存预测) 背景知识 向顾客提供大量产品的国内和国际零售商都面临着共同的挑战确保其众多的商店具有适当 的产品库存级别确定适当的库存级别问题需要在以下两种竞争成本间进行权衡 1 高级别库存...
  • 工业大数据资料,及相关数据挖掘案例
  • 数据挖掘案例研究_手机电视经营挖掘_20201118204320.pdf
  • 数据挖掘案例研究-增量销售模型.pdf
  • 第五讲 生物医学数据挖掘案例探讨与分享;1. 案例应用分类与聚类进行全基因组DNA甲基化数据分析 2. 案例应用关联规则从基因层面探讨自免疫疾病的相关性 3. 案例应用贝叶斯网络探讨慢性阻塞性肺疾病基因与环境的互作 4...
  • 数据挖掘 实用案例分析》
  • R语言数据挖掘案例

    2018-03-27 08:31:04
    R语言数据挖掘案例,压缩包文件,欢迎下载。,,,,,,
  • 数据挖掘实用案例分析 第6章 银行信用卡欺诈与拖欠行为分析,大数据课程的案例分析课件,作者:复旦大学 赵卫东 博士
  • 关于银行业的数据挖掘案例
  • 基于MogoDB数据库的临床医疗大数据挖掘案例分析.pdf
  • 基于云计算的普通本科高校数据挖掘案例教学支撑平台研究.pdf
  • 数据挖掘案例详解.pptx
  • 数据挖掘案例分析.doc

    2020-09-12 10:35:50
    数据挖掘实验报告 用神经网络分析哪些营销策略适合做促销 班级 统计一班 学号 20100709 姓名 沈建峰 日期 2012年12月5日 指导老师 马耀兰 实验概述建立Neuralnet模型会运用建立的模型来分析哪些营销策略适合做促销 ...
  • python数据挖掘案例系列教程——python实现搜索引擎

    万次阅读 多人点赞 2018-01-07 20:32:07
    python数据挖掘系列教程 今天我们使用python实现一个网站搜索引擎。主要包含两个部分。网站数据库的生成、搜索引擎。其中搜索引擎部分我们使用单词频度算法、单词距离算法、外部回值算法、链接文本算法、pagerank...
       
    

    全栈工程师开发手册 (作者:栾鹏)

    python数据挖掘系列教程

    今天我们使用python实现一个网站搜索引擎。主要包含两个部分。网站数据库的生成、搜索引擎。其中搜索引擎部分我们使用单词频度算法、单词距离算法、外部回值算法、链接文本算法、pagerank算法和神经网络学习等6种算法来实现搜索排名。

    我们这里将http://blog.csdn.net/luanpeng825485697站点下的所有网站当做一个小型服务器。对该网站域名下的网页进行搜索引擎设计。

    由于需要获取博客文章的单词作为每篇博客的特征属性,并且我们的博客都是中文,所以在学习获取博客数据前,需要学习结巴中文分词库的使用。参考:
    http://blog.csdn.net/luanpeng825485697/article/details/78757563

    在我们的代码中,我们将模型固话在sqlite数据库中。所以在学习获取博客数据前,还需要学习sqlite3库的使用,参考:
    http://blog.csdn.net/luanpeng825485697/article/details/78361168

    由于我们会将所有的数据都存储在数据库中以便今后常用,所以代码中会有部分sqlite数据库的相关代码操作。

    展开全文
  • R语言的数据挖掘案例.docx

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 55,838
精华内容 22,335
关键字:

数据挖掘案例