精华内容
下载资源
问答
  • 数据挖掘案例

    万次阅读 2018-10-19 16:32:48
    图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这需要大数据科学家和行业...

     

    图中的左边是SPSS1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。

    1.理解商业问题。这需要大数据科学家和行业专业,以及客户的业务专家一起来明确问题。这是整个大数据挖掘中最关键的一步。如果不理解业务就贸然开做,最后的项目一定是失败的。

    2.分析数据。当明确了业务问题之后,我们就需要去分析数据,看看到底哪些数据能够支撑我们的业务,用哪些数据去解决问题。在这个阶段,我们可能发现数据不足,或者数据质量太差,这个时候就可能要寻求第三方数据的帮助,或者规划如何去采集更多的数据了。

    3.数据挖掘。前两步都是在做数据挖掘前的准备,当业务明略,数据可用时,我们就正式开始数据挖掘了。

    3.1提取特征

    首先我们要对数据进行处理,从数据中提取特征。这是数据挖掘非常关键的一步,特征的好坏直接影响最终模型的效果。在数据挖掘过程中,算法其实并不是最主要的因素,影响效果最直接的因素就是特征。

    良好的特征需要有非常好的区分度,只有这些特征,才能很好的去解决问题。举个例子,我们要辨别一个西瓜是好是坏,可能颜色是一个特征,条纹,重量,瓜蒂也是特征。但是,大家都知道西瓜一般都是绿色的,所以用绿色去作为判别西瓜好坏是没有区分度的。而条纹,重量,瓜蒂是判别一个西瓜是好是坏非常重要的因素,因此他们是好特征。

    我们在解决不同问题时,所用的特征是不一样的。可能在解决某个问题有用的特征在解决另外一个问题时就不具备区分度。因此,我们必须紧密的联系业务,去选择合适的特征。

    在提取特征时,因为我们是大数据挖掘,所以要使用大数据技术去从原始数据中提取特征。这需要大数据科学家有着非常丰富的大数据处理技能。

    3.2建立模型。

    当特征提取完毕后,我们就需要去应用算法建立模型了。在实际的建模过程中,由于数据量过于庞大,算法训练过程往往十分缓慢,如何加速算法计算速度,是一个非常突出的问题。

    此外,由于传统的数据挖掘算法都是针对小数据集的,当数据规模到了一台服务器无法处理的程度,传统的数据挖掘算法就不再使用。此时,我们需要有新的数据挖掘技术来支持大数据上的数据挖掘

    当模型建立完成之后,我们需要对模型进行评估,来确定模型效果。此时最重要的是建立模型的评价指标。这个评价指标必须是要结合业务来建立的。当模型效果不佳时,我们要回到特征提取,建模过程来不断的迭代,甚至可能要重新分析业务和数据。

    3.3后期工作。

    当一个效果非常好的模型建立完毕了,我们的数据挖掘就结束了吗?传统的数据挖掘软件往往只做到模型建立这一步,但是在模型建立完成之后还有很多工作要做。我们如何将模型在生产系统中使用起来,如何去管理、运行、维护、扩展模型。

    我们先来看看DataInsight对业务的支持。

     

    用户需要针对不同的业务去建立不同的模型,这个建模过程可以由用户自己完成,也可以由明略的大数据科学家去完成。建立好的模型以插件的形式插入到DataInsight中去,方便模型的管理和扩展。

    用户的业务系统会通过APIDataInsight进行通信,来运行或者更新DataInsight中插入的模型。

    一个典型的DataInsight模型运行过程如下:用户通过API调用DataInsight,在请求中指定模型,模型的输入和模型的输出。DataInsight会将数据从数据源中取出,送入模型,并且将模型分成多个步骤,并行化的在分布式执行引擎中运行。当模型运行完毕后,结果将送入用户指定的目的数据库中。这样,用户的应用系统就可以直接从目的数据库中获得模型运行的最新结果了。

    DataInsight中将解决客户业务问题的模型成为业务模型,或者应用。DataInsight对业务模型也进行了一定层次的抽象。每个业务模型都是由若干步骤组成的。每个步骤被称作一个算子。

    上图是一个文本分类的业务模型,其解决的问题是将若干文本进行分类。例如我们有很多文章,我们要对每篇文章的情感进行分类,就可以使用这个模型。

    我们将文本分类模型抽象为很多算子的组合。每个算子都是对数据进行了某种转换,将一组输入转化为一组输出。这个转化过程可能是对数据进行的预处理,也可能是某种机器学习算法。

    每个算子都有输入和输出,且算子的输出可以作为另外一个算子的输入。这样,整个业务模型就抽象成了一个有向无环图(DAG)。DataInsight在执行模型时,会去调度模型中的每个算子,将适合分布式计算的算子送入不同的执行容器中去运行,加速了整个模型的计算速度。

    DataInsight总体的体系架构见下图:

    下面我们介绍一下明略在各个领域中的一些案例。由于时间关系,我这里只举两个案例。

    精准营销

    明略是从秒针系统拆分出来的,秒针系统是一家以互联网精准营销为主要业务的公司,因此明略在精准营销方面有着接近10年的积累。

    首先,明略的大数据平台MDP会将企业各种自由数据,包括CRM数据、交易行为数据以及官网数据等,和第三方数据一起收集起来,并对这些数据进行关联和打通,一起存储到大数据平台MDP中去。

    我们针对企业不同的业务,建立多个模型,例如智能推荐模型,用户画像模型,消费预测模型,商圈聚类模型等等,这些模型作为插件插入到我们的大数据挖掘平台DataInsight中去。

    我们可以将原始数据从MDP中取出,进过DataInsight中模型的计算之后,生成最终的结果数据,结果数据将送入用户画像系统和推荐系统的离线部分。

    用户的推荐系统分为在线和离线两个部分,离线推荐的结果就是DataInsight中计算出来的结果。在线推荐系统将会接收一个在线的推荐请求,通过客户画像系统和离线推荐结果,并结合当时的一些场景,共同计算出最终向用户推荐的物品。

    明略的精准营销系统已经应用到了个性化推荐、精准营销、用户洞察、广告投放等多个领域,并取得了良好的效果。

    智能推荐算法。

    和传统的协同过滤算法不一样,这个算法是采用了分类的思想,通过分类的方法来实现推荐的。

    首先,在进行推荐之前,我们必须明确推荐的目标。那就是向用户推荐用户感兴趣的物品。这里的物品可以是商品,也可以是广告,甚至是文章、电影、音乐等等。

    然后我们需要去寻找解决这个问题所需的数据。我们有物品内容数据库,用户CRM数据库,以及用户行为数据。

    解决了目标和数据之后,我们就需要采集一批有标注的样本。因为是采用的分类算法,这是有监督的算法,所以标注样本是建模的第一步工作。标注就是通过人工来判定用户是否对某个物品感兴趣。

    标注问题解决后,我们就需要从数据中提取特征。我们的特征分为3类:物品自身属性,比如我们推荐的是手机,手机型号,手机价格,手机颜色都是物品的自身属性。其次,我们要提取人的属性,比如人的性别、年龄、收入、教育程度一类。最后,我们还需要知道人和物品的交互关系,他是浏览过商品还是加入过购物车,还是点击过商品,甚至购买过该商品。除了和推荐的商品之间的关系之外,我们还可以将用户和其他商品之间的关系也作为特征。

    这样,我们就可以通过分类算法去建立模型了。常用的分类算法我们都可以尝试,诸如GBDT,逻辑回归,SVM等等。

    当模型建立完毕之后,我们就可以得到分类结果了。分类结果是某用户对某商品是否感兴趣,以及感兴趣的程度。感兴趣的程度我们可以通过概率来表示。

    有了分类结果还不是我们最终的推荐结果。我们根据分类概率对结果进行排序,最后选出TopK个结果作为最终结果返回。

    设备诊断

    我们的第二个案例是有关设备诊断方案的。 我们知道,工业4.0是目前比较火热的一个话题。而设备诊断正是工业4.0中非常重要的一个应用。

    设备诊断又分为故障诊断和故障预测两大类。故障诊断是当一个设备出现故障,我们需要辨别该故障的类型。故障预测是我们要预测出某个设备在未来会不会出现故障。这是两个截然不同的问题,但是处理的方法是类似的。故障诊断和故障预测已经在多个行业中得到应用,并且已经取得了非常突出的效果。

    明略的故障诊断方案如下图:

    首先,各种设备的数据通过ETL汇聚进大数据平台中去。这些数据包括传感器实时数据,设备历史数据,时间历史数据等等。

    然后,在DataInsight中建立故障诊断和故障预测模型,来对原始的数据进行分析,并得到诊断和预测结果。

    DataInsight中的模型会部署到生产系统中去,通过API和故障诊断和故障预测应用进行交互,提供最终的分析结果给到应用,在应用中根据分析结果进行各种统计和可视化的展现。

    进行故障诊断和故障预测建模有两种方式,其一是传统的方式,其二是通过深度学习的方式。

    这个过程中首先我们要对故障进行标注。对于故障诊断,我们要标注的是何种类型的故障,对于故障预测,我们要标注的是有没有发生故障。标注的工作是专业性极强的工作,一般需要用户的专家来进行标注。

    对于传统方法而言,最复杂的部分是特征选取。上文我们也讲到,只有那些有强区分度的特征才能有效的支持最终的模型。所以,需要由业务专家来指导如何从原始数据中提取特征。这就需要将业务专家的经验程序化,将人的知识变为机器能够处理的方法。这是非常困难的。

    当特征提取完了之后,我们会采用分类算法来训练模型,最终得到故障诊断和故障预测的结果。

    深度学习

    在传统方法之外,我们还可以通过深度学习的方法来进行故障的诊断和预测,深度学习方法示意图如下:

    比起传统的方法,故障标注这一步是省不掉的,因为我们用的还是一个有监督的方法,这个方法必须要有一批标注好的样本。

    和传统方法不一样的是,我们直接将样本送入深度学习算法,常用的如卷积神经网络去进行训练,来得到最终的故障诊断和预测的结果。

    相比传统方法,深度学习方法省却了特征提取的过程。我们通过深度学习算法直接从原始数据中学习,省却了专家指导的过程。深度学习方法甚至能够学习到专家所不知道,或者在专家潜意识内但无法表达出来的特征。通过深度学习算法出来的模型,其效果往往好于传统方法的模型。

    但是,深度学习算法对数据量的要求非常大。只有有大量训练样本才能使用深度学习。这在现实的工作中可能是一个问题。

    Q&A

    Q1:数据互联行业主要是指哪些业务?

    A1:数据互联是明略将第三方数据引入到企业中和企业自有数据结合起来去做数据挖掘的业务,这个业务需要对第三方数据如何与企业数据融合,去进行数据挖掘有比较深的理解.

    简单的说,就是帮助用户分析需要什么样的数据,以及从何处去获得这些数据,外部数据和内部数据如何打通,如何去数据挖掘

    Q2:请问领域知识和数据专业知识哪个在实际工作中起的作用更大?

    A2:领域知识和数据专业知识应用的场景不一样。在进行数据挖掘之前,我们首先需要有领域知识。必须明白要解决的问题是什么。只有有了领域知识,并且有数据知识,才能把业务转化为数据挖掘的问题,在进行数据挖掘过程中,数据挖掘知识可能是更关键的,因为你要知道如何去解决这个问题。但是,进行数据挖掘时,还必须根据业务对模型进行调整。

    刚才我也说了,模型调优必须建立合理的评价指标。这个评价指标根据不同的业务可能是不一样的。所以必须有业务知识才能知道如何去调优,才能知道什么样的模型是符合业务需要的,所以,在实际的数据挖掘过程中,领域知识和数据挖掘专业知识都是非常重要的,如果缺乏了任何一种,可能都很难取得比较好的效果。另外大数据挖掘中大数据处理能力也很重要,如果不会处理大数据,或者没有良好的编程能力,也是很难做好的

    Q3:请问一下明略大数据在特征工程上有哪些比较好的经验呢?

    A3:其实特征工程是一个非常dirty的活,需要大量的尝试性工作,明略的经验就是,在做特征工程时,了解业务是第一位,然后需要深入的去调查客户的每一张表,搞明白每一张表的每一个字段,以及字段间的关联关系,我们在实际工作中,经常要调研几百张表去找到我们需要的数据,此外,作为一个合格的数据挖掘人员,或者数据科学家,敏锐力非常重要,能够结合业务知道可以从数据中提取哪些特征。特征提取出来之后,是否是一个好的特征其实是不知道的。我们可以大胆的尝试,多选取一些特征过来。然后在通过特征选择去进行筛选。特征工程是实际建模中最耗人力的过程。我们建模大概70-80%的时间都耗费在这个上面。

    Q4:请问在进行数据挖掘之前的怎么解决数据质量问题?

    A4:坦白的说,数据质量也是困扰我们的问题,目前我们遇到的客户,坦白的说数据很多都是碎片化的。可能是因为之前他们忽略了某些数据的收集,或者他们的数据只是总体样本的一小部分,对于第一种客户,我们会帮助他们制定如何去收集更多的数据,只有数据有了积累,数据质量问题才会解决。对于第二种客户,我们会帮助引入第三方数据,用第三方数据来补充客户现有的数据,大数据的数据质量差是有目共睹的,但是,正是由于数据量大,数据类型多,我们才能从大数据的沙子中挖到金子。如果传统数据是富矿石,大数据就是贫矿石,大数据数据只能以量去取代质。

    Q5:目前未回答问题中排名最高的是这个:二分类分类算法中,负面情况占比很小,训练集数据负面数据如何按比例分?训练集需要调高负面数据的比例吗?对算法有什么影响?

    A5:分类问题中对正负样本的平衡是必须的,这个也是影响最后分类结果的一个很重要的因素,如果样本不平衡,能做的事情是样本增益和样本抽样。比如正样本远远小于负样本,可以对正样本进行复制,或者加上随机扰动来扩充正样本,或者直接对负样本进行抽样。达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合,达到一定的正负样本比,这样最终的效果会比较好。我们的经验是正负样本比15左右比较适合。

     

    展开全文
  • 什么是数据挖掘

    2021-09-05 23:46:40
    数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库...

    数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,它们是海量数据搜集、强大的多处理器计算机和数据挖掘算法。
    从技术角度来看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
    还有很多和这一术语相近的术语,如从数据库中发现知识、数据分析、数据融合(Data Fusion),以及决策支持等。
    何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看做知识。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发
    现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
    从商业角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
    简而言之,数据挖掘其实是一种深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大量数据进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集,而是由于纯机会的商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中通过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
    因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
    数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知,有效和可实用三个特征。
    先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩纸尿布和啤酒之间有着惊人的联系。
    特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。例如,加拿大 BC 省电话公司要求加拿大 Simon Fraser 大学知识发现研究组,根据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。这样一来,就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策者提供决策支持。这种需求驱动力比数据库查询更为强大。

    展开全文
  • 大数据时代下数据挖掘技术的应用

    万次阅读 多人点赞 2018-11-09 15:49:28
    随着社会信息化的迅速发展,无论是数据的变化速率,还是数据的新增种类都在不断更新,数据研究变得越来越复杂,这意味着“大数据时代”到来。2011年,互联网数据中心(internet data center,IDC)将大数据重新定义...

    原文链接:https://mp.weixin.qq.com/s/bxSEO4gKQ-BbDWT1BNnwyw

    随着社会信息化的迅速发展,无论是数据的变化速率,还是数据的新增种类都在不断更新,数据研究变得越来越复杂,这意味着“大数据时代”到来。2011年,互联网数据中心(internet data center,IDC)将大数据重新定义为:在大数据原有的三维特征——数量、多样、速度基础上,增加了另一新的特征——“价值”。IDC强调:“目前,对于庞大的数据量,通过经济的方式,极速发掘、获取和分析处理的技术,进而提炼获取价值,这是大数据新时代的专属。”“大数据时代”的专属特征被重新定义为:数量(volume)、多样(variety)、速度(velocity)和价值(value),称为“4V”。

       

    随着大数据时代的到来,社会对“挖掘”到的数据要求变得更加严格,每一个精准的结果都具备独自的“价值”,这时,大数据时代的新增属性——“价值”被演绎得有声有色。数据挖掘(data mining, DM)是一门新兴的、汇聚多个学科的交叉性学科,这是一个不平凡的处理过程,即从庞大的数据中,将未知、隐含及具备潜在价值的信息进行提取的过程。1989年8月,在美国底特律市召开的第十一届人工智能联合会议的专题讨论会上,知识发现(knowledge discover in database,KDD)初次被科学家们提出,同时,也有人将知识发现称为数据挖掘,但两者并不完全等同。1995年,KDD这个术语在加拿大蒙特利尔市召开的第一届知识发现和数据挖掘国际学术会议上被人们接受,会议分析了数据挖掘的整个流程。实质上,数据挖掘是知识发现的子过程。

       

    经过了大约20年的发展,数据挖掘研究取得了可观的成绩,渐渐地形成了一套基本的理论基础,主要包括:分类、聚类、模式挖掘和规则提取等。数据挖掘是一种从生活中的海量数据里“挖掘”出潜在的、前所未有的知识的技术。处理大数据需要一个综合、复杂、多方位的系统,系统中的处理模块有很多,而数据挖掘技术以一个独立的身份存在于处理大数据的整个系统之中,与其他模块之间相辅相成、协调发展。在大数据时代中,数据挖掘技术的地位是无可比拟的。

       

     

    数据挖掘的研究现状

     

    数据挖掘将高性能计算、机器学习、人工智能、模式识别、统计学、数据可视化、数据库技术和专家系统等多个范畴的理论和技术融合在一起。大数据时代对数据挖掘而言,既是机遇也是挑战,分析大数据,建立适当的体系,不断地优化,提高决策的准确性,从而更利于掌握并顺应市场的多端变化。在大数据时代下,数据挖掘作为最常用的数据分析手段得到了各个领域的认可,目前国内外学者主要研究数据挖掘中的分类、优化、识别、预测等技术在众多领域中的应用。

       

    分类

       

    伴随着时代的进步和科技的飞速发展,作为人口大国,中国在健康医疗、老龄化社会等方面产生的公共数据呈几何级数进行增长,而基于大数据的挖掘数据所附有的价值问题急需解决。健康医疗数据的结构、规模、范围和复杂度等都在不断扩大,传统的计算方法并不能完全满足分析医疗数据,数据挖掘技术则可以根据医疗数据的一些特点:模式的多态性、信息的缺失性(数据中由于涉及个人隐私问题而导致的缺失值)、时序性、冗余性对健康医疗数据进行分类,从而可以为医生或病人提供准确的辅助决策。

       

    同时,中国正加速进入老龄化社会,而互联网是改善老龄化社会的重要媒介,大数据是评估老龄化社会重要的技术手段。屈芳等提出了“互联网+大数据”模式的养老实现途径,整个养老服务体系是建立在多元异构信息汇聚和数据融合挖掘之上,“互联网+大数据”的养老体系是将多种信息通信技术进行融合,在这里,包括通信技术、数据挖掘技术及人工智能技术等。

       

    优化

       

    道路的交通状况与人们的出行关系密切,随着城市的快速发展、生活水平的改善,机动车的规模也逐渐扩大,带来了交通拥堵等问题。数据挖掘技术可以有效解决交通道路和物流网络之间的优化问题,Pan等提出了一种数据挖掘预测模型,该模型用于“实时预测”短期的交通状况,给陷入交通拥堵的驾驶人员带来极大的帮助。

       

    随着科技的发展,网上购物越来越流行,同时带来了物流运输拥堵及瘫痪等问题。京东——中国最大的在线交易平台之一,在人工智能的优化时代,使用无人机探测道路状况反馈的数据,采用数据挖掘技术精准计算物流网络运输所需要的参数,可以轻松高效地缓解物流运输瘫痪的问题,从而产生了中国第一个机器人快递员,将第一个商品送达至中国人民大学。而随着日后交通网络长度、复杂性等方面的增加,实现无人驾驶的自动化策略难度也大幅增加,只有通过数据挖掘技术才可以快速计算出结果,从而获得从复杂道路信息中产生的高效价值。

       

    识别

       

    自从20世纪50年代数字图像出现以来,数字图像成为人类社会中必不可少的“数据”。在计算机应用中,数据挖掘在图像识别的应用越来越普遍,有代表性应用为人脸识别和指纹识别。人脸识别通过对获得的信息库进行数据挖掘,进一步分析和处理可靠的、潜在的数据,充分准备资料的分析工作和未来的开发工作。Wright等阐述了基于稀疏表示的鲁棒人脸识别,并给出了详细的理论分析与实践总结。

       

    沙亚清等针对目前的电子报税系统中利用用户名和口令的不安全性,提出了一种基于智能卡和指纹识别的身份认证方案,并结合指纹技术,构建新的口令参数,从而使得安全性明显提高。随着数据挖掘技术的不断发展,大数据识别人脸和指纹的精确度会越来越高。

       

    预测

       

    预测问题是各领域中研究最多的问题,其目的是通过历史数据预测出未来的数据值或发展趋势。大部分历史数据是时间序列数据,即指按照时间的顺序排列,得到了一系列观测值。由于信息技术的不断进步,时间序列的数据也日益剧增,如气象预报、石油勘探、金融等。时间序列数据挖掘的最终目标就是通过分析时间序列的历史数据,预测未来一段时间的变化趋势及其带来的影响。

       

    “气象”与地球的生态平衡和人们的正常生活息息相关,因此,气象的准确预报显得格外重要。周磊等总结了目前的气象监测模型,基于遥感数据的干旱方面,将目前的遥感监测方法进行分类,对于外界的环境条件(温度、湿度等)进行分类讨论,提出解决复杂问题的新方法。

       

    石油作为一种不可再生资源,目前全球储量日益减少,从而使得石油勘探变得越来越重要。在石油勘探管理中,所采集的数据具有数据量大、计算量大、采集来源单一及数据处理流程复杂的特点,用数据挖掘技术对其采集的大数据集进行高性能并行计算和分析,才可以保证结果的有效性和准确性。

       

    在大数据时代下,银行、证券公司、保险公司等每天的业务都将生成海量数据,采用当前的数据库系统可以高效地实现数据的录入、查询和统计等功能,目前,从简单的查询提升到利用数据挖掘技术挖掘知识、提供决策支持的层次显得格外重要。数据挖掘技术在金融行业应用具有可行性,将理论基础应用到相关的实例包括预测股票指数、发现金融时间序列中的隐含模式、信用风险管理及汇率预测等。

       

     

    数据挖掘主要方法

     

    数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的理论和技术融合在一起。数据挖掘的主要方法概括为:预测模型方法、数据分割方法、关联分析法和偏离分析法(图1)。解决实际问题时,将已知的数据库蕴含的复杂信息转换成数学的语言,建立数学模型,运用相应的处理方法结果会更加有效。

       

    图1  数据挖掘的主要方法

     

    预测模型方法

     

    预测模型方法是数据挖掘主要方法中分支较为复杂的一类,包括神经网络与决策树等相关人工智能算法、进化算法及支持向量机等算法。

       

    1)神经网络与决策树等相关人工智能算法

     

    在预测模型方法中,神经网络算法、决策树算法、贝叶斯分类算法、基于关联规则分类算法等都是经典的人工智能算法。

       

    1943年,心理学家McCulloch和数理逻辑学家Pitts建立了神经网络和数学模型,称为MP模型,证明了单个神经元能够执行逻辑功能,从而开创了人工神经网络研究的新时代。通过仿真和模拟生物的神经系统而获得非线性处理能力的一种新的算法——人工神经网络算法(artificial neural network,ANN)。

       

    现有的决策树的分类算法有ID3、C4.5等。1986年,Quinlan 提出了著名的ID3算法,在ID3的基础上,1993年Quinlan又提出了C4.5算法。决策树(decision tree,DT)分类算法是一种以决策树形式表示的分类规则,它能够根据一定的规则将众多的数据分类,从中挖掘出那些有价值的、潜在的信息。决策树的主要优点在于处理大数据的能力强,适合分类及处理预测模型的任务,结论易于解释和理解。

       

    目前的主要研究有3种:CBA、CMAR和CPAR。自1993年Agrawal提出数据库中的关联规则挖掘后,基于关联规则分类算法(classification base of association,CBA)及应用得到迅速发展。1997年,Ali等提出了使用分类关联规则进行部分分类的思想。1998年,Liu等提出了基于分类关联规则的关联分类算法CBA,从此揭开了关联分类的序幕。基于关联规则分析的分类算法搜索频繁模式与类标号之间的强关联,有效避免了决策树归纳一次只考虑一个属性的限制,使其比一些传统的分类算法更为准确。

       

    贝叶斯(Bayes)分类算法是一种算法相对比较简单、分类精度相对较高的分类算法。在分类的性能方面,决策树算法、贝叶斯分类算法及神经网络算法之间关系十分紧密。现有的贝叶斯分类算法包括朴素贝叶斯算法、动态贝叶斯算法等。常见组合分类方法有随机森林方法、bagging方法及boosting方法。其中,随机森林方法是将多个决策树分类器组合在一起的方法,在boosting算法中最常见的一种是AdaBoost算法。在准确度上,二者不相上下,但是,在运行速度上,随机森林方法更占优势。朱凌云等提出了一种新的技术并在医学中的应用,体现了数据的处理、多属性信息的融合、挖掘算法的高效性和鲁棒性。由于神经网络系统具有高度的抗干扰能力,所以,在各个领域内神经网络算法应用广泛,例如数据挖掘、信号处理、自动控制、模式识别及图像处理等多个范畴。

       

    2)进化算法

     

    进化算法,又称“ 演化算法”(evolutionary algorithms,EAs),其代表性算法为遗传算法。1969年,Holland提出了一种随机搜索的最优化方法,它是模拟自然界中的遗传机制和生物进化论而成的,称为遗传算法(genetic algorithms,GA)。它将利用自然界中的“优胜劣汰,适者生存”的生物进化原理改变优化参数,根据适应度函数的选取,最终形成编码串联到群体中。遗传算法的基本步骤:选择、交叉和变异。遗传算法的主要目的是留下适应度值好的个体,淘汰适应度值差的个体,继续循环选择、交叉和变异步骤。

       

    近几年,又演化出新的进化算法,如粒子群算法、蚁群算法以及灰狼优化算法等。粒子群算法(particle swarm optimization,PSO)是由Eberhart等开发的一种新的进化算法。与模拟退火算法相似,PSO算法也是从随机解出发,通过迭代进而寻找最优解,与上述的“遗传算法”相比而言,规则更为简单,它没有遗传算法基本步骤中的“交叉”和“变异”,而是通过追随当前搜索获得的最优值来寻找全局的最优解。粒子群算法以实现简便、精度高、收敛快等优点引起了学术界的重视,并且在解决实际问题中展示了其优越性。

       

    3)支持向量机

     

    1995年,Corinna和Vapnik等首先提出了支持向量机(support vector machine,SVM),它是一种具备较强的分类能力和泛化能力的分类算法,主要解决小样本、非线性、高维模式识别及函数拟合等其他机器学习问题。支持向量机主要分为以下3种情况。

       

    线性可分情况。针对线性可分的情况,现实生活中存在大量的实例,例如,在一组医疗数据中,通过支持向量机可以将患者和正常人进行分类(即二分类),判断哪些是患者,哪些是正常人;在一组由民歌和古筝演奏的音乐辨别中进行有效的分类,判断哪些是民歌,哪些是古筝。

       

    线性不可分情况。解决线性不可分问题时,构建核函数,这是支持向量机的优势所在。但是,对于数据集训练的“复杂度”最终还是取决于它的规模,在处理大规模数据时,模型局部受限,泛化能力有时也会有所消耗或损失。

       

    非线性可分情况。支持向量机利用结构风险最小化替代经验风险最小化原则,较好地解决了小样本情况下的学习问题。针对非线性问题与线性问题是怎样建立起联系的,它们之间是如何进行转化的,“核函数的思想”提供了新的思路。

       

    数据分割方法

     

    数据分割是将数据依据某些属性将其聚类,使之具有一定的意义。由于数据的类型、数据的复杂度和聚类的数目等特点,聚类算法有很多,如划分方法、基于网络的方法、基于密度的方法、层次方法等。

       

    肖娟等针对传统的算法处理多层次的复杂建筑物中涉及的困难,提出了一种新的算法,对建筑物进行分割,对几何基元进行提取。

       

    关联分析法

     

    关联分析法是寻找数据间的关联,但从大数据集中寻找关联可能会导致效率降低,找到的关联也可能毫无意义。在研究过程中存在“支持度”和“置信度”,“支持度”可以有根据地将那些毫无意义的数据删除,而“置信度”可以衡量设置规则的可能性。关联分析法的主要算法有Apriori算法、DHP算法和DIC算法等。

       

    Chen等在现有的分析方法基础上,积累了海量的数据,利用数据挖掘技术,提出了一种新的算法,即通过关联分析法建立相关模式挖掘方法,借助多种新型优化技术,可以有效且高效地减少搜索空间。此外,将该算法应用于现实世界的数据集中,展示了相关模式挖掘的实用性。

       

    偏离分析法

     

    偏差包括潜在的信息量,例如设定模式中的特例、分类中的异样实例以及分析实验得到的最终结果与实验前设定的期望之间的偏差等。观察比较最终的结果与参照量之间的偏差是偏离分析法的核心所在。

       

    在企业的预警或是危机解决的过程中,专业的管理者对突发的意外规则更感兴趣,在异常信息的发现、识别、观察、分析、挖掘、评价和预警等方面,挖掘意外规则的应用价值备受关注。

       

     

    大数据时代下数据挖掘的应用

     

    在大数据时代下,数据挖掘已经广泛地应用到生活中各种各样的领域中,成为当今高科技发展的热点问题。无论在软件开发、医疗卫生方面,还是在金融、教育等方面都可以随处看到数据挖掘的影子,可以使用数据挖掘技术发现大数据的内在的巨大价值。

       

    恶意软件的智能检测

     

    在大数据时代下,在恶意软件检测中数据挖掘技术得到广泛的应用。恶意软件严重损害到网络和计算机,恶意软件的检查依赖于签名数据库(signature atabase,SD),通过SD,对文件进行比较和检查,如果字节数相等,则可疑文件将被识别为恶意文件。有些基于有标签的恶意软件检测的主题,集中在一个模糊的环境下,进而,无法进行恶意软件行为的动态修改,无法识别隐藏的恶意软件。相反地,基于行为的恶意软件检测就可以找到恶意文件的真实行为。而如果采用基于数据挖掘技术的分类方法,就可以根据每个恶意软件的特征和行为进行检测,从而检测到恶意软件的存在。

       

    生物信息学中的广泛应用

     

    生物信息学是一门交叉学科,融合了生命科学、计算机科学、信息科学和数学等众多学科。随着科技的快速发展、技术的提升及结果的优化,将高科技信息技术拓展到生物研究领域。但是,单纯凭借原有的计算机技术是远远不够的,需要以计算机科学做辅助,将生命科学、信息科学和数学等交叉学科融合在一起,通过数据挖掘技术进行处理,仔细分析生物数据之间的内在联系,挖掘生物数据内部的潜在信息。生物信息数据的特点有很多,孙勤红总结了当前生物信息数据的特点,包括数量大、种类多、维度高、形式广及序列性等。当前生物信息学的热点包括:从以序列分析为代表的组成分析向功能分析的转变;从单个生物分析的研究到基因调控的转变;对基因组数据进行整体分析等。人类目前在生物基因组计划中的研究,仅仅是冰山的一角,未来在差异基因表达、癌症基因检测、蛋白质和RNA基因的编码等生物基因方面的研究工作都与数据挖掘技术密不可分,只有更好地利用数据挖掘技术,才可以挖掘出生物基因组中的非凡价值。

       

    信用卡的违约预测

     

    如今,随着科技的高速发展,信息量急剧增加,内容变得越来越丰富,信用卡在人们的生活中具有不可忽视的地位。众所周知,信用卡是由银行发放,银行需要对申请人的个人信息进行核实,确认无误后再进行发放信用卡,Chen等针对商业银行贷款行为提出了一种关于信用率的模糊算法。信用卡在办理之前,银行首先需要对申请人进行细致调查,根据申请人的实际情况判断是否有能力来偿还所贷金额,刘铭等在传统的神经网络基础上,采用灰狼优化算法计算神经网络的初始权值和阈值,并提出了一种改进的模糊神经网络的算法,通过建立的信用卡客户的违约预测模型,与目前其他的预测方法进行比较,得到较好的预测结果,进一步,验证了模糊神经网络在信用卡客户的预测上具有较好的鲁棒性、准确性和高效性。采用有效的数据挖掘技术,针对信用卡客户属性和消费行为的海量数据进行分析,可以更好的维护优质客户,消除违约客户的风险行为,为信用卡等金融业务价值的提升提供了技术上的保障。

       

    疾病的智能诊断

     

    1)宫颈癌的诊断。

       

    宫颈癌是国际上最普遍的妇科恶性肿瘤之一。2012年统计数字显示,宫颈癌在全球的新发病例数为52.8万,死亡数26.6万,居女性生殖道恶性肿瘤发病率的首位。按照有关数据统计,发展中国家占83%,其中死亡病例占85%,由于宫颈癌的筛查工作不够完善,导致高发病率和高死亡率。相反地,在发达国家,很大程度上宫颈癌的低发病率源于有效的筛查和诊断。为了减少来自每个专家的标签数据量,Fernandes等提出一种基于正则化的转移学习策略,鼓励源模型和目标模型共享相同的系数符号。

       

    2)乳腺癌的诊断。

      

    乳腺肿瘤是女性恶性肿瘤中最常见的肿瘤,影响妇女的身体和精神健康,甚至威胁生命。20世纪以来,全世界范围内乳腺癌的患病率均有所增加,特别是欧洲和北美地区,分别占欧洲和北美女性恶性肿瘤发病率的第一和第二位。目前,世界女性乳腺癌在癌症中的发病率最高,据美国疾病预防中心统计,早期乳腺癌的治愈率可高达97%,进展期的治愈率仅为40%。因此,越早发现乳腺癌,治愈效果越好,即“早发现,早治疗”。

       

    在大数据时代下,医疗方面的数据呈现出数量大、类型多、处理方法复杂等特点,数据挖掘技术对这些问题的处理起到了至关重要的作用。威斯康星大学医院Wolberg提供的乳腺肿瘤分析结果显示,乳腺肿瘤的特征可以由9 个参数来表示。基于改进的BP神经网络,刘铭建立了乳腺肿瘤的模拟模型,对传统的BP神经网络进行改进和发展,当Levenberg-Marquardt(L-M)迭代替代了梯度下降算法时,网络收敛速度得到了明显的提高。

       

    使用Matlab2010a进行求解,采用L-M迭代后,目标误差为0.1,得到结果。通过图2可知,神经网络在第7代达到收敛。测试数据有83个样本。其中良性54例,恶性29例。采用检测资料进行检测,诊断结果为良性54 例,良性发生率100%,恶性28 例,恶性发生率96.6%,所以平均诊断发病率为98.8%,结果良好。

       

    图2  神经网络训练性能

     

    3)冠心病的诊断。

       

    近年来,心血管疾病已成为威胁人类的最严重疾病之一,冠心病是心血管疾病中常见的疾病。因此,研究冠心病的有效诊断方法是必要的,有助于进一步采取预防措施和及时治疗。目前,冠状动脉造影是观察冠状动脉形态的唯一直接途径,被医学界称为“金标准”。然而,这是一项创伤性诊断,需要高水平的医疗条件,否则不慎操作会引起严重并发症甚至死亡,这限制了诊断技术的发展。因此,许多专家专注于研究国内外冠心病的有效和非创伤性诊断。经对Cleveland诊所基金会提供的冠心病病例分析后,刘铭得出了反映冠心病特征的14个参数,采用BP算法,通过使用L-M算法的迭代对BP算法进行改进和开发,提高了网络收敛速度,在改进的BP算法的基础上,建立了智能诊断的仿真模型。随着该方法的应用,诊断率可达99.3%。

       

    针对疾病的智能诊断,数据挖掘具有4个应用角度:在医院信息系统中的应用、在疾病辅助诊断中的应用、在药物开发中的应用、在遗传学方面的应用。

       

    地质灾害的风险评估

     

    地质灾害研究具有悠久的历史,地质灾害风险评估是一个新兴的研究领域。近年来,在某些领域已经开发出更准确的预测和分析的方法,这些领域涉及到坍塌、地震、山体滑坡和泥石流等地质灾害。

       

    刘铭提出了一种新颖的智能计算方法,将数据挖掘技术与地质灾害风险实际问题融合在一起,这种混合计算方法促进了对地质灾害风险的准确评估。混合智能算法包括粒子群优化、遗传算法和反向传播神经网络。反向传播神经网络和粒子群算法优化了网络连接权重,阈值的初始化采用遗传算法,同时,在迭代过程中更新连接权重和阈值。这项地质灾害预测研究是在吉林灾害监测数据的基础上,模拟中国东北地区,通过混合智能算法获得的准确度远高于BP神经网络方法带来的准确度。随着地质灾害风险评估在国际风险评估机构中得到肯定,混合方式得到更广泛的应用,如混合智能算法将促进更有效的应急响应、环境管理、土地利用和开发规划。

       

    污水的成因分析

     

    在大数据时代的背景下,当研究水环境和污水处理时,生物膜的组成和活性是两个非常重要的参数。而处理污水问题时,面对的数据海量,单一的传统数学方法解决效果不够理想,引入数据挖掘技术进行分析,问题优化的结果将会更令人满意。

       

    研究水环境的重点在于对污水处理、运行和控制方面的实际需要,通过数据挖掘技术可以准确找到生物膜的表征和活性,并进行估计,进而对于参数不足以描述生物膜活性的问题得以解决。

       

    在给定的限度内,随着生物膜的厚度增加,生物膜的活性也随之增强。测量或估计生物膜厚度和活性的方法是评估生物膜废水处理效率的重要因素,然而目前用于预测生物膜厚度和空间分布适应性的工具较差。对此林山松等基于碳-氮-磷浓度的空间分布生物膜厚度和活性,提出了支持向量回归模型,用以预测反应器中的生物膜的厚度和活力。

       

    采用共聚焦激光扫描显微镜方法对12个样点的4个随机位置上形成的成熟生物膜的厚度进行估算,并将其平均值作为每个载体的最终厚度。图3为共聚焦激光扫描显微镜的微图,展示了在运行100天后载体上的典型生物膜的厚度,其中Z 轴上的数字(30.6 μm)是由激光共聚焦显微镜测量的生物膜厚度。得到的数据作为观测值来估计反应器中未被采样点的生物膜厚度,这些未被采样的点的生物膜厚度通过使用Kriging插值得到。

       

     

    图3 用于检测生物膜厚度的激光共聚焦显微镜显微照片的例子

     

    基于实际值的Kriging插法和距离反应器底部垂直35 cm处的生物膜厚度和生物膜活性的支持向量回归模型预测值进行了比较。图4比较了使用支持向量回归模型的生物膜厚度和生物膜的活性的实际值和预测值。结果表明较高的系数R2=(0.996,0.997),并且通过支持向量回归基于碳-氮-磷值在碎石球状骨料反应器中预测生物膜厚度和生物膜活性的高度可行性,同时根据实际值验证Kriging插值的准确性。

       

    图4  生物膜厚度(a)和生物膜活性(b)实际值与预测值

     

     

    利用Kriging插值法分析组合共聚焦激光扫描显微镜和流式细胞术显示,生物膜厚度从22 μm到31 μm,生物膜活性在反应器的流动方向上从80%降至30%。同时,证实了化学需氧量,总氮量和总磷酸盐去除特征与生物膜厚度和生物膜活性的水分分布之间存在明显的相关性。

       

    教育大数据的挖掘

     

    教育是国家发展的根本,在大数据时代,教育大数据的挖掘是教育数据价值的体现。根据教育部的数据显示,截至2013年,中国高校贫困学生数目已经高达500余万,中国高校的贫困学生比例已经高达20%,其中,特困学生的比例已经超过了总在校人数的5%。全国各个高校都对贫困学生都有各种资助政策,尽量不让每个学生因为贫困而放弃学业。传统的资助形式都是大学生进行申请,并递交相关贫困证明材料,但部分学生因为较强的自尊心,不想让同学发现自己的特殊性而放弃申请,从而导致贫困助学金并不能准确地发放到每个贫困学生的手中。2015年3月2日,南京理工大学的“暖心饭卡工程”受到来自各界的关注。南京理工大学教育发展基金会工作人员对学生在日常生活中的数据进行了调查和数据的采集,该项调查涉及的共有16000余名南京理工大学当前在校学习的本科生,采集的数据为在2014年9月中旬至11月中旬期间学生的饭卡刷卡记录,将每个月平均在食堂消费60次以上,消费总额不足420元的学生确立为补助对象,不需要学生申报,直接将补助打入学生的饭卡。这次针对学生生活行为的数据挖掘,不仅在教育大数据的基础上实现了“精准扶贫”,而且对学生真正做到了“人文关怀”,体现出了数据的价值性。

       

    国内图书情报的研究

     

    目前,数据挖掘技术在图书情报领域的研究可分为6个方面:数字图书馆及个性化服务;WEB和信息服务;信息资源及参考咨询;图书馆及信息检索;高校图书馆及图书馆采购;情报学领域等。

       

    大数据时代下,数据挖掘技术在中国图书情报领域中,基于中国知网数据库中图书情报领域的相关研究论文,郭婷等分别利用了共词分析法和文献分析法对文献的增长规律和期刊的分布情况进行分析,在中国图书情报领域中,对数据挖掘的研究现状进行研讨,进一步强调了数据挖掘技术在图书情报领域研究的热点和重点。而且中国知网等在线图书机构采用数据挖掘技术研发的“学术不端文献检测系统”有效地避免了学术舞弊行为,保证了中国科研工作的正常发展。

       

     

    大数据时代下数据挖掘的发展趋势

     

    无论是研究领域,还是商业应用,数据挖掘都是热点问题,得到越来越多的人们关注,人们逐渐了解、学习并加以运用,相关领域日益成熟。在利用数据挖掘技术处理和解决实际问题时,王光宏等提出了3个值得注意的角度:用数据挖掘技术解决问题的类型、解决数据挖掘的数据准备工作及数据挖掘的理论基础。在大数据时代下,数据挖掘的发展趋势将会围绕数据价值的挖掘体现在以下5个层面。

       

    多媒体数据挖掘

       

    大数据时代下,视频、音频、图像等都属于多媒体的范畴,随着时代的发展,海量的数据结构变得复杂化和动态化,而通过单独的传统数学方法去管理现实生活中的问题,得到的效果往往不能满足人们的期待。无人机和无人车的实际应用、公安天网工程的展开、智慧医疗项目的全面发展都会要求对多媒体数据进行快速处理,为了得到更理想的效果,得到的效果变得最优化,需要开发和设计数据挖掘的新智能算法。

       

    金融领域潜在数据的挖掘

       

    在信用卡业务中,违约预测的数据挖掘具有预言性、有效性、实用性的优势。在信用卡交易的过程中,数据挖掘的应用类型也比较多,如在信用卡异常行为检测、高端信用客户的维护和信用卡风险控制等方面,均可以展开深入研究。

       

    数据挖掘算法的改进和可视化

       

    当采用数据挖掘的算法分析和处理海量数据时,算法的改进主要取决于算法的精度和速度,即算法的准确度和效率。如今,学术研究主要集中在精度和效率之间设定适当的临界值和对数据挖掘的结果进行可视化两个方面。针对数据挖掘算法中的新贵——RNN、CNN、DNN、Capsule等一系列深度学习算法的研究,将成为引领大数据研究方法的风向标。

       

    数据挖掘和隐私保护

       

    在解决实际问题时,难免会涉及隐私的数据,例如在研究信用卡和用户之间的关系时,数据中难免会有用户的个人信息;在研究宫颈癌(危险因素)与人的年龄、怀孕次数、性伴侣数等关系时,会有部分隐私信息不便透漏外界。在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏处理,将成为人们研究数据挖掘的另一个重要方面。

       

    数据挖掘技术与其他系统的集成

       

    数据挖掘是一个完整的过程,而不是单纯的某一个算法或者其中的几个算法简单混合就可以的。将数据挖掘应用到实战演练的过程中,还是需要将数据挖掘与其他领域和系统有条理地集成,而不能理解成单独的一个算法就足以解决一个问题,进而最大化地体现了数据挖掘的优势。

       

     

    结 论

     

    在大数据时代下,当运用传统的数学方法遇到困难时,熟练地应用数据挖掘技术显得格外重要。本文通过对国内外的研究现状进行剖析,分析了数据挖掘技术的主要方法,介绍了数据挖掘技术的应用领域,总结了在大数据时代下数据挖掘技术未来的发展趋势。

       

    无论是在金融、医疗方面,还是在电信、教育等社会各个领域,每一时刻都会产生海量数据,由于社会存在过多的不确定性因素,导致处理的数据类型越来越繁杂,即便是采用计算机辅助,对于传统的处理方法、解决实际问题依然能力局限,但是通过数据挖掘技术,解决大数据问题,则开辟了另一个途径。未来的时代是“数据为王”,数据挖掘技术会面对更加严峻的挑战,利用数据挖掘的相关算法,处理实际问题和分析数据的能力将会更加显著。

     

    基金项目:国家自然科学基金项目(61503150)

       

    参考文献(略)  

     

     

     

    本文作者:刘铭,吕丹,安永灿

     

    作者简介:刘铭,长春工业大学数学与统计学院,副教授,研究方向为智能计算与数据挖掘。

     

    本文发表于《科技导报》2018 年第9 期,敬请关注。

     

    (责任编辑  刘志远)

    展开全文
  • 由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及。例如在销售数据中发掘客户的消费习惯,并从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与突出...

    前言:

    由于数据挖掘能分析出数据中的有用信息,给企业带来显著的经济效益,这使得数据挖掘技术越来越普及。例如在销售数据中发掘客户的消费习惯,并从交易记录中找出顾客偏好的产品组合,其他包括找出流失顾客的特征与突出新产品的时机点等都是零售业常见的实例;利用数据挖掘分析顾客群的消费行为与交易记录,结合基本数据,并依据对品牌价值等级的高低来区隔客户,进而达到差异化营销的目的;制造业对数据挖掘的需求多运用在品质管控方面,从制造过程中找出影响产品品质最重要的因素,已期提高作业流程的效率。

    近几年、电话公司、信用卡公司、保险公司以及股票交易上对欺诈行为的侦测都很有兴趣,这些行业每年因为欺诈行为遭受的损失都非常巨大,数据挖掘可以从一些信用不良的客户数中发现相似特征并预测可能的欺诈交易,达到减少损失的目的。金融业可以利用数挖掘来分析市场动向,并预测个别公司的营运及股价走向。数据挖掘的另一个独特的用法实在医疗业,用来预测手术、用药、诊断或是流程控制的效率。

    归纳起来,数据挖掘技术的基本任务主要体现在分类与回归、聚类、关联规则、时序模式、偏差检测五个方面。下图是典型的数据挖掘应用场景:

    2.1 分类与回归

    我们经常会碰到这样的问题:

    1. 如何将信用卡申请人分为低、中、高风险群?
    2. 如何预测那些顾客会在未来半年内取消该公司服务,那些电话用户会申请增值服务?
    3. 如何预测银行可以安全地带给贷款人的贷款量?
    4. 哪些使用2G通信网络的手机用户有可能转换到3G通信网络?
    5. 如何有效预测房地产开发中存在的风险?

    除此之外,市场经理需要进行数据分析,以便帮助他预测具有某些特征的顾客会购买一台新的计算机;医学研究者希望分析乳腺癌数据,预测病人应当接受三种具体治疗方案的哪一种;这些都是分类与回归的例子。

    2.1.2 分类与回归建模原理

    分类(classification):指将数据映射到预先定义好的群组或类。

    因为在分析测试数据前,类别就已经确定了,所以分类通常被称为有监督学习。分类算法要求基于数据属性值来定义类别,通常通过已知所属类别的数据的特征来描述类别。

    分类就是一个构造函数(分类模型),把具有某些特征的数据项映射到给定的类别上。该过程由两步构成。

    模型创建:通过对训练数据集的学习来建立分类模型。

    模型实用:使用分类模型对测试数据和新数据进行分类。

    其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出。

    回归(Regression):用属性的历史数据预测未来趋势。

    回归首先假设一些已知类型的函数(例如线性函数、Logistic 函数等)可以你和目标数据,然后利用某种误差来分析确定一个与目标数据拟合程度最好的函数。

    回归模式的函数定义与分类模式相似,主要差别在于分类采用离散预测值(例如类标号),而回归模式采用连续的预测值。在这种观点下,分类和回归都是预测问题。但数据挖掘界普遍认为:用预测法预测类标号为分类,预测连续值(例如实用回归方法)为预测。许多问题可以实用线性回归解决,许多非线性问题可以通过对变量进行变化,从而转化为线性问题来解决。

    2.1.2 分类与回归算法

    分类与回归常用算法

    分类与回归常用算法
    算法名称 
    BP(Back Propagation,反向传播)一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一
    LM(Levenberg-Marquardt)基于梯度下降法和牛顿法结合的优化算法,特点是迭代次数少,收敛速度快,精度高。
    FNN(Fuzzy Neural Network,模糊神经网路)具有模糊权系数或者输信号是模糊量的神经网络,是模糊系统和神经网络结合的产物,汇聚了神经网络与模糊系统的优点
    RBF(Radial Basis Function,径向基函数)具有单隐层的三层前馈网络。是一种局部逼近网络,能够以任意精度逼近任意连续函数,特别适合于解决分类问题。
    ANFIS(Adaptive Neural Fuzzy Inference System,自适应模糊推理系统)功能上与上一阶T-S模糊推理系统等价的自适应网络,是将神经网络的学习机制引入模糊系统,构成一个带有人类感觉和认知成分的自适应系统。
    WNN(Wavelet Neural Network,小波神经网络)基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激活函数(如Sigmod函数),把小波变换与神经网络有机结合,充分继承了两者的有点。
    SVM(Support Vector Machine,支持向量机)V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。
    CART(classification and Regression Tree,分类与回归树)一种非常有效的非参数分类与回归方法,通过构建树、修剪树、评估树来构建一个二叉树。

    2.2 聚类

    我们经常会遇到这样的问题:

    1. 如何通过一些特定的症状归纳某类特定的疾病?
    2. 谁是银行信用卡的黄金用户?
    3. 谁喜欢打国际长途,在什么时间,打到哪里?
    4. 对住宅区进行聚类,确定自动提款机ATM的安放位置。
    5. 如何对用户WAP上网行为进行分析,通过客户分群进行精确营销?

    除此之外,促销应该针对哪一类用户,这类客户具有哪些特征?这类问题往往是促销前首要解决的问题,对整个客户座分群,将客户分组在各自的群组里,然后对每个不同的群组,采取不同的营销策略。这些都是聚类分析的例子。

    2.2.1 聚类分析建模原理

    聚类(Clustering)分析:是在没有给定划分类的情况下,根据信息相似度进行信息聚类的一种方法,因此聚类又称为无指导的学习。

      与分类不同,分类需要先定义类别和训练样本,是有指导的学习。聚类就是将数据划分或分割成相交或不相交的群组的过程,通过数据之间预先指定的属性上的相似性,就可以完成聚类任务。

    聚类的输入是一组未被标记的数据,根据数据自身的距离或相似度进行划分。划分的原则是保持组内最大的组内相似性和最小的组间相似性,也就是使不同聚类中的数据尽可能地不同,而同一聚类中的数据尽可能地相似。比如股票价格波动的情况,可以将股票分成不同的类,总共可以分成几类,各类包含哪些股票,每一类的特征是什么,这对投资者,尤其对投资基金的人来说,可能是很重要的信息。当然,聚类除了将样本分类外,还可以完成孤立点挖掘,如将其应用于网络入侵检测或金融风险欺诈探测中。

    2.2.2 聚类方法

    主要聚类算法分类
    类别主要算法
    划分(分裂)方法K-means (K-平均值)
    K-MEDOIDS(K-中心点)
    CLARANS (基于选择的算法)
    层次方法BIRCH  (平衡迭代规约和聚类)
    CURE(代表点聚类)
    CHAMELEON(动态模型)
    基于密度的方法DBSCAN(基于高密度连接区域)
    DENCLUE(密度分布函数)
    OPTICS(对象排序识别)
    基于网格的方法STING(统计信息网络)
    CLIOUE(聚类高维空间)
    WAVE-CLUSTER(小波变换)
    基于模型的方法统计学方法
    神经网络方法

    2.3 关联规则

    我们经常会碰到这样的问题:

    1. 商业销售上,如何通过交叉销售得到更大的收入?
    2. 保险方面,如何分析索赔要求发现潜在的欺诈行为?
    3. 银行方面,如何分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务?
    4. 哪些制造零件和设备设置与故障时间关联?
    5. 那些病人和药物属性与结果关联?
    6. 哪些商品是已经购买商品A的人最有可能购买的?

    除此之外,人们希望从大量的商业交易记录中发现有价值的关联知识,以帮助其商品目录的设计、交叉营销或其他有关的商业决策。在商业销售上,关联规则可用于交叉销售,以得到更大的收入;在保险方面,如果出现了不常见的索赔要求组合,则可能为欺诈行为,需要进一步调查;在医疗方面,可找出可能的治疗组合;在银行方面,对顾客进行分析,可推荐感兴趣的服务等;这些都属于关联规则挖掘问题,关联规则挖掘的目的是在一个数据集中找出各项之间的关系,从大量数据中挖掘出有价值的描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对从这些数据中挖掘相应的关联知识越来越感兴趣。

    2.3.1 什么是关联规则

    关联规则(Association):揭示数据之间的相互关系,而这种关系没有在数据中直接表示出来。

    关联分析的任务就是发现事物间的关联规则或称相程度。关联规则的一半形式是:

    如果A发生,则B有百分之C的可能发生。C称为关联规则的置信度(Confidence)。

    利用关联分析能寻找数据库中大量数据的相关联系,常用的两种技术为:

    关联规则:用于发现一个事物与其他事物间的相互关联性或相互依赖性。

    序列模式分析:将重点放在分析数据之间的前因后果关系上。

    2.3.2 关联规则算法

    算法名称算法描述
    Apriori一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的地推算法。
    FB-Tree针对Ariori算法的固有缺陷,J.Han等提出了不产生候选挖掘频项集的方法:FB-树频集算法
    灰色关联法以分析和确定各因素之间的影响程度或若干个子因素(子序列)对主因素(母序列)的贡献程度而进行的一种分析方法。
    HotSpot挖掘得到通过树状结构显示的感兴趣的目标最大化/最小化的一套规则,最大化/最小化利益目标变量/值。

    2.4 时序模式

    我们经常会碰到这样的问题:

    1. 下个月商品销售量、销售额和库存量是多少?
    2. 明天广州市的最高用电负荷是多少?

    2.4.1 什么是时序模式

    时序模式:描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。

    与回归一样,他也用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。序列模式将关联模式和时间序列模式结合起来,重点考虑数据在时间维度上的关联性。时序模式包含时间序列分析和序列发现。

    时间序列分析:用已有的数据序列预测未来。在时间序列分析中,数据的属性值是随着时间不断变化的。回归不强调数据间的先后顺序,而时间序列要考虑时间特性,尤其要考虑时间周期的层次,如天、周、月、年等,有时还要考虑日历的影响,如节假日等。

    序列发现:用于确定数据之间与时间相关的序列模式。这些与数据(或者事件)中发现的相关的关联规则很相似,只是这些序列是与时间相关的。

    2.4.2 时间序列的组合成分

    时间序列的变化主要受到长期趋势、季节变动、周期变动和不规则变动这四个因素的影响。

    •  长期趋势因素(T):反映了经济现象在一个较长时间内的发展方向,它可以在一个相当长的时间内表现为一种近似直线的持续向上或持续向下或平稳的趋势。
    • 季节变动因素(S):是经济现象受季节变动所形成的一种长度和幅度固定的周期波动。
    • 周期变动因素(C):也称循环变动因素,它是受各种经济因素影响所形成的上下起伏不定的波动。
    • 不规则变动因素(I):不规则变动又称随机变动,它是受各种偶然因素影响所形成的不规则变动。

    2.4.3 时间序列的组合模型

    时间序列y可以表示为四个因素的函数,即 y = f(Tt,St,Ct,It)。时间序列分解方法有很多,较常用的模型有加法模型和乘法模型。

    • 加法模型:假定时间序列是基于4种成分相加而成的。长期趋势并不影响季节变动。若以y表示时间序列,则加法模型为:

    y_{t}=T_{t}+ S_{t}+C_{t}+I_{t} 

    • 乘法模型:假定时间序列是基于4中成分相乘而成的。假定季节变动与循环变动为长期趋势的函数。该模型的方程式为:y_{t} = T_{t}\times S_{t}\times C_{t} \times I_{t}

    乘法分解模型的基本步骤是:

    1. 运用移动平均法剔除长期趋势和周期变化,得到时许TC。然后再用按月(季)平均法求出季节指数S。
    2. 做散点图,选择适合的曲线模型拟合序列的长期趋势,得到长期趋势T。
    3. 计算周期因数C。用序列TC除以T即可得到周期变动因数C。
    4. 将时间序列的T,S,C分解出来后,剩余的即为不规则变动,即I=\frac{Y}{TSC}

    2.4.4 时序算法

    方法时间范围适用情况
    一元线性回归预测法短、中期自变量与因变量之间存在线性关系
    多元线性回归预测法短、中期因变量与两个或两个以上自变量之间存在线性关系
    非线性回归预测法短、中期因变量与一个自变量或多个其他自变量之间存在某种非线性关系
    趋势外推法中、长期当被预测项目的有关变量用时间表示时,用非线性回归
    移动平均法短期不带季节变动的反复预测
    指数平滑法短期具有或不具有季节变动的反复预测
    平稳时间序列预测法短期适用于任何序列的发展型态的一种高级预测方法
    灰色预测发短、中期适用于时间序列的发展呈指数型趋势

    2.5 偏差检测

    偏差:是对差异和极端特例的表述,如分类中反常的实例、聚类外的离群值、不满足规则的特例等。

    偏差检测:用来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的欺诈行为,还是正常的变化。如果是一场行为,则需要提示采取防御措施,尽早防范。

    注:大部分数据挖掘方法都是将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 数据挖掘简介

    2020-08-26 10:21:52
    数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD) 数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点...
  • 随着数据库技术的迅速发展及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们...缺乏挖掘数据背后隐藏的知识的手段,导致了 “ 数据爆炸但知识贫乏 ” 的现象。 1 数据...
  • 数据挖掘

    2020-06-29 00:17:08
    数据挖掘概述  数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值...
  • 计算机数据挖掘技术的应用 1数据挖掘技术的概述 数据挖掘技术又被称为数据开采技术它的作用不仅在于数据挖掘而且能够对数据进行分析和整理并最终汇聚成统计数据其中最重要的就是数据分析技术数据挖掘技术与以往的...
  • 奖金:¥160000 智能医疗决策 知识挖掘 赛题名称:病理“金数据”赋能医学诊断 赛题介绍:在医院,病理文本数据是金数据,也是医生科研的数据基础,然而病理文本是一种涉及多概念、多关系、多属性的文本数据,医生...
  • 数据汇聚

    千次阅读 2020-05-12 09:33:50
    数据汇聚:打破企业数据的物理孤岛,形成统一的数据中心,为后续数据资产的价值挖掘提供原始材料。 1.数据汇聚工具: 1.Canal 主要缺点:Server中的Instance(实例)和Client(客户机)之间是一对一消费,不太适合...
  • 数据库系统---数据挖掘

    千次阅读 2018-08-27 21:10:54
    数据挖掘  随着数据库技术的迅速发展及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统...
  • 数据与知识贫乏导致了知识发现和数据挖掘的出现,当人们进入 21 世纪以后,可 以预计知识发现与数据挖掘的研究又将形成一个新的高潮。   数据挖掘是一门多学科交叉的领域。一方面,数据挖掘以计算技术的发展为...
  • 问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用. 答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法等...
  • 数据挖掘技术的来源 历史 研究内容及常用技术
  • 数据挖掘#金融风控总结

    千次阅读 2020-02-15 21:17:38
    作为本科某财经211出身的一只程序媛,大学期间的两份实习都是在金融科技公司做金融风控方向的数据分析与挖掘。一年多后的今天,借着知识梳理的机会,稍微总结回忆下接触到的金融风控知识。 第一份实习A是在大三结束...
  • 其中,数据汇聚存储是数据中台的核心技术能力之一。用友数据中台针对不同的业务数据类型、业务系统技术架构,设计不同的数据采集策略、数据同步规范、数据质量控制规范、数据存储方案等,实现业务中台数据、应用系统...
  • 空间数据挖掘常用方法

    万次阅读 2014-12-10 21:55:45
    问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用. 答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊集理论,遗传算法...
  • 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(引用百度百科)...
  • 数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。利用数据挖掘进行数据分析常用的方法主要有分类、...
  • 数据挖掘的军规

    2019-12-23 07:30:27
    这是傅一平的第312篇原创“与数据同行”开通了微信群,现已汇聚了3000位小伙伴了,长按以下二维码发送“入群”后加入。正文开始笔者鼓励致力于从事数据行业的去参加一些人工智能,机器学习的培...
  • 而在数据中生活的我们在制造数据的同时也在通过数据加快经济发展速度,提高社会文明。因此,数据的战略意义已经同人力资源、自然资源相同。 所谓大数据,是信息化到一定阶段之后必然出现的现象,是由于信息技术的...
  • 数据采集、汇聚的方法和工具 线上行为采集 埋点:服务端和客户端埋点 线下行为采集 通过硬件来采集:Wi-Fi探针、摄像头、传感器 互联网数据采集 网络爬虫 内部数据采集 (1)结构化数据采集; (2)半结构化...
  • 这样的做法其实并不新鲜,早些年市场营销人员就已经开始借助对已有数据的分析来支撑营销项目。随着“大数据时代”的来临,数据分析对于银行的重要性已成为业界的共识。关于银行大数据如何获取以及如何使用的讨论...
  • 数据挖掘(理论):分类和聚合

    千次阅读 2020-04-14 12:02:30
    二,层次聚类 层次聚类的合并算法通过计算两类数据点间的相似性,对所有数据点中最为相似的两个数据点进行组合,并反复迭代这一过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的...
  • 据市场调研机构赛迪预计,2018年的人工智能市场将突破200亿元,更有专家预测,今年将是名副其实的人工智能元年...小米科技创始人雷军2017 年的AI技术已经汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,
  • 数据挖掘技术的来源、历史、研究内容及常用技术 1 数据挖掘技术的由来 1.1网络之后的下一个技术热点  我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。如果用芯片集成度来...
  • 自我介绍一下,我是一名大四应届毕业生对数据挖掘方面很感兴趣,最近开始着手系统学习,在这里与大家分享我的学习笔记与心得,如果不足或错误请大家指出,感谢。 第五章 挖掘建模 一、分类与预测 就餐饮企业而言,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 8,123
精华内容 3,249
关键字:

数据挖掘汇聚