精华内容
下载资源
问答
  • 《量化投资:数据挖掘技术与实践(MATLAB版)》内容分为三篇。篇(基础篇)主要介绍数据挖掘与量化投资的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容。第二篇(技术篇)系统介绍了数据挖掘的相关...
  • 本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类...
  • 《量化投资:数据挖掘技术与实践(MATLAB版)》内容分为三篇。篇(基础篇)主要介绍数据挖掘与量化投资的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容。第二篇(技术篇)系统介绍了数据挖掘的相关...
  • 数据挖掘技术及应用(我见过的最全面的理论+最佳案例组合) 本资料共包含以下附件: 数据挖掘技术及应用(我见过的最全面的理论+最佳案例组合) (1).ppt
  • 数据挖掘技术调研报告 包括数据挖掘的发展历程、现状、基本方法等内容
  • 数据挖掘概述 数据预处理 数据挖掘算法-分类与预测 数据挖掘算法-聚类 数据挖掘算法-关联分析 序列模式挖掘 数据挖掘软件 数据挖掘应用
  • 大数据时代下数据挖掘技术的应用

    万次阅读 多人点赞 2018-11-09 15:49:28
    随着社会信息化的迅速发展,无论是数据的变化速率,还是数据的新增种类都在不断更新,数据研究变得越来越复杂,这意味着“大数据时代”到来。2011年,互联网数据中心(internet data center,IDC)将大数据重新定义...

    原文链接:https://mp.weixin.qq.com/s/bxSEO4gKQ-BbDWT1BNnwyw

    随着社会信息化的迅速发展,无论是数据的变化速率,还是数据的新增种类都在不断更新,数据研究变得越来越复杂,这意味着“大数据时代”到来。2011年,互联网数据中心(internet data center,IDC)将大数据重新定义为:在大数据原有的三维特征——数量、多样、速度基础上,增加了另一新的特征——“价值”。IDC强调:“目前,对于庞大的数据量,通过经济的方式,极速发掘、获取和分析处理的技术,进而提炼获取价值,这是大数据新时代的专属。”“大数据时代”的专属特征被重新定义为:数量(volume)、多样(variety)、速度(velocity)和价值(value),称为“4V”。

       

    随着大数据时代的到来,社会对“挖掘”到的数据要求变得更加严格,每一个精准的结果都具备独自的“价值”,这时,大数据时代的新增属性——“价值”被演绎得有声有色。数据挖掘(data mining, DM)是一门新兴的、汇聚多个学科的交叉性学科,这是一个不平凡的处理过程,即从庞大的数据中,将未知、隐含及具备潜在价值的信息进行提取的过程。1989年8月,在美国底特律市召开的第十一届人工智能联合会议的专题讨论会上,知识发现(knowledge discover in database,KDD)初次被科学家们提出,同时,也有人将知识发现称为数据挖掘,但两者并不完全等同。1995年,KDD这个术语在加拿大蒙特利尔市召开的第一届知识发现和数据挖掘国际学术会议上被人们接受,会议分析了数据挖掘的整个流程。实质上,数据挖掘是知识发现的子过程。

       

    经过了大约20年的发展,数据挖掘研究取得了可观的成绩,渐渐地形成了一套基本的理论基础,主要包括:分类、聚类、模式挖掘和规则提取等。数据挖掘是一种从生活中的海量数据里“挖掘”出潜在的、前所未有的知识的技术。处理大数据需要一个综合、复杂、多方位的系统,系统中的处理模块有很多,而数据挖掘技术以一个独立的身份存在于处理大数据的整个系统之中,与其他模块之间相辅相成、协调发展。在大数据时代中,数据挖掘技术的地位是无可比拟的。

       

     

    数据挖掘的研究现状

     

    数据挖掘将高性能计算、机器学习、人工智能、模式识别、统计学、数据可视化、数据库技术和专家系统等多个范畴的理论和技术融合在一起。大数据时代对数据挖掘而言,既是机遇也是挑战,分析大数据,建立适当的体系,不断地优化,提高决策的准确性,从而更利于掌握并顺应市场的多端变化。在大数据时代下,数据挖掘作为最常用的数据分析手段得到了各个领域的认可,目前国内外学者主要研究数据挖掘中的分类、优化、识别、预测等技术在众多领域中的应用。

       

    分类

       

    伴随着时代的进步和科技的飞速发展,作为人口大国,中国在健康医疗、老龄化社会等方面产生的公共数据呈几何级数进行增长,而基于大数据的挖掘数据所附有的价值问题急需解决。健康医疗数据的结构、规模、范围和复杂度等都在不断扩大,传统的计算方法并不能完全满足分析医疗数据,数据挖掘技术则可以根据医疗数据的一些特点:模式的多态性、信息的缺失性(数据中由于涉及个人隐私问题而导致的缺失值)、时序性、冗余性对健康医疗数据进行分类,从而可以为医生或病人提供准确的辅助决策。

       

    同时,中国正加速进入老龄化社会,而互联网是改善老龄化社会的重要媒介,大数据是评估老龄化社会重要的技术手段。屈芳等提出了“互联网+大数据”模式的养老实现途径,整个养老服务体系是建立在多元异构信息汇聚和数据融合挖掘之上,“互联网+大数据”的养老体系是将多种信息通信技术进行融合,在这里,包括通信技术、数据挖掘技术及人工智能技术等。

       

    优化

       

    道路的交通状况与人们的出行关系密切,随着城市的快速发展、生活水平的改善,机动车的规模也逐渐扩大,带来了交通拥堵等问题。数据挖掘技术可以有效解决交通道路和物流网络之间的优化问题,Pan等提出了一种数据挖掘预测模型,该模型用于“实时预测”短期的交通状况,给陷入交通拥堵的驾驶人员带来极大的帮助。

       

    随着科技的发展,网上购物越来越流行,同时带来了物流运输拥堵及瘫痪等问题。京东——中国最大的在线交易平台之一,在人工智能的优化时代,使用无人机探测道路状况反馈的数据,采用数据挖掘技术精准计算物流网络运输所需要的参数,可以轻松高效地缓解物流运输瘫痪的问题,从而产生了中国第一个机器人快递员,将第一个商品送达至中国人民大学。而随着日后交通网络长度、复杂性等方面的增加,实现无人驾驶的自动化策略难度也大幅增加,只有通过数据挖掘技术才可以快速计算出结果,从而获得从复杂道路信息中产生的高效价值。

       

    识别

       

    自从20世纪50年代数字图像出现以来,数字图像成为人类社会中必不可少的“数据”。在计算机应用中,数据挖掘在图像识别的应用越来越普遍,有代表性应用为人脸识别和指纹识别。人脸识别通过对获得的信息库进行数据挖掘,进一步分析和处理可靠的、潜在的数据,充分准备资料的分析工作和未来的开发工作。Wright等阐述了基于稀疏表示的鲁棒人脸识别,并给出了详细的理论分析与实践总结。

       

    沙亚清等针对目前的电子报税系统中利用用户名和口令的不安全性,提出了一种基于智能卡和指纹识别的身份认证方案,并结合指纹技术,构建新的口令参数,从而使得安全性明显提高。随着数据挖掘技术的不断发展,大数据识别人脸和指纹的精确度会越来越高。

       

    预测

       

    预测问题是各领域中研究最多的问题,其目的是通过历史数据预测出未来的数据值或发展趋势。大部分历史数据是时间序列数据,即指按照时间的顺序排列,得到了一系列观测值。由于信息技术的不断进步,时间序列的数据也日益剧增,如气象预报、石油勘探、金融等。时间序列数据挖掘的最终目标就是通过分析时间序列的历史数据,预测未来一段时间的变化趋势及其带来的影响。

       

    “气象”与地球的生态平衡和人们的正常生活息息相关,因此,气象的准确预报显得格外重要。周磊等总结了目前的气象监测模型,基于遥感数据的干旱方面,将目前的遥感监测方法进行分类,对于外界的环境条件(温度、湿度等)进行分类讨论,提出解决复杂问题的新方法。

       

    石油作为一种不可再生资源,目前全球储量日益减少,从而使得石油勘探变得越来越重要。在石油勘探管理中,所采集的数据具有数据量大、计算量大、采集来源单一及数据处理流程复杂的特点,用数据挖掘技术对其采集的大数据集进行高性能并行计算和分析,才可以保证结果的有效性和准确性。

       

    在大数据时代下,银行、证券公司、保险公司等每天的业务都将生成海量数据,采用当前的数据库系统可以高效地实现数据的录入、查询和统计等功能,目前,从简单的查询提升到利用数据挖掘技术挖掘知识、提供决策支持的层次显得格外重要。数据挖掘技术在金融行业应用具有可行性,将理论基础应用到相关的实例包括预测股票指数、发现金融时间序列中的隐含模式、信用风险管理及汇率预测等。

       

     

    数据挖掘主要方法

     

    数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的理论和技术融合在一起。数据挖掘的主要方法概括为:预测模型方法、数据分割方法、关联分析法和偏离分析法(图1)。解决实际问题时,将已知的数据库蕴含的复杂信息转换成数学的语言,建立数学模型,运用相应的处理方法结果会更加有效。

       

    图1  数据挖掘的主要方法

     

    预测模型方法

     

    预测模型方法是数据挖掘主要方法中分支较为复杂的一类,包括神经网络与决策树等相关人工智能算法、进化算法及支持向量机等算法。

       

    1)神经网络与决策树等相关人工智能算法

     

    在预测模型方法中,神经网络算法、决策树算法、贝叶斯分类算法、基于关联规则分类算法等都是经典的人工智能算法。

       

    1943年,心理学家McCulloch和数理逻辑学家Pitts建立了神经网络和数学模型,称为MP模型,证明了单个神经元能够执行逻辑功能,从而开创了人工神经网络研究的新时代。通过仿真和模拟生物的神经系统而获得非线性处理能力的一种新的算法——人工神经网络算法(artificial neural network,ANN)。

       

    现有的决策树的分类算法有ID3、C4.5等。1986年,Quinlan 提出了著名的ID3算法,在ID3的基础上,1993年Quinlan又提出了C4.5算法。决策树(decision tree,DT)分类算法是一种以决策树形式表示的分类规则,它能够根据一定的规则将众多的数据分类,从中挖掘出那些有价值的、潜在的信息。决策树的主要优点在于处理大数据的能力强,适合分类及处理预测模型的任务,结论易于解释和理解。

       

    目前的主要研究有3种:CBA、CMAR和CPAR。自1993年Agrawal提出数据库中的关联规则挖掘后,基于关联规则分类算法(classification base of association,CBA)及应用得到迅速发展。1997年,Ali等提出了使用分类关联规则进行部分分类的思想。1998年,Liu等提出了基于分类关联规则的关联分类算法CBA,从此揭开了关联分类的序幕。基于关联规则分析的分类算法搜索频繁模式与类标号之间的强关联,有效避免了决策树归纳一次只考虑一个属性的限制,使其比一些传统的分类算法更为准确。

       

    贝叶斯(Bayes)分类算法是一种算法相对比较简单、分类精度相对较高的分类算法。在分类的性能方面,决策树算法、贝叶斯分类算法及神经网络算法之间关系十分紧密。现有的贝叶斯分类算法包括朴素贝叶斯算法、动态贝叶斯算法等。常见组合分类方法有随机森林方法、bagging方法及boosting方法。其中,随机森林方法是将多个决策树分类器组合在一起的方法,在boosting算法中最常见的一种是AdaBoost算法。在准确度上,二者不相上下,但是,在运行速度上,随机森林方法更占优势。朱凌云等提出了一种新的技术并在医学中的应用,体现了数据的处理、多属性信息的融合、挖掘算法的高效性和鲁棒性。由于神经网络系统具有高度的抗干扰能力,所以,在各个领域内神经网络算法应用广泛,例如数据挖掘、信号处理、自动控制、模式识别及图像处理等多个范畴。

       

    2)进化算法

     

    进化算法,又称“ 演化算法”(evolutionary algorithms,EAs),其代表性算法为遗传算法。1969年,Holland提出了一种随机搜索的最优化方法,它是模拟自然界中的遗传机制和生物进化论而成的,称为遗传算法(genetic algorithms,GA)。它将利用自然界中的“优胜劣汰,适者生存”的生物进化原理改变优化参数,根据适应度函数的选取,最终形成编码串联到群体中。遗传算法的基本步骤:选择、交叉和变异。遗传算法的主要目的是留下适应度值好的个体,淘汰适应度值差的个体,继续循环选择、交叉和变异步骤。

       

    近几年,又演化出新的进化算法,如粒子群算法、蚁群算法以及灰狼优化算法等。粒子群算法(particle swarm optimization,PSO)是由Eberhart等开发的一种新的进化算法。与模拟退火算法相似,PSO算法也是从随机解出发,通过迭代进而寻找最优解,与上述的“遗传算法”相比而言,规则更为简单,它没有遗传算法基本步骤中的“交叉”和“变异”,而是通过追随当前搜索获得的最优值来寻找全局的最优解。粒子群算法以实现简便、精度高、收敛快等优点引起了学术界的重视,并且在解决实际问题中展示了其优越性。

       

    3)支持向量机

     

    1995年,Corinna和Vapnik等首先提出了支持向量机(support vector machine,SVM),它是一种具备较强的分类能力和泛化能力的分类算法,主要解决小样本、非线性、高维模式识别及函数拟合等其他机器学习问题。支持向量机主要分为以下3种情况。

       

    线性可分情况。针对线性可分的情况,现实生活中存在大量的实例,例如,在一组医疗数据中,通过支持向量机可以将患者和正常人进行分类(即二分类),判断哪些是患者,哪些是正常人;在一组由民歌和古筝演奏的音乐辨别中进行有效的分类,判断哪些是民歌,哪些是古筝。

       

    线性不可分情况。解决线性不可分问题时,构建核函数,这是支持向量机的优势所在。但是,对于数据集训练的“复杂度”最终还是取决于它的规模,在处理大规模数据时,模型局部受限,泛化能力有时也会有所消耗或损失。

       

    非线性可分情况。支持向量机利用结构风险最小化替代经验风险最小化原则,较好地解决了小样本情况下的学习问题。针对非线性问题与线性问题是怎样建立起联系的,它们之间是如何进行转化的,“核函数的思想”提供了新的思路。

       

    数据分割方法

     

    数据分割是将数据依据某些属性将其聚类,使之具有一定的意义。由于数据的类型、数据的复杂度和聚类的数目等特点,聚类算法有很多,如划分方法、基于网络的方法、基于密度的方法、层次方法等。

       

    肖娟等针对传统的算法处理多层次的复杂建筑物中涉及的困难,提出了一种新的算法,对建筑物进行分割,对几何基元进行提取。

       

    关联分析法

     

    关联分析法是寻找数据间的关联,但从大数据集中寻找关联可能会导致效率降低,找到的关联也可能毫无意义。在研究过程中存在“支持度”和“置信度”,“支持度”可以有根据地将那些毫无意义的数据删除,而“置信度”可以衡量设置规则的可能性。关联分析法的主要算法有Apriori算法、DHP算法和DIC算法等。

       

    Chen等在现有的分析方法基础上,积累了海量的数据,利用数据挖掘技术,提出了一种新的算法,即通过关联分析法建立相关模式挖掘方法,借助多种新型优化技术,可以有效且高效地减少搜索空间。此外,将该算法应用于现实世界的数据集中,展示了相关模式挖掘的实用性。

       

    偏离分析法

     

    偏差包括潜在的信息量,例如设定模式中的特例、分类中的异样实例以及分析实验得到的最终结果与实验前设定的期望之间的偏差等。观察比较最终的结果与参照量之间的偏差是偏离分析法的核心所在。

       

    在企业的预警或是危机解决的过程中,专业的管理者对突发的意外规则更感兴趣,在异常信息的发现、识别、观察、分析、挖掘、评价和预警等方面,挖掘意外规则的应用价值备受关注。

       

     

    大数据时代下数据挖掘的应用

     

    在大数据时代下,数据挖掘已经广泛地应用到生活中各种各样的领域中,成为当今高科技发展的热点问题。无论在软件开发、医疗卫生方面,还是在金融、教育等方面都可以随处看到数据挖掘的影子,可以使用数据挖掘技术发现大数据的内在的巨大价值。

       

    恶意软件的智能检测

     

    在大数据时代下,在恶意软件检测中数据挖掘技术得到广泛的应用。恶意软件严重损害到网络和计算机,恶意软件的检查依赖于签名数据库(signature atabase,SD),通过SD,对文件进行比较和检查,如果字节数相等,则可疑文件将被识别为恶意文件。有些基于有标签的恶意软件检测的主题,集中在一个模糊的环境下,进而,无法进行恶意软件行为的动态修改,无法识别隐藏的恶意软件。相反地,基于行为的恶意软件检测就可以找到恶意文件的真实行为。而如果采用基于数据挖掘技术的分类方法,就可以根据每个恶意软件的特征和行为进行检测,从而检测到恶意软件的存在。

       

    生物信息学中的广泛应用

     

    生物信息学是一门交叉学科,融合了生命科学、计算机科学、信息科学和数学等众多学科。随着科技的快速发展、技术的提升及结果的优化,将高科技信息技术拓展到生物研究领域。但是,单纯凭借原有的计算机技术是远远不够的,需要以计算机科学做辅助,将生命科学、信息科学和数学等交叉学科融合在一起,通过数据挖掘技术进行处理,仔细分析生物数据之间的内在联系,挖掘生物数据内部的潜在信息。生物信息数据的特点有很多,孙勤红总结了当前生物信息数据的特点,包括数量大、种类多、维度高、形式广及序列性等。当前生物信息学的热点包括:从以序列分析为代表的组成分析向功能分析的转变;从单个生物分析的研究到基因调控的转变;对基因组数据进行整体分析等。人类目前在生物基因组计划中的研究,仅仅是冰山的一角,未来在差异基因表达、癌症基因检测、蛋白质和RNA基因的编码等生物基因方面的研究工作都与数据挖掘技术密不可分,只有更好地利用数据挖掘技术,才可以挖掘出生物基因组中的非凡价值。

       

    信用卡的违约预测

     

    如今,随着科技的高速发展,信息量急剧增加,内容变得越来越丰富,信用卡在人们的生活中具有不可忽视的地位。众所周知,信用卡是由银行发放,银行需要对申请人的个人信息进行核实,确认无误后再进行发放信用卡,Chen等针对商业银行贷款行为提出了一种关于信用率的模糊算法。信用卡在办理之前,银行首先需要对申请人进行细致调查,根据申请人的实际情况判断是否有能力来偿还所贷金额,刘铭等在传统的神经网络基础上,采用灰狼优化算法计算神经网络的初始权值和阈值,并提出了一种改进的模糊神经网络的算法,通过建立的信用卡客户的违约预测模型,与目前其他的预测方法进行比较,得到较好的预测结果,进一步,验证了模糊神经网络在信用卡客户的预测上具有较好的鲁棒性、准确性和高效性。采用有效的数据挖掘技术,针对信用卡客户属性和消费行为的海量数据进行分析,可以更好的维护优质客户,消除违约客户的风险行为,为信用卡等金融业务价值的提升提供了技术上的保障。

       

    疾病的智能诊断

     

    1)宫颈癌的诊断。

       

    宫颈癌是国际上最普遍的妇科恶性肿瘤之一。2012年统计数字显示,宫颈癌在全球的新发病例数为52.8万,死亡数26.6万,居女性生殖道恶性肿瘤发病率的首位。按照有关数据统计,发展中国家占83%,其中死亡病例占85%,由于宫颈癌的筛查工作不够完善,导致高发病率和高死亡率。相反地,在发达国家,很大程度上宫颈癌的低发病率源于有效的筛查和诊断。为了减少来自每个专家的标签数据量,Fernandes等提出一种基于正则化的转移学习策略,鼓励源模型和目标模型共享相同的系数符号。

       

    2)乳腺癌的诊断。

      

    乳腺肿瘤是女性恶性肿瘤中最常见的肿瘤,影响妇女的身体和精神健康,甚至威胁生命。20世纪以来,全世界范围内乳腺癌的患病率均有所增加,特别是欧洲和北美地区,分别占欧洲和北美女性恶性肿瘤发病率的第一和第二位。目前,世界女性乳腺癌在癌症中的发病率最高,据美国疾病预防中心统计,早期乳腺癌的治愈率可高达97%,进展期的治愈率仅为40%。因此,越早发现乳腺癌,治愈效果越好,即“早发现,早治疗”。

       

    在大数据时代下,医疗方面的数据呈现出数量大、类型多、处理方法复杂等特点,数据挖掘技术对这些问题的处理起到了至关重要的作用。威斯康星大学医院Wolberg提供的乳腺肿瘤分析结果显示,乳腺肿瘤的特征可以由9 个参数来表示。基于改进的BP神经网络,刘铭建立了乳腺肿瘤的模拟模型,对传统的BP神经网络进行改进和发展,当Levenberg-Marquardt(L-M)迭代替代了梯度下降算法时,网络收敛速度得到了明显的提高。

       

    使用Matlab2010a进行求解,采用L-M迭代后,目标误差为0.1,得到结果。通过图2可知,神经网络在第7代达到收敛。测试数据有83个样本。其中良性54例,恶性29例。采用检测资料进行检测,诊断结果为良性54 例,良性发生率100%,恶性28 例,恶性发生率96.6%,所以平均诊断发病率为98.8%,结果良好。

       

    图2  神经网络训练性能

     

    3)冠心病的诊断。

       

    近年来,心血管疾病已成为威胁人类的最严重疾病之一,冠心病是心血管疾病中常见的疾病。因此,研究冠心病的有效诊断方法是必要的,有助于进一步采取预防措施和及时治疗。目前,冠状动脉造影是观察冠状动脉形态的唯一直接途径,被医学界称为“金标准”。然而,这是一项创伤性诊断,需要高水平的医疗条件,否则不慎操作会引起严重并发症甚至死亡,这限制了诊断技术的发展。因此,许多专家专注于研究国内外冠心病的有效和非创伤性诊断。经对Cleveland诊所基金会提供的冠心病病例分析后,刘铭得出了反映冠心病特征的14个参数,采用BP算法,通过使用L-M算法的迭代对BP算法进行改进和开发,提高了网络收敛速度,在改进的BP算法的基础上,建立了智能诊断的仿真模型。随着该方法的应用,诊断率可达99.3%。

       

    针对疾病的智能诊断,数据挖掘具有4个应用角度:在医院信息系统中的应用、在疾病辅助诊断中的应用、在药物开发中的应用、在遗传学方面的应用。

       

    地质灾害的风险评估

     

    地质灾害研究具有悠久的历史,地质灾害风险评估是一个新兴的研究领域。近年来,在某些领域已经开发出更准确的预测和分析的方法,这些领域涉及到坍塌、地震、山体滑坡和泥石流等地质灾害。

       

    刘铭提出了一种新颖的智能计算方法,将数据挖掘技术与地质灾害风险实际问题融合在一起,这种混合计算方法促进了对地质灾害风险的准确评估。混合智能算法包括粒子群优化、遗传算法和反向传播神经网络。反向传播神经网络和粒子群算法优化了网络连接权重,阈值的初始化采用遗传算法,同时,在迭代过程中更新连接权重和阈值。这项地质灾害预测研究是在吉林灾害监测数据的基础上,模拟中国东北地区,通过混合智能算法获得的准确度远高于BP神经网络方法带来的准确度。随着地质灾害风险评估在国际风险评估机构中得到肯定,混合方式得到更广泛的应用,如混合智能算法将促进更有效的应急响应、环境管理、土地利用和开发规划。

       

    污水的成因分析

     

    在大数据时代的背景下,当研究水环境和污水处理时,生物膜的组成和活性是两个非常重要的参数。而处理污水问题时,面对的数据海量,单一的传统数学方法解决效果不够理想,引入数据挖掘技术进行分析,问题优化的结果将会更令人满意。

       

    研究水环境的重点在于对污水处理、运行和控制方面的实际需要,通过数据挖掘技术可以准确找到生物膜的表征和活性,并进行估计,进而对于参数不足以描述生物膜活性的问题得以解决。

       

    在给定的限度内,随着生物膜的厚度增加,生物膜的活性也随之增强。测量或估计生物膜厚度和活性的方法是评估生物膜废水处理效率的重要因素,然而目前用于预测生物膜厚度和空间分布适应性的工具较差。对此林山松等基于碳-氮-磷浓度的空间分布生物膜厚度和活性,提出了支持向量回归模型,用以预测反应器中的生物膜的厚度和活力。

       

    采用共聚焦激光扫描显微镜方法对12个样点的4个随机位置上形成的成熟生物膜的厚度进行估算,并将其平均值作为每个载体的最终厚度。图3为共聚焦激光扫描显微镜的微图,展示了在运行100天后载体上的典型生物膜的厚度,其中Z 轴上的数字(30.6 μm)是由激光共聚焦显微镜测量的生物膜厚度。得到的数据作为观测值来估计反应器中未被采样点的生物膜厚度,这些未被采样的点的生物膜厚度通过使用Kriging插值得到。

       

     

    图3 用于检测生物膜厚度的激光共聚焦显微镜显微照片的例子

     

    基于实际值的Kriging插法和距离反应器底部垂直35 cm处的生物膜厚度和生物膜活性的支持向量回归模型预测值进行了比较。图4比较了使用支持向量回归模型的生物膜厚度和生物膜的活性的实际值和预测值。结果表明较高的系数R2=(0.996,0.997),并且通过支持向量回归基于碳-氮-磷值在碎石球状骨料反应器中预测生物膜厚度和生物膜活性的高度可行性,同时根据实际值验证Kriging插值的准确性。

       

    图4  生物膜厚度(a)和生物膜活性(b)实际值与预测值

     

     

    利用Kriging插值法分析组合共聚焦激光扫描显微镜和流式细胞术显示,生物膜厚度从22 μm到31 μm,生物膜活性在反应器的流动方向上从80%降至30%。同时,证实了化学需氧量,总氮量和总磷酸盐去除特征与生物膜厚度和生物膜活性的水分分布之间存在明显的相关性。

       

    教育大数据的挖掘

     

    教育是国家发展的根本,在大数据时代,教育大数据的挖掘是教育数据价值的体现。根据教育部的数据显示,截至2013年,中国高校贫困学生数目已经高达500余万,中国高校的贫困学生比例已经高达20%,其中,特困学生的比例已经超过了总在校人数的5%。全国各个高校都对贫困学生都有各种资助政策,尽量不让每个学生因为贫困而放弃学业。传统的资助形式都是大学生进行申请,并递交相关贫困证明材料,但部分学生因为较强的自尊心,不想让同学发现自己的特殊性而放弃申请,从而导致贫困助学金并不能准确地发放到每个贫困学生的手中。2015年3月2日,南京理工大学的“暖心饭卡工程”受到来自各界的关注。南京理工大学教育发展基金会工作人员对学生在日常生活中的数据进行了调查和数据的采集,该项调查涉及的共有16000余名南京理工大学当前在校学习的本科生,采集的数据为在2014年9月中旬至11月中旬期间学生的饭卡刷卡记录,将每个月平均在食堂消费60次以上,消费总额不足420元的学生确立为补助对象,不需要学生申报,直接将补助打入学生的饭卡。这次针对学生生活行为的数据挖掘,不仅在教育大数据的基础上实现了“精准扶贫”,而且对学生真正做到了“人文关怀”,体现出了数据的价值性。

       

    国内图书情报的研究

     

    目前,数据挖掘技术在图书情报领域的研究可分为6个方面:数字图书馆及个性化服务;WEB和信息服务;信息资源及参考咨询;图书馆及信息检索;高校图书馆及图书馆采购;情报学领域等。

       

    大数据时代下,数据挖掘技术在中国图书情报领域中,基于中国知网数据库中图书情报领域的相关研究论文,郭婷等分别利用了共词分析法和文献分析法对文献的增长规律和期刊的分布情况进行分析,在中国图书情报领域中,对数据挖掘的研究现状进行研讨,进一步强调了数据挖掘技术在图书情报领域研究的热点和重点。而且中国知网等在线图书机构采用数据挖掘技术研发的“学术不端文献检测系统”有效地避免了学术舞弊行为,保证了中国科研工作的正常发展。

       

     

    大数据时代下数据挖掘的发展趋势

     

    无论是研究领域,还是商业应用,数据挖掘都是热点问题,得到越来越多的人们关注,人们逐渐了解、学习并加以运用,相关领域日益成熟。在利用数据挖掘技术处理和解决实际问题时,王光宏等提出了3个值得注意的角度:用数据挖掘技术解决问题的类型、解决数据挖掘的数据准备工作及数据挖掘的理论基础。在大数据时代下,数据挖掘的发展趋势将会围绕数据价值的挖掘体现在以下5个层面。

       

    多媒体数据挖掘

       

    大数据时代下,视频、音频、图像等都属于多媒体的范畴,随着时代的发展,海量的数据结构变得复杂化和动态化,而通过单独的传统数学方法去管理现实生活中的问题,得到的效果往往不能满足人们的期待。无人机和无人车的实际应用、公安天网工程的展开、智慧医疗项目的全面发展都会要求对多媒体数据进行快速处理,为了得到更理想的效果,得到的效果变得最优化,需要开发和设计数据挖掘的新智能算法。

       

    金融领域潜在数据的挖掘

       

    在信用卡业务中,违约预测的数据挖掘具有预言性、有效性、实用性的优势。在信用卡交易的过程中,数据挖掘的应用类型也比较多,如在信用卡异常行为检测、高端信用客户的维护和信用卡风险控制等方面,均可以展开深入研究。

       

    数据挖掘算法的改进和可视化

       

    当采用数据挖掘的算法分析和处理海量数据时,算法的改进主要取决于算法的精度和速度,即算法的准确度和效率。如今,学术研究主要集中在精度和效率之间设定适当的临界值和对数据挖掘的结果进行可视化两个方面。针对数据挖掘算法中的新贵——RNN、CNN、DNN、Capsule等一系列深度学习算法的研究,将成为引领大数据研究方法的风向标。

       

    数据挖掘和隐私保护

       

    在解决实际问题时,难免会涉及隐私的数据,例如在研究信用卡和用户之间的关系时,数据中难免会有用户的个人信息;在研究宫颈癌(危险因素)与人的年龄、怀孕次数、性伴侣数等关系时,会有部分隐私信息不便透漏外界。在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏处理,将成为人们研究数据挖掘的另一个重要方面。

       

    数据挖掘技术与其他系统的集成

       

    数据挖掘是一个完整的过程,而不是单纯的某一个算法或者其中的几个算法简单混合就可以的。将数据挖掘应用到实战演练的过程中,还是需要将数据挖掘与其他领域和系统有条理地集成,而不能理解成单独的一个算法就足以解决一个问题,进而最大化地体现了数据挖掘的优势。

       

     

    结 论

     

    在大数据时代下,当运用传统的数学方法遇到困难时,熟练地应用数据挖掘技术显得格外重要。本文通过对国内外的研究现状进行剖析,分析了数据挖掘技术的主要方法,介绍了数据挖掘技术的应用领域,总结了在大数据时代下数据挖掘技术未来的发展趋势。

       

    无论是在金融、医疗方面,还是在电信、教育等社会各个领域,每一时刻都会产生海量数据,由于社会存在过多的不确定性因素,导致处理的数据类型越来越繁杂,即便是采用计算机辅助,对于传统的处理方法、解决实际问题依然能力局限,但是通过数据挖掘技术,解决大数据问题,则开辟了另一个途径。未来的时代是“数据为王”,数据挖掘技术会面对更加严峻的挑战,利用数据挖掘的相关算法,处理实际问题和分析数据的能力将会更加显著。

     

    基金项目:国家自然科学基金项目(61503150)

       

    参考文献(略)  

     

     

     

    本文作者:刘铭,吕丹,安永灿

     

    作者简介:刘铭,长春工业大学数学与统计学院,副教授,研究方向为智能计算与数据挖掘。

     

    本文发表于《科技导报》2018 年第9 期,敬请关注。

     

    (责任编辑  刘志远)

    展开全文
  • 什么是大数据挖掘技术

    万次阅读 2018-05-14 13:22:28
    在前几期的科普中,小编已经为大家介绍了大数据分析的相关情况,本期小编就为大家讲解大数据挖掘技术,让大家轻轻松松弄懂什么是大数据挖掘技术。什么是大数据挖掘?分享之前我还是要推荐下我自己创建的大数据学习...

    大数据如果想要产生价值,对它的处理过程无疑是非常重要的,其中大数据分析和大数据挖掘就是最重要的两部分。在前几期的科普中,小编已经为大家介绍了大数据分析的相关情况,本期小编就为大家讲解大数据挖掘技术,让大家轻轻松松弄懂什么是大数据挖掘技术。

    什么是大数据挖掘?

    分享之前我还是要推荐下我自己创建的大数据学习交流Qun531629188

    无论是大牛还是想转行想学习的大学生

    小编我都挺欢迎,今天的已经资讯上传到群文件,不定期分享干货,

    包括我自己整理的一份最新的适合2018年学习的大数据教程,欢迎初学和进阶中的小伙伴。

    数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    数据挖掘对象

    根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

    数据挖掘流程

    定义问题:清晰地定义出业务问题,确定数据挖掘的目的。

    数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理–进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。

    数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。

    分享之前推荐一个大数据学习交流群:722680258未来将是大数据时代,需要学习大数据的抓紧时间学习,群内不定期分享视频资料,欢迎加入

    结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

    数据挖掘分类

    直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

    间接数据挖掘:目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

    数据挖掘的方法

    神经网络方法

    神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。

    遗传算法

    遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。

    决策树方法

    决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

    粗集方法

    粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。

    覆盖正例排斥反例方法

    它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。

    统计分析方法

    在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。

    模糊集方法

    即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

    数据挖掘任务

    关联分析

    两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

    聚类分析

    聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

    分类

    分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

    预测

    预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

    时序模式

    时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

    偏差分析

    在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

    展开全文
  • 计算机数据挖掘技术的应用 1数据挖掘技术的概述 数据挖掘技术又被称为数据开采技术它的作用不仅在于数据挖掘而且能够对数据进行分析和整理并最终汇聚成统计数据其中最重要的就是数据分析技术数据挖掘技术与以往的...
  • 第三篇(实践篇)主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、数据挖掘在股票程序化交易中的综合应用,以及基于数据挖掘技术的量化交易系统的构建。
  • 数据挖掘技术在医保中的研究 [摘要]该文从数据挖掘技术的概念数据挖掘技术在医保管理平台中的应用以及其在医疗保险费用控制中的作用3个方面分析以期能够为促进医保业务的良性发展献策献力 [关键词]医疗保险数据挖掘...
  • 数据挖掘技术 知识点整理

    千次阅读 多人点赞 2019-12-31 16:35:01
    数据的粒度是指数据仓库的数据单元中所保存数据的综合程度 数据的综合程度越高,其粒度越粗 数据仓库存储的数据粒度越细,则占用的存储空间越大,但提供的更细节的查询 Q3. 知识发现概念 定义:知识发现(KDD)...

    ch01 绪论

    课内重点

    Q1. 数据仓库的四个特征
    • 面向主题
    • 集成的
    • 不可修改
    • 随时间变化
    Q2. 数据仓库数据的粒度与组织
    • 数据的粒度是指数据仓库的数据单元中所保存数据的综合程度
    • 数据的综合程度越高,其粒度越粗
    • 数据仓库存储的数据粒度越细,则占用的存储空间越大,但提供的更细节的查询
    Q3. 知识发现概念
    • 定义:知识发现(KDD)就是采用有效算法从大量的、不完全的、有噪声的、模糊和随机的数据中识别出有效的、新颖的、潜在有用乃至最终可理解的模式(Pattern)的非平凡过程
    • 过程:
      • 数据采集
      • 数据预处理
      • 数据挖掘
      • 知识评价
      • 知识应用
    • 知识发现过程中一个特定关键的步骤:数据挖掘
    Q4. 数据挖掘的数据来源
    • 数据库
      • 传统数据库(DB)
      • 数据仓库(DW)
      • 空间数据库(Spatial Database)
      • 时态数据库和时间序列数据库(Temporal Database and Time-Series Database)
      • 多媒体数据库(Multimedia Database)
      • 文本数据库(Text Database)
    • 非数据库
      • 数据流(Data Stream)
      • Web数据
    Q5. 数据挖掘的步骤
    • 问题定义
    • 数据准备
      • 数据抽取
      • 数据预处理
      • 数据存储
    • 挖掘实施
    • 评估解释
    • 知识应用
      在这里插入图片描述
    Q6. 数据仓库与数据挖掘的区别

    在这里插入图片描述

    • 结论:数据仓库不是为数据挖掘而生的,反过来数据挖掘也不是为数据仓库而活。它们是支持决策的两个相对独立的知识体系
    Q7. 数据仓库与数据挖掘的联系

    一个中心(决策支持),两个基本点(DW,DM)

    • DW为DM提供了更好的、更广泛的数据源
    • DW为DM提供了新的数据支持平台
    • DW为DM提供了方便
    • DM为DW提供了更好的决策支持工具
    • DM为DW的数据组织提出了更高的要求
    • DM为DW提供了广泛的技术支持

    课后练习题

    4. 简述数据仓库的定义

    答: 数据仓库是一个面向主题的集成的不可修改的随时间变化的,支持管理决策的数据集合

    5. 简述数据库与数据仓库的关系

    答:数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成的

    相关:
    数据库与数据仓库的区别:

    • 数据库是面向事务设计的,数据仓库是面向主题设计的
    • 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据
    • 数据库是为捕获数据而设计,数据仓库是为分析数据而设计
    • 事务系统是实时的,而分析系统是事后
    6. 简述数据仓库特征

    答:

    • 面向主题
    • 集成的
    • 不可修改
    • 随时间变化
    11. 简述数据挖掘的主要步骤

    答:

    • 问题定义
    • 数据准备
    • 挖掘实施
    • 评估解释
    • 知识应用

    ch02 数据仓库原理

    课内重点

    Q1. 多数据源的问题
    • 数据不一致:数据之间的矛盾性和不相容性。如职务升迁了,但工资数据却没有改变
    • 属性差异:性别属性有的取“男”/“女”,长度为2;有的取“1”/“0”,长度为1
    • 数据重复:数据源中存在两条或多条完全相同的记录,或者同一个数据冗余地存在于多个数据源中
    • 数据不完整:某些属性的值可能是缺失的,甚至是错误的数据
    • 数据噪声:测量数据时遇到的随机或其它不确定因素,导致被测量的数据产生了偏差或错误
    • 高维数据:为较全面的描述实体,原始数据通常都使用了较多属性
    • 模式不统一:将集成为单一数据集的多个数据源的模式不同。如“常住人口数据”和“暂住人口数据”两张表,前者有128个属性,后者也有98个属性
    • 数据不平衡:数据集中某一类样本的数量明显少于其他类型样本的数量
    Q2. 数据预处理
    • 定义:在多数据源集成为统一数据集之前进行的数据清洗数据变换数据规约等数据处理过程
    • 目的:清除多数据源集成存在的问题,为数据仓库或数据挖掘提供一个完整、干净、准确、且有针对性的数据集合
    Q3. 数据清洗

    定义:发现并纠正数据源,即原始数据中存在的问题或错误的过程,包括检查数据一致性处理无效值填补缺失值、以及过滤掉那些不符合要求的数据

    • 属性的处理:
      • 重命名属性
      • 统一属性
      • 处理主键属性
      • 派生新属性
      • 选择相关属性
    • 空值的处理:
      • 人工填补
      • 忽略记录
      • 忽略属性
      • 使用默认值
      • 使用平均值
      • 使用预测值
    • 数据噪声处理
      • 等深分箱法
      • 等宽分箱法
      • 用户自定义区间
        • 按平均值平滑
        • 按边界值平滑
        • 按中值平滑
    • 不平衡数据处理
      • 过抽样
      • 欠抽样
    Q4. 等深分箱法

    计算思路:
    把数据集中的数据按照排列顺序分配到k个箱子中(k=1,2,…,k)

    • 当k 整除 n时,令p=n/k,则每个箱子都有p个数据,即
      第1个箱子的数据为:a1,a2,…,ap
      第2个箱子的数据为:ap+1,ap+2,…,a2p
      ……
      第k个箱子的数据为:an-p+1,an-p+2,…,an
    • 当k 不能整除 n时,令p=n/k [向下取整],q=n-k*p,则可让前面q个箱子有p+1个数据,后面k-q个箱子有p个数据,即
      第1个箱子的数据为:a1,a2,…,ap+1
      第2个箱子的数据为:ap+2,ap+3,…,a2p+2;;
      ……
      第k个箱子的数据为:an-p+1,an-p+2,…,an
      也可让前面k-q个箱放p个数,后面q个箱放p+1个数据

    例题:
    设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据,请用等深分箱法将其分成k=4个箱子
    在这里插入图片描述

    Q5. 等宽分箱法

    计算思路:
    把数据集最小值最大值形成的区间分为k个左闭右开的子区间(最后一个除外)I1,I2,…,Ik。如果ai 属于 Ij就把数据ai放入第j个箱子

    例题:
    设A={1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9,11}共14个数据,请用等深分箱法将其分成k=4个箱子
    在这里插入图片描述

    Q6. 数据变换
    • 数据聚集:对数据按照管理或挖掘需要进行汇总
    • 数据概化:用较高层次的数据代替较低维度层次的数据
    • 数据规范化:将原始数据按照一定的比例缩放,使之落入一个特定的区间
      • 最小—最大规范化
        在这里插入图片描述
      • 零—均值规范化
        在这里插入图片描述
      • 小数定标规范化
        在这里插入图片描述
    Q7. 数据规约

    定义:用精简数据表示原始数据的方法,且归约后数据量通常比原始数据小很多,但具有接近甚至等价于原始数据表达的信息

    • 维归约:减少描述问题的随机变量个数
    • 属性归约:减少描述问题的数据集的属性个数
    • 数量归约:用较少的数据表示形式替换原始数据
    • 数据压缩:使用变换方法得到原数据的归约或“压缩”表示,图像压缩技术就是一种典型的数据压缩方法
    Q8. 数据仓库的概念模型
    • 定义:对现实管理决策中各个主题及其特征的数据抽象表示
    • 特点:
      • 能够比较真实地模拟或抽象表示用户的决策主题
      • 表示方法简单直观且易于用户理解
      • 与计算机系统支持的具体数据模型无关
      • 易于向数据仓库的逻辑数据模型转换
    Q9. 星型模型
    • 特点
      • 星型模型由一个事实表和多个维度表的连接表示多维数据模型,矩形:事实表,凹圆角矩形表示维度表,并用直线表示其间的主键-外键联系
        在这里插入图片描述
      • 星型模型是多维数据模型在关系数据库中的组织和存储结构描述,即它是多维数据模型的关系模型表示方法。因此,星型模型是多维数据模型的一种逻辑模型
    • 优势
      • 星型模型围绕一个确定的主题,体现了数据仓库对数据结构和组织的要求
      • 星型模型表达直观,易于理解且设计相对容易
      • 星型模型维度表包含了用户经常查询和分析的属性,优化了对数据库的浏览,在维度表和事实表之间没有任何“迷宫”,使查询的过程变得简单而直接
      • 星型模型为OLAP提供了良好的工作条件,使OLAP能通过星形连接和星形索引,显著提高查询性能
      • 设计相对较为简单
    • 不足
      • 维度表通常是非规范化的,造成很大的数据冗余
      • 由于星型模型中各个维度表主键的组合构成事实表的主键,导致维度的变化非常复杂、费时
      • 维度属性的复杂形成的大维度问题
      • 处理维的层次关系比较困难
      • 无法表达“多对多”的联系
    Q10. 雪花模型

    概念

    • 雪花模型是星形模型按照关系数据库规范化理论对维度表进行分解的结果
    • 目的:消除数据冗余,同时增加更多对事实进行细节描述的信息,提高查询分析的灵活性
    • 其查询效率通常比星型模型表示的多维数据集要低一些

    优势:

    • 减少了一定数据冗余量,节约了许多存储空间
    • 处理复杂维度和更新维度更加容易
    • 表示“多对多”的联系方便
    • 查询分析更具灵活性

    不足:

    • 事实表与维度表、详细类别表联系比较复杂,用户不易理解
    • 浏览查询多维数据内容相对困难
    • 额外的详细类别连接操作导致查询性能下降
    Q11. 位图索引模型
    • 重要实用:在数据仓库的存储结构中,位图索引是一项非常重要且实用的索引模型
    • 索引条件:对于那种只取少量几个离散值的属性列(属性取值种类在1%以下)来说,位图索引就是用一个二进制串,替代基本表中某一列的取值
    • 索引效果:使我们在不触及数据记录的情况下,直接通过位图索引快速地获得查询结果

    课后练习题

    5.试述对一个数据集采用分箱技术包含的主要步骤
    • 对数据集的数据进行排序
    • 确定箱子个数k、选定数据分箱的方法并对数据集中数据进行分箱
    • 选定处理箱子数据的方法,并对其重新赋值
      • 常用分箱方法:等深分箱、等宽分箱、自定义区间、最小熵分箱法
    6. 设数据集A={1,1,3,3,4,5,5,5,6,7,7,7,9,10,12,15},请用等深分箱法将其分成k=4个箱子

    在这里插入图片描述

    7. 设数据集A={1,1,3,3,4,5,5,5,6,7,7,7,9,10,12,15},请用等宽分箱法将其分成k=4个箱子

    在这里插入图片描述

    16. 数据仓库有哪几种逻辑模型?
    • 多维模型
    • 星型模型
    • 雪花模型

    ch03 数据仓库的设计开发应用

    课内重点

    Q1. 数据仓库设计的特点及含义

    “数据驱动”的设计

    • 数据仓库是从已有数据出发的设计方法,即从数据源抽取数据,经转换形成面向主题,支持决策的数据集合
    • 以全面了解并利用现有数据为出发点

    “分析驱动”的设计

    • 从决策分析需求出发的设计
    • 从已有数据源出发,按照决策分析主题对数据源中数据及其之前的联系重新考察,并重新组织形成数据仓库分析需要的主题数据

    “需求模糊”的设计

    • 数据仓库设计的数据分析处理需求更加灵活,也没有固定的模式,有时用户自己对所要进行的分析处理也不能事先确定
    • 数据仓库的分析需求在设计初期往往是模糊或不明确的,通常只有在数据仓库设计过程中,或后来数据仓库的决策支持过程中逐渐明确

    “螺旋周期”的设计

    • 数据仓库系统的开发是一个动态反馈启发式的循环过程,也称为螺旋上升的周期性开发过程,即“螺旋周期”
    • 数据仓库的数据内容、结构、粒度、分割以及其他物理设计,需要根据用户使用数据仓库所反馈的意见和建议进行调整,以提高系统的效率和性能
    • 用户在使用数据仓库进行决策过程中,不断提出新的决策分析需求,增加新的主题,使数据仓库进入新一轮的设计周期,数据仓库进一步完善,为用户提供更准确、更有效的决策信息
    Q2. 数据仓库系统开发过程

    5个时期划分方式

    • 规划时期
    • 设计时期(需求分析、概念分析、逻辑设计、物理设计)
    • 实施时期
    • 开发时期
    • 应用时期

    在这里插入图片描述
    3个阶段划分方式

    • 规划设计阶段(规划时期、设计时期)
    • 实施开发阶段(实施时期、开发时期)
    • 使用维护阶段(应用时期)
    Q3. 了解虚拟数据仓库与数据集市
    • 虚拟数据仓库:决策支持功能直接在事务处理数据库上实现
    • 单纯数据仓库:从数据源中抽取、转换和加载到一个统一的数据仓库之中,各部门的查询和分析功能都从这个统一的数据仓库中进行
    • 单纯数据集市:一个部门使用的数据仓库,因为企业中的每个职能部门都有自己的特殊管理决策需要,而统一的数据仓库可能无法同时满足这些部门的特殊要求
    • 完整数据仓库:数据仓库从企业各种数据源抽取数据,部门数据集市从企业数据仓库中获取数据
    Q4. ETL

    数据抽取、转换和装载(Extraction-Loading-Transformation,ETL)


    课后练习题

    4. 数据仓库系统开发需要经历哪几个时期?

    若划分为5个时期

    • 规划时期:项目规划
    • 设计时期:需求分析、概念设计、逻辑设计、物理设计
    • 实施时期:DW创建,ETL
    • 开发时期:应用开发
    • 应用时期:决策支持、维护评价

    若划分为3个时期

    • 规划设计阶段(规划时期、设计时期)
    • 实施开发阶段(实施时期、开发时期)
    • 使用维护阶段(应用时期)
    5. 简述数据仓库设计时期的主要工作内容
    • 决策需求调查、数据仓库环境分析,数据仓库开发需求确定
    • 各种模型的建立,包括多维数据模型、星型模型、雪花模型和物理模型等,特别是数据源的属性列与数据仓库目标列的映射关系等,并根据选择的数据仓库管理系统,完成相应的物理设计

    ch04 警务数据仓库的实现

    课内重点

    Q1. SSIS包后缀是什么

    .dtsx

    ch05 联机分析处理(OLAP)技术

    课内重点

    Q1. OLAP的12条准则
    • 多维概念的视图(multidimensional conceptual view)
      从用户的角度来看,整个企业的数据视图本质是多维的(时间,地点,品种),因此OLAP的概念模型也应该是多维的
    • 透明性(transparency)
      • 用户不必关心表格或图显的数据的来源,只用OLAP工具查询数据
      • OLAP系统应该是开放系统架构的一个部分,当按用户需要将OLAP系统嵌入到架构的任何地方都不影响 OLAP分析工具的性能
    • 存取能力 (accessibility)
      • OLAP系统应该有能力利用自有的逻辑结构访问异构数据源,并且进行必要的转换以提供给用户一个连贯的展示
      • 还能提供高效的存取策略
    • 稳定的报表性能(consistent reporting performance)
      当数据的维度和数据综合层次增加时,OLAP系统为最终用户提供报表的能力和相应速度不应该有明显的降低和减慢
    • 客户/服务器体系结构(client/server architecture)
      OLAP系统应该是一种客户/服务器(C/S)应用结构,并有足够的智能保证多维数据服务器能被不同的客户应用工具以最小的代价访问
    • 维的等同性(generic dimensionality)
      每个数据维度应该具有等同的层次结构和操作能力,比如对每个维度都可以进行“切片”、“切块”和“旋转”等相同的操作
    • 动态的稀疏矩阵处理能力(dynamic sparse matrix handling)
      • 多维数据集的稀疏特性,即大多数单元格的值都是零
      • 若存储所有这些零值数据就会占用大量的存储空间
      • OLAP系统应该为这种具有稀疏性的多维数据集的存储和查询分析提供一种“最优”处理能力,既尽量减少零值单元格的存储空间,又保证动态查询分析的快速、高效
    • 多用户支持能力(multi-user support)
      OLAP应提供并发获取和更新访问,保证完整性和安全性的能力
    • 非受限的跨维操作(unrestricted cross-dimensional operations)
      多维数据之间存在固有的层次关系,这就要求OLAP工具能自己推导出而不是最终用户明确定义出相关的计算
    • 直观的数据操作(intuitive data manipulation)
      OLAP工具应为数据的分析操纵提供直观易懂操作界面,比如“下钻”、“上卷”、“切片”等多维数据分析方法都可以通过直观、方便的点击操作完成
    • 灵活的报表生成(flexible reporting)
      OLAP提供的报表功能应该以用户需要的任何方式展现信息,以充分反映数据分析模型的多维特征
    • 非受限维与聚集层次(unlimited dimensions and aggregation levels)
      • OLAP工具不应该为多维数据的维度数量和维度层次数量设置任何限制
      • 说明:这个要求对系统要求有点高,可以适当降低要求。因为在实际应用中,多维数据集的维度数量很少超过15个,维度层次也通常在6个以内

    说明
    联机分析处理(On-Line Analysis Processing,OLAP):针对特定问题的联机多维数据快速访问和分析处理的软件技术、能帮助决策者对数据进行深入的多角度观察

    Q2. OLAP的简要准则

    联机分析处理(OLAP)就是共享多维信息的快速分析,即FASMI(Fast Analysis of Shared Multidimensional Information)

    • 快速性(Fast)
      • 用户对OLAP系统的快速反应能力有很高的要求,希望系统能在5秒内对用户的大部分分析要求做出反应
      • 快速性需求必须在线响应才能完成,故又称为在线性
      • 快速性还需要一些专门的技术支持,如专门的数据存储结构、大量数据的预先计算、还有硬件特别设计等
    • 分析性(Analysis)
      • OLAP系统应能处理与应用有关的任何逻辑分析和统计分析
      • 例如,连续时间序列分析、成本分析、意外报警等
      • 此外,还应使用户无须编程就可以定义新的计算,并作为查询分析的一部分,以用户理想的方式给出报告
    • 共享性(Shared)
      • OLAP系统必须提供并发访问控制机制,让多个用户共享同一OLAP数据集的查询分析,并保证数据完整性和安全性
    • 多维性(Multidimensional)
      • OLAP系统必须提供对数据分析的多维视图,包括对层次维多重层次维的完全支持
      • 事实上,多维分析是分析企业数据最有效的方法,是OLAP系统的灵魂和关键特性
    • 信息性(Information)
      • 无论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且能管理大容器信息

    关键特征:快速性和多维性

    Q3. OLAP的多维分析操作
    • 切片(slice)
    • 切块(dice)
    • 下钻(drill-down)
    • 上卷(roll-up)
    • 旋转(pivot)
    Q4. 切片
    • 在n(>=3)维数据集的某一维上,指定一个维成员的选择操作
    • 若对一个n维数据集进行切片操作,则将得到一个n-1维的数据集
    • 多维数据集的维度越高,人们对其理解就越困难
    • 切片操作是对多维数据集进行降维处理,方便用户理解多维数据蕴藏的决策信息
    • 从n(>=2)维数据集中选择一个2维子集的操作称为局部切片操作
    • 对任意n(>=2)维数据集,其局部切片操作结果永远是2维数据集
    Q5. 切块
    • 在n(>=3)维数据集的某一维上指定若干维成员的选择操作
    • 对于n(>=3)维数据集,如果某一维上指定的维度成员数大于等于2,则切块操作的结果仍然是一个n维数据集(仅当指定一个维度成员时,其切块操作的结果是一个切片)
    Q6. 旋转
    • 在多维数据集展示的时候,对其改变维的显示方向的操作
    • 多维数据集的旋转结果仍然是原先的多维数据集,它仅仅改变了数据集展示的方位,方便用户观察数据
    Q7. 钻取
    • 多维数据集的钻取就是改变数据所属的维度层次,变换数据分析的粒度,它是下钻和上卷这两个相反操作的统称
    • 目的:方便用户从不同维度的不同层次观察多维数据

    上卷

    • 对多维数据选定的维度成员,按照其上层次维度对数据进行求和计算并展示的操作
    • 它是在某一维度上,将低层次的细节数据概括为高层次的汇总数据,以增大数据的粒度,并减少了数据单元格个数或数据的维度

    下钻

    • 对多维数据选定的维度成员,按照其下层次维度对数据进行分解的操作
    • 它从由当前的汇总数据深入到其下一层次的细节数据,以便用户观察到更为细粒度的数据
    Q8. OLAP、DW与DM的联系
    • OLAP(联机分析处理)、DW(数据仓库)与DM(数据挖掘)是相互独立而又相互联系的3个概念
    • 相互独立:它们在不同的时间,由不同的学者或组织分别提出,因此它们在基本内涵,解决的主要问题和使用的基本技术上都有很大的区别
    • 相互联系:它们都是为了支持企业的管理决策这一中心任务,即共同目标而提出的。因此,我们可以用“一个中心,三个基本点”来形容DW、OLAP、DM之间关系
      在这里插入图片描述
    Q9. OLAP、DW与DM的区别

    在这里插入图片描述

    课后练习题

    4. 写出FASMI的英文短语,并简述其含义
    • fast:快速性,指用户对OLAP系统的快速反应能力要求很高
    • analysis:分析性,指OLAP系统应能处理与应用有关的任何逻辑分析和统计分析
    • shared:共享性,指OLAP系统必须提供并发访问控制机制,让多个用户共享同一OLAP数据集的查询分析,并保证数据完整性和安全性
    • multidimensional:多维性,指OLAP系统必须提供对数据分析的多维视图
    • information:信息性,指OLAP系统应能及时获得信息,并且能管理大容量信息
    5. 在OLAP的5个特征FASMI中,哪两个是OLAP的关键特性?
    • 快速性
    • 多维性
    6. 多维数据分析有哪几种基本分析操作?
    • 切片
    • 切块
    • 下钻
    • 上卷
    • 旋转
    7. 简述多维数据集“切片”(slice)操作的含义,并举例说明切片操作的结果
    • 含义:在数据集的某一维上,指定一个维成员的选择操作
    • 举例:若对一个3维数据集进行切片,会得到一个2维的数据集
    8. 简述多维数据集“下钻”(drill down)操作的含义,并举例说明下钻操作的结果
    • 含义:对多维数据选定的维度成员,按照其下层次维度对数据进行分解的操作
    • 举例:“1季度”这个数据集,将其下钻到下层次“月”,则得到“1月”、“2月”、“3月”
    9. 简述多维数据集“上卷”(roll up)操作的含义,并举例说明上卷操作的结果
    • 含义:对多维数据选定的维成员,按照其上层次维度对数据进行求和计算并展示的操作
    • 举例:将时间维“1月”、“2月”、“3月”上卷恰好为“季度”的层次,即“1季度”
    10. 简述多维数据集“切块”(dice)操作的含义,并举例说明切块操作的结果
    • 含义:在数据集的某一维上指定若干维成员的选择操作
    • 举例:对于一个3维数据集进行切片,还是得到3维的数据集

    ch07 数据的属性与相似性

    课内重点

    Q1. 数据集的结构
    • 二维表
      在这里插入图片描述
    • 数据矩阵
      在这里插入图片描述
    Q2. 属性的类型
    • 连续属性:通常在一个实数区间内取值,因此其取值个数理论上是无穷个
    • 离散属性:该属性可以取有限或可数无限个不同的值
    • 分类属性:
      • 特殊的离散属性,即离散属性的一个细分类别
      • 取值是一些符号或事物的名称,每个值代表某种类别、编码或状态,并且这些值之间不存在大小或顺序关系
      • 例如:单身、已婚、离异、丧偶
    • 二元属性
      • 分类属性的一种特殊情况
      • 这种属性只取两种可能的值或只能处于两个状态之一
      • 例如:1或0,布尔属性
    • 序数属性
      • 离散属性的一种
      • 它所有可能的取值之间可以进行排序,虽然任意两个相距值之间的差值是未知的
      • 例如:其他<学士<硕士<博士
    • 数值属性
      • 一种定量属性,也看作是一种连续属性
      • 它的取值是可以度量的,一般用整数或实数值表示
      • 数值属性可以是区间标度或比率标度属性
        • 区间标度属性:用相等的单位尺度度量。区间属性的值是有序的,可正、0、负
        • 比率标度属性:具有固有零点的数值属性,它弥补了区间标度无固定0点的不足,故可有一个值是另一个的倍数(或比率)
    Q3. 相似度与相异度

    相似度
    在这里插入图片描述

    • 非负有界性:0<=s(Xi,Xj)<=1,当Xi=Xj时,s(Xi,Xj)=1
    • 对称性

    相异度
    在这里插入图片描述

    关系: 当d(X,Y) != 0时,s(X,Y) = 1/d(X,Y)

    Q4. 数值属性的距离

    明可夫斯基距离
    在这里插入图片描述
    当r取不同的值时,上述距离公式就特化为一些常用的距离公式

    • 若r=1,则得绝对值距离公式,就称曼哈坦距离
      在这里插入图片描述
    • 若r=2,则得欧几里得距离,也简称为欧氏距离
      在这里插入图片描述
    • 若r->∞,称切比雪夫距离
      在这里插入图片描述

    二次型距离
    设A是n阶非负定矩阵,则向量Xi与Xj的二次型距离定义为:
    在这里插入图片描述

    Q5. 分类属性的相似度

    简单匹配系数相似度(二元相似度)
    在这里插入图片描述
    Jaccard系数相似度(非对称的二元相似度)
    在这里插入图片描述
    Rao系数相似度(非对称的二元相似度)
    在这里插入图片描述


    例子:试计算smc(X1,X2),sjc(X1,X2)和src(X1,X2)
    在这里插入图片描述
    在这里插入图片描述

    Q6. 序数属性的相似度

    序数属性的值之间具有实际意义的顺序或排位,但相继值之间的差值是未知的,可用mk表示第k个属性的可能取值有状态

    计算方式:例子
    假设某校用考试成绩奖学金月消费 3个属性来描写学生在校的信息(下表)。其中第1个属性考试成绩取m1=5个状态,其 顺序排位为优秀>良好>中等>及格>不及格;第2个属性奖学金取m2=3个状态,其 顺序排位为甲等>乙等>丙等 ;第3个属性月消费取m3=3个状态,其顺序排位为高>中>低
    在这里插入图片描述

    序数属性的数据对象之间相异度计算的基本思想是将其转换为数值型属性,并用距离函数来计算,主要分为三个步骤:

    • 将第k个属性的域映射为一个整数的排位集合,即将每个数据对象Xi对应分量的取值xik用其对应排位数代替并仍记为xik
    • 将整数表示的数据对象Xi的每个分量映射到[0, 1]实数区间之上,其映射方法为 zik=(xik-1)/(mk-1)
    • 根据实际情况选择一种距离公式,计算任意两个数值型数据对象Xi和Xj的相异度

    答:
    考试成绩的域为 {优秀, 良好, 中等, 及格, 不及格} ,其整数排位集合为{5, 4, 3, 2, 1},同理可得下图
    在这里插入图片描述
    将其映射到0~1区间内
    在这里插入图片描述
    选用欧几里得距离函数计算任意两点之间的相异度
    在这里插入图片描述
    同理可得:d(X1,X3)=1.22, d(X2,X3)=0.56

    所以 从计算结果可知d(X2,X3)的值是最小的,即X2与X3的差异度最小

    Q7. 余弦相似度

    对数值型或属性值用数字表示的数据集中任意两个数据对象Xi=(xi1,xi2,…,xin)和Xj=(xj1,xj2,…,xjn),其余弦(cosine)相似度定义为:
    在这里插入图片描述

    • Xi*Xj表示两个向量的内积
    • ||Xi||表示向量Xi欧几里得范数,即Xi到坐标原点的距离,也就是向量Xi的长度

    当scos(Xi,Xj)=0,即向量Xi和Xj呈90°夹角,也就是说它们是相互垂直的,亦即它们是不相似
    当scos(Xi,Xj)=1,即向量Xi和Xj的方向是一致的,它们的方向是完全相似

    余弦相似度常常用来评价文档间的相似性。每一个文档通常用一个词频向量(term-frequency vector)来表示,每个属性为文档中可能出现的特定词或短语,属性取值为该词或短语在文档中出现的频度

    在这里插入图片描述

    Q8. 混合属性的相异度

    若数据集S={X1 ,X2, …Xm}的属性既有数值属性,又有离散属性时,称S为混合属性数据集
    处理方法:

    • 假设S有d个属性
    • 根据第k属性的类型,计算S关于第k属性的相异度矩阵D(k)(S) (k=1,2,…,d)
    • 将其集成为S的相异度矩阵D(S),公式如下:
      在这里插入图片描述
      • 相异度d(k)(Xi,Xj)的取值都在 [0, 1]内
      • 第k属性是分类或二元属性时,比较Xi和Xj在第k属性的取值
        • 如果xik=xjk,则d(k)(Xi,Xj)=0,否则d(k)(Xi,Xj)=1
      • 当第k属性是数值属性时,先求出S第k属性所有非缺失值的最大值maxk和最小值mink,则有
        在这里插入图片描述
      • 当第k属性是序数属性
        • 先将Xi的第k属性值转换为[0,1]区间的实数zik=(xik-1)/(mk-1),其mk是X第k属性排位数的最大值,xik是Xi的第k属性值对应的排位数
        • 用zik和zjk代替上述公式中的xik和xjk即可

    注意:
    在这里插入图片描述


    例题:设有下表所示的混合属性数据集S,试计算其相异度矩阵
    在这里插入图片描述
    从上表可知,数据集S除顾客id外,共有4个属性。下面分别计算S关于第1、第2、第3和第4属性的相异度矩阵

    第1属性“性别”是二元属性,其的相异度矩阵
    在这里插入图片描述
    第2属性“婚姻状况”是分类属性,其相异度矩阵
    在这里插入图片描述
    第3属性“当月消费额”是数值属性,其相异度矩阵
    在这里插入图片描述
    第4属性“学位”是序数属性

    • 首先转换成排位数
      在这里插入图片描述
    • 再将排位数转换为[0,1]区间的实数
      在这里插入图片描述
    • 得其相异度矩阵
      在这里插入图片描述

    最后
    在这里插入图片描述

    提醒:若有null值,则在计算相异度时 该项直接忽略即可

    课后练习题

    4. 设有5个分类属性,3个属性对象的数据集,试计算s(X1, X2)和s(X1, X3)和s(X2, X3)

    在这里插入图片描述
    注意:第一个s(X1, X2)=1/5,上图错写成2/5了

    5. 设某校用考试成绩、奖学金和月消费 3个属性来描写学生在校的信息(见表7-15)。其中第1个属性考试成绩取m1=5个状态,其 顺序排位为优秀>良好>中等>及格>不及格;第2个属性奖学金取m2=3个状态,其顺序排位为甲等>乙等>丙等;第3个属性月消费取m3=3个状态,其顺序排位为高>中>低,试按照序数属性相似度计算方法求s(X1, X2)和s(X1, X3)和s(X2, X3)

    在这里插入图片描述

    7. 设有混合属性数据集(见表7-16),试计算S的相异度矩阵

    在这里插入图片描述

    ch08 关联规则挖掘

    课内重点

    Q1. 关联规则挖掘的概念

    支持度
    在这里插入图片描述


    最小支持度
    在这里插入图片描述


    关联规则
    在这里插入图片描述


    关联规则X ⇒ \Rightarrow Y的支持度
    在这里插入图片描述


    频繁项集
    在这里插入图片描述


    最大频繁项集
    在这里插入图片描述


    置信度
    在这里插入图片描述


    最小置信度
    在这里插入图片描述


    强关联规则
    在这里插入图片描述

    Q2. 四个重要定理
    • 定理1(频繁项集性质1):如果X是频繁项集,则它的任何 非空子集X’ 也是频繁项集,即频繁项集的子集必是频繁项集
    • 定理2(频繁项集性质2):如果X是非频繁项集,那么它的所有超集都是非频繁项集,即非频繁项集的超集也是非频繁项集
    • 定理3(关联规则性质1)
      在这里插入图片描述
    • 定理4(关联规则性质2)
      在这里插入图片描述
    Q3. 关联规则的Apriori算法

    步骤:

    • 发现频繁项集
      根据用户给定的最小支持度MinS,寻找出所有的频繁项集,即满足支持度Support不低于MinS的所有项集。由于这些频繁项集之间有可能存在包含关系,因此,我们可以只关心所有的最大频繁项集,即那些不被其他频繁项集所包含的所有频繁项集
    • 生成关联规则
      根据用户给定的最小可信度MinC,在每个最大频繁项集中,寻找置信度Confidence不小于MinC的关联规则

    计算:发现频繁项集
    在这里插入图片描述

    计算:生成关联规则
    在这里插入图片描述

    Q4. FP-增长算法的背景

    Apriori算法存在两方面的不足

    • 产生大量的候选项集
      例如,当事务数据库有104个频繁1-项集时,Apriori算法就需要产生多达107个候选2-项集,即对存储空间要求会影响算法的执行效率
    • 多次重复地扫描事务数据库
      对每个k=1,2,3,…,m,为了计算候选k-项集的支持度,都需要扫描一次事务数据库,才能确定候选k-项集的支持度,其计算时间开销很大
    Q5. FP-增长算法的计算过程

    用FP-增长(Frequent-Pattern Growth,FP-Growth)算法来发现频繁项集。算法只需扫描事务数据库两次,其计算过程主要由以下两步构成:

    • 构造FP-树
    • 生成频繁项集

    举例说明:构造FP-树
    对下表所示的事务数据库T,假设最小支持数MinS=2,试构造它的FP-树
    在这里插入图片描述

    冒号后面的数字代表有多少个事务含有该商品,例如 a:8,代表有8个事务中含有商品a
    在这里插入图片描述
    注意:上图仅仅是了解如何构造fp树,对于该题并没有做完,还需要进行剪枝(即满足最小支持数为2)

    Q6. 提升度
    • 提升度(lift) 是一种简单的相关性度量
    • 对于项集A和B,如果概率P(A ⋃ \bigcup B) = P(A)P(B),则A和B是相互独立的,否则它们就存在某种依赖关系
    • Lift(A,B)=P(A ⋃ \bigcup B)/(P(A)) × \times ×P(B))=(P(A ⋃ \bigcup B)/P(A))/P(B)
    • Lift(A,B)=Confidence(A ⇒ \Rightarrow B)/Support(B)
    • 如果Lift(A,B)的值大于1表示二者存在正相关,而小于1表示二者存在负相关。若其值等于1,则表示二者没有任何关系

    课后练习题

    8. 设有交易数据库如表8-17所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集 + 9. 对如表8-17所示的交易数据库,令MinC=0.6,试在习题8所得频繁项集的基础上,求出所有的强关联规则

    在这里插入图片描述

    10. 设有交易数据库如表8-18所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集 + 11. 对如表8-18所示的交易数据库,令MinC=0.6,试在习题10所得频繁项集的基础上,求出所有的强关联规则

    在这里插入图片描述

    ch09 分类规则挖掘

    课内重点

    Q1. 数据分类的目的

    从历史数据记录中自动地推导出已知数据的趋势,使其能够对未来的新数据进行预测

    Q2. 分类规则挖掘
    • 通过对由分类标号的训练集进行分析处理(称为有监督的学习),找到一个数据分类函数或分类模型(也称为分类器)
    • 对训练集以外的、没有分类标号的任意样本点Zu,该模型都能够将其映射到给定类别集合中的某一个类别,即给出Zu可能的类别标号
    Q3. 分类分析的三个步骤
    • 挖掘分类规则(建立分类器或分类模型)
    • 分类规则评估
    • 分类规则应用

    具体内容:
    挖掘分类规则

    • 先将一个已知类别标号的数据样本集(也称为示例数据库)随机地划分为训练集S(通常占2/3)测试集T两部分
    • 通过分析S中的所有样本点(数据对象),为每个类别做出准确的特征描述,或建立分类模型,或挖掘出分类规则。这一步也称为有监督的学习,即 在模型建立之前就被告知每个训练样本
    • 定义:对于给定的训练样本数据集S和分类属性C= { \lbrace {C1,C2,…,Ck } \rbrace },如果能找到一个函数f 满足以下条件,则称函数f为分类器,或分类规则,或分类方法,器寻找过程称为分类规则挖掘
      • f: S → \rightarrow C,即f是S到C的一个映射;
      • 对于每个Xi ∈ \in S存在唯一Cj使f(Xi)=Cj,并记Cj= { \lbrace { Xi | f(Xi)=Cj,1 ≤ \leq j ≤ \leq k,Xi ∈ \in S } \rbrace }

    分类规则评估

    • 对测试集T中的样本点,若有N个样本点被分类模型正确地分类,则分类模型在测试集T上的准确率定义为 “正确预测数/预测总数”,即准确率=N/|T|
    • 由于T中的样本点已有分类标识,很容易统计分类器对T中样本进行正确分类的准确率,加之T中样本是随机选取的,且完全独立于训练集S,其测试准确率高就说明分类模型是可用的
    • 若直接使用训练集S进行评估,则其评估结果完全可能是乐观的,即准确率很高,但因为分类模型是由S学习而得到的,它会倾向于过分拟合训练集S,而对S以外的其他数据对象进行分类却可能很不准确。因此,交叉验证法来对模型进行评估是更合理的方法

    分类规则应用

    • 如果评估分类模型的准确率可以接受,接下来就是利用这个分类器对没有类别标号的数据集Z进行分类
      在这里插入图片描述
    • 即从Z中任意取出一个样本点Zu,将其输入分类器,得到的类别标号就是Zu所属的类别集合
    Q4. k-最近邻分类法
    • k-最近邻(k-Nearest Neighbour,KNN)分类法是一种基于距离的分类算法,它既不需要事先建立分类模型,也无需对分类模型进行评估,而仅利用有类别标号的样本集,直接对没有类别标号的数据对象Zu进行分类,即确定其类别标号
    • 假定样本集S中每个数据点都有一个唯一的类别标号,每个类别标识Cj中都有多个数据对象。对于一个没有标识的数据点Zu,k-最近邻分类法遍历搜索样本集S,找出距离Zu最近的k个样本点,即k-最近邻集N,并将其中多数样本的类别标号分配给Zu

    例题
    设某公司现有15名员工的基本信息,包括其个子为高个、中等、矮个的分类标识
    在这里插入图片描述

    公司现刚招进一位名叫刘萍的新员工Z1,令k=5,试采用k-最近邻分类算法判断员工刘萍的个子属于哪一类
    在这里插入图片描述
    解:

    • 只有身高才是与个子高矮相关的属性,因此用Xi表示第i个员工的身高
    • 首先从X中选择5个员工作为初始k-最近邻集N。不失一般性,取N={X1=1.60,X2=2.00,X3=1.90,X4=1.88,X5=1.70}
    • 对S的X6=1.85,身高X2=2.00是N中与身高Z1=1.62 差距最大的员工且有d(Z1,X2)>d(Z1,X6),因此,在N中用X6 替换 X2得到N={X1=1.60,X6=1.85 ,X3=1.90,X4=1.88,X5=1.70}
    • 同理,用S中X7=1.59 替换 N中身高距离Z1=1.65最大的员工X3=1.90,得到N={X1=1.60,X6=1.85,X7=1.59,X4=1.88,X5=1.70}
    • 用X8=1.70 替换 N中距离Z1最大的员工X6=1.85,得到N={X1=1.60,X8=1.70,X7=1.59,X4=1.88,X5=1.70}
    • 因为S中的X9=2.20和X10=2.10,故根据算法,N 不需要改变
    • 用X11=1.8 替换 N中X4=1.88得N={X1=1.60,X8=1.70,X7=1.59,X11=1.80,X5=1.70};
    • 因为S中的X12=1.95,X13=1.90,X14=1.80,故N 不需要改变
    • 用X15=1.75 替换 N中X11=1.8得N={X1=1.60,X8=1.70,X7=1.59,X15=1.75,X5=1.70};
    • 由上所得N中,有5个身高最接近Z1=1.62的员工,且其X1=1.60,X8=1.70,X7=1.59, X5=1.70这4个员工的类别都是“矮个”,仅有X15=1.75的类别是“中等”;因此,新员工Z1=刘萍的个子为矮个
    Q5. 决策树的概念

    在这里插入图片描述
    决策树是一棵有向树,也称为根树,它由矩形结点、椭圆型结点和有向边构成。

    • 根结点(root node),用矩形表示,如“天气”结点,它没有入边,但有零条或多条出边。其中的字串“天气”是样本集属性名称
    • 内部结点(internal node),用矩形表示。如“温度”结点,它恰有一条入边,但有两条或多条出边。“温度”是样本集属性名称
    • 叶结点(leaf node)或终结点(terminal node),用椭圆表示,如“是”结点,恰有一条入边,但没有出边。椭圆形里的“是”等字符串是样本集的一个类别标号
    • 每条有向边都用其出点的属性值标记,如“晴天”,“多云”、“雨天”是其出点“天气”属性的三种取值

    通常,一个属性有多少种取值,就从该结点引出多少条有向边,每一条边代表属性的一种取值

    Q6. Hunt算法

    Hunt算法是Hunt等人1966年提出的决策树算法,它在选择划分训练集的属性时采用贪心策略,将训练集相继划分成较纯(包括更少类别)的子集,以递归方式建立决策树,并成为许多决策树算法的衍生框架,包括ID3C4.5

    假设结点h对应的样本集用Sh表示,而C= { \lbrace {C1,C2,…,Ck } \rbrace }是其类别属性,则Hunt算法的递归定义如下:

    • 如果Sh中所有样本点都属性同一个类Ch,则h为叶结点,并用分类标号Ch标记该结点
    • 如果Sh包含多个类别的样本点,则选择一个 “好” 的属性A,以属性A命名h并作为一个内部结点
    • 按照属性A的取值将Sh划分为较小的子集,并为每个子集创建A的子结点
    • 把A的每个子结点作为h结点,递归地调用Hunt算法

    Hunt算法的停止

    • 简单策略:分裂结点直到所有的记录都属于同一个类,或者所有的记录都具有相同的属性值
    • 其他策略:在实际过程中还可能出现其他情况,应该考虑其它的标准来提前终止决策树的生长过程,如下所示:
      • 子结点为空
      • 训练集Sh属性值完全相同,但类别标号却不同
    Q7. ID3分类方法
    • ID3分类算法以信息论的信息熵为基础,以信息增益度为“属性测试条件”,并选择信息增益最大的属性对训练集进行分裂,从而实现数据的归纳分类
    • 熵:最早来源于统计热力学,它是热力学系统混乱程度的一种度量。系统的混乱程度越低,其熵值就越小
    • 优点
      • 模型理解容易:可方便地提取“如果-则”形式的分类规则
      • 噪声影响较小:信息增益计算使用当前的所有训练样本,可以降低个别错误样本点带来的影响
      • 分类速度较快,对未知类别标号的样本Zu,只需从树根开始搜索一条分裂属性值与Zu对应属性值相等的一条路径,即可对Zu分类
    • 缺点
      • 只能处理离散属性数据
      • 不能处理有缺失的数据
      • 仅是局部最优的决策树:ID3采用贪心算法,结果非全局最优
      • 偏好取值种类多的属性:ID3采用信息增益作为选择分裂属性的度量标准,但大量的研究分析与实际应用发现,信息增益偏向于选择属性值个数较多的属性,而属性取值个数较多的属性并不一定是最优或分类能力最强的属性
    Q8. C4.5算法

    C4.5算法不仅继承了ID3算法的优点,并增加了对连续型属性和属性值空缺情况的处理,对树剪枝也使用了当时更为成熟的方法

    Q9. 贝叶斯分类方法

    贝叶斯(Bayes)分类方法是以贝叶斯定理为基础的一系列分类算法的总称。贝叶斯定理就是以研究者Thomas Bayes的姓氏命名的,他是一位英国牧师,也是18世纪概率论和决策论的早期研究者之一

    • 朴素贝叶斯分类器
    • 树扩展的朴素贝叶斯分类器
    • 贝氏增强网络朴素贝叶斯分类器
    • 贝叶斯多网分类器
    • 一般贝叶斯网络分类器
    展开全文
  • 计算机数据挖掘技术的开发 摘要在信息化时代下大数据的到来为社会变革提供了新的思路从中也衍生出了数据挖掘技术提高了数据处理效率和质量数据挖掘技术能够从海量数据中找出用户所需数据并保障数据挖掘的精度和利用...
  • 数据挖掘技术的教学辅助系统应用 摘要数据挖掘技术与网络在线教育的有机结合在很大程度上促进了教育教学水平的提升基于此本文就数据挖掘技术在教学辅助系统中的应用展开分析简要介绍了数据挖掘技术的应用方向及其在...
  • 计算机数据挖掘技术的开发及应用 摘要计算机数据挖掘技术能够度整个计算机领域的发展起良好的推动作用同时也能够促进社会的进步满足人们的生活以及工作的相应的搜索需求因此对数据挖掘技术进行相应的开发以及应用...
  • 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,...

    随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数据量与日俱增。企业数据实际上是企业的经验积累,当其积累到一定程度时,必然会反映出规律性的东西;对企业来,堆积如山的数据无异于一个巨大的宝库。在这样的背景下,人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏,使其成为有用的知识,指导企业的技术决策和经营决策,使企业在竞争中立于不败之地。

    近十余年来,计算机和信息技术也有了长足的进展,产生了许多新概念和新技术,如更高性能的计算机和操作系统、因特网(intemet)、数据仓库(datawarehouse)、神经网络等等。在市场需求和技术基础这两个因素都具备的环境下,数据挖掘技术或称KDD(KnowledgeDiscoveryinDatabases;数据库知识发现)的概念和技术就应运而生了。

    数据挖掘(DataMining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(DataFusion)以及决策支持等。
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    大数据的背景下,采用的大数据与数据挖掘有什么本质上的不同?
    http://www.duozhishidai.com/article-10030-1.html
    数据分析与数据挖掘的区别和联系?
    http://www.duozhishidai.com/article-9800-1.html
    如何通过自学,成为数据挖掘“高手”?
    http://www.duozhishidai.com/article-9796-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 云计算下的物联网数据挖掘技术验证 摘要数据挖掘技术关系着物联网技术的发展高度传统的数据挖掘技术无法满足物联网庞大异构数据的挖掘需求云计算技术的出现为物联网数据挖掘的进一步发展奠定基础基于云计算的物联网...
  • 一篇文章让你了解大数据挖掘技术

    千次阅读 2018-04-04 23:15:32
    在前几期的科普中,小编已经为大家介绍了大数据分析的相关情况,本期小编就为大家讲解大数据挖掘技术,让大家轻轻松松弄懂什么是大数据挖掘技术。什么是大数据挖掘?数据挖掘(Data Mining)是从大量的、不完全的、有...
  • 数据挖掘技术帮助专业人员了解可用数据集。这些技术可以为企业和其他组织提供描述性和预测性的能力。 5个数据挖掘技术 1. 关联规则 关联规则使两个或多个项之间的关联以确定它们之间的模式。例如,超市可以确定...
  • 基于数据挖掘技术的研究现状及展望 摘要 在当今信息高速发展的科技时代数据挖掘技术的发展也进入了一个新的高峰期所谓的数据挖掘技术已经逐渐的成为了我们当前的数据库与相关人工的智能领域所要研究的焦点该篇文章...
  • 数据挖掘技术研究现状

    万次阅读 2014-12-17 15:24:31
    数据挖掘技术研究现状 张明奇 摘 要:数据挖掘作为当前国际学术界的一个研究热点,本文对它的研究意义、定义、分类等概念做了深入的阐述,详细介绍了数据挖掘的全过程,数据挖掘方法结合了数据库技术、机器学...
  • 数据挖掘技术与应用;目录;知识获取的途径;数据挖掘的起源;什么是数据挖掘;数据挖掘基本原理;OLAP数据挖掘区别;数据挖掘过程;数据挖掘-数据预处理;数据挖掘-数据预处理;数据挖掘-数据预处理;数据挖掘-数据预处理;数据...
  • 网络安全中的数据挖掘技术(一)

    千次阅读 2019-04-25 21:52:49
    一、数据挖掘算法简介 1. C4.5 (决策树分类) 2. K-means (K均值聚类) 3. Support Vector Machine(SVM) (支持向量机分类) 4. Apriori (关联规则挖掘) 5. EM (最大期望算法) 6. PageRank (链接分析)...
  • 3. 数据挖掘技术 4. 数据挖掘在电信领域的应用 5. 数据挖掘工具 6. 数据挖掘实例 【内容提纲】 数据挖掘介绍 数据挖掘系统 数据挖掘算法 国际会议和期刊 课后研读的论文 主要参考资料 【数据挖掘介绍】 数据挖掘的...
  • 数据挖掘:概念与技术》by 韩家炜 配套ppt
  • 数据仓库与数据挖掘技术期末考试 试题 重点 难点
  • 数据挖掘技术发展报告 Report of Data mining technology Development 目录 1. 数据挖掘 3 1.1. 数据挖掘概念 3 1.2. 数据挖掘的发展历史 323 1.3. 人才概况 324 1.4. 论文解读 326 1.5. 数据挖掘进展 337 2 数据...
  • 数据挖掘技术与工程实践

    热门讨论 2014-10-28 16:40:01
    由资深数据挖掘技术专家撰写,深入学习数据挖掘技术并进行工程实践的必读之作。 从基本概念到数据挖掘应用系统的开发,包含数据挖掘实践的全过程与经验总结。
  • 数据挖掘技术及应用

    2018-10-15 15:34:05
    1. 概述 2. 数据仓库与OLAP技术 3. 数据挖掘技术 4. 数据挖掘在电信领域的应用 数据挖掘工具 6. 数据挖掘实例

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 208,742
精华内容 83,496
关键字:

数据挖掘技术