为您推荐:
精华内容
最热下载
问答
  • 5星
    1MB weixin_40228600 2021-05-07 16:02:28
  • 1.12MB syp_net 2021-03-21 00:57:23
  • 3星
    164KB mcgradytina 2015-12-06 16:01:32
  • 文献综述是对某一领域某一方面的课题、问题或研究专题搜集大量情报资料,分析综合当前该课题、问题或研究专题的最新进展、学术见解和建议,从而揭示有关问题的新动态、新趋势、新水平、新原理和新技术等等,为后续...

    如何做文献综述

    文献综述抽取某一个学科领域中的现有文献,总结这个领域研究的

    现状,从现有文献及过去的工作中,发现需要进一步研究的问题和角

    度。

    文献综述是对某一领域某一方面的课题、问题或研究专题搜集大量

    情报资料,分析综合当前该课题、问题或研究专题的最新进展、学术见

    解和建议,从而揭示有关问题的新动态、新趋势、新水平、新原理和新

    技术等等,为后续研究寻找出发点、立足点和突破口。

    文献综述看似简单.其实是一项高难度的工作。在国外,宏观的或

    者是比较系统的文献综述通常都是由一个领域里的顶级

    大牛

    来做的。

    在现有研究方法的著作中,都有有关文献综述的指导,然而无论是教授

    文献综述课的教师还是学习该课程的学生,大多实际上没有对其给予足

    够的重视。而到了真正自己来做研究,便发现综述实在是困难。

    约翰

    W

    .

    克雷斯威尔(

    John W. Creswell

    )曾提出过一个文献综述必须

    具备的因素的模型。他的这个五步文献综述法倒还真的值得学习和借

    鉴。

    克雷斯威尔认为,文献综述应由五部分组成:即序言、主题

    1

    (关于

    自变量的)、主题

    2

    (关于因变量的)、主题

    3

    (关于自变量和因变量两

    方面阐述的研究)、总结。

    1

    .

    序言告诉读者文献综述所涉及的几个部分,这一段是关于章节构成的

    陈述。在我看也就相当于文献综述的总述。

    2

    .

    综述主题

    1

    提出关于

    自变量或多个自变量

    的学术文献。在几个自变

    量中,只考虑几个小部分或只关注几个重要的单一变量。记住仅论述关

    于自变量的文献。这种模式可以使关于自便量的文献和因变量的文献分

    开分别综述,读者读起来清晰分明。

    3

    .

    综述主题

    2

    融合了与

    因变量或多个因变量

    的学术文献,虽然有多种

    因变量,但是只写每一个变量的小部分或仅关注单一的、重要的因变

    量。

    4

    .

    综述主题

    3

    包含了自变量与因变量的关系的学术文献。这是我们研究

    展开全文
    weixin_39637256 2020-12-02 21:09:41
  • 应该如何撰写计算机类文献综述一、文献综述文献综述是学生在开提前阅读过某一主题的文献后,经过理解、整理、融会贯通,综合分析和评价而组成的一种不同于研究论文的文体。综述的目的是反映某一课题的新水平、新动态...

    应该如何撰写计算机类文献综述

    一、文献综述

    文献综述是学生在开提前阅读过某一主题的文献后,经过理解、整理、融会贯通,综合分析和评价而组成的一种不同于研究论文的文体。综述的目的是反映某一课题的新水平、新动态、新技术和新发现。从其历史到现状,存在问题以及发展趋势等,都要进行全面的介绍和评论。在此基础上提出自己的见解,预测技术的发展趋势,为选题和开题奠定良好的基础。

    二、文献综述的格式

    文献综述的格式与一般研究性论文的格式有所不同。这是因为研究性的论文注重研究的方法和结果,而文献综述介绍与主题有关的详细资料、动态、进展、展望以及对以上方面的评述。因此文献综述的格式相对多样,但总的来说,一般都包含以下四部分:即前言、主题、总结和参考文献。撰写文献综述时可按这四部分拟写提纲,再根据提纲进行撰写工作。

    前言部分,主要是说明写作的目的,介绍有关的概念及定义以及综述的范围,扼要说明有关主题的现状或争论焦点,使大家对全文要叙述的问题有一个初步的轮廓。

    主题部分,是综述的主体,其写法多样,没有固定的格式。可按年代顺序综述,也可按不同的问题进行综述,还可按不同的观点进行比较综述,不管用那一种格式综述,都要将所搜集到的文献资料归纳、整理及分析比较,阐明有关主题的历史背景、现状和发展方向,以及对这些问题的评述,主题部分应特别注意代表性强、具有科学性和创造性的文献引用和评述。

    总结部分,与研究性论文的小结有些类似,将全文主题进行扼要总结,提出自己的见解并对进一步的发展方向做出预测。

    参考文献,因为它不仅表示对被引用文献作者的尊重及引用文献的依据,而且也为评审者审查提供查找线索。参考文献的编排应条目清楚,查找方便,内容准确无误。关于参考文献的使用方法,录著项目及格式与研究论文相同,不再重复。

    三、文献综述规定

    1.为了使选题报告有较充分的依据,要求硕士学生在论文开题之前作文献综述。

    2.在文献综述时,学生应系统地查阅与自己的研究方向有关的国内外文献。通常阅读文献不少于30篇。

    3.在文献综述中,学生应说明自己研究方向的发展历史,前人的主要研究成果,存在的问题及发展趋势等。

    4.文献综述要条理清晰,文字通顺简练。

    5.资料运用恰当、合理。文献引用用方括号"[ ]"括起来置于引用词的右上角。

    6.文献综述中要有自己的观点和见解。鼓励学生多发现问题、多提出问题、并指出分析、解决问题的可能途径。

    7.文献综述不少于3000字。

    四、注意事项

    在撰写文献综述时应注意以下几个问题:

    ⒈搜集文献应尽量全。掌握全面、大量的文献资料是写好综述的前提,否则,随便搜集一点资料就动手撰写是不可能写出好的综述。

    ⒉注意引用文献的代表性、可靠性和科学性。在搜集到的文献中可能出现观点雷同,有的文献在可靠性及科学性方面存在着差异,因此在引用文献时应注意选用代表性、可靠性和科学性较好的文献。

    ⒊引用文献要忠实文献内容。由于文献综述有作者自己的评论分析,因此在撰写时应分清作者的观点和文献的内容,不能篡改文献的内容。

    ⒋参考文献不能省略。有的科研论文可以将参考文献省略,但文献综述绝对不能省略,而且应是文中引用过的,能反映主题全貌的并且是作者直接阅读过的文献资料。

    序号

    评分内容

    满分

    实际得分

    1

    是否全面收集了有关的文献资料

    15

    2

    是否充分介绍了主要学术观点、主要学派及其代表者和研究沿革,有无主要遗漏

    25

    3

    是否科学地评价已有的学术观点和理论

    25

    4

    是否在已有理论和成果的基础上阐明本人的观点

    15

    5

    是否能预示今后可能的发展趋势及研究方向

    15

    6

    行文是否流畅,综述能力如何

    5

    总分

    100

    文献综述和论文写作到底是什么关系?文献综述题目和毕业论文题目是不是一回事?许多同学不很清楚。从我看过的一些文献综述初稿看,很多同学把写文献综述直接当成了做毕业论文,这是概念上的混淆。

    文献综述顾名思义,是对你所找到的相关文献进行分析和述评,是为正式写作毕业论文奠定基础的。写文献综述的目的,主要是对前人做过的工作进行回顾,同时找出自己的前进方向。所以,毕业论文文献综述的写法,主要是分析别人所作的工作,最后在结尾部分提出自己的见解即可。而作毕业论文,则完全是解释自己所作的创新性工作,阐明自己的理论创新、工艺创新或技术创新观点。这两种思路,就造成写法和风格上的很大不同。

    首先,文献综述和毕业论文的题目就应当有所不同。

    譬如你的毕业设计题目是:《多媒体毕业纪念册及播放系统设计开发(实例)》,很显然这是要你做一个实实在在的计算机软件系统,但你的文献综述题目却不能是这个,应当是《多媒体毕业纪念册及播放系统设计开发文献综述》,在原题目上加上“文献综述”这四个字,你就知道你的综述该怎样写了。

    其次,在写法上,文献综述的写法与毕业论文也有所不同。

    文献综述主体部分的格式一般由前言、主题、结语三大部分组成,看起来和科技论文相似,但论述的重点不同。

    以下是一篇毕业论文正文部分的写作框架:

    1.前言(背景,动机,前人工作)

    2.项目框图及本工作在项目中的地位

    3.项目特色(特殊功能,困难)

    4.方案选择(前人方案,现可选方案,为什么选这一方案)

    5.实现技术数据结构程序片段

    6.特殊问题解决方法

    6.1问题1

    6.2问题2

    ……

    7.结果测试,性能分析(图表等)

    8.结束语(或结论、小结)

    这里是一篇文献综述正文部分的写作框架:

    1.前言或简介(问题的提出,背景,动机等等)

    2.参考文献的来源及其主要的观点或学术流派、技术路线介绍

    3.各种观点的评价或各个学术流派、技术路线的发展趋势

    4.结语:值得关注的若干问题、目前该领域尚需探索的重大空白等等

    大家不难从两种写作框架中发现两种文体的显著区别。

    既然毕业论文的文献综述主要是为自己写作毕业论文提供文献方面的帮助和指导的,所以,只要把自己所作题目的相关文献找准、找全(这是编写参考文献题录阶段必须做好的工作),然后对这些文献中的观点、方法、原理、材料等等进行归纳和总结,形成文字就可以了,完全没有必要像做毕业论文那样,把自己的发明和创新全写上去,更不要象写教科书那样,从古到今面面俱到。只要你的文献综述起到了帮助你写毕业论文的作用,它的历史使命也就完成了。你可以将你的文献综述的参考文献目录和结语部分的主要观点全部引用到你的毕业论文相应位置中去,其他大家就可以从你的毕业论文中找到相关的文献和学术观点。记住,你的文献综述并不是用来发表的,只有你的学术论文才是真正准备发表和宣读的!

    顺便说一下,有的同学的毕业论文题目,本身就是综述性的,如前边所举的例子:《因特网上各种多媒体素材的下载编辑加工方法综述》,这样的论文和文献综述该怎样写呢?

    其实,即使是这样的论文题目,其毕业论文的写法和文献综述的写法也是根本不同的。虽然这样的题目本身就带有“文献综述”的字样,但最后作毕业论文答辩时,主考教师们希望听到的决不会是你读了多少种文献,从中发现了多少种观点等等,而是希望听到你对这些观点的分析和评价。所以,作为毕业论文的“综述”,其核心在于你自己的理论或方法的创新。是“醉翁之意不在酒”,综述完全是借别人的观点加以发挥,重点不在“综”而在“述”哇!明白了这一点,作为毕业论文题目的“文献综述”和作为准备写毕业论文时给自己读的“文献综述”,其写法上的不同,大家就可以自己搞明白了吧!

    展开全文
    weixin_39889487 2020-12-18 02:43:25
  • 1.15MB qq_35661439 2019-05-16 10:42:37
  • 5星
    22KB camellia_lele 2013-04-22 13:29:06
  • 930KB weixin_38657984 2021-06-09 16:13:46
  • 116KB u013883025 2021-07-17 12:46:27
  • 前言: 这篇文章主要对两篇论文进行综述,一篇是美国一些知名的数据管理领域的专家学者从专业的研究角度出发联合发布的《大数据白皮书》,另一篇是孟晓峰和慈祥的《大数据管理:概念、技术与挑战》[1]。前者介绍了...

        前言: 这篇文章主要对两篇论文进行综述,一篇是美国一些知名的数据管理领域的专家学者从专业的研究角度出发联合发布的《大数据白皮书》,另一篇是孟晓峰和慈祥的《大数据管理:概念、技术与挑战》[1]。前者介绍了大数据的产生、分析了大数据的处理流程,并提出了大数据所面临的若干挑战,而后者介绍了大数据的基本概念,阐述其同传统数据库的区别,对大数据处理框架进行了详细解析,并展开介绍了大数据时代不可或缺的云计算技术和工具。同样,在论文的最后给出了大数据时代面临的新挑战。由于后者是在前者的基础上完成的,与前者有很多重复的内容,同时又对云计算等方面做出了更进一步的阐述,因此,本篇文章以《大数据白皮书》的结构为主线,将孟的论文中涉及到的其他内容(如大数据的基本概念、云计算等内容)穿插在合适的位置,进行统一综述。

     

        摘要:数据驱动型决策的前景正在获得越来越多人的认可,人们对“大数据”这个概念的热情也越来越高。大数据的发展前景是毋庸置疑的。然而,目前其发展潜力与实现之间仍然存在着巨大的差距。本文介绍了大数据处理的不同流程、处理框架、关键技术和处理工具,最终引出了大数据分析过程中将面临的挑战并给出解决相应问题的部分思路。

        Abstract:  The prospect of data-driven decision-making is gaining more and more recognition and the passion for the concept of big data is growing rapidly. Big data development prospects are beyond doubt. However, recently there is still a huge gap between its development potential and its realization. This article introduces the different processes of big data pipelines, processing frameworks, key technologies and processing tools, and finally introduces the challenges that big data analysis will face and gives some ideas to solve the corresponding problems.

        关键词:大数据;数据分析;云计算;处理流程

        key words: big data; data analysis; cloud computing; processing pipelines

    1.1    背景

    现如今,我们正生活在数据的汹涌浪涛之中,数据正在以前所未有的规模增长着。 在以前,决策的产生或基于猜测,或精心构建的现实模型,但现在人们完全可以依靠数据本身做出合理的决策。这样的大数据分析推动了我们现代社会的几乎所有方面,包括移动服务,零售,制造业,金融服务,生命科学和物理科学。

    1.2 大数据的4V定义

    虽然大数据的潜在价值巨大且真实,而且已经取得了一些初步的成功,但若要充分发挥这种潜力,仍然有许多技术挑战需要解决。数据的庞大规模是最明显,最主要的挑战。但是,这并不是唯一的挑战。行业分析公司指出,大数据面临的挑战不仅体现在数量(Volume)方面,还在于多样性(Variety)和速度(Velocity)[2],因此我们不应该只关注其中的第一个(Volume)。其中,多样性(Variety)通常意味着数据类型、表示方法和语义解释的异构性。速度(Velocity)是指数据到达的和它必须被处理速度。虽然这三个要素很重要,但却没有包含隐私和可用性等其他要求。

    除此3V定义之外,孟[1]的论文中还添加了另外一个V,组成为4V定义。但人们对第4个V说法不一,国际数据公司认为大数据应该有价值性(Value),而IBM[3]公司认为 数据必然具有真实性(Veracity)。不必过度地拘于具体的定义,在把握3V定义的基础上,适当地考虑4V即可。

    1.3 传统数据库与大数据的区别

    a. 数据规模:传统数据库处理对象通常以MB为基本单位,而大数据常常以GB甚至TB,PB为基本处理单位

    b. 数据类型:传统数据库仅有一种或几种,且以结构化数据为主。大数据中的数据类型种类繁多,数以千计,不仅包含结构化,还包括半结构化和非结构化数据

    c. 模式和数据的关系:传统数据库先有模式再有数据。大数据的模式随着数据量的增长而不断演变。

    d. 处理对象:传统数据库的数据仅作为处理对象而存在,而大数据的数据作为资源来辅助解决其他领域的问题。

    e. 处理工具:大数据的数据不仅仅只是工程处理的对象,传统的3种范式(实验、理论和计算)无法很好的发挥作用,需要探索第4种范式。4中范式的比较如表1所示:

     

    表1 典型大数据应用的比较

    1.4 大数据的产生

                人类社会的数据产生方式大致经历3个阶段,其中第三个阶段(感知式系统阶段)导致了大数据的产生。这3个阶段分别是:

    运营式系统阶段:数据库出现在这个阶段,数据伴随着一定的运营活动产生并记录在数据库中。

    用户原创内容阶段:Web 2.0时代,数据呈爆炸式增长。

    感知式系统阶段:感知式系统被广泛使用。传感器被大量使用,数据的产生方式是自动的。

                总体而言,数据的产生经历了被动、主动到自动的3个阶段。

    2.  大数据的处理流程

     

    图1 大数据处理流程

    大数据分析涉及多个不同的阶段,如图1所示,每个阶段都会带来挑战。不幸的是,许多人只关注分析/建模阶段(虽然这个阶段至关重要,但是如果没有数据分析管道的其他阶段,这个阶段便无用武之地。即使是在分析阶段,我们对在多个用户程序并发运行的多租户集群的情况下的复杂性的了解也很少。许多重大挑战超出了分析阶段。例如,大数据必须在一定情境下进行管理,这可能是嘈杂的,异构的,且不包括前期模型。这样做会增加追踪出处和处理不确定性和错误的需要。这些对于成功至关重要,却很少像大数据一样提及。同样,数据分析阶段的问题通常也不会全部提前摆出来。我们可能需要根据数据找出好的问题。这样做需要更智能的系统,并且更好地支持用户与数据分析处理流程的交互。事实上,我们现在的一个主要的瓶颈就是能够对这些问题提问并分析的人的数量。通过支持对数据的许多层次的参与(并不都需要深入的数据库专业知识),我们可以通过大幅增加这个数字。解决这类问题的方案不是像往常那样逐渐改进业务,这个工业可以自己做。相反,他们要求我们从根本上重新思考我们如何处理数据分析。

    2.1    数据获取与记录

    大数据不是从天而降的,它产生于一些数据生成源。我们周围的世界,从老年人的心率,我们呼吸的空气中的毒素,到规划的SKA望远镜,这些每天会产生高达100万TB的原始数据。 同样,科学实验和模拟可以很容易地产生PB级的数据。

    这些数据大部分是没有意义的,数量级可以被过滤和压缩。 一方面的挑战是如何定义这些过滤器,以避免丢弃有用的信息。另一方面挑战是自动生成正确的元数据来描述哪些数据被记录以及这些数据是如何被记录和测量的。

    2.2    信息提取和清洁

    通常情况下,不能直接对收集好的信息进行分析。相反,我们需要一个信息提取过程,从底层资源中提取所需信息,并通过一种适合分析的结构化形式来表示。正确而完全地做到这点是一个持续的技术挑战,而这样的提取通常是高度依赖于应用的。

    2.3    数据整合,聚合和表示

    鉴于数据洪流的异构性,仅记录它并将其放入存储库是不够的。例如,加入我们有一系列科学实验的数据。如果我们在一个数据库中只有一堆数据集,那么任何人都不可能找到任何这些数据,更不用说重复使用这些数据了。如果有足够的元数据,仍然有一些希望,但即便如此,由于实验细节和数据记录结构的差异,挑战依然存在。

    2.4    查询处理,数据建模和分析

    对大数据进行查询和挖掘的方法与传统的小样本统计分析有着根本的区别。 大数据往往是有噪声,动态,异构,相互关联且不可信的。尽管如此,即使是噪声大的大数据也可能比小样本更有价值。

    挖掘需要集成的,清理的,可信赖的,高效可访问的数据,声明式查询和挖掘接口,可扩展挖掘算法和大数据计算环境。同时,数据挖掘本身也可以用来帮助提高数据的质量和可信度,理解其语义,并提供智能查询功能。下一代的大数据还支持实时处理的交互式数据分析。

    目前的大数据分析存在的一个问题是,提供SQL查询功能的数据库系统与执行各种形式的非SQL处理的分析包(如数据挖掘和统计分析)之间的协调。如今的分析师需要从数据库中导出数据,然后执行非SQL过程,再将数据带回,这个过程是麻烦而枯燥的。声明性查询语言与这些包的功能之间的紧密耦合将有利于分析的表达性和性能。

    2.5    解释

    如果用户无法理解结果,那么具有分析大数据的能力是没有意义的。提供分析结果的决策者必须解释这些结果。仅仅提供结果是不够的。相反,必须提供补充信息,说明每个结果是基于哪些输入、如何得出的。这种补充信息被称为(结果)数据的来源。通过研究如何最好地捕获,存储和查询出处,结合捕获足够的元数据的技术,我们可以创建一个基础结构,使用户能解释获得的分析结果,并用不同的假设,参数,或数据集重复分析过程。

    3.  大数据处理框架

    大数据处理模式主要可以分为两种:流处理模式和批处理模式。

    3.1    流处理

    流处理处理模式将数据视为流,当数据到来时就立刻处理并返回所需结果。流处理的过程基本在内存中完成,其处理方式更多依赖于在内存中设计巧妙的概要数据结构,主要瓶颈是内存容量。以PCM(相变存储器)为代表的存储级内存设备的出现或许可以打破这个瓶颈。比较有代表性的开源系统有:Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。

     

    图2 基本的数据流模型

    3.2    批处理

    以Google的MapReduce为代表,完整的MapReduce过程如图3所示:

     

    图3 MapReduce基本原理

    批处理的核心设计思想在于:1. 分而治之 2. 将计算推到数据,而非相反。

                在实际场景下,常常不是简单使用某一种,二是将二者结合起来。很多互联网公司将业务划分为在线、近线和离线,可以基于这种划分应用不同的处理模式。

    4.  大数据关键技术

    大数据需要多种技术的协同。文件系统提供最底层的存储能力的支持。数据库提供数据管理服务。

    4.1    云计算

    云计算涉及到的技术很多,图4是Google云计算技术的介绍,从中可以对云计算有更清晰的认识。

     

    图4 google技术演化图

    4.1.1    文件系统

    基于“系统组件失败是一种常态而非异常”的思想,Google研发了GFS。这是一个构建在大量廉价服务器上的可扩展分布式文件系统,采用主从结构,主要针对文件较大,且读远大于写的应用场景。后来在Google对GFS级你醒了重新设计,解决了单点故障、海量小文件等问题。许多其他企业的文件系统都是借鉴了GFS。

    4.1.2    数据库系统

    由于数据的数量(大)、多样性、设计理念的冲突、数据库事务处理苛刻的ACID要求等原因,大数据不可能直接采用关系型数据库。为了应对这个挑战,产生了NoSQL数据库。NoSQL数据库具有如下特点:模式自由、支持简易备份、简单的应用程序接口、最终一致性、支持海量数据。其与关系型数据看对比如下图所示:

     

    表2 NoSQL数据库和关系数据库对比

    4.1.3    索引与查询技术

    NoSQL数据库针对逐渐的查询效率一般比较高,因此NoSQL数据库上的查询优化研究主要有两个思路:

    1. 采用MapReduce秉性技术优化多值查询
    2. 采用索引技术优化多值查询

    总体而言,在NoSQL数据库上的查询优化技术都并不成熟,有很多关键性问题亟待解决。

    4.1.4    数据分析技术

    实时数据处理是大数据分析的一个核心需求,主要有3个思路:

    1. 采用流处理模式
    2. 采用批处理模式
    3. 二者的融合:主要思路是利用MapReduce模型实现流处理。

    4.2    大数据处理工具

    Hadoop是当前最为流行的大数据处理平台,它已经成为大数据处理工具事实上的标准。它是包括文件系统(HDFS),数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块的完整生态系统。下图归纳了现今主流的处理平台和工具。

     

    表3 采用索引加速多只查询的方案对比

    5.  大数据分析的挑战

    在描述了大数据分析流程中的多个阶段之后,我们现在转向一些共同的挑战,这些挑战存在于以上阶段中的许多阶段(有时是全部阶段)。

    5.1    异构性与不完整性

    当人类消费信息时,大量的异构性是可以容忍的。事实上,自然语言的细微和丰富可以提供有价值的深度。然而,机器分析算法期望同构数据,并且不能理解细微差别。 因此,数据分析时必须在数据分析之前(或在分析的第一步)仔细地将数据结构化。即使在数据清理和纠错之后,数据中的一些不完整性和一些错误也可能保留下来。数据分析期间必须管理这些不完整性和这些错误,这对我们而言是一项挑战。

    5.2    规模

    在过去几十年里,管理巨大和迅速增长的数据量一直是一个具有挑战性的问题。 过去,这一挑战已经通过更快的处理器、遵循摩尔定律得到缓解。但现在正在发生一个根本的转变:数据量增长得比计算资源更快,而CPU速度是没有变化。

    5.3    时效性

    数据量大的另一面是速度慢。要处理的数据集越大,分析所需的时间就越长。 有效处理大数据量的系统也更可能能够更快地处理给定大小的数据集。然而,当大数据所说的速度(Velocity)不仅仅是这个速度。 相反,我们还有获得速度的挑战和时效性挑战。

    有很多情况下需要立即得到分析结果。当数据量迅速增长,并且查询响应时间有限时,设计这样的结构变得尤其具有挑战性。

    5.4    隐私

    数据的隐私是另一个巨大的问题。 公众对个人资料的不当使用,尤其是连接多个来源的资料,恐怕是非常恐惧的。管理隐私既是一个技术问题,也是一个社会问题,必须从两个方面共同解决,才能实现大数据的承诺。

    5.5    人的合作

    理想情况下,大数据分析不全部是计算,而是将人的角色放在循环当中。在当今这个复杂的世界里,常常需要来自不同领域的多位专家真正理解正在发生的事情。大数据分析系统必须支持来自多个人类专家的输入,并共享对结果的探索。这些专家可能在空间和时间上是分散,因为将整个团队集中在一个房间内太昂贵了,一种流行的新解决方法是通过众包。

    5.6    能耗问题

    服务器电量的开销是巨大的,而其中只有6%~12%是用于相应用户查询的,绝大多部分的电量用于确保服务器处于闲置状态。可以通过采用新型低功耗硬件和引入可再生能源来应对能耗问题。

    5.7    与硬件的协同

    硬件的异构性会不可避免给集群整体性能带来“木桶效应”,解决方案是将不同计算强度的任务智能地分配给计算能力不同的服务器。另外,新硬件的给大数据带来了变革。可以通过构建HDD和SSD的混合存储系统来解决大数据处理问题。然而内存的发展一直没有出现革命性的变化,随着PCM为代表的SCM的出现,未来的内存很可能会兼具内存和硬盘的双重功能,给大数据处理带来根本性的变革。

    5.8    大数据管理易用性问题

    解决这个问题,需要从以下3个方面下手:可视化原则、匹配原则和反馈原则。

    5.9    性能的测试基准

    构建大数据测试基准面临的主要挑战有:系统复杂性高、用户案例的多样性和数据规模庞大、系统的快速演变、重新构建还是复用现有的测试基准。

    6.  系统架构

    如今的公司已经在使用商业智能,并重视商业智能的价值。业务数据分析的目的有很多:公司可以执行系统日志分析和社交媒体分析,以进行风险评估,客户保留,品牌管理等等。通常情况下,即使每个系统都包含信息提取,数据清理,关系型处理(联合,分组,聚合),统计和预测建模以及适当的探索和可视化工具。

    7.  总结

    我们已经进入了一个大数据时代。通过更好地分析大量可用的数据可以提高了企业的盈利能力和成功率。本文详细分析了大数据管理的关键技术,然而,在充分实现数据价值之前,必须解决本文中描述的许多技术挑战。在从数据采集到结果解释的各个阶段中,挑战不仅包括显而易见的规模问题,而且还包括异构性,缺乏结构,错误处理,隐私,时效性,来源、与硬件的协同、能耗问题、管理易用性等等。这些挑战将需要变革性的解决方案。

     

    参考文献:

    [1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.

    [2] 大数据白皮书

    [3] What is Big Data Analytics? What is Big Data Analytics? https://www.ibm.com/analytics/hadoop/big-data-analytics

     

    转载于:https://www.cnblogs.com/DianeSoHungry/p/8084422.html

    展开全文
    H114754726 2019-09-25 14:46:20
  • 396KB weixin_38566180 2021-05-19 17:21:26
  • 5星
    1.7MB u013883025 2021-07-05 16:24:01
  • 1.52MB u013883025 2021-07-10 08:53:28
  • 6.57MB spark2022 2021-08-14 17:25:04
  • 1.17MB u013883025 2021-08-18 00:30:59
  • 数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。

    作者:杨永钰

     

    摘要:数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。

     

    关键词:数据挖掘;聚类;分类;关联

     

    1.前言

    数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。

    数据挖掘是数据库中知识发现的核心步骤(如下图所示),发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。

     

     

    2.数据挖掘的模式

     

    2.1分类模式(Classification)

    分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上.该过程由2步构成:模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。

    其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。

     

    2.1.1分类步骤

    第一步,是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常,这样的分类模型用分类规则集、决策树或者数学公式的形式给出。

    第二步,是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规财集合应该是对新的数据集而言具有很高的准确性尽可能少的矛盾划分以及较小的规则集。

     

    2.1.2算法

    策树、关联规则、贝叶斯、神经网络、规则学习、k一临近法、遗传算法、粗糙集以及模糊逻辑技术等。其中决策树算法及基于关联规则的分类算法是本节论述的重点,对其他一些算法只作简单介绍。

    决策树算法:决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树归纳属性选择度量比较。

    ID3算法是较早也是最著名的决策树归纳算法。

    该算法优点是描述简单、分类速度快,特别适合大规模的数据处理。

    存在的主要问题有:(1)互信息的计算依赖于属性取值的较多特征,而这一属性不一定最优;(2)ID3是非递增学习算法;(3)抗噪性差,训练例子中
    正例和反例较难控制。

    改进算法QUEST和PUBLIC等

    QUEST弱化了选择能提供更多的分裂变量的偏见。

    PUBLIC是一种基于MDL剪枝的算法,对于可能被剪枝的节点在建树时不予以扩充,减少了工作量(如I/O)。

     

    2.1.3小结

    分类是数据挖掘的重要方法之一。到目前为止,基于各种思想和理论基础的分类算法已提出很多,算法的实际应用也已趋于成熟。但实践证明,没有一种分类算法对所有的数据类型和定义域都优于其他分类算法,每种相对较优的算法都有它具体的应用环境。

     

    2.3聚类clustering)

    聚类就是将数据项分组成多个类或簇,“最小化类间的相似性,最大化类内的相似性”原则!与分类模式不同的是,聚类中要划分的类别是未知的,它是一种不依赖于预先定义的类和带类标号的训练数据集的非监督学习unsupervisedlearning),无需背景知识,其中类的数量由系统按照某种性能指标自动确定。

     

    2.4其他模式

     

    2.4.1回归模式(regression)

    回归模式的函数定义与分类模式相似,主要差别在于分类模式采用离散预测值(例如类标号),而回归模式采用连续的预测值。分类和回归都是预测问题。

     

    2.4.2序列模式(sequential)

    序列模式是描述基于时间或其他序列的经常发生的规律或趋势,并对其建模。

     

    2.4.3偏差模式deviation)

    偏差模式是对差异和极端特例的描述,如聚类外的离群值!大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能比正常的数据更有用。比如信用卡的欺骗检测,通过检测一个给定帐号与其历史上正常的付费相比,可以付款数额特别大这一异常数据为依据来发现信用卡被欺骗性使用。

     

    2.4.4关联模式(association)

    关联模式是数据项之间存在的关联规则,是在同一事件中出现的不同项之间相关性。所谓关联规则挖掘是从大量的、有噪声的、模糊的、随机的实际数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的关联信息和知识的过程。

    最著名的关联规则挖掘算法是由Apriori等于1994年提出的Apriori算法

    关联规则挖掘算法的设计分解为两个子问题:
    (1)找到所有支持度大于最小支持度的项集(Item set),这些项集称为频集(Frequent Item set)。
    (2)使用第1步找到的频集产生期望的规则。

    Apriori方法一些固有的缺陷仍然无法克服。
    (1)可能产生大量的候选集:当长度为1的频集有10000个的时候,长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的。
    (2)无法对稀有信息进行分析:由于频集使用了参数min.sup,所以就无法对小于min sup的事件进行分析;而如果将min.sup设成一个很低的值,那么,算法的效率就成了一个很难处理的问题。

     

    3.数据挖掘常用方法

    模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。

     

    模糊理论:美国控制论专家、数学家查德1965年发表的论文《模糊集合》,标志着模糊数学这门学科的诞生!模糊集合和模糊推理是模糊方法的数学基础,模糊集理论以不确定性的事物为研究对象,是经典集合理论的扩展。

    隶属度函数是模糊集合的特征函数,是模糊概念的核心,它的取值范围从普通集合{0,1}的两个值扩充到[0,1]闭区间内连续值。

    在模糊方法中,关系就是模糊集合,找关系便是找隶属度函数如何选择蕴涵关系和合成算法是模糊推理的关键,这里有许多经验的成分,模糊推理注重的是把握结论的趋势,是近似的而不是精确的结果。当然,模糊推理的结果也可能是错的,所以还要实践检验。

     

    粗糙集理论:研究不完整、不确定知识和数据的表达、学习和归纳的理论方法。粗糙集理论的核心特点是无需提供问题所需处理的数据集合以外的任
    何先验信息,这也可能是因为其无法获得客观事实的足够支持。

    粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的联系。

     

    云理论:云理论是李德毅教授于1995年提出的用于处理不确定性的一种新理论。把定性概念的模糊性和随机性完全集成到一起,构成定性和定量相互间的映射,作为知识表示的基础。

    证据理论:是经典概率论的扩充,处理不确定信息的证据理论!。该理论的一个重要贡献就是划清了不确定和不知的界限。

     

    人工神经网络:人工神经网络由多个神经元按照某种方式相互连接形成,靠网络状态对外部输入信息的动态响应来处理信息,网络的信息分布式存储于连接权系数
    中,使网络具有很强的容错性和鲁棒性。

    在数据挖掘中,神经网络主要用于获取分类模式。

    但是由于神经网络分类方法获取的模式隐含在网络结构中,而不是显示地表达为规则,不容易被人们理解和解释;另外要多次扫描训练数据,网络的训练时间较长。因此与其他数据挖掘方法不同,神经网络用于数据挖掘,要解决好两个关键问题:一是降低
    训练时间,二是挖掘结果的可理解性。

     

    遗传算法:模拟生物的进化和遗传,借助选择、交叉和变异操作,使要解决的问题从初始解逐步逼近最优解,解决了许多全局优化问题。遗传算法易于并行,已广泛用于分类和优化问题。

     

    归纳学习:归纳学习是从大量的经验数据中归纳抽取出一般的规则和模式,是一种重要的数据挖掘方法。归纳学习的算法大部分来自于机器学习领域。

    面向属性的归纳:考察与任务相关的数据中每个属性的不同值的个数,通过概念
    树提升对数据进行概化,归纳出高层次的模式。

     

    4. 小结

    数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。而信息的安全和滥用是个需要妥善解决和解决的大问题,这是数据挖掘中需要注意的。

     

     

     

     

     

     

     

     

    参考文献

    【1王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004,32(2):246-252.(被引量:461)

    2姜园,张朝阳,仇佩亮,.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662.

    【3谈恒贵,王文杰,李游华.数据挖掘分类算法综述[J].微型机与应用,2005,24(2):4-6.

    【4何小东,刘卫国.数据挖掘中关联规则挖掘算法比较研究[J].计算机工程与设计,2005,26(5):1265-1268.

    [5]Kaur P,Attwal KS.Data Mining:Review[J].International Journal of Computer Science & Information Technolo,2014.


    展开全文
    sinat_33241390 2017-07-14 17:38:47
  • 2.97MB syp_net 2020-07-09 21:49:09
  • 1.54MB u013883025 2021-07-09 22:06:06
  • weixin_42458937 2021-01-14 09:51:59
  • 99.03MB qq_22828175 2018-10-25 21:16:55
  • 20.73MB qq_41805668 2021-05-04 12:03:27
  • 1.1MB u013883025 2021-07-10 22:37:01
  • weixin_39653311 2020-12-07 22:48:22
  • 1.02MB weixin_38502693 2021-05-20 20:01:37
  • 2.32MB u013883025 2021-08-18 21:41:08
  • 5星
    8.09MB qq_52311762 2021-01-07 06:52:47
  • 1.66MB jamesinfosoft 2018-12-04 17:27:56
  • 794KB u013883025 2021-08-18 01:27:34
  • 5星
    19.17MB oqingchen123 2013-03-30 00:36:08
  • 1.08MB u013883025 2021-07-15 23:03:16
  • weixin_33654339 2021-01-15 01:31:32

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,861
精华内容 5,144
关键字:

数据分析文献综述