大数据算法 订阅
《大数据算法》是哈尔滨工业大学提供的慕课课程,授课老师是王宏志。 展开全文
《大数据算法》是哈尔滨工业大学提供的慕课课程,授课老师是王宏志。
信息
授课老师
王宏志
类    别
慕课
中文名
大数据算法
提供院校
哈尔滨工业大学
大数据算法课程简介
大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,并通过本门课程的作业,掌握大数据算法设计与分析的技术。 [1] 
收起全文
精华内容
下载资源
问答
  • 大数据算法》一1.3 大数据算法设计与分析
    2017-06-21 11:35:00

    本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.3节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    1.3 大数据算法设计与分析

    本节对大数据算法设计与分析进行概述,蜻蜓点水地罗列一些技术,具体的技术将在后面的章节详细讲授。

    1.3.1 大数据算法设计技术

    1.精确算法设计方法
    精确算法设计技术就是传统算法设计与分析课里讲授的算法,例如贪心法、分治法、动态规划、搜索、剪枝。这些算法设计方法也是大数据算法设计中所必需的,在本书中会经常用到这些技术。
    2.并行算法
    并行算法是一类很重要的大数据算法设计技术。在很多人的理解中,大数据算法就等同于并行算法,但是大数据算法不完全是并行算法。
    3.近似算法
    近似算法的意思是说,虽然给定计算时间,给定计算资源,对于很大的数据量无法算出精确解,但是可以退而求其次,算不那么精确的解,而且这个解的不精确程度在可以忍受的范围内。这样的设计算法有一套专门的设计技术,就是所谓的近似算法。
    4.随机化算法
    一种很重要的技术是随机化算法设计技术。在某些情况下,可以通过增加随机化来提高算法的效率和精度。最典型的一个技术就是抽样。虽然无法处理整个数据集合,但是可以从这个集合中抽取一小部分来处理,通过这个抽样我们就能以小见大,这一部分抽样就能够体现整个大数据集合的特征。
    5.在线算法/数据流算法
    所谓的在线算法或者数据流算法,指的是数据源源不断地到来,根据到来的数据返回相应的部分结果。这类算法的设计思想可以应用于两种情况:一是当数据量非常大仅能扫描一次时,可以把数据看成数据流,把扫描看成数据到来,扫描一次结束;二是数据更新非常快,不能把数据全部存下来再算结果,这时候数据也可以看成一个数据流。
    6.外存算法
    也有人称外存算法为I/O有效算法或者I/O高效算法。这类算法不再简单地以CPU时间作为算法时间复杂度的衡量标准,而是以I/O次数作为算法时间复杂度的判断标准,在设计算法的时候,也不是简单地以CPU时间为优化目标,而是以I/O次数尽可能少为优化目标。
    7.面向新型体系结构的算法
    还有一种大数据处理算法是面向特定体系结构设计的,这里的特定体系结构包括多级cache,也包括GPU和FPGA。由于这些新体系结构的特征不同,所需要的算法设计技术也不同。
    8.现代优化算
    现代优化方法,包括遗传算法、模拟退火、蚁群算法、禁忌搜索等。它们在传统算法设计中的智能优化方面扮演了很重要的角色,在大数据处理算法里也有用武之地,考虑到大数据中数据量大、变化快的特点,在使用这些技术设计大数据算法时需要注意算法的可扩展性。

    1.3.2 大数据算法分析技术

    和传统算法分析相比,大数据算法分析尤其重要。因为在大数据上进行实验所需要的成本相对“小数据”大得多,因而完成算法计算所需的资源(时间和空间)或者某种性质(如精度)难以通过实验来得到,而必须通过理论分析来求得。当设计完一个大数据算法后,可以通过算法分析来求得所需资源(例如时间、空间或磁盘I/O)或某种性质(例如算法得到的解和精确解比例)与输入规模之间的关系,这样就可以基于算法在小规模数据上的实验结果来推演出算法在大规模数据上需要的计算资源或者某种性质所能够达到的程度,从而判定算法是否可行。对于大数据算法,主要分析如下因素:
    1.时间和空间复杂度
    和传统算法分析类似,大数据算法同样需要进行时间和空间复杂度分析。
    2. I/O复杂度
    有些情况下,大数据无法完全放入内存,必须设计外存算法,这时候需要分析磁盘I/O复杂度,即在算法运行过程中读写磁盘次数。
    3.结果质量
    由于大数据上的一些计算问题有时在给定的资源约束内无法精确完成,需要退而求其次,设计近似算法,在这种情况下需要分析计算结果的质量和近似比,即最优解和近似解之间的比例;对于在线算法,有时候需要分析竞争比(competitive ratio),即根据当前数据得到解的代价和知道所有数据的情况下得到解的代价相差多少。在后面章节中我们将会看到,在很多情况下,结果质量的分析往往要比结果效率的分析更复杂。
    4.通信复杂度
    当设计并行算法的时候,涉及多台机器,这些机器之间需要通信,这时需要知道算法运行过程中所需通信量的大小,也就是通信复杂度。
    从上述介绍可以看出,大数据算法分析的内容比传统算法要丰富,也涉及更多的算法分析技术。

    更多相关内容
  • 大数据算法

    2018-04-15 12:31:18
    总共两部分,要同时下载解压才有效,共32章,高清。
  • 大数据算法 王宏志

    2018-11-29 11:03:41
    大数据算法 王宏志 系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法
  • 大数据算法》┊王宏志著,高清完整PDF。仅供学习参考!
  • 黑龙江大学专业选修课大数据算法期末考试复习资料pdf,有需要的自取,开卷考试,这个是总结老师PPT的复习资料。总的来说这老师挺好的,就是考试太难了,对大数据算法很感兴趣的可以选,如果是混学分的话还是算了,难...
  • 关于举办2021年全国工业和信息化技术技能大赛电子数据取证分析师(工业大数据算法)赛项广东省选拔赛的通知.pdf
  • 大数据算法是大数据得以有效应用的基础,也是有志于从事大数据以及相关领域工作必须学习的课程。本书由从事大数据研究的专家撰写,系统地介绍了大数据算法设计与分析的理论、方法和技术。本书共分为10章,第1章概述...
  • 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门...
  • 大数据算法大全

    2017-11-01 14:15:55
    涉及数学相关的一些算法模型,特别适用于学习大数据算法的同学们
  • 大数据算法_王宏志

    2018-03-17 22:02:12
    本书系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法。书中提供了大量关于大数据算法设计与分析的实例,旨在阐述大数据算法设计技术,有助...
  • 大数据算法导论第四周,大数据算法导论第四周,大数据算法导论第四周,大数据算法导论第四周,大数据算法导论第四周
  • SVM大数据算法

    2018-07-28 15:23:41
    多维空间分类 大数据十大经典算法之一的SVM算法 很好的讲解PPT
  • 大数据算法概述

    2018-06-02 11:25:10
    如果你对大数据算法很感兴趣却又不知如何下手学习,你可以看看这篇ppt,概述了机器学习的几大经典算法,值得一试
  • 非常牛的大数据算法

    2018-07-18 23:40:11
    非常牛逼的大数据分析算法,推荐系统,大数据原理知识介绍
  • 大数据算法-哈尔滨工业大学-王宏志 全套课件 大数据算法-哈尔滨工业大学-王宏志 全套课件 大数据算法-哈尔滨工业大学-王宏志 全套课件
  • 大数据算法导论第六周,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!
  • 大数据算法 百度网盘

    2020-09-01 11:09:12
    大数据算法概述\亚线性算法\外存算法\外存图数据算法 等等 大数据算法概述\亚线性算法\外存算法\外存图数据算法 等等
  • 大数据上求解问题的过程: 1、问题是否可计算(图灵机模型)  当拿到一个计算问题,首先应该考虑该问题是否可计算。根据可计算理论,有很多问题计算机是无法计算的。我们今天的电子计算机模型是图灵机模型。在小数据...

    大数据上求解问题的过程:


    1、问题是否可计算(图灵机模型)
            当拿到一个计算问题,首先应该考虑该问题是否可计算。根据可计算理论,有很多问题计算机是无法计算的。我们今天的电子计算机模型是图灵机模型。在小数据上不可计算的问题,在大数据上肯定也不能计算。计算模型的能力是一样的,只是快慢有区别。
    2、计算的可行性

            大数据上的计算问题与传统计算问题有本质区别。第一、数据量巨大;第二、用来处理数据的资源有限;第三、大数据有很强的实时性,对计算时间有约束。在这三种约束之下分析问题,就是大数据上计算的可行性问题。

    3、算法设计与分析
            对于小数据上的算法可以通过实验测试性能,但是大数据上的算法如果通过实验测试性能会耗费大量的计算成本,所以大数据的算法分析十分重要。
    4、用计算机语言实现算法
            经过了大数据的算法分析后,得到了算法,接下来就要用计算机程序语言实现算法,得到一些程序模块。
    5、构建一个面向大数据的软件系统
            面向大数据的软件系统,需要在相应的平台上实现,比如Hadoop、Spark都是实现软件系统的平台。

    大数据算法

    定义:在给定的资源约束下,以大数据为输入,在给定的时间约束内可以计算出给定问题结果的算法。
    与传统算法相同之处:都是算法,具备算法的5个条件:有穷性、确定性、可行性、输入、输出。
    与传统算法区别之处:
    第一、资源约束,如内存、cpu计算能力等。
    第二、以大数据为输入,而不是小规模的输入。
    第三、大数据算法需要在时间约束之内产生结果。
    第四、大数据算法可以不是精确算法、可以不是内存算法(必须使用外存甚至网络存储)、可以不是串行算法(机群的并行算法)、可以人机协同工作(传统算法完全在电子计算机上执行,无人工参与)。

    概念区分:

    区分MapReduce、云计算、数据挖掘、大数据。

    1.基于MapReduce的算法是一类非常重要的大数据算法,但大数据算法不仅仅是MapReduce上的算法。

    2.云计算平台上的算法未必是面向大数据的。同样大数据算法也不全是云上的算法,大数据算法可以是基于单机、手机等低端设备。
    3.大数据的应用广泛,如数据的分析与挖掘、获取、清洗、查询、可视化等方面。其中数据分析与挖掘的商业价值较为明显。区分大数据和数据挖掘。

    4.大数据算法中涉及到很多数据管理的知识,所以和数据库中的算法关系密切。但大数据算法不仅仅是数据库中的算法,还有专门为大数据设计的算法。


    大数据算法的难度分析及解决办法

    难度主要体现在4个方面:
    第一:访问全部数据时间过长
            放弃使用全部数据,通过 读取部分数据得到一个较为满意的不精确的结果,但在可以接受的范围内。这种方法称作“ 时间亚线性算法”。
    第二:数据难以放入内存计算
            一个策略是把数据放到磁盘上,基于磁盘上的数据来设计算法,即 外存算法
            另一策略是不对全部的数据进行计算,而只向内存里放入部分数据,从而得到一个质量较为满意的结果,这种方法称作“ 空间亚线性算法”。
    第三:单个计算机难以保存全部数据,计算需要全部数据
            这种情况往往需要采用并行处理技术,设计 并行算法。在多数人的理解中,大数据算法就等同于并行算法,但大数据算法不完全是并行算法。
    第四:计算机计算能力不足或知识不足
            人工参与,这类算法叫做“ 众包算法”。

    大数据的算法设计与分析:

    1、精确算法设计方法:就是传统算法设计与分析中讲述的贪心法、分治法、DP、搜索、剪枝。
    2、并行算法:多机并行协同处理,所以机器之间需要通信,在分析算法时间复杂度时,需要考虑通信量的大小,即 通信复杂度
    3、近似算法:如上面提到的时间亚线性、空间亚线性算法。近似算法中需要分析计算 结果的质量和近似比(最优解和近似解的比例)
    4、随机算法:最典型的一个技术就是抽样。虽无法处理整个数据集合,但可以从中抽取部分数据进行处理,通过抽样以小见大。
    5、在线算法/数据流算法
            这种算法是指数据源源不断地到来,根据到来的数据返回相应的部分结果。适用于两种情况:
            第一、数据量非常大仅能扫描一次时,可以把数据看成数据流,把扫描看成数据到来。
            第二、数据更新非常快,不能把所有数据都保存下来再计算结果,此时可以把数据看成是一个数据流。
            在线算法中需要分析 竞争比,即根据当前数据得到的解和知道所有数据的情况下得到解的代价相差多少。
    6、外存算法
            这种算法在分析算法时间复杂度时以I/O次数作为判断标准。
    7、面向新型体系结构的算法
            特定的体系结构包括多级cache、GPU、FGPU。
    8、现代优化算法:模拟退火、蚁群、遗传、禁忌搜索等。
    展开全文
  • 大数据算法(课后答案总汇)

    千次阅读 2020-06-29 08:26:32
    第一讲 大数据算法概述 大数据算法概述 第一讲作业 第二讲 亚线性算法 亚线性算法概述 亚线性算法概述单元测验 第三讲 亚线性算法例析 亚线性算法例析 第三讲作业 第四讲 外存算法概述 外存算法概述 第四讲作业 第五...

    第一讲 大数据算法概述

    大数据算法概述

    第一讲作业

    第二讲 亚线性算法

    亚线性算法概述

    亚线性算法概述单元测验

    第三讲 亚线性算法例析

    亚线性算法例析

    第三讲作业

    第四讲 外存算法概述

    外存算法概述

    第四讲作业

    第五讲 外存查找结构

    外存查找结构

    第五讲作业

    第六讲外存图数据算法

    外存图数据算法

    第六讲作业

    第七讲 基于MapReduce的并行算法设计

    基于MapReduce的并行算法设计

    第七讲作业

    第八讲 MapReduce算法例析

    MapReduce算法例析

    第九讲 超越MapReduce的并行大数据处理

    超越MapReduce的并行大数据处理

    第九讲作业

    第十讲 众包算法

    众包算法

    第十讲作业

    1【单选题】
    以下关于大数据的特点,叙述错误的是()。
    A、速度慢
    B、多元、异构
    C、数据规模大
    D、基于高度分析的新价值
    我的答案:A
    2【单选题】在《法华经》中,“那由他”描写的“大”的数量级是()。
    A、10^7
    B、10^14
    C、10^28
    D、10^56
    我的答案:C
    3【多选题】以下选项中,大数据涉及的领域中包括()。
    A、社交网络
    B、医疗数据
    C、计算机艺术
    D、医疗数据
    我的答案:ABCD
    4【多选题】大数据的应用包括()。
    A、预测
    B、推荐
    C、商业情报分析
    D、科学研究
    我的答案:ABCD
    5【判断题】目前,关于大数据已有公认的确定定义。
    我的答案:×
    6【判断题】大数据种类繁多,在编码方式、数据格式、应用特征等方面都存在差异。()
    我的答案:√
    【单选题】
    大数据求解计算问题过程的第三步一般是()。
    A、判断可计算否
    B、判断能行可计算否
    C、算法设计与分析
    D、用计算机语言实现算法
    我的答案:C
    2【多选题】在大数据求解计算问题中,判断是否为能行可计算的因素包括()。
    A、数据量
    B、资源约束
    C、速度约束
    D、时间约束
    我的答案:ABD
    3【判断题】大数据求解计算问题过程的第一步是确定该问题是否可计算。
    我的答案:√
    4【判断题】大数据计算模型与一般小规模计算模型一样,都使用的是图灵机模型。
    我的答案:√
    【多选题】资源约束包括()。
    A、CPU
    B、网络带宽
    C、内存
    D、外存
    我的答案:ABCD
    2【多选题】大数据算法可以不是()。
    A、云计算
    B、精确算法
    C、内存算法
    D、串行算法
    我的答案:BCD
    3【判断题】大数据算法是在给定的时间约束下,以大数据为输入,在给定资源约束内可以生成满足给定约束结果的算法。
    我的答案:×
    4【判断题】MapReduce是一种比较好实现大数据算法的编程架构,在生产中得到广泛应用。
    我的答案:√
    5【判断题】大数据算法是仅在电子计算机上运行的算法。
    我的答案:×
    1【单选题】
    众包算法是用来解决()。
    A、访问全部数据时间过长
    B、数据难于放入内存计算
    C、单个计算机难以保存全部数据,计算需要整体数据
    D、计算机计算能力不足或知识不足,需要人来帮忙
    我的答案:D
    2【单选题】大数据算法存在很多难题,对于访问全部数据时间过长的问题,采用的解决方案是()。
    A、将数据存储到磁盘上
    B、仅基于少量数据进行计算
    C、读取部分数据
    D、并行处理
    我的答案:C
    3【多选题】大数据算法的()特点,使其与大数据算法密切相关的。
    A、数据量大
    B、基于高度分析的新价值
    C、速度快
    D、多样性、复杂性
    我的答案:AC
    4【判断题】为解决单个计算机难以保存全部数据的问题,通常会采用并行处理的技术,此技术会涉及到时间亚线性算法。
    我的答案:×
    【单选题】大数据算法涉及到外存的时候,通常要分析()。
    A、时间空间复杂性
    B、IO复杂性
    C、结果质量
    D、通讯复杂性
    我的答案:B
    2【多选题】下列选项中,属于智能仿生算法的是()。
    A、遗传算法
    B、近似算法
    C、模拟退火算法
    D、数据流算法
    我的答案:AC
    3【判断题】在线算法/数据流算法是面向大数据速度快的特点提出的。()
    我的答案:√
    4【判断题】对于数据流算法或在线算法,经常要分析结果的近似比。()
    我的答案:×
    5【判断题】随机算法是利用随机化的方法来进行大数据处理,是大数据算法设计技术之一。()
    我的答案:√
    1【单选题】计算在一个给定社交网络中平均每人的朋友个数,在不访问所有顶点的情况下,进行精确计算最少需要访问()个顶点。
    A、n²
    B、n+1
    C、2n
    D、n-1
    我的答案:D
    2【多选题】亚线性是指()等的消耗是输入规模o。()
    A、时间
    B、空间
    C、IO
    D、通讯
    我的答案:ABCD
    3【判断题】性质检测算法属于亚线性空间算法的一类。()
    我的答案:×
    【判断题】
    在经典的水库抽样中,要求空间复杂性为O(k),是指与抽样大小有关,而与整个数据的数据量无关。
    我的答案:√
    2【判断题】水库抽样算法的采样是均匀的。
    我的答案:√
    【单选题】
    以下()不是衡量分析近似解代价与优化解代价差距的方法。
    A、Ratio Bound

    B、相对误差

    C、绝对误差

    D、(1-ℇ)-近似
    我的答案:C
    2【单选题】利用平面图的直径近似算法得到的解,在最坏情况下,也不会小于最优解的()。
    A、二分之一
    B、三分之一
    C、四分之一
    D、十分之一
    我的答案:A
    3【单选题】采用平面图的直径近似算法的动机是无法在要求的时间内得到()。
    A、相似解
    B、完整解
    C、精确解
    D、近似解
    我的答案:C
    4【判断题】在平面图的直径近似算法中,要求点之间的距离满足三角不等式是指在i、j、k三个点中,i到j的距离加上j到k的距离小于i到k的距离。
    我的答案:×
    5【判断题】近似算法能给出一个优化问题的优化解。
    我的答案:×
    6【判断题】Ratio Bound越大,则近似解越坏。()
    我的答案:√
    1【多选题】
    在判定问题的近似中,对于近似解需要区分的是()。
    A、是

    B、否

    C、差不离

    D、差得很远

    我的答案:AD
    2【判断题】全0数组判定的近似算法的证据引理是:如果一次测试以大于等于p的概率获得一个证据,那么s=2/p轮测试得到证据的概率大于等于1/2。
    我的答案:×
    3【判断题】判定问题的近似解是指:输入满足某种性质或近似满足某种性质。
    我的答案:×
    1【判断题】
    Zipf原则是指典型的频率分布是高度偏斜的,存在很多频繁元素。()

    我的答案:×
    2【判断题】在数据流模型中,从数据流中可以计算简单的函数,如最大值、最小值、求和等,且处理这些函数时通常使用单个寄存器s。()
    我的答案:√
    3【判断题】数据流模型中,数据流是指来自某个域中的元素序列。()
    我的答案:√
    4【判断题】在数据流模型中,内存远远大于数据的规模。()
    我的答案:×
    1【单选题】
    频繁元素计算算法又称为()算法。

    A、MM

    B、MG

    C、GM

    D、MP

    我的答案:B
    2【单选题】频繁元素计算算法有效的原因是源于()。
    A、取近似解
    B、证据引理
    C、错误界限和k成反比
    D、Zipf原则
    我的答案:D
    3【判断题】在频繁元素计算算法中,计数器x减少的次数依赖于有几个减少计数器的步骤。()
    我的答案:√
    4【判断题】在频繁元素计算算法中,当数据流中元素的总个数远大于估计值与真实值相差的最多值时,可以得到频繁项一个好的估计。
    我的答案:√
    1【单选题】
    时间亚线性算法的思想是:利用特定子图联通分量的数量估计最小生成树的()。

    A、近似值

    B、精确值

    C、权重

    D、界限

    我的答案:C
    2【单选题】求最小生成树是一个贪心法,可以用()算法来解决。
    A、Prime
    B、并行
    C、MG
    D、内存
    我的答案:A
    3【判断题】对联通分量个数的估计可以利用随机化方法。
    我的答案:√
    【单选题】
    对于输入n个数的数组(x1,x2,x3,……,xn),输出:这个数组是否有序。ℇ远离意味着必须删除大于()个元素才能保证剩下的元素有序。

    A、ℇ-n

    B、ℇn

    C、ℇ/n

    D、n/ℇ

    我的答案:B
    2【判断题】如果一次测试以大于等于p的概率获得一个证据,那么s=2/p轮测试得到证据的概率大于等于3/4。
    我的答案:×
    3【判断题】关于证明如果输入ℇ远离有序,则存在大于ℇn个“坏索引”的问题,可以采用证明其逆否命题的方法。
    我的答案:√
    【单选题】
    下列选项中叙述正确的是()。

    A、磁盘的访问可以随机读、随机取

    B、磁盘系统传输大规模连续的数据块的范围是18-32k

    C、磁盘访问比主存访问的速度快

    D、大多数程序在RAM模型上运行

    我的答案:
    2【判断题】对于大数据而言,标准计算理论模型失效的原因之一是内存是有限的,无法存储所有的内存。()
    我的答案:√
    3【判断题】当内存不够或者算法设计不好时,如果数据量达到一定规模以上,运行时间会急剧增加。
    我的答案:√
    4【判断题】现代计算机有复杂的存储层次,存储单元的访问是以块为单位的数据移动。()
    我的答案:√
    【单选题】
    在内存中的二分搜索树中,通常使用()来维护树的平衡。()

    A、置换
    B、分裂
    C、旋转
    D、合并

    我的答案:C
    2【判断题】二叉搜索树是在n个元素之间搜索的标准方法,一般把元素保存在根处。()
    我的答案:×
    3【判断题】为更快地保存外部搜索树,可采取按BFS的顺序将其分割。()
    我的答案:√
    1【单选题】
    外存归并排序,以()为单位进行调度。
    A、比特
    B、兆
    C、块
    D、层

    我的答案:C
    2【判断题】排序分为内部排序和外部排序,外部排序是因排序的数据很大,一次不能容纳全部的排序内容,在排序过程中需要访问外存。()
    我的答案:√
    1【单选题】在外排序的快速排序中,分割元素的选择非常重要。
    A、正确
    B、错误
    我的答案:A
    1【单选题】如果T是一个(a,b)-树(a≧2且b≧2a-1),其根结点的度在()之间。
    A、2到a
    B、2到b
    C、a到b
    D、2到4
    我的答案:B
    2【判断题】在(a,b)-树中,a和b表示的是每个节点当中键值的上限和下限。()
    我的答案:×
    3【判断题】B-树中右边的指针指向的是键值小于最右键值的子数。()
    我的答案:×
    【单选题】
    元素都在叶子中的B-树有时被称为()。

    A、B+树

    B、B-+树

    C、B±树

    D、B±数

    我的答案:C
    2【判断题】关于(a,b)—树的删除操作,删除操作出现问题的情形是:从叶子v删除元素后,v的儿子小于a-1个。()
    我的答案:√
    3【判断题】关于(a,b)-树的插入,插入涉及到的结点最多到树高+1。()
    我的答案:√
    【单选题】
    KD树在()层使用水平线。

    A、偶数层

    B、奇数层

    C、最底层

    D、最高层

    我的答案:A
    2【单选题】KdB-树的插入可以使用()的方法。
    A、近似
    B、置换
    C、对数
    D、重构
    我的答案:C
    3【单选题】构建KDB-树时,完成网格建立之后,计算每个网格中点的个数,并且存储在()中。
    A、外存
    B、数据库
    C、寄存器
    D、内存
    我的答案:D
    4【判断题】基于位置的查找实际上是一种三维空间的查找。()
    我的答案:×
    5【判断题】KD树可以看成是两个二叉树的交叠。()
    我的答案:√
    1【单选题】
    为数T的每个结点标上子树大小的I/O复杂度为()。

    A、IO (sort(N))

    B、O (sort(N))

    C、IO(scan(N))

    D、O(scan(N))

    我的答案:B
    2【单选题】前序计数的I/O复杂度为()。
    A、IO (sort(N))
    B、O (sort(N))
    C、IO(scan(N))
    D、O(scan(N))
    我的答案:B
    3【单选题】对给定顶点邻接链表T,其一个欧拉回路可以以()IO复杂性求得。
    A、O (sort(N))
    B、O(scan(N))
    C、O(scan(N))IO
    D、IO(scan(N))
    我的答案:C
    4【判断题】外存算法最坏情况的I/O数位Ω(N)。()
    我的答案:×
    5【判断题】图中的独立集是指图当中点的集合,其任意两点之间不存在边。()
    我的答案:√
    1【单选题】
    查找规模为N的表L中,每个独立集(MIS)的大小至少为()。

    A、n+1

    B、2n

    C、n/2

    D、n/3

    我的答案:D
    2【单选题】时间前向的处理方法是按照()来访问边。
    A、欧拉回路
    B、表排序
    C、拓扑序
    D、结点序
    我的答案:C
    3【判断题】求最大独立集的基本思想是使用贪心法。()
    我的答案:√
    1【单选题】图算法包含三种计数,其中将图问题表示为有向无环图的估值问题的是()。
    A、自举
    B、缩图法
    C、时间前向处理
    D、连通分量
    我的答案:C
    2【单选题】半外存算法是假设()。
    A、边放在内存中,顶点在外面
    B、顶点放在内存中,边在外面
    C、顶点和边都放在内存当中
    D、顶点和边都不在内存当中
    我的答案:B
    3【判断题】图的连通性算法可扩增为求图G最小生成树(MST)的算法。()
    我的答案:√
    4【判断题】在求最小生成树时,压缩后图中某条边的权值等于该边代表的所有边的权值最大值。()
    我的答案:×
    1【单选题】MapReduce是由()开发的分布式编程模型。
    A、Microsoft
    B、Google
    C、Tencent
    D、Alibaba Group
    我的答案:B
    2【单选题】在实现MapReduce程序时,需要注意的事项不包括()。
    A、避免创建对象
    B、避免缓冲
    C、避免通信
    D、避免Mapper和Reducer间的全局变量传递
    我的答案:C
    3【多选题】MapReduce的执行框架处理的内容包括()。
    A、调度
    B、数据分布
    C、将中间数据进行聚集、排序或洗牌
    D、进行错误处理
    我的答案:ABCD
    4【多选题】理想的可扩展性有()。
    A、数据加倍,运行时间减半
    B、数据加倍,运行时间加倍
    C、资源加倍,运行时间减半
    D、资源加倍,运行时间加倍
    我的答案:BC
    5【判断题】Map()和Reduce()两个函数不能够并行运行。()
    我的答案:×
    1【单选题】
    在版本1的字数统计中,在Map里使用了一个数组H,其作用是为每一个出现的单词作()。

    A、序列

    B、基数

    C、集合

    我的答案:B
    1【判断题】
    大部分时候reducer不能用作combiner。()

    我的答案:√
    2【判断题】combiner的运行次数可能有多次。
    我的答案:√
    1【多选题】关于单词共现矩阵的计算,说法正确的是()。
    A、计算文本集合中词的共现矩阵
    B、词的个数如果为N,输出为M*N的矩阵
    C、是一种测量语义距离的方法
    D、语义距离可用于许多语言处理任务
    我的答案:ACD
    2【多选题】用单词共现矩阵解决大规模计数问题的基本方法是()。
    A、Mapper生成部分计数
    B、Reducer生成部分计数
    C、Reducer聚合部分计数
    D、Mapper聚合部分计数
    我的答案:AC
    3【多选题】“条纹法”的优点有()。
    A、易于实现
    B、对key-value对的排序和洗牌少得多
    C、潜在对象更大
    D、能更好地利用combiner
    我的答案:BD
    4【判断题】在“词对法”中,每个mapper处理一个句子。()
    我的答案:√
    5【判断题】“词对法”的缺点是不易实现,排序和洗牌代价高。()
    我的答案:×
    6【判断题】f(B|A)词对法必须确定所有a被传递到同一个combiner。()
    我的答案:×
    1【单选题】
    在repartition join的改进中,说法错误的是()。

    A、Map函数的输出键作为连接键

    B、Map函数的输出键变化为连接键和表名的组合。

    C、Partition函数中Hashcode仅从组合键的连接键计算

    D、Grouping函数仅根据连接键分组纪录

    我的答案:A
    2【多选题】用MR进行多重集相似连接算法的常见计算包括()。
    A、三角函数
    B、单元函数
    C、合取函数
    D、析取函数
    我的答案:BCD
    3【判断题】自然连接是从两个关系的笛卡尔积中选取给定属性间满足一定条件的元组。()
    我的答案:×
    4【判断题】等值连接不必在结果中去掉重复的属性。()
    我的答案:√
    1【判断题】
    在迭代MapReduce中,reduce的输出必须和map的输入兼容。()

    我的答案:√
    2【判断题】“推荐好友”是图算法在社交网络中的一种实际用例。()
    我的答案:√
    【单选题】
    找到一个稠密图的最小生成树的算法易于并行化的原因是每个子图的()可以被并行计算。

    A、边

    B、顶点

    C、结点

    D、最小生成树

    我的答案:D
    2【单选题】基于路径的算法的例子不包括()。
    A、单源最短路径
    B、最小生成树
    C、分布式不动点运算
    D、拓扑排序
    我的答案:C
    3【多选题】在基于路径的算法中,边的标记包括()。
    A、代价
    B、距离
    C、相似性
    D、属性
    我的答案:ABC
    4【判断题】Dijkstra算法需要并行化。()
    我的答案:×
    【多选题】缓存迭代的方法是()。
    A、在Mapper前加入输入缓存
    B、在Mapper后加入输出缓存
    C、在Reducer前加入输入缓存
    D、在Reducer后加入输出缓存
    我的答案:ACD
    2【判断题】MapReduce是一种非递归描述性语言的通用运行平台。()
    我的答案:√
    3【判断题】Reducer输入缓存的条件是使用静态划分方法,即意味着没有新的结点。()
    我的答案:√
    【单选题】
    关于并行节点计算,下列选项中关于节点叙述不准确的是()。

    A、每一个节点接受上一个superstep发出的消息

    B、执行相同的用户定义函数

    C、所有节点根据用户定义函数修改它的值

    D、没有额外工作要做时继续迭代

    我的答案:D
    2【单选题】Pregel系统中Master的作用不包括()。
    A、维护worker
    B、恢复workers产生的错误
    C、提供Web-UI监督工作进程工具
    D、与worker交流
    我的答案:D
    3【多选题】并行结点计算的终止条件是()。
    A、消息传送到其他点后
    B、所有顶点同时变为非活跃状态
    C、迭代结束
    D、没有信息传递
    我的答案:BD
    4【多选题】用Pregel计算子图同构问题,其三个步骤是()。
    A、查询分解
    B、搜索
    C、迭代
    D、Join
    我的答案:ABD
    5【判断题】Pregel的编程形式,在执行计算的机器上每一阶段都利用整个图的全部状态。()
    我的答案:×
    1【单选题】
    众包通过一系列的机制和方法来指导和协调()的行为,从而达到目的。

    A、个人
    B、计算机
    C、群体
    D、软件

    我的答案:C
    2【判断题】外包与众包的区别在于众包的参与者数量大且不固定的。()
    我的答案:√
    3【判断题】Wikipedia是众包案例的一种最成功的应用之一。()
    我的答案:√
    4【判断题】众包极大程度地使用了人本计算,因此它基本上等同于人本计算。()
    我的答案:×
    【单选题】
    人脸识别是利用众包改进图像()的例子。

    A、分类

    B、区分

    C、确认

    D、搜索

    我的答案:D
    2【多选题】下列属于众包应用的例子有()。
    A、验证码
    B、机器翻译
    C、图像搜索
    D、数据库查询
    我的答案:ABCD
    3【判断题】众包技术应用于广告中的情形之一是区分关键词与广告的相关程度。()
    我的答案:√
    4【判断题】目前众包技术已经可以判断两幅画在艺术风格上是否一致。()
    我的答案:×
    1
    【单选题】
    众包中质量控制/数据质量要考虑的问题不包括()。

    A、可靠性
    B、垃圾结果检测
    C、标签共识
    D、界面和交互设计
    我的答案:D
    2【多选题】众包中的参与者包括()。
    A、请求者
    B、平台
    C、工人
    D、评估者
    我的答案:ABC
    3【多选题】在人机交互中从用户获取输入的方式有()。
    A、调查
    B、快速原型
    C、可用性测试
    D、认知走查
    我的答案:ABCD
    4【判断题】众包中工人的回报是多样的。()
    我的答案:√
    5【判断题】难以核实主观任务是资格测试的缺点之一。()
    我的答案:√
    6【判断题】任务分配的拉方法是指系统采取完全的控制将制定的任务分配给工人。()
    我的答案:×
    1【单选题】
    采用把大连通分量划分成高度连接的小连通分量基本思路的方法是()

    A、CrowdDB

    B、混合人机工作流程

    C、双层法

    D、分批策略

    我的答案:C
    2【多选题】用机器完成众包的优势有()。
    A、省钱
    B、省时
    C、数量大
    D、质量高
    我的答案:AB
    3【判断题】目前众包技术完全由计算机来完成。()
    我的答案:×
    4【判断题】基于簇的HIT生成问题的优化目标是生成最小数目基于簇的HIT。()
    我的答案:√

    展开全文
  • 大数据算法 十大经典算法

    万次阅读 2017-12-27 14:39:08
    C4.5,是机器学习算法中的一个分类决策树算法, 它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法 ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。 ...
    一、C4.5
    C4.5,是机器学习算法中的一个分类决策树算法,
    它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法
    ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。
    决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。
    C4.5相比于ID3改进的地方有:
    1、用信息增益率来选择属性。
    ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy,熵是一种不纯度度量准则),
    也就是熵的变化值.
    而C4.5用的是信息增益率。对,区别就在于一个是信息增益,一个是信息增益率。
    一般来说率就是用来取平衡用的,就像方差起的作用差不多,
    比如有两个跑步的人,一个起点是10m/s的人、其10s后为20m/s;
    另一个人起速是1m/s、其1s后为2m/s。
    如果紧紧算差值那么两个差距就很大了,如果使用速度增加率(加速度,即都是为1m/s^2)来衡量,2个人就是一样的加速度。
    因此,C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。
    2、在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致overfitting。
    3、对非离散数据也能处理。
    4、能够对不完整数据进行处理。
     
    二、The k-means algorithm 即K-Means算法
    k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割(k < n)。
    它与处理混合正态分布的最大期望算法(本十大算法第五条)很相似,因为他们都试图找到数据中自然聚类的中心。
    它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
     
    三、 Support vector machines
    支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。
    它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。
    支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。
    在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。
    假定平行超平面间的距离或差距越大,分类器的总误差越小。
    一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。
    van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。
     
    四、The Apriori algorithm
    Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
    其核心是基于两阶段频集思想的递推算法。
    该关联规则在分类上属于单维、单层、布尔关联规则。
    在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
     
    五、最大期望(EM)算法
    在统计计算中,最大期望 (EM,Expectation–Maximization)算法是在概率
    (probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。
    最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。
     
    六、 PageRank
    PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里•佩奇(Larry Page)。
    因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
    PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。
    PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。
    这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。
    PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。
     
    七、AdaBoost
    Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),
    然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。
    其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,
    以及上次的总体分类的准确率,来确定每个样本的权值。
    将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。
     
    八、 kNN: k-nearest neighbor classification
    K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
    该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的
    大多数属于某一个类别,则该样本也属于这个类别。
     
    九、 Naive Bayes
    在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和
    朴素贝叶斯模型(Naive Bayesian Model,NBC)。 
    朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
    同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
    理论上,NBC模型与其他分类方法相比具有最小的误差率。
    但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中
    往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之
    间相关性较大时,NBC模型的分类效率比不上决策树模型。
    而在属性相关性较小时,NBC模型的性能最为良好。
     
    十、 CART: 分类与回归树
    CART, Classification and Regression Trees。在分类树下面有两个关键的思想:第一个
    是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
    展开全文
  • 大数据算法分析.zip

    2021-02-23 07:46:24
    大数据算法分析.zip
  • 大数据算法实验教学大纲 大纲制定修订时间 2017 年 11 月 课程名称 大数据算法 课程编码 0 课程类别专业基础课 课程性 质 选修 适用专业通信工程 课程总学时 40 实验上机计划学时 8 开课单位 理学院 一大纲编写依据 ...
  • 大数据算法(一)

    千次阅读 2018-06-05 10:33:49
    1.大数据算法的定义 在给定的资源约束下,以大数据为输入,在给定的时间约束内可以生成满足给定约束结果的算法。 大数据算法可以不是 精确算法 内存算法 串行算法 仅在电子计算机上运行的算法 ...
  • 大数据算法基础课程教案 大数据算法基础课程教案 开课单位 开课单位 授课教师 授课教师 职 称 职 称 课程性质 课程性质 适用专业 大数据 适用专业 大数据 总 课 时 72 总 课 时 72 理论课时 36 理论课时 36 实践课时...
  • 大数据算法(概述)

    千次阅读 2018-10-22 08:37:21
    大数据算法的难度 访问全部数据时间过长 读取部分数据 时间亚线性算法 数据难以放入内存计算 将数据存储到磁盘上 外存算法 仅基于少量数据进行计算 空间亚线性算法 单个计算机难以保存全部数据,计算需要整体...
  • 大数据算法2019尔雅答案.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 262,221
精华内容 104,888
关键字:

大数据算法

友情链接: UML.rar