大数据算法 订阅
《大数据算法》是哈尔滨工业大学提供的慕课课程,授课老师是王宏志。 展开全文
《大数据算法》是哈尔滨工业大学提供的慕课课程,授课老师是王宏志。
信息
授课老师
王宏志
类    别
慕课
中文名
大数据算法
提供院校
哈尔滨工业大学
大数据算法课程简介
大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,并通过本门课程的作业,掌握大数据算法设计与分析的技术。 [1] 
收起全文
精华内容
下载资源
问答
  • 大数据算法

    2018-10-30 16:43:30
    大数据算法
  • 本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 大数据算法 这一节我们概述大数据算法。 1.2.1 大数据上求解问题的过程...

    本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    1.2 大数据算法

    这一节我们概述大数据算法。

    1.2.1 大数据上求解问题的过程

    首先我们看一看在大数据上问题求解的过程。我们面对的是一个计算问题,也就是说我们要用计算机来处理一个问题。
    拿到一个计算问题之后,首先需要判定这个问题是否可以用计算机进行计算,如果学习过可计算性理论,就可以了解有许多问题计算机是无法计算的,比如判断一个程序是否有死循环,或者是否存在能够杀所有病毒的软件,这些问题都是计算机解决不了的。从“可计算”的角度来看,大数据上的判定问题和普通的判定问题是一样的,也就是说,如果还是用我们今天的电子计算机模型,即图灵机模型,在小数据上不可计算的问题,在大数据上肯定也不可计算。计算模型的计算能力是一样的,只不过是算得快慢的问题。
    那么,大数据上的计算问题与传统的计算问题有什么本质区别呢?
    第一个不同之处是数据量,就是说处理的数据量要比传统的数据量大。第二个不同之处是有资源约束,就是说数据量可能很大,但是能真正用来处理数据的资源是有限的,这个资源包括CPU、内存、磁盘、计算所消耗的能量。第三个不同之处是对计算时间存在约束,大数据有很强的实时性,最简单的一个例子是基于无线传感网的森林防火,如果能在几秒之内自动发现有火情发生,这个信息是非常有价值的,如果三天之后才发现火情,树都烧完了,这个信息就没有价值,所以说大数据上的计算问题需要有一个时间约束,即到底需要多长时间得到计算结果才是有价值的。判定能否在给定数据量的数据上,在计算资源存在约束的条件下,在时间约束内完成计算任务,是大数据上计算的可行性问题,需要计算复杂性理论来解决,然而,当前面向大数据上的计算复杂性理论研究还刚刚开始,有大量的问题需要解决。
    注意:在本书中,有的算法可能很简单,寥寥几行就结束了,然而后面的分析却长达几页。这本书花更大的精力讲授算法分析,是因为在大数据上进行算法设计的时候,要先分析清楚这个算法是否适用于大数据的情况,然后才能使用。
    本书讨论的主要内容是大数据上算法的设计与分析,即设计大数据上的算法并且加以分析。
    特别值得说明的一点是,对于大数据上的算法,算法分析显得尤为重要,这是为什么呢?对于小数据上的算法可以通过实验的方法来测试性能,实验可以很快得到结果,但是在大数据上,实验就不是那么简单了,经常需要成千上万的机器才能够得出结果。为了避免耗费如此高的计算成本,大数据上的算法分析就十分重要了。
    经过算法设计与分析,得到了算法。接着需要用计算机语言来实现算法,得到的是一些程序模块,下一步用这些程序模块构建软件系统。这些软件系统需要相应的平台来实现,比如常说的Hadoop、SparK都是实现软件系统的平台。
    上面的叙述可以归纳为图1-1,从中可以看到,大数据算法与分析在整个大数据问题求解过程中扮演着一个核心的角色,因而本书将对此重点介绍。

    1

    1.2.2 大数据算法的定义

    1.大数据算法是什么
    根据大数据上的计算过程可以定义大数据算法的概念,如定义1-1所示。
    定义1-1(大数据算法) 在给定的资源约束下,以大数据为输入,在给定时间约束内可以计算出给定问题结果的算法。
    这个定义和传统的算法有一样的地方,首先大数据算法也是一个算法,有输入有输出;而且算法必须是可行的,也必须是机械执行的计算步骤。
    补充知识:算法的定义
    定义A-1(计算) 可由一个给定计算模型机械地执行的规则或计算步骤序列称为该计算模型的一个计算。
    定义A-2(算法) 算法是一个满足下列条件的计算:
    1) 有穷性/终止性:有限步内必须停止;
    2) 确定性:每一步都是严格定义和确定的动作;
    3) 可行性:每一个动作都能够被精确地机械执行;
    4) 输入:有一个满足给定约束条件的输入;
    5) 输出:满足给定约束条件的结果。

    第一个不同之处是,大数据算法是有资源约束的,这意味着资源不是无限的,可能在100KB数据上可行的算法在100MB的数据上不可行,最常见的一个错误是内存溢出。这意味着进行大数据处理的内存资源不足,因此在大数据算法的设计过程中,资源是一个必须考虑的约束。第二个不同之处是,大数据算法以大数据为输入,而不是以传统数据的小规模为输入。第三个不同之处是,大数据算法需要在时间约束之内产生结果,因为有些情况下过了时间约束大数据会失效,有些情况下超过时间约束的计算结果没有价值。
    2.大数据算法可以不是什么
    有了大数据作为输入和运行时间作为约束,大数据算法和传统算法就有了明确的区别。
    第一,大数据算法可以不是精确算法。因为有些情况下,能够证明对于给定的数据输入规模和资源约束,确实不可能得到精确解。
    第二,大数据算法可以不是内存算法。由于数据量很大,在很多情况下,把所有数据都放在内存中几乎不可能,因为对于现在的PC来说,内存的规模在GB级,对于高档一些的并行机和服务器来说内存也就是TB级,这个规模对于许多应用中的数据量是远远不够的,必须使用外存甚至于网络存储。因此,大数据算法可以不仅仅在内存中运行。
    第三,大数据算法可以不是串行算法。有的时候,单独一台计算机难以处理大规模数据,需要多台机器协同并行计算,即并行算法。一个典型的例子是Google公司中的计算,为了支持搜索引擎,Google公司需要处理大规模来自互联网的数据,因而大数据里面的很多重要概念是Google提出的,例如并行平台MapReduce。Google公司的数据规模太大,再好的机器也无法独自处理,需要用成千上万台机器构成一个机群来并行处理。
    第四,大数据算法可以不是仅在电子计算机上运行的算法。有时对于某些任务而言,让计算机处理很复杂,而让人做很简单。对于这些问题,可以让人和计算机一起来做,因此就有了人和计算机协同的算法。
    而传统算法分析与设计课程中的算法,主要是内存算法、精确算法、串行算法且完全在电子计算机上执行,这和本书中的大数据算法不同。
    3.大数据算法不仅仅是什么
    下面从大数据概念出发,澄清一些大数据算法的片面观点。
    第一,大数据算法不仅仅是基于MapReduce的算法。讲到大数据算法,可能有很多人就会想到MapReduce,MapReduce上的算法确实在很多情况下适用于大数据,而且更确切说MapReduce上的算法是一类很重要的大数据算法,但是大数据算法不仅是MapReduce上的算法。
    第二,大数据算法不仅仅是云计算平台上的算法。说到大数据算法,很多人可能会想到云计算,云上的算法是不是大数据算法呢?云上的算法不全是大数据算法,有的算法不是面向大数据的,例如安全性相关的算法和计算密集型算法,而且大数据算法也不都是云上的算法,大数据算法有的可以是单机的,甚至可以是手机或者传感器这种计算能力很差的设备。
    第三,大数据算法不仅仅是数据分析与挖掘中的算法。分析与挖掘是大数据中比较热的概念,也确实是大数据的重要方面。之所以用得比较多,是因为其商业价值比较明显。然而,大数据的应用除了需要分析与挖掘,还有获取、清洗、查询处理、可视化等方面,这些都需要大数据算法的支持。
    第四,大数据算法不仅仅是数据库中的算法。提到大数据,自然会联想到这是和数据管理密切相关的。大数据算法是否等同于数据库中的算法呢?不完全是这样,虽然数据库中的算法是大数据算法的一个重要组成部分,今天进行大数据算法研究的多是数据库和数据管理研究领域的专家,但是不全是数据库领域的。当前研究大数据算法的专家,有的研究背景是数学理论和算法理论,还有的来自机器学习和各种大数据应用的研究领域。因此大数据算法不仅仅是数据库中的算法,还有专门为大数据设计的算法。

    1.2.3 大数据的特点与大数据算法

    大数据的特点决定了大数据算法的设计方法。正如前面所介绍的,大数据的特点通常用四个V来描述。这四个V里面和大数据算法密切相关的,有两个V。一个是数据量(Volume)大,也就是大数据算法必须处理足够大的数据量。另一个是速度(Velocity),速度有两方面:①大数据的更新速度很快,相应的大数据算法也必须考虑更新算法的速度;②要求算法具有实时性,因此大数据算法要考虑到运算时间。对于另外两个V,我们假设大数据算法处理的数据已经是经过预处理的,其多样性(Variety)已经被屏蔽掉了。关于价值(Value)本书也不考虑,而假设数据或算法的价值是预先知道的。

    1.2.4 大数据算法的难度

    要设计一个大数据算法并不容易,因为大数据具有规模大、速度快的特点。大数据算法设计的难度主要体现在四个方面。
    1.访问全部数据时间过长
    有的时候算法访问全部数据时间太长,应用无法接受。特别是数据量达到PB级甚至更大的时候,即使有多台机器一起访问数据,也是很困难的。在这种情况下怎么办呢?只能放弃使用全部数据这种想法,而通过部分数据得到一个还算满意的结果,这个结果不一定是精确的,可能是不怎么精确的而基本满意,这就涉及一个“时间亚线性算法”的概念,即算法的时间复杂度低于数据量,算法运行过程中需要读取的数据量小于全部数据。
    2.数据难以放入内存计算
    第二个问题是数据量非常大,可能无法放进内存。一个策略是把数据放到磁盘上,基于磁盘上的数据来设计算法,这就是所谓的外存算法。学过数据结构与算法的学生对于外存算法可能不陌生,一些数据结构课程里讲过的外存排序,就是比较典型的外存算法,在数据库实现课程中讲过的一趟选择算法、两趟连接算法、嵌套循环连接算法也属于外存算法。这些外存算法的特点是以磁盘块为处理单位,其衡量标准不再是简单的CPU时间,而是磁盘的I/O。另外一个处理方法是不对全部的数据进行计算,而只向内存里放入小部分数据,仅使用内存中的小部分数据,就可以得到一个有质量保证的结果,这样的算法通常叫作“空间亚线性算法”,就是说执行这一类算法所需要的空间是小于数据本身的,即“空间亚线性”。
    3.单个计算机难以保存全部数据,计算需要整体数据
    在一些情况下,单个计算机难以保存或者在时间约束内处理全部数据,而计算需要整体数据,在这种情况下一个办法就是采取并行处理技术,即使用多台计算机协同工作。并行处理对应的算法是并行算法,大数据处理中常见的MapReduce就是一种大数据的编程模型,Hadoop是基于MapReduce编程模型的计算平台。
    4.计算机计算能力不足或知识不足
    还有一种情况是计算机的计算能力不足或者说计算所需要的知识不足。例如,判断一幅图片里是不是包含猫或者狗。这时候计算机并不知道什么是猫什么是狗,如果仅仅利用计算机而没有人的知识参与计算的话,这个问题会变得非常困难,可能要从大量的标注图像里进行学习。但如果可以让人来参与,这个问题就变得简单了。更难一点的问题,比如说两个相机哪个更好,这是一个比较主观的问题,计算机是无法判断的,怎么办呢?可以让人来参与,因此,有一类算法叫作“众包算法”,相当于把计算机难以计算但人计算相对容易的任务交给人来做,有的时候,众包算法的成本更低,算得更快。
    上述是大数据算法的一些难点,针对这些难点,有一系列算法提出,包括时间亚线性算法、空间亚线性算法、外存算法、并行算法、众包算法,这些就是本书的主要内容。

    1.2.5 大数据算法的应用

    大数据算法在大数据的应用中将扮演什么样的角色呢?我们通过下面一些例子来看看大数据算法的应用。
    1.预测中的大数据算法
    如何利用大数据进行预测?一种可能的方法是从多个数据源(比如社交网络、互联网等)提取和预测主题相关的数据,然后根据预测主题建立统计模型,通过训练集学习得到模型中的参数,最后基于模型和参数进行预测。其中每一个步骤都涉及大数据算法问题。在数据获取阶段,因为从社交网络或者互联网上获取的数据量很大,所以从非结构化数据(如文本)提取出关键词或者结构化数据(例如元组、键值对)需要适用于大数据的信息提取算法;在特征选择过程中,发现预测结果和哪些因素相关需要关联规则挖掘或者主成分分析算法;在参数学习阶段,需要机器学习算法,如梯度下降等,尽管传统的机器学习有相应的算法,但是这些算法复杂度通常较高,不适合处理大数据,因此需要面向大数据的新的机器学习算法来完成任务。
    2.推荐中的大数据算法
    当前推荐已经成为一个热门的研究分支,有大量的推荐算法提出。由于当前商品信息和用户信息数据量都很大,例如淘宝,用户和商品的数量都达到了GB级以上,基于这样大规模的数据进行推荐需要能够处理大数据的推荐算法。例如为了减少处理数据量的SVD分解,基于以前有哪些用户购买这个商品和这些用户购买哪些商品的信息构成一个矩阵,这个矩阵规模非常大,以至于在进行推荐时无法使用,因而就需要SVD分解技术对这个矩阵分解,从而将矩阵变小。而基于这样大规模的稀疏矩阵上的推荐也需要相应的大规模矩阵操作算法。
    3.商业情报分析中的大数据算法
    商业情报分析首先要从互联网或者企业自身的数据仓库(例如沃尔玛PB级的数据仓库)上发现与需要分析的内容密切相关的内容,继而根据这些内容分析出有价值的商业情报,这一系列操作如果利用计算机自动完成,需要算法来解决。其中涉及的问题包括文本挖掘、机器学习,涉及的大数据算法包括分类算法、聚类分析、实体识别、时间序列分析、回归分析等,这些问题在统计学和计算机科学方面都有相关的方法提出,然而面向大数据,这些方法的性能和可扩展性难以满足要求,需要设计面向大数据的分析算法。
    4.科学研究中的大数据算法
    科学研究中涉及大量的统计计算,如利用回复分析发现统计量之间的相关性,利用序列分析发现演化规律。例如,美国能源部支持的项目中专门有一部分给大数据算法,在其公布的指南里包含相应的研究题目,包括如何从庞大的科学数据集合中提取有用的信息,如何发现相关数据间的关系(即相关规则发现),还包括大数据上的机器学习、数据流上的实时分析,以及数据缩减、高可控的拓展性的统计分析,这些都在科学研究中扮演重要的角色。

    展开全文
  • 大数据算法 王宏志

    2018-11-29 11:03:41
    大数据算法 王宏志 系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法
  • 本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.3节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3 大数据算法设计与分析 本节对大数据算法设计与分析进行概述,蜻蜓点水地...

    本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.3节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    1.3 大数据算法设计与分析

    本节对大数据算法设计与分析进行概述,蜻蜓点水地罗列一些技术,具体的技术将在后面的章节详细讲授。

    1.3.1 大数据算法设计技术

    1.精确算法设计方法
    精确算法设计技术就是传统算法设计与分析课里讲授的算法,例如贪心法、分治法、动态规划、搜索、剪枝。这些算法设计方法也是大数据算法设计中所必需的,在本书中会经常用到这些技术。
    2.并行算法
    并行算法是一类很重要的大数据算法设计技术。在很多人的理解中,大数据算法就等同于并行算法,但是大数据算法不完全是并行算法。
    3.近似算法
    近似算法的意思是说,虽然给定计算时间,给定计算资源,对于很大的数据量无法算出精确解,但是可以退而求其次,算不那么精确的解,而且这个解的不精确程度在可以忍受的范围内。这样的设计算法有一套专门的设计技术,就是所谓的近似算法。
    4.随机化算法
    一种很重要的技术是随机化算法设计技术。在某些情况下,可以通过增加随机化来提高算法的效率和精度。最典型的一个技术就是抽样。虽然无法处理整个数据集合,但是可以从这个集合中抽取一小部分来处理,通过这个抽样我们就能以小见大,这一部分抽样就能够体现整个大数据集合的特征。
    5.在线算法/数据流算法
    所谓的在线算法或者数据流算法,指的是数据源源不断地到来,根据到来的数据返回相应的部分结果。这类算法的设计思想可以应用于两种情况:一是当数据量非常大仅能扫描一次时,可以把数据看成数据流,把扫描看成数据到来,扫描一次结束;二是数据更新非常快,不能把数据全部存下来再算结果,这时候数据也可以看成一个数据流。
    6.外存算法
    也有人称外存算法为I/O有效算法或者I/O高效算法。这类算法不再简单地以CPU时间作为算法时间复杂度的衡量标准,而是以I/O次数作为算法时间复杂度的判断标准,在设计算法的时候,也不是简单地以CPU时间为优化目标,而是以I/O次数尽可能少为优化目标。
    7.面向新型体系结构的算法
    还有一种大数据处理算法是面向特定体系结构设计的,这里的特定体系结构包括多级cache,也包括GPU和FPGA。由于这些新体系结构的特征不同,所需要的算法设计技术也不同。
    8.现代优化算
    现代优化方法,包括遗传算法、模拟退火、蚁群算法、禁忌搜索等。它们在传统算法设计中的智能优化方面扮演了很重要的角色,在大数据处理算法里也有用武之地,考虑到大数据中数据量大、变化快的特点,在使用这些技术设计大数据算法时需要注意算法的可扩展性。

    1.3.2 大数据算法分析技术

    和传统算法分析相比,大数据算法分析尤其重要。因为在大数据上进行实验所需要的成本相对“小数据”大得多,因而完成算法计算所需的资源(时间和空间)或者某种性质(如精度)难以通过实验来得到,而必须通过理论分析来求得。当设计完一个大数据算法后,可以通过算法分析来求得所需资源(例如时间、空间或磁盘I/O)或某种性质(例如算法得到的解和精确解比例)与输入规模之间的关系,这样就可以基于算法在小规模数据上的实验结果来推演出算法在大规模数据上需要的计算资源或者某种性质所能够达到的程度,从而判定算法是否可行。对于大数据算法,主要分析如下因素:
    1.时间和空间复杂度
    和传统算法分析类似,大数据算法同样需要进行时间和空间复杂度分析。
    2. I/O复杂度
    有些情况下,大数据无法完全放入内存,必须设计外存算法,这时候需要分析磁盘I/O复杂度,即在算法运行过程中读写磁盘次数。
    3.结果质量
    由于大数据上的一些计算问题有时在给定的资源约束内无法精确完成,需要退而求其次,设计近似算法,在这种情况下需要分析计算结果的质量和近似比,即最优解和近似解之间的比例;对于在线算法,有时候需要分析竞争比(competitive ratio),即根据当前数据得到解的代价和知道所有数据的情况下得到解的代价相差多少。在后面章节中我们将会看到,在很多情况下,结果质量的分析往往要比结果效率的分析更复杂。
    4.通信复杂度
    当设计并行算法的时候,涉及多台机器,这些机器之间需要通信,这时需要知道算法运行过程中所需通信量的大小,也就是通信复杂度。
    从上述介绍可以看出,大数据算法分析的内容比传统算法要丰富,也涉及更多的算法分析技术。

    展开全文
  • 大数据算法 百度网盘

    2020-09-01 11:09:12
    大数据算法概述\亚线性算法\外存算法\外存图数据算法 等等 大数据算法概述\亚线性算法\外存算法\外存图数据算法 等等
  • 而在给定资源约束下,以大数据输入,在给定时间约束内可以生成满足给定约束结果的算法就是大数据算法。还记得前些日子,算法下的外卖员受到大家的广泛热议。当送外卖被纳入到冰冷的互联网中时,就意味着传统的劳资...

    什么是大数据?大数据就是无法在一定时间内通过常规软件工具进行捕捉,管理和处理的数据集合,运用新处理模式才能具有更强的决策力,洞察发现力和海量的流程优化能力以及高增长率和多样化的信息资产。而在给定资源约束下,以大数据输入,在给定时间约束内可以生成满足给定约束结果的算法就是大数据算法。

    09e0b9a0276695c1aa62f45df63ed2b5.png

    还记得前些日子,算法下的外卖员受到大家的广泛热议。当送外卖被纳入到冰冷的互联网中时,就意味着传统的劳资关系没有了最后一点温情。系统里的外卖员,只是大数据时代的一个缩影。就我们平时的生活中,你的购物习惯,也在大数据中。你浏览了那些东西,收藏了那些东西,它就会根据你的喜好推荐给你那些东西。你会发现在某宝买了东西,某音也开始推荐你买的东西。

    fa036a251b44def8fb47b59c6781b422.png

    数据对我们来说是没有用的,只是一堆行为痕迹。平台在不透露我们隐私的情况下,给我们推荐商品,也没什么错。有一个案例,一个作案高明的诈骗犯,通常计划半年,非常谨慎,作案后销毁手机卡,自认为天衣无缝。但是警察依据该号码在某地某时的唯一性,通过大数据抓到了该嫌疑犯。大数据下,人的行为习惯被换算成了一堆数字。怎样运用这堆数字,是我们应该考虑的。

    daeef514748020706a3f2a54ed3aebce.png

    其实大数据是不分好坏的,关键在于使用者。用做好的方面,我们支持。用于坏的方面,我们坚决反对。

    展开全文
  • 大数据算法大数据算法概述

    千次阅读 2014-11-15 16:38:44
    只是因为很喜欢算法和DM,加上最近在MOOC上学习一门HIT的《大数据算法》课程,收获很多特记录于此,也推荐一下MOOC的学习资源和学习平台。虽然开始算法的旅程太短,但它的神奇魔力深深吸引了我。在互联网时代发挥...

           大数据——当下人人津津乐道的话题。然而对于大数据的公认定义以及完美体系还没有完全诞生,但大街小巷已遍布云计算、大数据,这些领域的经典案例更是层出不穷。由于认知的有限,就不继续发表拙见了。只是因为很喜欢算法和DM,加上最近在MOOC上学习一门HIT的《大数据算法》课程,收获很多特记录于此,也推荐一下MOOC的学习资源和学习平台。虽然开始算法的旅程太短,但它的神奇魔力深深吸引了我。在互联网时代发挥巨大而神奇作用的算法,在即将到来的大数据时代又该如何适应,以何种方式体现?成为了我探寻的最大乐趣。

           大数据算法定义:在给定的资源约束下,以大数据为输入,在给定的时间约束内可以生成满足给定约束结果的算法。

           当然关于大数据的定义也有很多,但目前还未完全统一。不管是哪一种定义关键在于自己能够真正去理解的,才是好的定义。

           大数据的应用

          1.预测:时间序列等;

          2.推荐:协同过滤等;

          3.商业情报分析:机器学习等;

          4.科学研究:机器学习,高可扩展、非线性时间算法等。

          大数据应用直接度娘就遍地都是了,这里就不赘述了。

           大数据特点(4V):

            Ø  variety:多样性、复杂性;

            Ø  velocity:速度;

            Ø  volume:数据量;

            Ø  value:基于高度分析的新价值。

           特点应该是耳熟能详了,这里只是提一下这门课程中的在于velocity和volume上的。

           大数据算法概述:

           Ø  时间亚线性算法访问全部数据时间过长。可采取读取部分数据或者预处理等方式。

           Ø  空间亚线性算法数据难于放入内存进行计算,则可采取仅基于少量数据进行计算。

           Ø  外存算法数据难于放入内存计算,也可采取将数据存储在磁盘上,再进行调用计算。

           Ø  并行算法单个计算机难以保存全部数据,计算需要整体数据。则可以采用并行计算。

           Ø  众包算法计算机能力不足或知识不足,此时可以采取“人多势众”的策略来解决。

           这是这门课程的算法主要概述了,比较全面也比较实用。可以从里面学到很多不一样的算法思想,以及算法的应用的。目前这部分算是没有到发展瓶颈的,很有发展潜力的哦。

           大数据的算法分析:时间空间复杂性、IO复杂性、结果质量(近似比、competitive ratio等)、通讯复杂性等,更加全面和更多的因素分析了。

           大数据的算法设计技术:精确算法设计方法、并行算法、近似算法、随机算法、在线算法/数据流算法、外存算法、面向新型体系结构的算法、现代优化算法等等。你想得到的和想不到的都在这里了。

    展开全文
  • 大数据算法_王宏志

    2018-03-17 22:02:12
    本书系统地介绍了大数据算法设计与分析的理论、方法和技术,针对大数据的特点,介绍了亚线性算法、外存算法、并行算法和众包算法。书中提供了大量关于大数据算法设计与分析的实例,旨在阐述大数据算法设计技术,有助...
  • 大数据算法导论第四周,大数据算法导论第四周,大数据算法导论第四周,大数据算法导论第四周,大数据算法导论第四周
  • 大数据算法大全

    2017-11-01 14:15:55
    涉及数学相关的一些算法模型,特别适用于学习大数据算法的同学们
  • 大数据算法分析第一周,大数据算法分析第一周,大数据算法分析第一周
  • 大数据应基于大数据算法研究.ppt
  • 黑龙江大学专业选修课大数据算法期末考试复习资料pdf,有需要的自取,开卷考试,这个是总结老师PPT的复习资料。总的来说这老师挺好的,就是考试太难了,对大数据算法很感兴趣的可以选,如果是混学分的话还是算了,难...
  • 大数据算法学习笔记(2):大数据算法

    千次阅读 2015-06-28 10:34:11
    大数据上问题求解问题的...大数据算法: 定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。 与传统算法区别:可以不是精确算法、内存算法、串行算法、仅在电子计算
  • 第2届全国高校大数据教学研讨会 /post/bdts2018 大数据算法 从研究到教学的实践 报告人王宏志 wangzh@ /wang 目录 1 何为大数据算法 2 大数据算法课程设计 3 大数据算法例析 4 结论 目录 1 何为大数据算法 2 大数据...
  • 大数据算法是大数据得以有效应用的基础,也是有志于从事大数据以及相关领域工作必须学习的课程。本书由从事大数据研究的专家撰写,系统地介绍了大数据算法设计与分析的理论、方法和技术。本书共分为10章,第1章概述...
  • 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门...
  • 大数据算法总结.ppt

    2020-08-07 15:32:04
    大数据算法总结.ppt
  • 大数据算法实验教学大纲 大纲制定修订时间 2017 年 11 月 课程名称 大数据算法 课程编码 0 课程类别专业基础课 课程性 质 选修 适用专业通信工程 课程总学时 40 实验上机计划学时 8 开课单位 理学院 一大纲编写依据 ...
  • 混合大数据算法分析营销大数据客户用电行为.pdf
  • 清华大学大数据算法
  • 大数据算法-哈尔滨工业大学-王宏志 全套课件 大数据算法-哈尔滨工业大学-王宏志 全套课件 大数据算法-哈尔滨工业大学-王宏志 全套课件
  • 大数据算法基础课程教案 大数据算法基础课程教案 开课单位 开课单位 授课教师 授课教师 职 称 职 称 课程性质 课程性质 适用专业 大数据 适用专业 大数据 总 课 时 72 总 课 时 72 理论课时 36 理论课时 36 实践课时...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 212,925
精华内容 85,170
关键字:

大数据算法