精华内容
下载资源
问答
  • 2016-10-24 22:08:14

    大数据上求解问题的过程:


    1、问题是否可计算(图灵机模型)
            当拿到一个计算问题,首先应该考虑该问题是否可计算。根据可计算理论,有很多问题计算机是无法计算的。我们今天的电子计算机模型是图灵机模型。在小数据上不可计算的问题,在大数据上肯定也不能计算。计算模型的能力是一样的,只是快慢有区别。
    2、计算的可行性

            大数据上的计算问题与传统计算问题有本质区别。第一、数据量巨大;第二、用来处理数据的资源有限;第三、大数据有很强的实时性,对计算时间有约束。在这三种约束之下分析问题,就是大数据上计算的可行性问题。

    3、算法设计与分析
            对于小数据上的算法可以通过实验测试性能,但是大数据上的算法如果通过实验测试性能会耗费大量的计算成本,所以大数据的算法分析十分重要。
    4、用计算机语言实现算法
            经过了大数据的算法分析后,得到了算法,接下来就要用计算机程序语言实现算法,得到一些程序模块。
    5、构建一个面向大数据的软件系统
            面向大数据的软件系统,需要在相应的平台上实现,比如Hadoop、Spark都是实现软件系统的平台。

    大数据算法

    定义:在给定的资源约束下,以大数据为输入,在给定的时间约束内可以计算出给定问题结果的算法。
    与传统算法相同之处:都是算法,具备算法的5个条件:有穷性、确定性、可行性、输入、输出。
    与传统算法区别之处:
    第一、资源约束,如内存、cpu计算能力等。
    第二、以大数据为输入,而不是小规模的输入。
    第三、大数据算法需要在时间约束之内产生结果。
    第四、大数据算法可以不是精确算法、可以不是内存算法(必须使用外存甚至网络存储)、可以不是串行算法(机群的并行算法)、可以人机协同工作(传统算法完全在电子计算机上执行,无人工参与)。

    概念区分:

    区分MapReduce、云计算、数据挖掘、大数据。

    1.基于MapReduce的算法是一类非常重要的大数据算法,但大数据算法不仅仅是MapReduce上的算法。

    2.云计算平台上的算法未必是面向大数据的。同样大数据算法也不全是云上的算法,大数据算法可以是基于单机、手机等低端设备。
    3.大数据的应用广泛,如数据的分析与挖掘、获取、清洗、查询、可视化等方面。其中数据分析与挖掘的商业价值较为明显。区分大数据和数据挖掘。

    4.大数据算法中涉及到很多数据管理的知识,所以和数据库中的算法关系密切。但大数据算法不仅仅是数据库中的算法,还有专门为大数据设计的算法。


    大数据算法的难度分析及解决办法

    难度主要体现在4个方面:
    第一:访问全部数据时间过长
            放弃使用全部数据,通过 读取部分数据得到一个较为满意的不精确的结果,但在可以接受的范围内。这种方法称作“ 时间亚线性算法”。
    第二:数据难以放入内存计算
            一个策略是把数据放到磁盘上,基于磁盘上的数据来设计算法,即 外存算法
            另一策略是不对全部的数据进行计算,而只向内存里放入部分数据,从而得到一个质量较为满意的结果,这种方法称作“ 空间亚线性算法”。
    第三:单个计算机难以保存全部数据,计算需要全部数据
            这种情况往往需要采用并行处理技术,设计 并行算法。在多数人的理解中,大数据算法就等同于并行算法,但大数据算法不完全是并行算法。
    第四:计算机计算能力不足或知识不足
            人工参与,这类算法叫做“ 众包算法”。

    大数据的算法设计与分析:

    1、精确算法设计方法:就是传统算法设计与分析中讲述的贪心法、分治法、DP、搜索、剪枝。
    2、并行算法:多机并行协同处理,所以机器之间需要通信,在分析算法时间复杂度时,需要考虑通信量的大小,即 通信复杂度
    3、近似算法:如上面提到的时间亚线性、空间亚线性算法。近似算法中需要分析计算 结果的质量和近似比(最优解和近似解的比例)
    4、随机算法:最典型的一个技术就是抽样。虽无法处理整个数据集合,但可以从中抽取部分数据进行处理,通过抽样以小见大。
    5、在线算法/数据流算法
            这种算法是指数据源源不断地到来,根据到来的数据返回相应的部分结果。适用于两种情况:
            第一、数据量非常大仅能扫描一次时,可以把数据看成数据流,把扫描看成数据到来。
            第二、数据更新非常快,不能把所有数据都保存下来再计算结果,此时可以把数据看成是一个数据流。
            在线算法中需要分析 竞争比,即根据当前数据得到的解和知道所有数据的情况下得到解的代价相差多少。
    6、外存算法
            这种算法在分析算法时间复杂度时以I/O次数作为判断标准。
    7、面向新型体系结构的算法
            特定的体系结构包括多级cache、GPU、FGPU。
    8、现代优化算法:模拟退火、蚁群、遗传、禁忌搜索等。
    更多相关内容
  • 大数据算法是大数据得以有效应用的基础,也是有志于从事大数据以及相关领域工作必须学习的课程。本书由从事大数据研究的专家撰写,系统地介绍了大数据算法设计与分析的理论、方法和技术。本书共分为10章,第1章概述...
  • 大数据算法

    2017-11-01 23:13:19
    大数据算法是大数据得以有效应用的基础,也是有志于从事大数据以及相关领域工作必须学习的课程。本书由从事大数据研究的专家撰写,系统地介绍了大数据算法设计与分析的理论、方法和技术。本书共分为10章,第1章概述...
  • 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门...
  • 基于大数据的推荐算法研究 论文框架 课题背景与研究意义 TopS算法 基于项目层次结构相似性的推荐算法 矩阵分解并行化 总结与展望 新闻推荐 图书推荐 当当白su 阿里巴巴赴美上市京东真该抑郁了 ak内 54.90 机器学习 ...
  • 大数据产业报告

    2018-08-17 09:35:00
    2018大数据产业应用研究报告,最新报告,可以研究看下
  • 本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.2 大数据算法 这一节我们概述大数据算法。 1.2.1 大数据上求解问题的过程...

    本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.2节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    1.2 大数据算法

    这一节我们概述大数据算法。

    1.2.1 大数据上求解问题的过程

    首先我们看一看在大数据上问题求解的过程。我们面对的是一个计算问题,也就是说我们要用计算机来处理一个问题。
    拿到一个计算问题之后,首先需要判定这个问题是否可以用计算机进行计算,如果学习过可计算性理论,就可以了解有许多问题计算机是无法计算的,比如判断一个程序是否有死循环,或者是否存在能够杀所有病毒的软件,这些问题都是计算机解决不了的。从“可计算”的角度来看,大数据上的判定问题和普通的判定问题是一样的,也就是说,如果还是用我们今天的电子计算机模型,即图灵机模型,在小数据上不可计算的问题,在大数据上肯定也不可计算。计算模型的计算能力是一样的,只不过是算得快慢的问题。
    那么,大数据上的计算问题与传统的计算问题有什么本质区别呢?
    第一个不同之处是数据量,就是说处理的数据量要比传统的数据量大。第二个不同之处是有资源约束,就是说数据量可能很大,但是能真正用来处理数据的资源是有限的,这个资源包括CPU、内存、磁盘、计算所消耗的能量。第三个不同之处是对计算时间存在约束,大数据有很强的实时性,最简单的一个例子是基于无线传感网的森林防火,如果能在几秒之内自动发现有火情发生,这个信息是非常有价值的,如果三天之后才发现火情,树都烧完了,这个信息就没有价值,所以说大数据上的计算问题需要有一个时间约束,即到底需要多长时间得到计算结果才是有价值的。判定能否在给定数据量的数据上,在计算资源存在约束的条件下,在时间约束内完成计算任务,是大数据上计算的可行性问题,需要计算复杂性理论来解决,然而,当前面向大数据上的计算复杂性理论研究还刚刚开始,有大量的问题需要解决。
    注意:在本书中,有的算法可能很简单,寥寥几行就结束了,然而后面的分析却长达几页。这本书花更大的精力讲授算法分析,是因为在大数据上进行算法设计的时候,要先分析清楚这个算法是否适用于大数据的情况,然后才能使用。
    本书讨论的主要内容是大数据上算法的设计与分析,即设计大数据上的算法并且加以分析。
    特别值得说明的一点是,对于大数据上的算法,算法分析显得尤为重要,这是为什么呢?对于小数据上的算法可以通过实验的方法来测试性能,实验可以很快得到结果,但是在大数据上,实验就不是那么简单了,经常需要成千上万的机器才能够得出结果。为了避免耗费如此高的计算成本,大数据上的算法分析就十分重要了。
    经过算法设计与分析,得到了算法。接着需要用计算机语言来实现算法,得到的是一些程序模块,下一步用这些程序模块构建软件系统。这些软件系统需要相应的平台来实现,比如常说的Hadoop、SparK都是实现软件系统的平台。
    上面的叙述可以归纳为图1-1,从中可以看到,大数据算法与分析在整个大数据问题求解过程中扮演着一个核心的角色,因而本书将对此重点介绍。

    1

    1.2.2 大数据算法的定义

    1.大数据算法是什么
    根据大数据上的计算过程可以定义大数据算法的概念,如定义1-1所示。
    定义1-1(大数据算法) 在给定的资源约束下,以大数据为输入,在给定时间约束内可以计算出给定问题结果的算法。
    这个定义和传统的算法有一样的地方,首先大数据算法也是一个算法,有输入有输出;而且算法必须是可行的,也必须是机械执行的计算步骤。
    补充知识:算法的定义
    定义A-1(计算) 可由一个给定计算模型机械地执行的规则或计算步骤序列称为该计算模型的一个计算。
    定义A-2(算法) 算法是一个满足下列条件的计算:
    1) 有穷性/终止性:有限步内必须停止;
    2) 确定性:每一步都是严格定义和确定的动作;
    3) 可行性:每一个动作都能够被精确地机械执行;
    4) 输入:有一个满足给定约束条件的输入;
    5) 输出:满足给定约束条件的结果。

    第一个不同之处是,大数据算法是有资源约束的,这意味着资源不是无限的,可能在100KB数据上可行的算法在100MB的数据上不可行,最常见的一个错误是内存溢出。这意味着进行大数据处理的内存资源不足,因此在大数据算法的设计过程中,资源是一个必须考虑的约束。第二个不同之处是,大数据算法以大数据为输入,而不是以传统数据的小规模为输入。第三个不同之处是,大数据算法需要在时间约束之内产生结果,因为有些情况下过了时间约束大数据会失效,有些情况下超过时间约束的计算结果没有价值。
    2.大数据算法可以不是什么
    有了大数据作为输入和运行时间作为约束,大数据算法和传统算法就有了明确的区别。
    第一,大数据算法可以不是精确算法。因为有些情况下,能够证明对于给定的数据输入规模和资源约束,确实不可能得到精确解。
    第二,大数据算法可以不是内存算法。由于数据量很大,在很多情况下,把所有数据都放在内存中几乎不可能,因为对于现在的PC来说,内存的规模在GB级,对于高档一些的并行机和服务器来说内存也就是TB级,这个规模对于许多应用中的数据量是远远不够的,必须使用外存甚至于网络存储。因此,大数据算法可以不仅仅在内存中运行。
    第三,大数据算法可以不是串行算法。有的时候,单独一台计算机难以处理大规模数据,需要多台机器协同并行计算,即并行算法。一个典型的例子是Google公司中的计算,为了支持搜索引擎,Google公司需要处理大规模来自互联网的数据,因而大数据里面的很多重要概念是Google提出的,例如并行平台MapReduce。Google公司的数据规模太大,再好的机器也无法独自处理,需要用成千上万台机器构成一个机群来并行处理。
    第四,大数据算法可以不是仅在电子计算机上运行的算法。有时对于某些任务而言,让计算机处理很复杂,而让人做很简单。对于这些问题,可以让人和计算机一起来做,因此就有了人和计算机协同的算法。
    而传统算法分析与设计课程中的算法,主要是内存算法、精确算法、串行算法且完全在电子计算机上执行,这和本书中的大数据算法不同。
    3.大数据算法不仅仅是什么
    下面从大数据概念出发,澄清一些大数据算法的片面观点。
    第一,大数据算法不仅仅是基于MapReduce的算法。讲到大数据算法,可能有很多人就会想到MapReduce,MapReduce上的算法确实在很多情况下适用于大数据,而且更确切说MapReduce上的算法是一类很重要的大数据算法,但是大数据算法不仅是MapReduce上的算法。
    第二,大数据算法不仅仅是云计算平台上的算法。说到大数据算法,很多人可能会想到云计算,云上的算法是不是大数据算法呢?云上的算法不全是大数据算法,有的算法不是面向大数据的,例如安全性相关的算法和计算密集型算法,而且大数据算法也不都是云上的算法,大数据算法有的可以是单机的,甚至可以是手机或者传感器这种计算能力很差的设备。
    第三,大数据算法不仅仅是数据分析与挖掘中的算法。分析与挖掘是大数据中比较热的概念,也确实是大数据的重要方面。之所以用得比较多,是因为其商业价值比较明显。然而,大数据的应用除了需要分析与挖掘,还有获取、清洗、查询处理、可视化等方面,这些都需要大数据算法的支持。
    第四,大数据算法不仅仅是数据库中的算法。提到大数据,自然会联想到这是和数据管理密切相关的。大数据算法是否等同于数据库中的算法呢?不完全是这样,虽然数据库中的算法是大数据算法的一个重要组成部分,今天进行大数据算法研究的多是数据库和数据管理研究领域的专家,但是不全是数据库领域的。当前研究大数据算法的专家,有的研究背景是数学理论和算法理论,还有的来自机器学习和各种大数据应用的研究领域。因此大数据算法不仅仅是数据库中的算法,还有专门为大数据设计的算法。

    1.2.3 大数据的特点与大数据算法

    大数据的特点决定了大数据算法的设计方法。正如前面所介绍的,大数据的特点通常用四个V来描述。这四个V里面和大数据算法密切相关的,有两个V。一个是数据量(Volume)大,也就是大数据算法必须处理足够大的数据量。另一个是速度(Velocity),速度有两方面:①大数据的更新速度很快,相应的大数据算法也必须考虑更新算法的速度;②要求算法具有实时性,因此大数据算法要考虑到运算时间。对于另外两个V,我们假设大数据算法处理的数据已经是经过预处理的,其多样性(Variety)已经被屏蔽掉了。关于价值(Value)本书也不考虑,而假设数据或算法的价值是预先知道的。

    1.2.4 大数据算法的难度

    要设计一个大数据算法并不容易,因为大数据具有规模大、速度快的特点。大数据算法设计的难度主要体现在四个方面。
    1.访问全部数据时间过长
    有的时候算法访问全部数据时间太长,应用无法接受。特别是数据量达到PB级甚至更大的时候,即使有多台机器一起访问数据,也是很困难的。在这种情况下怎么办呢?只能放弃使用全部数据这种想法,而通过部分数据得到一个还算满意的结果,这个结果不一定是精确的,可能是不怎么精确的而基本满意,这就涉及一个“时间亚线性算法”的概念,即算法的时间复杂度低于数据量,算法运行过程中需要读取的数据量小于全部数据。
    2.数据难以放入内存计算
    第二个问题是数据量非常大,可能无法放进内存。一个策略是把数据放到磁盘上,基于磁盘上的数据来设计算法,这就是所谓的外存算法。学过数据结构与算法的学生对于外存算法可能不陌生,一些数据结构课程里讲过的外存排序,就是比较典型的外存算法,在数据库实现课程中讲过的一趟选择算法、两趟连接算法、嵌套循环连接算法也属于外存算法。这些外存算法的特点是以磁盘块为处理单位,其衡量标准不再是简单的CPU时间,而是磁盘的I/O。另外一个处理方法是不对全部的数据进行计算,而只向内存里放入小部分数据,仅使用内存中的小部分数据,就可以得到一个有质量保证的结果,这样的算法通常叫作“空间亚线性算法”,就是说执行这一类算法所需要的空间是小于数据本身的,即“空间亚线性”。
    3.单个计算机难以保存全部数据,计算需要整体数据
    在一些情况下,单个计算机难以保存或者在时间约束内处理全部数据,而计算需要整体数据,在这种情况下一个办法就是采取并行处理技术,即使用多台计算机协同工作。并行处理对应的算法是并行算法,大数据处理中常见的MapReduce就是一种大数据的编程模型,Hadoop是基于MapReduce编程模型的计算平台。
    4.计算机计算能力不足或知识不足
    还有一种情况是计算机的计算能力不足或者说计算所需要的知识不足。例如,判断一幅图片里是不是包含猫或者狗。这时候计算机并不知道什么是猫什么是狗,如果仅仅利用计算机而没有人的知识参与计算的话,这个问题会变得非常困难,可能要从大量的标注图像里进行学习。但如果可以让人来参与,这个问题就变得简单了。更难一点的问题,比如说两个相机哪个更好,这是一个比较主观的问题,计算机是无法判断的,怎么办呢?可以让人来参与,因此,有一类算法叫作“众包算法”,相当于把计算机难以计算但人计算相对容易的任务交给人来做,有的时候,众包算法的成本更低,算得更快。
    上述是大数据算法的一些难点,针对这些难点,有一系列算法提出,包括时间亚线性算法、空间亚线性算法、外存算法、并行算法、众包算法,这些就是本书的主要内容。

    1.2.5 大数据算法的应用

    大数据算法在大数据的应用中将扮演什么样的角色呢?我们通过下面一些例子来看看大数据算法的应用。
    1.预测中的大数据算法
    如何利用大数据进行预测?一种可能的方法是从多个数据源(比如社交网络、互联网等)提取和预测主题相关的数据,然后根据预测主题建立统计模型,通过训练集学习得到模型中的参数,最后基于模型和参数进行预测。其中每一个步骤都涉及大数据算法问题。在数据获取阶段,因为从社交网络或者互联网上获取的数据量很大,所以从非结构化数据(如文本)提取出关键词或者结构化数据(例如元组、键值对)需要适用于大数据的信息提取算法;在特征选择过程中,发现预测结果和哪些因素相关需要关联规则挖掘或者主成分分析算法;在参数学习阶段,需要机器学习算法,如梯度下降等,尽管传统的机器学习有相应的算法,但是这些算法复杂度通常较高,不适合处理大数据,因此需要面向大数据的新的机器学习算法来完成任务。
    2.推荐中的大数据算法
    当前推荐已经成为一个热门的研究分支,有大量的推荐算法提出。由于当前商品信息和用户信息数据量都很大,例如淘宝,用户和商品的数量都达到了GB级以上,基于这样大规模的数据进行推荐需要能够处理大数据的推荐算法。例如为了减少处理数据量的SVD分解,基于以前有哪些用户购买这个商品和这些用户购买哪些商品的信息构成一个矩阵,这个矩阵规模非常大,以至于在进行推荐时无法使用,因而就需要SVD分解技术对这个矩阵分解,从而将矩阵变小。而基于这样大规模的稀疏矩阵上的推荐也需要相应的大规模矩阵操作算法。
    3.商业情报分析中的大数据算法
    商业情报分析首先要从互联网或者企业自身的数据仓库(例如沃尔玛PB级的数据仓库)上发现与需要分析的内容密切相关的内容,继而根据这些内容分析出有价值的商业情报,这一系列操作如果利用计算机自动完成,需要算法来解决。其中涉及的问题包括文本挖掘、机器学习,涉及的大数据算法包括分类算法、聚类分析、实体识别、时间序列分析、回归分析等,这些问题在统计学和计算机科学方面都有相关的方法提出,然而面向大数据,这些方法的性能和可扩展性难以满足要求,需要设计面向大数据的分析算法。
    4.科学研究中的大数据算法
    科学研究中涉及大量的统计计算,如利用回复分析发现统计量之间的相关性,利用序列分析发现演化规律。例如,美国能源部支持的项目中专门有一部分给大数据算法,在其公布的指南里包含相应的研究题目,包括如何从庞大的科学数据集合中提取有用的信息,如何发现相关数据间的关系(即相关规则发现),还包括大数据上的机器学习、数据流上的实时分析,以及数据缩减、高可控的拓展性的统计分析,这些都在科学研究中扮演重要的角色。

    展开全文
  • 第1课 算法概论,程序=算法+数据结构,时间不允许的算法无任何意义,分而治之,贪心算法大数据的挑战 第2课 从排序说起,估计算法复杂度 第3课 基本数据结构及应用,栈,队列,链表,哈希函数和哈希表 第4课 ...
  • 武汉理工大学《大数据技术与应用》课程实验开源报告,内含详细步骤,上手快,可以直接使用。
  • 大数据算法 十大经典算法

    千次阅读 2018-05-09 06:27:34
    一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。...
    一、C4.5
    C4.5,是机器学习算法中的一个分类决策树算法,
    它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法
    ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。
    决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。
    C4.5相比于ID3改进的地方有:
    1、用信息增益率来选择属性。
    ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy,熵是一种不纯度度量准则),
    也就是熵的变化值.
    而C4.5用的是信息增益率。对,区别就在于一个是信息增益,一个是信息增益率。
    一般来说率就是用来取平衡用的,就像方差起的作用差不多,
    比如有两个跑步的人,一个起点是10m/s的人、其10s后为20m/s;
    另一个人起速是1m/s、其1s后为2m/s。
    如果紧紧算差值那么两个差距就很大了,如果使用速度增加率(加速度,即都是为1m/s^2)来衡量,2个人就是一样的加速度。
    因此,C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。
    2、在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致overfitting。
    3、对非离散数据也能处理。
    4、能够对不完整数据进行处理。
     
    二、The k-means algorithm 即K-Means算法
    k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割(k < n)。
    它与处理混合正态分布的最大期望算法(本十大算法第五条)很相似,因为他们都试图找到数据中自然聚类的中心。
    它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。
     
    三、 Support vector machines
    支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。
    它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。
    支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。
    在分开数据的超平面的两边建有两个互相平行的超平面,分隔超平面使两个平行超平面的距离最大化。
    假定平行超平面间的距离或差距越大,分类器的总误差越小。
    一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。
    van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。
     
    四、The Apriori algorithm
    Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。
    其核心是基于两阶段频集思想的递推算法。
    该关联规则在分类上属于单维、单层、布尔关联规则。
    在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
     
    五、最大期望(EM)算法
    在统计计算中,最大期望 (EM,Expectation–Maximization)算法是在概率
    (probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。
    最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。
     
    六、 PageRank
    PageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里•佩奇(Larry Page)。
    因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。
    PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。
    PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。
    这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。
    PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多,一般判断这篇论文的权威性就越高。
     
    七、AdaBoost
    Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),
    然后把这些弱分类器集合起来,构成一个更强的最终分类器 (强分类器)。
    其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,
    以及上次的总体分类的准确率,来确定每个样本的权值。
    将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合起来,作为最后的决策分类器。
     
    八、 kNN: k-nearest neighbor classification
    K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
    该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的
    大多数属于某一个类别,则该样本也属于这个类别。
     
    九、 Naive Bayes
    在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和
    朴素贝叶斯模型(Naive Bayesian Model,NBC)。 
    朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。
    同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
    理论上,NBC模型与其他分类方法相比具有最小的误差率。
    但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中
    往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之
    间相关性较大时,NBC模型的分类效率比不上决策树模型。
    而在属性相关性较小时,NBC模型的性能最为良好。
     
    十、 CART: 分类与回归树
    CART, Classification and Regression Trees。在分类树下面有两个关键的思想:第一个
    是关于递归地划分自变量空间的想法;第二个想法是用验证数据进行剪枝。
    展开全文
  • 2021年深度学习与大数据算法应用学习资料(专业完整版).pdf
  • 大数据概念、算法应用

    千次阅读 2015-05-24 11:06:40
    一、 大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的...

    一、 大数据基本概念

    大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。

    大数据的预处理

    主要完成对已接收数据的辨析、抽取、清洗等操作。

    (1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。

    (2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

    大数据带来的数学问题

    在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合。

    • 大数据采样——把大数据变小、找到与算法相适应的极小样本集、采样对算法误差的影响
    • 大数据表示——表示决定存储、表示影响算法效率
    • 大数据不一致问题——导致算法失效和无解、如何消解不一致
    • 大数据中的超高维问题——超高维导致数据稀疏、算法复杂度增加
    • 大数据中的不确定维问题——多维度数据并存、按任务定维难
    • 大数据中的不适定性问题——高维导致问题的解太多难以抉择

    大数据的特征

    • 稠密与稀疏共存:局部稠密与全局稀疏
    • 冗余与缺失并在:大量冗余与局部缺失
    • 显式与隐式均有:大量显式与丰富隐式
    • 静态与动态忽现:动态演进与静态关联
    • 多元与异质共处:多元多变与异质异性
    • 量大与可用矛盾:量大低值与可用稀少

    目前大数据的外延

    大数据规模大小是一个不断演化的指标:

    当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模(TB«PB«EB«ZB)

    处理大数据的可等待的合理时间依赖任务的目标:

    地震数据预测要求在几分钟内才有效、气象数据应该在小时级别、失联飞机数据处理要在7天之内、数据挖掘一般要求在12小时内

    二、 大数据悖论

    大数据已被定义为科学探索的第四范式。继几千年前的实验科学、数百年前的理论科学和数十年前的计算科学之后,当今的数据爆炸孕育了数据密集型科学,将理论、实验和计算仿真等范式统一起来。大数据已被誉为“非竞争性”生产要素。大数据具有“取之不尽,用之不竭”的特性,在不断的再利用、重组和扩展中持续释放其潜在价值,在广泛的公开、共享中不断创造着新的财富。根源在于,大数据的价值在于预测未知领域、非特定因素的未来趋势,在于破解长期的、普遍的社会难题。而目前的大数据技术和应用,依然局限于历史和实时数据的关联分析,局限于满足短线的、特定的市场需求。解决悖论的过程,恰恰是理论和方法应运而生的过程。而人们试图解决悖论的努力,正好是大数据落地生根的推动力。

    36大数据

    方法论缺位

    自2008年《自然》杂志推出“大数据”专刊以来,大数据概念就从学术大讨论,转向了企业的数字化转型,进而上升到“开放政府数据”的战略布局。然而,单纯的数量上的规模庞大,并不能轻易地将大数据与以往的“海量数据”、“超大规模数据”等区别开,因为三者均没有设置数量级等门槛。

    方法论缺位是最大的障碍。大数据发展的核心动力源于人们测量、记录和分析世界的渴望,满足这些渴望需要数据、技术和思维三大要素。在计算技术、通信技术日益成熟的今天,在廉价的、便捷的数字化存储普及的当下,数据无处不在,技术正以标准化、商品化的方式提供,事实上思维和方法论才是决定大数据成败的关键,但目前来看,跨越学术与产业、技术与应用之间鸿沟的方法论依然不完善。

    在社会难题中淘金

    正如数学史上三次危机分别促成公理几何的诞生、集合论的创立和现代数据的发展一样,悖论是理论、技术和应用进步的巨大推动力。大数据悖论的解决,也将推动大数据应用的普及和社会价值的释放。经过新闻媒体和学术会议的大肆宣传之后,大数据技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危……根据这条著名的Gartner技术成熟度曲线,大数据已经走过了萌芽期和泡沫化的炒作期,并将在未来3~5年内步入低谷期。

    大数据

    市场中的鸿沟

    大数据营销模型将经历创新者、早期采用者、早期大众、后期大众和落后者等5个阶段。这5个阶段之间存在着4条裂缝,其中最大、最危险的裂缝存在于早期市场与主流市场之间,我们称之为“鸿沟”。

    大数据的主流市场来源于实用主义的早期大众和保守主义的后期大众,两者各自占据大数据市场1/3的份额。这两个群组的共同特征是均具备良好的信息技术基础和深厚的大数据积累,并深谙大数据的社会价值和经济价值。有所不同的是,前者希望看到成熟的解决方案和成功的应用案例,它们大多是金融、能源、电信等公共服务部门。而后者需要有更安全可靠的大数据保障和广泛的社会应用基础,它们大多是致力于解决环境、能源和健康等社会问题的公共管理部门。

    大数据技术和应用获得创新者的追捧是显而易见的,获得早期市场的拥护也是轻而易举的。但是,不因“时髦”而加入,不因“过时”而退出,才能成为大数据主流市场的掘金者。遗憾的是,不少企业或许会成为“鸿沟中的牺牲者”,而无缘迎接大数据真正应用市场的到来。

    规划整体产品

    现代营销奠基人之——西奥多·莱维特给出了“整体产品”的概念。根据这一概念,大数据产品应该包括作为“核心吸引物”的一般产品、满足初级心理需求的期望产品和实现更高阶参与以及自我实现的延伸产品和潜在产品4个部分。

    三、 大数据挑战性问题

    现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也是最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。应对处理大数据的各种技术挑战中,以下几个问题值得重视:

    1、大数据对科学规范的挑战

    大数据带来了新的科研范式

    科研第四范式是思维方式的大变化,已故图灵奖得主吉姆格雷提出的数据密集型科研“第四范式”,将大数据科研从第三范式中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数据模型的传统研究方式。PB级数据使我们可以做到没有模型和假设就可以分析数据。将数据丢进巨大的计算机机群中,只要有相关关系的数据,统计分析算法可以发现过去的科学方法发现不了的新模式、新知识甚至新规律。

    大数据如何应用于开放的研究

    大数据基于对海量数据的分析产生价值,那么如何获得海量数据来让大数据真正落地呢?这其中最不可或缺的一个环节就是数据开放。现在推进数据开放更为重要的是通过数据的共享来产生更多的价值。数据开放能够提高社会运行效率,积极整合各方公开的数据,建立基于大数据的城市规划来缓解交通和社会治安问题。 数据开放能够激发巨大的商业价值,数据开放是面向社会大众的开放,任何人只要有能力都可以用它来创造新的商机。

    加强数据开放,为大数据发展打牢基础。在大数据应用日益重要的今天,数据资源的开放共享已经成为在数据大战中保持优势的关键。促进商业数据和个人数据的开放与共享。商业数据和个人数据的共享应用,不仅能促进相关产业的飞速发展,产生巨大的经济价值,也能给我们的生活带来巨大的便利。经常网购的人会有这样一种体验。很多电商网站能够在我们买书的时候,推荐我们刚好喜欢的其他书籍,这正是网站根据成千上万甚至上亿人的个人数据的统计分析而得出的,但是我们也感受到了这样强大的数据分析能力对我们“隐私权”的冲击。因此,完善个人隐私保护等相关立法,对哪些个人数据可以进行商业化应用、应用范围如何界定、数据滥用应承担哪些责任等具体问题做出规范,从而保证数据开放工作稳步推进,为大数据发展应用打好根基。

    重现大数据研究结果

    数据量的增大,会带来规律的丧失和严重失真。维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也指出“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,”此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。大数据意味着更多的信息,但同时也意味着更多的虚假关系信息,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。

    我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:

    大数据

    上表是关于某年网络游戏历程扩散的回归分析,当样本量是5241个的时候,你会发现用一个简单的线性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量增加到10482个的时候,发现独生子女和女性开始显著,增加到20964个的时候,体制外这个变量也开始显著,当样本增加到33万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。样本大到一定程度的时候,很多结果自然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假关系随着数据量的增长而增长,我们将很难再接触到真相。

    事实上,真实的规律是这样的:

    大数据

    对一个社会现象进行客观深刻准确的分析,对事物的理解需要数据,但更需要分析思维,在大数据时代,理论并非不重要,而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。

    大数据研究结果可信与否

    《大数据时代》一书的作者维克托·迈尔-舍恩伯格说,大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。他认为,大数据大大解放了人们的分析能力。一是可以分析更多的数据,甚至是相关的所有数据,而不再依赖于随机抽样;二是研究数据如此之多,以至于我们不再热衷于追求精确度;三是不必拘泥于对因果关系的探究,而可以在相关关系中发现大数据的潜在价值。因此,当人们可以放弃寻找因果关系的传统偏好,开始挖掘相关关系的好处时,一个用数据预测的时代才会到来。

    不可否认,大数据标志着人类在寻求量化和认识世界的道路上前进了一步。这是计算技术的进步,是人类决策工具的进步。改编自迈克尔·刘易斯的《魔球:逆境中制胜的智慧》的影片《点球成金》,讲述了一个真实的故事,介绍了奥克兰运动家棒球队总经理比利·比恩的经营哲学,描述了他抛弃几百年延续的选择球员的惯常做法,采用了一种依靠电脑程序和数学模型分析比赛数据来选择球员的方法。比利·比恩的成功称得上是对球探们经验决策的颠覆,是让数据说话的成功范例。正如维克托·迈尔-舍恩伯格将大数据视为人工智能的一部分,视为机器学习的一种应用一样,数据决策和数据旁证的博弈其实是人和机器的博弈。即便是有一将难求的数据科学家的协助,大数据决策依然是辅助系统。

    在这一阶段,云计算是基础设施,大数据是服务工具,两者将满足特定语境下的、短线的市场需求,更重要的是它们还能发挥其在非特定语境下破解社会难题的价值。换言之,大数据将演绎“信息转化为数据,数据集聚成知识,知识涌现出智慧”的进程。

    2、大数据带来的社会问题

    在基于社交媒体和数字化记忆的大数据时代,人们不仅担心无处不在的“第三只眼”,而且担心隐私被二次利用。因为,亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,包括我们的社交关系网……可怕的不是这些隐私数据,而是大数据的全数据分析、模糊计算和重关联却不求因果的特性,让隐私数据与社交网络等关联起来。按照维克托·迈尔-舍恩伯格的说法,危险不再是隐私的泄漏,而是被预知的可能性——这些能够预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险,无法贷款,甚至实施犯罪前就被预先逮捕。

    无论如何,大数据正在推动产权认知和结构的变革,以往IT产业链的主宰者或将在变革中遭遇冲击。大数据的魅力在于它能够让企业在无边界的数据海洋里遨游,发现社会进步的内在韵律,捕捉社会发展的先行参数。比如从消费者兴趣图谱中萃取研发创新智慧,而不局限于产品关联性分析;比如对企业内外部利益相关者群体智慧的发掘,开展企业和产业的健康诊断,而不局限于短效的精益管理;比如对地震等自然灾害的预警,构架社会应急机制……

    3、大数据带来的技术挑战

    抽样分析+全数据验证的分析思路

    增加样本容易,降低算法复杂度难。维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,其中之一是:分析所有的数据,而不再仅仅依靠一小部分数据。全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据,以至于再谈抽样都似乎带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足,如果认为大数据就是收集所有样本的信息,让数据自己说话,那么在方法论上就是狭隘的。

    这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话,当人们开始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病毒的关系,能够成功的预测一场流感)数据确实能看到变化,通过变化作出“预测”,但无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要相关性,不要因果关系。这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。

    《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据,而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。

    没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻,毕竟不是所有的社会事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题:在与传统的流感监测数据比较之后,根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法,例如基于Twitter的流感跟踪只包含真正病人的帖子,而不是转载的流感新闻报道。

    分析理解大数据——盲人摸象

    数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。

    4、大数据管理的挑战

    每一种非结构化数据均可被视为大数据。这包括在社交网站上的数据、在线金融交易数据、公司记录、气象监测数据、卫星数据和其他监控、研究和开发数据。大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

    通过隔离管理大数据存储

    如果有多个存储箱,那么将数据库、线交易处理(OLTP)和微软Exchange应用到特定的存储系统是个不错的选择。其它存储系统则用于大数据应用如门户网站,在线流媒体应用等。

    如果没有存储系统,将特定的前端存储端口到数据库,OLTP等等;致力于大数据应用到其他端口。背后的基本原理是使用专用端口,而大数据流量是以千字节或兆字节衡量,OLTP应用流量是以每秒的输入/输出操作(IOPS)衡量,因为数据块的大小是比大数据更大而比OLTP应用程序更小。OLTP应用程序是CPU密集型的,而大数据应用程序更多的使用前端端口。因此,更多的端口可以专注于大数据应用。

    专业的大数据存储管理

    兼容数据管理的存储系统。如EMCIsilon的集群存储系统对于大数据存储管理是一个更好的选择,因为在一个单一的文件系统中大数据能增长到多字节的数据。

    大数据分析

    除了存储,大数据管理的另一项大的挑战是数据分析。一般的数据分析应用程序无法很好的处理大数据,毕竟涉及到大量的数据。采用专门针对大数据的管理和分析的工具,这些应用程序运行在集群存储系统上,缓解大数据的管理。管理大数据的另一个需要重点考虑的是未来的数据增长。你的大数据存储管理系统应该是可扩展的,足以满足未来的存储需求。

    大数据的存储管理和云计算

    目前正在寻找云计算服务来进行存储和管理海量数据。而选择云服务来大型数据存储管理,可以确保数据的所有权。有权选择将数据移入或移出云服务,而不被供应商锁定。

    5、大数据挖掘挑战

    面临的挑战

    (1)大数据集的挑战

    如下图为数据到知识的演化过程示意图:

    大数据

    • 缺少大数据复杂度冗余度的度量方法
    • 缺少确保近似算法精度分析方法
    • 缺少根据分布知识对大数据进行抽样的方法

    (2)数据复杂性挑战

    挖掘将会很大程度地提高数据分析的性能和灵活性。源于数据仓库的数 据立方体计算技术和OLAP(在线分析处理)技术极大地提高了大型数据库多维分析的性能。除了传统的数据立方体技术,近期的研究致力于构建回归立方体、预测立方体以及其他的面向统计的复杂数据立方体。这样的多维或高维分析工具对分层多维数据的有效分析提供了保证。

    (3)数据动态增长的挑战

    研究内容

    (1)研究分布式并行计算环境下的大数据大数据分析的基本策略

    I.与数据分布相联系的分治策略

    II.与算法机理相结合的并行策略

    (2)研究复杂度降精度可控的新的大数据分析算法

    I.大数据分类、聚类、关联分析、异常发现等

    (3)大数据分析平台研发

    四、 大数据挖掘的算法

    分类和预测是两种分析数据的方法,它们可用于抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法用于预测数据对象的离散类别;而预测则用于预测数据对象的连续取值。许多分类和预测方法已被机器学习、专家系统、统计学和神经生物学等方丽的研究者提出,其中的大部分算法属于驻留内存算法,通常假定的数据量很小,最初的数据挖掘方法大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求,目前的数据挖掘研究已经在这些工作基础之上得到了很大的改进,开发了具有基于外存以处理大规模数据集合能力的分类和预测技术,这些技术结合了并行和分布处理的思想。

    1、数据变小——分类算法

    分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。

    空间覆盖算法-基于球邻域的空间划分

    大数据算法

    空间覆盖算法-仿生模式识别

    大数据

    空间覆盖算法-视觉分类方法

    VCA把数据看作一幅图像,核心是基于尺度空间理论,选择合适的尺度使得同类样本区域融合在一起。

    大数据算法

     

    分类超曲面算法HSC

    设训练样本所在空间为一封闭维方体区域,将此区域按照一定细分规则划分成若干小区域,使每个小区域只包含同一类样本点,并用样本点的类别标定该区域,合并相邻同类区域边界,获得若干超平面片封闭组成的分类超曲面。输入新样本点,根据分类判别定理判断样本点所在的类别。

    特点:

    (1)通过特征区域细化直接解决非线性分类问题,不需要考虑使用何种函数,不需要升维变换。

    (2)通用可操作的分类超曲面构造法,基于分类超曲面的方法通过区域合并计算获得分类超曲面对空间进行划分

    (3)独特、简便、易行的分类判别方法,基于分类超曲面的方法是基于Jordan定理的分类判断算法,使得基于非凸的超曲面的分类判别变得简便、易行。

    2、极小覆盖子集

    覆盖型分类算法的极小覆盖子集——对特定的训练样本集,若其子样本集训练后得到的分类模型与与原样本集训练后得到的分类模型相同,则称子样本集是原样本集的一个覆盖。在一个样本集的所有覆盖中,包含样本个数最少的覆盖称为样本集的极小覆盖子集。

    (1)计算极小覆盖子集的基本步骤:

    用一个方形区域覆盖所有样本点;将该区域划分成一系列小区域 (单元格),直到每个小区域内包含的样本点都属于同一类别;将落在同一小区域内的样本点中选择且仅选择一个样本构成极小覆盖子集。

    (2)采样受限于极小覆盖子集

    全样本空间必然包含极小覆盖子集,任意一个数据集未必包含完整的极小覆盖子集。大数据环境下,极小覆盖子集中的样本更多地包含在大数据中,较多的数据可以战胜较好的算法、再多的数据亦不会超过极小覆盖子集的代表性、再好的提升手段亦不会超过极小覆盖子集确定的精度。

    3、回归分析

    回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

    4、聚类

    聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。

    5、关联规则

    关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。

    6、神经网络方法

    神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。

    7、Web数据挖掘

    Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

    五、 大数据展望与应用

    大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。根据ESM国际电子商情针大数据应用现状和趋势的调查显示:被调查者最关注的大数据技术中,排在前五位的分别是大数据分析(12.91%)、云数据库(11.82%)、Hadoop(11.73%)、内存数据库(11.64%)以及数据安全(9.21%)。Hadoop已不再是人们心目中仅有的大数据技术,而大数据分析成为最被关注的技术。从中可以看出,人们对大数据的了解已经逐渐深入,关注的技术点也越来越多。既然大数据分析是最被关注的技术趋势,那么大数据分析中的哪项功能是最重要的呢?从下图可以看出,排在前三位的功能分别是实时分析(21.32%)、丰富的挖掘模型(17.97%)和可视化界面(15.91%)。从调查结果可以看出:在未来一两年中有迫切部署大数据的需求,并且已经从一开始的基础设施建设,逐渐发展为对大数据分析和整体大数据解决方案的需求。
    大数据将重点应用于以下几大大领域:商业智能、政府决策、公共服务等。

    行业拓展者,打造大数据行业基石

    IBM:IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉;业务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS)。 IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。 该产品组合包括:打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析。软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案 微软:2011年1月与惠普(具体而言是HP数据库综合应用部门) 合作目标是开发了一系列能够提升生产力和提高决策速度的设备。

    EMC:EMC 斩获了纽交所和Nasdaq;大数据解决方案已包括40多个产品。

    Oracle:Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。

    大数据促进了政府职能变革

    重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程;在安防领域,应用大数据技术,提高应急处置能力和安全防范能力;在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门;解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析。一方面大数据的应用促进了政府职能变革,另一方面政府投入将形成示范效应,大大推动大数据的发展。

    打造“智慧城市”

    通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化安全意识,转变教育和学习模式。智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。

    未来,改变一切

    未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。 数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。

    来自:http://www.36dsj.com/archives/15743

    展开全文
  • (1)大数据应用场景介绍

    千次阅读 2021-08-19 01:42:30
    1.大数据基本特征 (1)传统数据与大数据的区别: Volume :从数据量上来说,传统数据规模相对较小,最大维持在GB-TB,而大数据领域中我们需要处理的数据集规模基本都是在TB、乃至PB级别以上; Variety:速度...
  • 混合大数据算法分析营销大数据客户用电行为.pdf
  • 大数据-算法-免疫克隆选择算法应用研究.pdf
  • 大数据-算法-改进的并行遗传算法应用研究.pdf
  • 大数据-算法-应用层组播算法研究.pdf
  • 大数据-算法-文化算法及其应用研究.pdf
  • 大数据-算法-GPS动态导航系统滤波算法应用研究.pdf
  • 大数据-算法-张量投票算法及其应用.pdf
  • 大数据-算法-大数据的教育领域应用之研究.pdf
  • 大数据-算法-试卷分析算法应用研究.pdf
  • 大数据-算法-面向工业40的纺织生产大数据平台及其应用研究.pdf
  • 大数据-算法-改进的SemiLagrangian算法及其应用.pdf
  • 大数据-算法-DNA遗传算法应用研究.pdf
  • 大数据-算法-迭代重建算法应用于双源CT冠脉支架成像的研究.pdf
  • 大数据常用算法及场景

    万次阅读 2018-03-28 13:09:42
    大数据常用算法及场景 大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式...
  • 大数据-算法-基于多源信息的分布式水文模拟及优化算法应用研究.pdf
  • 大数据-算法-基于PSO的复杂工业环境视觉目标检测算法应用研究.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 182,441
精华内容 72,976
关键字:

大数据算法应用