精华内容
下载资源
问答
  • 一、大数据技能的开展的三个时期 01 存起来-等候机会 2009年开端BAT大力开展Hadoop技能,这个时期首要处理海量数据的存储与简略剖析疑问。 既然大数据有价值,那么就先将数据存起来。要发挥数据的价值,我们先要...

    本文内容偏理论性,  适合对于新手一些理论的深入理解 

    一、大数据技能的开展的三个时期

    01

    存起来-等候机会

          2009年开端BAT大力开展Hadoop技能,这个时期首要处理海量数据的存储与简略剖析疑问。

          既然大数据有价值,那么就先将数据存起来。要发挥数据的价值,我们先要有数据。

    • 网站浏览点击行为日志存储每个人都有潜在的能量,只是很容易被习惯所掩盖,被时间所迷离,被惰性所消磨。
    • 简单的PV与UV统计,满足基本需求
    • 更注重存储能力、集群规模、扩展能力

    02

    用起来-市场化

    开始注重对大数据的整合,构成全角度的数据。

    Hive技术的兴起,目前阿里腾讯的万台规模以上的集群80%以上的都是类Hive任务。

    • 先将内部将数据用起来,发挥数据的价值。
    • 内部员工毕竟挖掘手段比较片面,进一步的将数据开放出去,让外部的用户参与进来,帮忙挖掘数据,双方均得利。

    03   天下数据-唯快不破

    数据的时效性与响应时间,变得越来越重要,谁的快,谁就能争夺商业上的先机。

    Hadoop生态圈里的新技术 Spark、Impala、Kylin、Druid、Storm等技术,无不在快上下功夫。

    • 支付宝黄金策海量多维数据2秒即席分析
    • 腾讯广告系统,海量人群即席创建、即席广告推送

    二、大数据技术生态圈

          大数据如今已经不再是什么新的名词,五中全会大数据上升为国家战略,BAT巨头早已布局多年,大数据时代已经真正来临,但我们真的准备好了么?

    大家都知道大数据中蕴含大量的数据价值,比如说淘宝与天猫的用户消费行为、滴滴打车可以知道用户每天去了哪里、用户在优酷上都看了那些视频、移动运营商的海量客户终端信息以及上网行为 、大型零售商每天的销售数据、订餐网上用户每天吃了什么,等等大数据金矿无处不在。但淘出来的才是金子,否则只是一堆土而已,即占用场地,还要花钱去保管和维护这堆土。

    大数据时代金矿已经有了,如何利用好这个金矿,某种意义上取决于我们手上的工具。熟话说“没有那金刚钻,就别揽瓷器活”,工具是否适用,直接决定着我们能否进行挖金,以及挖金的速度与效率。适合用铁锹还是挖掘机,对挖金来说有着质的不同。

    大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具,锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。

    01    HDFS

            大数据,首先你要能存的下大数据。

    传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。

    02   Map Reduce

          存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大),一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说,单机处理是不可忍受的,比如微博要更新24小时热博,它必须在24小时之内跑完这些处理。那么我如果要用很多台机器处理,我就面临了如何分配工作,如果一台机器挂了如何重新启动相应的任务,机器之间如何互相通信交换数据以完成复杂的计算等等。这就是MapReduce / Tez / Spark的功能,MapReduce是第一代计算引擎,Tez和Spark是第二代。MapReduce的设计,采用了很简化的计算模型,只有Map和Reduce两个计算过程(中间用Shuffle串联),使用这个模型,已经可以处理大数据领域很大一部分问题了。

    那什么是Map,什么是Reduce?

    考虑如果你要统计一个巨大的文本文件(存储在类似HDFS上),你想要知道这个文本里各个词的出现频率。你启动了一个MapReduce程序。Map阶段,几百台机器同时读取这个文件的各个部分,分别把各自读到的部分分别统计出词频,产生类似(hello, 12100次),(world,15214次)等等这样的Pair(这里把Map和Combine放在一起说以便简化);这几百台机器各自都产生了如上的集合,然后又有几百台机器启动Reduce处理。Reducer机器A将从Mapper机器收到所有以A开头的统计结果,机器B将收到B开头的词汇统计结果(当然实际上不会真的以字母开头做依据,而是用函数产生Hash值以避免数据串化。因为类似X开头的词肯定比其他要少得多,而你不希望数据处理各个机器的工作量相差悬殊)。然后这些Reducer将再次汇总,如(hello,12100)+(hello,12311)+(hello,345881)= (hello,370292)。每个Reducer都如上处理,你就得到了整个文件的词频结果。

    这看似是个很简单的模型,但很多算法都可以用这个模型描述了。

    Map+Reduce的简单模型很直接很暴力,虽然好用,但是很笨重。第二代的Tez和Spark除了内存Cache之类的新feature,本质上来说,是让Map/Reduce模型更通用,让Map和Reduce之间的界限更模糊,数据交换更灵活,更少的磁盘读写,以便更方便地描述复杂算法,取得更高的吞吐量。

    03  Hive

          有了MapReduce、Tez和Spark之后,程序员发现,MapReduce的程序写起来真麻烦,希望能简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐,希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive,Pig是接近脚本方式去描述MapReduce,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序,丢给计算引擎去计算,而你就从繁琐的MapReduce程序中解脱出来,用更简单更直观的语言去写程序了。

    有了Hive之后,人们发现SQL对比Java有巨大的优势。一个是它太容易写了,刚才词频的东西,用SQL描述就只有一两行,而MapReduce写起来大约要几十上百行。更重要的是,非计算机背景的用户终于感受到了爱:我也会写SQL!于是数据分析人员终于从乞求工程师帮忙的窘境解脱出来,工程师也从写奇怪的一次性的处理程序中解脱出来,大家都开心了。Hive逐渐成长成了大数据仓库的核心组件。甚至很多公司的流水线作业集完全是用SQL描述,因为易写易改,一看就懂,容易维护。

    04    Impala,Presto,Drill

            自从数据分析人员开始用Hive分析数据之后,它们发现Hive在MapReduce上跑,慢如流水!流水线作业集也许没啥关系,比如24小时更新的推荐,反正24小时内跑完就算了。但是数据分析时,人们总是希望能跑更快一些。比如我希望看过去一个小时内多少人在天线宝宝页面驻足,分别停留了多久,对于一个巨型网站的海量数据,这个处理过程也许要花几十分钟甚至很多小时。而这个分析也许只是万里长征的第一步,你还要看多少人浏览了游戏,多少人看了拉赫曼尼诺夫的CD,以便跟老板汇报,我们的用户是宅男更多还是文艺青年/少女更多。你无法忍受等待的折磨,只能跟帅帅的工程师蝈蝈说,快,快,再快一点!

    于是Impala,Presto,Drill诞生了(当然还有无数非著名的交互SQL引擎,就不一一列举了)。三个系统的核心理念是,MapReduce引擎太慢,因为它太通用、太强壮、太保守,我们SQL需要更轻量、更激进地获取资源、更专门地对SQL做优化,而且不需要那么多容错性保证(因为系统出错了大不了重新启动任务,如果整个处理时间更短的话,比如几分钟之内)。这些系统让用户更快速地处理SQL任务,牺牲了通用性、稳定性等特性。如果说MapReduce是大砍刀,砍啥都不怕,那上面三个就是剔骨刀,灵巧锋利,但是不能搞太大太硬的东西。

    05    Spark

            这些系统,说实话,一直没有达到人们期望的流行度。因为这时候又两个异类被造出来了,他们是Hive on Tez / Spark和SparkSQL。它们的设计理念是,MapReduce慢,但是如果我用新一代通用计算引擎Tez或者Spark来跑SQL,那我就能跑的更快,而且用户不需要维护两套系统。这就好比如果你厨房小,人又懒,对吃的精细程度要求有限,那你可以买个电饭煲,能蒸能煲能烧,省了好多厨具。

    06   Storm

            上面的介绍,基本就是一个数据仓库的构架了。底层HDFS,上面跑MapReduce/Tez/Spark,再在上面跑Hive、Pig。或者HDFS上直接跑Impala,Drill,Presto。这解决了中低速数据处理的要求。

    那如果我要更高速的处理呢?

    如果我是一个类似微博的公司,我希望显示不只是24小时热博,我想看一个不断变化的热播榜,更新延迟在一分钟之内,上面的手段都将无法胜任。于是又一种计算模型被开发出来,这就是Streaming(流)计算。Storm是最流行的流计算平台。流计算的思路是,如果要达到更实时的更新,我何不在数据流进来的时候就处理了?比如还是词频统计的例子,我的数据流是一个一个的词,我就让他们一边流过我就一边开始统计了。流计算很高明,基本无延迟,但是它的短处是不灵活,你想要统计的东西必须预先知道,毕竟数据流过就没了,你没算的东西就无法补算了。虽然它是个很好的东西,但是无法替代上面数据仓库和批处理系统。

    07   Cassandra,HBase,MongoDB

            还有一个有些独立的模块是KV Store,比如Cassandra、Hbase、MongoDB以及很多很多很多很多其他的(多到无法想象)。KV Store就是说,由于我有一堆键值(key),我能很快速滴获取与这个Key绑定的数据。比如我用身份证号就能取到你的身份数据。这个动作用MapReduce也能完成,但是很可能要扫描整个数据集。而KV Store专用来处理这个操作,所有存和取都专门为此优化了。从几个P的数据中查找一个身份证号,也许只要零点几秒。这让大数据公司的一些专门操作被大大优化了。比如我网页上有个根据订单号查找订单内容的页面,而整个网站的订单数量无法单机数据库存储,我就会考虑用KV Store来存。KV Store的理念是,基本无法处理复杂的计算,大多没法JOIN,也许没法聚合,没有强一致性保证(不同数据分布在不同机器上,你每次读取也许会读到不同的结果,也无法处理类似银行转账那样的强一致性要求的操作),但是就是快、极快。

    每个不同的KV Store设计都有不同取舍,有些更快,有些容量更高,有些可以支持更复杂的操作。必有一款适合你。

    08.  YDB

           YDB是延云针对用户对大数据探索式、即席分析的需求而开发的分析软件,可以说是笔者的心头好。

    YDB将传统数据库索引技术应用在大数据技术上,打破目前大数据计算技术的僵局。将大数据检索向时效性更强,查询方式更灵活,执行效率更高的方向演进。虽然引用传统索引技术,但是对硬件的需求并不比Hadoop高,不会让小型用户望而却步。技术上YDB采用Java语言编写,接地气,SQL接口,用户也更易于上手使用,同时每天千亿增量万亿总量的数据量也能满足高端用户的需求。YDB主要技术方向在大索引,大索引的好处在于加快了检索的速度,减少查询中的分组、统计和排序时间,通过提高系统的性能和响应时间来节约资源。大索引技术的运用才能使YDB在如此大规模的数据量下依然保持查询响应时间在几秒,数据导入延迟在几分钟。

          大数据年代拼的不仅仅是数据量有多大,还要拼速度,拼谁的更快、更准、本钱更低。大数据的运用范畴还在不断的扩大,大索引技术还有很长的路要走。终有一天大数据会带给咱们震慑国际的影响。

     

    展开全文
  • 大数据面试汇总

    2018-09-20 13:46:49
    大数据面试汇总
  • 大数据笔记汇总

    2017-03-28 13:33:34
    大数据 笔记汇总 hadoop学习笔记
  • 所有关于大数据平台软件的安装汇总文档,全部采用apache原生态版本,进行手动配置安装,包括分布式安装与HA模式的安装,囊括了hadoop,hbase,spark,kafka,flume,hive等
  • python大数据汇总.zip

    2021-02-06 16:44:42
    python大数据汇总.zip
  • 关于大数据最常见的10个问题

    千次阅读 2019-05-03 21:59:19
    还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题大数据正是因为数据的爆发式增长带来的一个新的...

    1、云计算与大数据是什么关系?

    云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。

    大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等等。

    他俩之间的关系你可以这样来理解,云计算技术就是一个容器,大数据正是存放在这个容器中的水,大数据是要依靠云计算技术来进行存储和计算的。

    两者关系:

    首先,云计算是提取大数据的前提。

    信息社会,数据量在不断增长,技术在不断进步,大部分企业都能通过大数据获得额外利益。在海量数据的前提下,如果提取、处理和利用数据的成本超过了数据价值本身,那么有价值相当于没价值。来自公有云、私有云以及混合云之上的强大的云计算能力,对于降低数据提取过程中的成本不可或缺。

    其次,云计算是过滤无用信息的“神器”。

    首次收集的数据中,一般而言,90%属于无用数据,因此需要过滤出能为企业提供经济利益的可用数据。在大量无用数据中,重点需过滤出两大类,一是大量存储着的临时信息,几乎不存在投入必要;二是从公司防火墙外部接入到内部的网络数据,价值极低。云计算可以提供按需扩展的计算和存储资源,可用来过滤掉无用数据,其中公有云是处理防火墙外部网络数据的最佳选择。

    再次,云计算可高效分析数据。

    数据分析阶段,可引入公有云和混合云技术,此外,类似Hadoop的分布式处理软件平台可用于数据集中处理阶段。当完成数据分析后,提供分析的原始数据不需要一直保留,可以使用私有云把分析处理结果,即可用信息导入公司内部。

    最后,云计算助力企业管理虚拟化。

    可用信息最终用来指导决策,通过将软件即服务应用于云平台中,可将可用信息转化到企业现有系统中,帮助企业强化管理模式。

    上升到我国互联网整体发展层面,虽然我国在互联网服务方面具有领先的优势,然而,越来越多的企业认识到,与云计算的结合将使大数据分析变得更简单,未来几年,如能在大数据与云计算结合领域进行深入探索,将使我们在全球市场更具竞争力,这是非常关键的问题。

    2、大数据需要什么人才?

    大数据需要以下六类人才:

    大数据系统研发工程师

    这一专业人才负责大数据系统研发,包括大规模非结构化数据业务模型构建、大数据存储、数据库构设、优化数据库构架、解决数据库中心设计等,同时,还要负责数据集群的日常运作和系统的监测等,这一类人才是任何构设大数据系统的机构都必须的。

    大数据应用开发工程师

    此类人才负责搭建大数据应用平台以及开发分析应用程序,他们必须熟悉工具或算法、编程、优化以及部署不同的MapReduce,他们研发各种基于大数据技术的应用程序及行业解决方案。其中,ETL开发者是很抢手的人才,他们所做的是从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要,将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库,成为联机分析处理、数据挖掘的基础,为提取各类型的需要数据创造条件。

    大数据分析师

    此类人才主要从事数据挖掘工作,运用算法来解决和分析问题,让数据显露出真相,同时,他们还推动数据解决方案的不断更新。随着数据集规模不断增大,企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长,具备Hadoop框架经验的技术人员是最抢手的大数据人才,他们所从事的是热门的分析师工作。

    数据可视化工程师

    此类人才负责在收集到的高质量数据中,利用图形化的工具及手段的应用,清楚地揭示数据中的复杂信息,帮助用户更好地进行大数据应用开发,如果能使用新型数据可视化工具如Spotifre,Qlikview和Tableau,那么,就成为很受欢迎的人才。

    数据安全研发人才

    此类人才主要负责企业内部大型服务器、存储、数据安全管理工作,并对网络、信息安全项目进行规划、设计和实施,而对于数据安全方面的具体技术的人才就更需要了,如果数据安全技术,同时又具有较强的管理经验,能有效地保证大数据构设和应用单位的数据安全,那就是抢手的人才

    数据科学研究人才

    数据科学研究是一个全新的工作,够将单位、企业的数据和技术转化为有用的商业价值,随着大数据时代的到来,越来越多的工作、事务直接涉及或针对数据,这就需要有数据科学方面的研究专家来进行研究,通过研究,他们能将数据分析结果解释给IT部门和业务部门管理者听,数据科学专家是联通海量数据和管理者之间的桥梁,需要有数据专业、分析师能力和管理者的知识,这也是抢手的人才。

    对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!

    展开全文
  • 答:1,Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此...

    NO.1 想要学好大数据需掌握哪些技术?


    答:1,Java编程技术


    Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的!


    2.Linux命令


    对于大数据开发通常是在Linux环境下进行的,相比Linux操作系统,Windows操作系统是封闭的操作系统,开源的大数据软件很受限制,因此,想从事大数据开发相关工作,还需掌握Linux基础操作命令。


    3. Hadoop


    Hadoop是大数据开发的重要框架,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!


    4. Hive


    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。


    5. Avro与Protobuf


    Avro与Protobuf均是数据序列化系统,可以提供丰富的数据结构类型,十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式,学习大数据,需掌握其具体用法。


    6.ZooKeeper


    ZooKeeper是Hadoop和Hbase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。


    7. HBase


    HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。


    8.phoenix


    phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎,其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性,大数据开发需掌握其原理和使用方法。


    9. Redis


    Redis是一个key-value存储系统,其出现很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客户端,使用很方便,大数据开发需掌握Redis的安装、配置及相关使用方法。


    10. Flume


    Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。


    11. SSM


    SSM框架是由Spring、SpringMVC、MyBatis三个开源框架整合而成,常作为数据源较简单的web项目的框架。大数据开发需分别掌握Spring、SpringMVC、MyBatis三种框架的同时,再使用SSM进行整合操作。


    12.Kafka


    Kafka是一种高吞吐量的分布式发布订阅消息系统,其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现!


    13.Scala


    Scala是一门多范式的编程语言,大数据开发重要框架Spark是采用Scala语言设计的,想要学好Spark框架,拥有Scala基础是必不可少的,因此,大数据开发需掌握Scala编程基础知识!


    14.Spark


    Spark是专为大规模数据处理而设计的快速通用的计算引擎,其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求,大数据开发需掌握Spark基础、SparkJob、Spark RDD、spark job部署与资源分配、Spark shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。


    15.Azkaban


    Azkaban是一个批量工作流任务调度器,可用于在一个工作流内以一个特定的顺序运行一组工作和流程,可以利用Azkaban来完成大数据的任务调度,大数据开发需掌握Azkaban的相关配置及语法规则。


    16.Python与数据分析


    Python是面向对象的编程语言,拥有丰富的库,使用简单,应用广泛,在大数据领域也有所应用,主要可用于数据采集、数据分析以及数据可视化等,因此,大数据开发需学习一定的Python知识。


    只有完整的学完以上技术,才能算得上大数据开发人才,真正从事大数据开发相关工作,工作才更有底气,升职加薪不成问题


    关注公众号每天持续更新哦,希望对您有所帮助


    NO.2新手入门大数据怎么做?


    答:现在大数据行业已经趋于稳定,越来越多的中小企业从最初的跟风到冷静下来,如果确实想转行,最基础的,Linux的基础操作,还有就是掌握一门语言,推荐Python,简单易学,且很适合后期的数据挖掘和人工智能,hadoop生态圈的各个产品,离线分析和实时分析,当然,hive和spark了,不过前期你需要会scala,目前金融行业对数据的实时要求很高,哈哈,对于一个小白,这些已经够你学习好长时间得了



    关注公众号每天持续更新哦,希望对您有所帮助



    NO.3 什么是大数据,怎样利用大数据卖货?


    答:在写这篇大数据文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据是什么?估计很少能说出一二三来。究其原因,一是因为大家对大数据这类新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。


    如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起hadoop和Cloud Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。




    第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。


      第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。


      第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。


     和大数据相关的理论


    古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。


    从大数据的价值链条来分析,存在三种模式:


      1- 手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。


      2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。


      3- 既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。


    现在和未来


      我们先看看大数据在当下有怎样的杰出表现:


      大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;


      大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;


      大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;


      大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;


      大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;


      大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;


      大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;


      大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品。


      其实,这些还远远不够,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。


      比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”


      Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。


      而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。


      未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。


      比如,建立个人的数据中心,将每个人的日常生活习惯,身体体征,社会网络,知识能力,爱好性情,疾病嗜好,情绪波动……换言之就是记录人从出生那一刻起的每一分每一秒,将除了思维外的一切都储存下来,这些数据可以被充分的利用:


      医疗机构将实时的监测用户的身体健康状况;


      教育机构更有针对的制定用户喜欢的教育培训计划;


      服务行业为用户提供即时健康的符合用户生活习惯的食物和其它服务;


      社交网络能为你提供合适的交友对象,并为志同道合的人群组织各种聚会活动;


      政府能在用户的心理健康出现问题时有效的干预,防范自杀,刑事案件的发生;


      金融机构能帮助用户进行有效的理财管理,为用户的资金提供更有效的使用建议和规划;


      道路交通、汽车租赁及运输行业可以为用户提供更合适的出行线路和路途服务安排;


      ……


      当然,上面的一切看起来都很美好,但是否是以牺牲了用户的自由为前提呢?只能说当新鲜事物带来了革新的同时也同样带来了“病菌”。比如,在手机未普及前,大家喜欢聚在一起聊天,自从手机普及后特别是有了互联网,大家不用聚在一起也可以随时随地的聊天,只是“病菌”滋生了另外一种情形,大家慢慢习惯了和手机共渡时光,人与人之间情感交流仿佛永远隔着一张“网”。


    随着数据越来越多,在缺乏监管之后,必然会有一场激烈的博弈:是以商业为中心还是以个人为中心。


    关注公众号每天持续更新哦,希望对您有所帮助



    NO.4大数据有没有数量级的标准?


    答:现在大数据的概念非常火热,总是有很多创业团队、研究机构来炒大数据的概念。但深究之后发现,所谓大数据不过只是对小规模的业务数据做了一下数据挖掘而已,甚至于年数据量不过百万条的也自称是大数据平台。

    那么,行业内是否应该有一个约定的标准,比如每日新生的有效数据量达到一个什么量级才有资格称为大数据?




    大数据不仅仅是数量级的评定,还有多源性,可变特征,复杂度等等纬度。


    我理解这个问题应该是问多大的数据称为大数据?回答这个问题还是先要理解大数据的概念,和具备大数据的思维。数据分为格式化数据和非格式化数据,比如每天监控器的图像数据数量巨大但是没有价值隔一天就扫除掉了,我们也不会理解这是大数据。所以,有价值的数据超出了原有的存储能力,我们认为是大数据。


    还有就是即时数据处理的速度或者存储数据的处理调用速度满足不了日常的使用需求,我们说是大数据。


    第三个,就是数据纬度多,复杂度多,合适多样,我们称为大数据。


    所以,不能单独用数据量来衡量,比如一份较小的数据,但每天都需要被保存,而且横向与其他数据需要关联,那他就是大数据。而一份很大的数据,没有什么价值,也没有关键性,也不叫大数据!


    关注公众号每天持续更新哦,希望对您有所帮助



    NO.5如何避开互联网公司的大数据杀熟现象?


    答:某航班的飞机若在同一用户账号上一定时间内被频繁搜索,很有可能就会涨价,而当你换一部手机时查看时,价格又回落为正常状态;


    某线上产品对被判定为消费能力较高的客户和经常购买的刚需客户进行溢价,消费能力较低的客户则可以用更低的价格购买到该产品;


    在游戏经常充值的“氪金”玩家并不会因为充值量大而更多受到游戏开发者的眷顾,反而是“萌新”更容易在抽奖中抽到珍品,因为要鼓励新人消费。


    “大数据杀熟”是个罗生门,没有哪家公司敢承认,但许多消费者都认为自己中过招。


    其实题主这个问题可以算半个伪命题——因为,仅凭我们自己,压根无法避开大数据杀熟,除非断绝互联网,而这对一个现代青年来说几乎不可能。所以在此,我只能用一些微乎其微的小方法教大家减少一点点“大数据杀熟”对我们个体带来经济的损失——其实在这个过程中,你在时间与精力上的损失未必就没有经济损失珍贵。


    关掉cookie

    Cookie是指某些网站为了辨别用户身份、进行时域跟踪而储存在用户本地终端上的数据,听起来很复杂,简单来说,Cookie就是服务器暂存放在你电脑上的一笔资料,好让服务器用来识别你的计算机。当你在浏览网站的时候,Cookie会帮你在网站上所打的文字或是一些选择,都记录下来。当下次你再光临同一个网站,服务器会根据Cookie里的内容来判断使用者,推送出个性化的网页内容给你。Cookie会让你的工作与娱乐更简单方便,例如记住曾填写过的用户名和密码、浏览历史便于下次打开,但你曾做过的偏好选择也正是大数据“套路”你的来源。


    所以如果你想让浏览器拒绝网站存放Cookie到你的计算机,可按"工具→Internet选项",切换到"安全"标签,选择"自定义级别",找到Cookie部分,全都设为关闭,按下"确定"按钮后,再关闭浏览器即可。不过当你关闭Cookie之后,很多网站的个性化服务功能也不能再使用了。


    减少自己信息的暴露

    你的每一次搜索(以及搜索的频繁程度和时间),每一次收藏,每一次浏览,每一次购买都会记录在个人账号之中,尤其在现在网络实名制几乎已全面覆盖各主流APP的情况下,几乎意味着以上数据都记录在你的手机号上,搜索公司可以将你的数据卖给其他公司,这也是你为何总会收到垃圾广告短信的原因之一。减少自己信息的暴露,不使用购物类APP,而是使用网页版进行浏览以及购买。例如苹果自带的Safari、Google的Chrome浏览器等,都有无痕模式,开启后确实能让你的信息暴露得更少一点。


    谨慎勾选手机权限

    无论是iOS还是安卓系统,几乎每个APP在第一次打开使用时都要跳出弹框请求地理位置、麦克风和摄像头、相册、通知推送的权利,有的会请求开放通讯录,有的软件会在漫长的使用“生涯”中不断跳出提醒。但我的建议与选择是,只开必要的,例如地图软件请求地理位置合理,通讯录就不合理,同理修图软件请求相册合理,地理位置就不合理。在权限开放上采用“极简”的处理风格。


    购买时货比三家,或者换台设备

    实在需要购买,又不得不搜索时,可以用本机看好产品,然后借用朋友的手机进行购买,这种方式在机票预订和酒店预订上效果还不错。


    话说回来,这些小技巧都是治标不治本,在现代互联网资本的运作下,我们普通用户殚精竭虑省下的那点小钱如滴进大海里的一滴水,对互联网来说无足轻重,而对我们消费者来说,这滴水能否省下都还是个问号——下班的你站在街头要打车,会因为不平等溢价而改乘公共交通工具吗?你在购买刚需物件时会因为上涨的百十来块钱而选择不购买了吗?


    当我们孜孜不倦为了节省一点钱去换软件、删记录时,时间与精力的流逝让我们疲惫不堪。


    关注公众号每天持续更新哦,希望对您有所帮助


    NO.6 Hadoop一般用在哪些业务场景?


    答:Hadoop可以做大数据量存储,它是分布式,可以存储离线的数据,不需要实时性的数据,就像云盘,网盘那样,你用的时候,可以直接读取就行。

    你也可以将历史数据存储在Hadoop上,通过整体来分析数据,比抽样的数据要全,更可靠。

    还可以处理大型文件,比如PB级别的,因为它的HDFS是分布式存储数据的,它会将数据按块来进行存储,一般是128M,现在3.0是256M。

    Hadoop可以做日志处理: 通过MapReduce编程可以抽取想要的内容,也可以结合Flume来收集想要的数据,并通过Hive将数据保存到表,实际上数据底层还是存储在Hadoop上,进行日志分析。

    Hadoop支持并行计算,因为它是分布式的,数据是存储在不同的机器上,如果你的需求满足分布式计算,那你就可以用MR来就行海量计算。我曾经用MR做过算法,那是2年前啦。

    Hadoop还可以将数据从oracle、mysql、DB2、mongdb等的数据进行ETL处理后,存储在HDFS上进行保存。它有三个副本,非常可靠。

    Hadoop还可以通过使用HBase做数据分析,因为HBase是基于Hadoop的数据库, 可以实现实时性,高效和随机读写。


    关注微信还有大量大数据相关视频等你来看

    展开全文
  • 大数据资源汇总

    2019-04-02 10:40:18
    资料都是辛辛苦苦各个网站下载的,也有淘宝买的,现收集起来一起分享,不喜勿喷。 如果资料有过期的情况,请及时联系
  • 大数据算法汇总

    2017-04-19 15:15:51
    转载36大数据(36dsj.com):36大数据»大数据等最核心的关键技术:32个算法1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并...

    转载36大数据(36dsj.com):36大数据»大数据等最核心的关键技术:32个算法

    1、A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径。其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次序。算法以得到的次序访问这些节点。因此,A*搜索算法是最佳优先搜索的范例。

    2、集束搜索(又名定向搜索,Beam Search)——最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过,集束搜索只能在每个深度中发现最前面的m个最符合条件的节点,m是固定数字——集束的宽度。

    3、二分查找(Binary Search)——在线性数组中找特定值的算法,每个步骤去掉一半不符合要求的数据。

    4、分支界定算法(Branch and Bound)——在多种最优化问题中寻找特定最优化解决方案的算法,特别是针对离散、组合的最优化。

    5、Buchberger算法——一种数学算法,可将其视为针对单变量最大公约数求解的欧几里得算法和线性系统中高斯消元法的泛化。

    6、数据压缩——采取特定编码方案,使用更少的字节数(或是其他信息承载单元)对信息编码的过程,又叫来源编码。

    7、Diffie-Hellman密钥交换算法——一种加密协议,允许双方在事先不了解对方的情况下,在不安全的通信信道中,共同建立共享密钥。该密钥以后可与一个对称密码一起,加密后续通讯。

    8、Dijkstra算法——针对没有负值权重边的有向图,计算其中的单一起点最短算法。

    9、离散微分算法(Discrete differentiation)。

    10、动态规划算法(Dynamic Programming)——展示互相覆盖的子问题和最优子架构算法

    11、欧几里得算法(Euclidean algorithm)——计算两个整数的最大公约数。最古老的算法之一,出现在公元前300前欧几里得的《几何原本》。

    12、期望-最大算法(Expectation-maximization algorithm,又名EM-Training)——在统计计算中,期望-最大算法在概率模型中寻找可能性最大的参数估算值,其中模型依赖于未发现的潜在变量。EM在两个步骤中交替计算,第一步是计算期望,利用对隐藏变量的现有估计值,计算其最大可能估计值;第二步是最大化,最大化在第一步上求得的最大可能值来计算参数的值。

    13、快速傅里叶变换(Fast Fourier transform,FFT)——计算离散的傅里叶变换(DFT)及其反转。该算法应用范围很广,从数字信号处理到解决偏微分方程,到快速计算大整数乘积。

    14、梯度下降(Gradient descent)——一种数学上的最优化算法。

    15、哈希算法(Hashing)。

    16、堆排序(Heaps)。

    17、Karatsuba乘法——需要完成上千位整数的乘法的系统中使用,比如计算机代数系统和大数程序库,如果使用长乘法,速度太慢。该算法发现于1962年。

    18、LLL算法(Lenstra-Lenstra-Lovasz lattice reduction)——以格规约(lattice)基数为输入,输出短正交向量基数。LLL算法在以下公共密钥加密方法中有大量使用:背包加密系统(knapsack)、有特定设置的RSA加密等等。

    19、最大流量算法(Maximum flow)——该算法试图从一个流量网络中找到最大的流。它优势被定义为找到这样一个流的值。最大流问题可以看作更复杂的网络流问题的特定情况。最大流与网络中的界面有关,这就是最大流-最小截定理(Max-flow min-cut theorem)。Ford-Fulkerson 能找到一个流网络中的最大流。

    20、合并排序(Merge Sort)。

    21、牛顿法(Newton’s method)——求非线性方程(组)零点的一种重要的迭代法。

    22、Q-learning学习算法——这是一种通过学习动作值函数(action-value function)完成的强化学习算法,函数采取在给定状态的给定动作,并计算出期望的效用价值,在此后遵循固定的策略。Q-leanring的优势是,在不需要环境模型的情况下,可以对比可采纳行动的期望效用。

    23、两次筛法(Quadratic Sieve)——现代整数因子分解算法,在实践中,是目前已知第二快的此类算法(仅次于数域筛法Number Field Sieve)。对于110位以下的十位整数,它仍是最快的,而且都认为它比数域筛法更简单。

    24、RANSAC——是“RANdom SAmple Consensus”的缩写。该算法根据一系列观察得到的数据,数据中包含异常值,估算一个数学模型的参数值。其基本假设是:数据包含非异化值,也就是能够通过某些模型参数解释的值,异化值就是那些不符合模型的数据点。

    25、RSA——公钥加密算法。首个适用于以签名作为加密的算法。RSA在电商行业中仍大规模使用,大家也相信它有足够安全长度的公钥。

    26、Schönhage-Strassen算法——在数学中,Schönhage-Strassen算法是用来完成大整数的乘法的快速渐近算法。其算法复杂度为:O(N log(N) log(log(N))),该算法使用了傅里叶变换。

    27、单纯型算法(Simplex Algorithm)——在数学的优化理论中,单纯型算法是常用的技术,用来找到线性规划问题的数值解。线性规划问题包括在一组实变量上的一系列线性不等式组,以及一个等待最大化(或最小化)的固定线性函数。

    28、奇异值分解(Singular value decomposition,简称SVD)——在线性代数中,SVD是重要的实数或复数矩阵的分解方法,在信号处理和统计中有多种应用,比如计算矩阵的伪逆矩阵(以求解最小二乘法问题)、解决超定线性系统(overdetermined linear systems)、矩阵逼近、数值天气预报等等。

    29、求解线性方程组(Solving a system of linear equations)——线性方程组是数学中最古老的问题,它们有很多应用,比如在数字信号处理、线性规划中的估算和预测、数值分析中的非线性问题逼近等等。求解线性方程组,可以使用高斯—约当消去法(Gauss-Jordan elimination),或是柯列斯基分解( Cholesky decomposition)。

    30、Strukturtensor算法——应用于模式识别领域,为所有像素找出一种计算方法,看看该像素是否处于同质区域( homogenous region),看看它是否属于边缘,还是是一个顶点。

    31、合并查找算法(Union-find)——给定一组元素,该算法常常用来把这些元素分为多个分离的、彼此不重合的组。不相交集(disjoint-set)的数据结构可以跟踪这样的切分方法。合并查找算法可以在此种数据结构上完成两个有用的操作:

    查找:判断某特定元素属于哪个组。

    合并:联合或合并两个组为一个组。

    32、维特比算法(Viterbi algorithm)——寻找隐藏状态最有可能序列的动态规划算法,这种序列被称为维特比路径,其结果是一系列可以观察到的事件,特别是在隐藏的Markov模型中。

    以上就是Christoph博士对于最重要的算法的调查结果。你们熟悉哪些算法?又有哪些算法是你们经常使用的?

    36大数据(www.36dsj.com)成立于2013年5月,是中国访问量最大的大数据网站。36大数据(微信号:dashuju36)以独立第三方的角度,为大数据产业生态图谱上的需求商 、应用商、服务商、技术解决商等相关公司及从业人员提供全球资讯、商机、案例、技术教程、项目对接、创业投资及专访报道等服务。

    End.

    展开全文
  • 大数据面试汇总.zip

    2020-09-10 11:05:29
    大数据开发工程师面试题,恰同学少年,风华正茂,挥斥方遒
  • 大数据案例汇总

    2018-12-11 21:03:16
    Hadoop案例(九)流量汇总案例
  • 大数据Hive汇总

    2019-01-16 10:27:50
    大数据(十七)Hive【Hive介绍】 https://blog.csdn.net/jintaohahahaha/article/details/77949646 大数据之Hive https://blog.csdn.net/morexyoung/article/details/78916228 大数据(九) - Hive ...
  • 大数据Sqoop汇总

    2019-01-16 10:36:24
    大数据之Sqoop 1、https://blog.csdn.net/morexyoung/article/details/78916071 2、https://blog.csdn.net/morexyoung/article/details/78916137 3、https://blog.csdn.net/morexyoung/article/details/78916154 ...
  • 大数据Pig汇总

    2019-01-16 10:54:15
    大数据_Pig  https://blog.csdn.net/weixin_37243717/article/details/79058555 大数据学习——数据处理工具Pig入门使用 https://blog.csdn.net/xundh/article/details/68061952 Pig 常用操作 ...
  • 大数据flume汇总

    2019-01-16 10:44:57
    大数据_FLUME https://blog.csdn.net/u012089465/article/details/82467288 大数据Flume系列之Flume集群搭建 https://1csh1.github.io/2016/04/21/Flume集群搭建/ ...
  • 大数据分为5层 传输层:Sqoop,Flume,Kafka,Logstash,Canal,RabbitMQ,爬虫 存储层:HBase,HDFS,Ceph,Kudu,TiDB,Alluxio Redis Ignite Ethere num && Hyper Ledeger 计算层:Presto,Hive,Spark,Storm,Flink,Tensorflow...
  • 大数据常见运维问题汇总 其他安装问题: 1.IDEA安装与配置 https://blog.csdn.net/qq_27093465/article/details/77449117 2.IntelliJ IDEA 修改maven为阿里云仓库 ...
  • 常用大数据工具汇总

    千次阅读 2018-03-01 14:37:10
    常用的大数据工具按主题分类为:语言web框架应用服务器SQL数据访问工具SQL数据库大数据构建工具云提供商现在让我们来讨论一下存储/处理数据用的不同的非SQL工具——NoSQL数据库,内存缓存,全文搜索引擎,实时流,...
  • 开源大数据利器汇总

    千次阅读 2017-01-16 13:04:12
    开源大数据利器汇总 类别 名称 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Kylin http://kylin.io...
  • 关于大数据T+1执行流程

    千次阅读 2019-10-03 06:49:11
    关于大数据T+1执行流程 前提: 搭建好大数据环境(hadoop hive hbase sqoop zookeeper oozie hue) 1.将所有数据库的数据汇总到hive (这里有三种数据源 ORACLE MYSQL SEQSERVER) 全量数据抽取示例: ORACLE...
  • 还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。  他俩之间的关系你可以这样来理解,云计算技术...
  • 2019年大数据技术应用的五个方向:数据资产管理、增强分析、智能化数据基础设施、面向AI的分布式框架、数据安全及服务。大多数企业已经运用起来,那么2020年大数据技术应用趋势如何?2020年大数据技术应用趋势:混合...
  • 对于大数据,我的具体研究方向是大规模数据的机器学习应用,所以首先要掌握以下基本概念。*微积分(求导,极值,极限)*线性代数(矩阵表示、矩阵计算、特征根、特征向量)*概率论+统计(很多数据分析建模基于统计...
  • 大数据利器汇总

    2014-12-23 17:43:45
    http://blog.chinaunix.net/uid-26642637-id-4185761.html 转载于:https://blog.51cto.com/wxiaowu/1593980
  • 大数据学习路线图、大数据所有技术汇总 大数据采集、迁移 大数据存储、数据仓库、搜索引擎 离线大数据、实时大数据 大数据应用 大数据服务器集群部署与监控、资源调度管理、高可用 大数据中间件
  • 当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。 虽然Hadoop伴随大数据一同火爆...
  • 关于大数据的一点梳理   最近梳理并重新审视了一下“大数据”。其实所谓大数据处理,就是利用工具对大型数据进行更快速的提取;其核心在于两点,一个是大量非结构化数据的存储,二是对非结构化数据的快速提取并...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 44,034
精华内容 17,613
关键字:

关于大数据的问题汇总