精华内容
下载资源
问答
  • shark 大数据
    千次阅读
    2022-04-18 09:28:19

    1、离线查询引擎

    pig :数据流式处理 数据仓库系统,基于hadoop的数据流执行引擎,利用mapreduce并行处理数据,使用pig Latin语言表达数据流。

    Hive:HiveQL数据仓库系统 是构建在Hadoop之上的数据仓库,用于解决海量结构化的日志数据的统计问题,其语言结构HQL,类似于SQL,但又不完全相同。

    Spark SQL:

    Presto

    Phoenix

    Lucene/Solr/Elasticsearch:数据搜索引擎应用

    2、实时查询引擎

    Impala

    shark: spark的前身,目前没有人用了。

    druid:

    drill:

    presto

    stinger:已经退市

    3、NoSQL

    文档数据库:MongoDB

    健值数据库:

    Redis

    DynanoDB

    宽列存储数据库:

    Cassandra

    Hbase

    图形数据库:

    Neo4j

    JanusGraph

    4、调度系统

    Ooize

    AzKaban

    AirFlow

    dolphinscheduler

    5、数据收集

    Flume

    Logstash

    Nifi

    Fluented

    Chukwa

    6、大数据应用统一集平台

    cdap

    7、集群管理/容器管理

    apache mesos

    kubernetes

    8、Hadoop的应用程序开发平台

    cascading

    9、数据存储/文件系统

    hdfs

    hbase 

    carbondata

    accumulo

    数据存储格式:

            orc

            parquet

            avro

    10、消息系统

            kafka

            rabbitmq

            rocketmq

            activemq

    11、数据同步

            sqoop

            nifi

            datax

            distcp

    12、数据血缘

            atlas

            falcon

    13、管理系统

            zookeeper

            yarn

            ambari

            cloudera manager

            hue

    14、空间数据计算

            gis4Hadoop

            geospark 

            geomesa

    15、dag计算

            tez

    16、数据处理

            spark 

            spark streaming 

            storm

            批处理

                    mapreduce 

                    apex

            apex 

    17、分析报告

            kylin

            zeppelin

            superset

            cboard

            druid

    18、机器学习

            tensorflow

            mahout:Hadoop机器学习算法库提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

            keras

            theano

            dsstne:提供的算法:分类、聚类、频繁模式挖掘、向量相似度计算、推荐引擎、降维、进化算法、回归分析等

            spark mlib :spark机器学习算法库

            hivemall:Hivemall结合了面向Hive的多种机器学习算法。它包括诸多高度扩展性算法,可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希。

            h2o:H2O是一种分布式的内存处理引擎用于机器学习,它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言,3.0版本开始支持Python和Java语言,同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展,R环境并不直接作用于大的数据集,而是通过扩展通讯协议例如REST API与H2O集群通讯,H2O来处理大量的数据工作。几个有用的R扩展包,如ddply已经被打包,允许你在处理大规模数据集时,打破本地机器上内存容量的限制。你可以在EC2上运行H2O,或者Hadoop集群/YARN集群,或者Docker容器。用苏打水(Spark+ H2O)你可以访问在集群上并行的访问Spark RDDS,在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

    19、大数据集群安全

            kerberos 

            ranger:安全一直是Hadoop的一个痛处。它不是说(像是经常报道)Hadoop是“不安全”或“不安全”。事实是,Hadoop有很多的安全功能,虽然这些安全功能都不太强大。我的意思是,每一个组件都有它自己的身份验证和授权实施,这与其他的平台没有集成。2015年5月,Hortonworks收购XA /安全,随后经过了改名后,我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下,它允许你设置一个“策略”,把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制,通过一个漂亮的页面来做管理、审计、加密。

            sentry 

            knox

    20、帐号统一(多租户)

            freeipa

            openldap

            apacheAD

    21、图计算

            spark graphx

      

    更多相关内容
  • 1-4+SHARK大数据开发平台的架构与实践
  • 大数据入门笔记系列】第一节 大数据常用组件大数据释义大数据组件跳转 大数据释义 近些年来,坊间一直流传着这样的言论:“大数据时代,人人都在裸奔”。对于外行人来说,对于“大数据”这个词最直观的理解就是...
  • 大数据初次窥探---第一节.docx
  • 分享超越Hadoop的大数据技术书籍,供大家学习用Spark 和Shark进行基于内存的实时大数据分析。
  • 大数据科普:大数据系统后台层次角色 及数据流向 最近有不少质疑大数据的声音,这些质疑有一定的道理,但结论有些以偏概全,应该 具体问题具体分析。对大数据的疑问和抗拒往往是因为对其不了解,需要真正了解之后 ...
  • 大数据技术与应用基础》 21世纪高等院校"云计算和大数据"人才培养规划教材 第1章 大数据概述 大数据技术与应用基础-第1章大数据概述全文共19页,当前为第1页。 能力 CAPACITY 要求 掌握大数据技术的基本情况,了解...
  • 1云计算及大数据 1.1云计算 1.1.1什么是云计算 什么是云计算 网络架构图中,网络的符号被一朵云彩表示,于是基于网络的计算方式就叫云计算了。 由于计算被一个服务集群负责,对外不透明,也有点云里雾里的意思。
  • 移动互联网时代,云计算、物联网、智能终端等新技术新应用不断涌现,移动互联网的迅猛...析电信运营商大数据发展遇到的问题,探讨电信运营商应用大数据的策略,最后提出一种适合电信运营商的大数据 平台架构和方案。
  • 大数据基准 英文版

    2018-08-07 17:05:15
    hadoop 生态圈中的数据处理框架 处理数据调研结果报告,Hive,Tez,Shark,Impala各版本的支持情况以及运行速度对比。
  • 大数据技术栈

    2021-12-13 09:00:56
    大数据技术栈相关介绍

     

     

    1 各种数据存储

    数据是个很泛的概念,但是我们脑海里第一反应的就是关系型数据库和EXCEL这种二维表是数据。

    而现在数据各种各样特色,有文档、有图片、有流式的音频视频、有日志数据、有IM消息数据、有索引数据、有社交应用的网状关系数据、有地图数据。他们对存储访问都有不同的要求,因而NoSQL兴起了。

    如KV型,先后出现了Memcached、Redis。如文档型,出现了CouchDB、MongoDB。如日志数据,也出现了Facebook Scribe、Flume、Logstash。

    即使在传统关系型数据领域,由于大数据规模也出现了真正的分布式关系型数据库,如GreenPlum、TiDB、OceanBase

    为了多维分析,也出现了专门的列式数据库,如HBase。

    2 数据仓库

    各式各样的数据,经由各种上层应用进行了采集和存储。但我们一提到大数据,自然想到的就是大数据分析。大数据分析的第一步就是大数据仓库建设。

    大数据仓库建设,必要的工作就是ETL(抽取、转换、导入)。抽取,这步就又细分为:数据抽取、数据清洗、数据校验。在转换这步,我们也需要关注数据安全脱敏,也就是说,进入大数据仓库的数据需要分级。

    不过大家一般建设大数据仓库,首先做的第一个应用工作就是:主数据治理。所以这个第一期,需要做:主数据标准制定、主数据清洗与校验、主数据转换(拆分合并)、主数据复制分发、主数据访问OpenAPI。

    数据复制分发,我们可以使用消息队列和调度服务来工作。消息队列如Kafka、ZeroMQ、ActiveMQ、RabbitMQ。调度服务如ZooKeeper。

    数据抽取传输开源项目,我能看到的Sqoop on Hadoop。可能很多数据都是直接被Spark、Storm、Presto、Hbase处理了。

    3 大数据仓库基础架构

    现在建大数据仓库,需要的是分布式存储和分布式计算,再也不是过去几十台服务器和几百T存储这么简单的。这都是要以万计的,这才是真正的大数据。而要建造这么大规模的大数据仓库,需要分布式存储和分布式计算基础框架支撑。

    我们第一个就要提出的就是Hadoop。目前它已经成为了一个生态。Hadoop最核心是两块:分布式文件系统HDFS、MapReduce。MapReduce又分为MAP(分解任务)、Reduce(合并结果)两部分。

    现在有个新玩意叫YARN,不过YARN并不是MapReduce2.0。在MapReduce中资源管理和作业管理均是由JobTracker实现的,集两个功能于一身,而在新的Hadoop2.0架构中,MapReduce作业管理由ApplicationMaster实现,而资源管理由新增系统YARN完成。Hadoop Corona是facebook开源的下一代MapReduce框架。其基本设计动机和Apache的YARN一致。就是因为大家都在解决同一个问题,只不过不同时间段开源出来不同的解决方案项目,所以使大家大呼到底要用哪个啊。

    现在又出来一个新玩意叫:Mesos。Mesos是更宽泛的资源管理框架,不仅可以管理偏重于半结构化的大数据框架,也可以管理非结构化的框架。人们也在对比Mesos和Kubernetes,其实Kubernetes只是目前聚焦于容器的管理,而Mesos野心更大,当然也抽象的更通用化,留下各种抽象接口,以管理各种资源。

    有人还把ZooKeeper和YARN、Mesos比较。其实Zookeeper已经成为最基层最具体最不可或缺的真正的协调执行者了。而YARN成为了大数据处理资源管理框架,而Mesos更成为了有史以来更大集成者更通用的资源管理框架了。

    4 大数据计算框架

    在大数据处理领域,目前当红炸子鸡是:Spark、Storm、Flink。

    Spark切的领域在MapReduce工作的领域,不过Spark大量把MAP中间结果放到内存中,所以显得性能特别快。现在Spark也在往生态走,希望能够上下游通吃,一套技术栈解决大家多种需求,所以大家又渐渐看不清楚Spark聚焦的领域了。Spark Shark,是为了VS hadoop Hive,Spark Streaming是为了VS Storm。

    Storm擅长处理实时流式。比如日志,比如网站购物的点击流,是源源不断、按顺序的、没有终结的,所以通过Kafka等消息队列来了数据后,Storm就一边开始工作。Storm自己不收集数据也不存储数据,随来随处理随输出结果。

    它们都有各自的特色,但他们都无法给你处理具体的业务应用,它们只是大规模分布式计算的通用框架,所以具体用他们的特性干什么,还得你自己写。这就是大数据业务领域分析系统的事了。

    不过,下面我会介绍一些技术,在特定的业务领域,能够帮你更简单的达成业务应用需要。

    5 大数据应用技术

    • 大数据搜索:Lucene、Solr、ElasticSearch。ElasticSearch是新推出的比Solr在大规模数据情况下更好的开源解决方案。

    • 大数据查询:这里有Hive/Impala,Hive的作用是你可以把结构化数据导入到Hadoop中然后用简单SQL来做查询。你可以把Impala看做是性能更快的Hive,因为Impala不强依赖MapReduce。而Facebook开源的Presto更是能查询多种数据源,而且一条Presto查询可以将多个数据源的数据进行合并。

    • 大数据分析:咱们要提到去年新晋顶级Apache项目的Kylin。它创始于ebay,2014年进入apache孵化项目。Kylin不仅仅能做SQL查询,而且能做Cube多维分析。

    • 大数据挖掘:这个领域包含精准推荐、机器学习/深度学习/神经网络、人工智能。自从AlphaGo火了以后,机器学习再度火热。Google开源了最新机器学习系统TensorFlow,微软亚洲研究院开源了分布式机器学习工具包-DMTK,雅虎也开源了Caffe On Spark 深度学习。Mahout是Apache的一个开源项目,提供一些机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘。

    6 数据可视化工具

    这块有大量的可视化开源组件,但成系统的开源的确实出色的不多。这里面大有可玩。

    Airbnb近日开源了数据探查与可视化平台Caravel。另外,百度推出的Echarts组件也不做,可以基于此做些系统性的工作。

    7 数据平台监控运维

    这里只看到一套完整的适用于海量日志处理的工具:Facebook Scribe、Flume、Logstash、Kibana。但我觉得,如此复杂的大数据平台技术栈,一套成熟的监控运维系统,是必须要出现的。

    8 最后总结:大数据平台建设总蓝图

    作为咱们日常业务,最直接的需要就是一套能分析具体业务的应用系统,但这套应用系统需要很多基础技术架构和服务才能达成。为了让大家有所预期,所以我把这些必备前提储备列出来。

    技术平台建设:

    • 大数据基础架构:推荐Hadoop、HDFS、YARN;大数据计算框架:推荐Spark;大数据日志收集推荐Flume+Logstash+Kibana。我们需要部署依赖中间件Zookeeper。

    • 大数据仓库平台建设:分布式关系型TiDB、KV式Redis、文档型MongoDB、列式Hbase

    • 大数据搜索,推荐选择Lucene、ElasticSearch;大数据查询,推荐选择Presto;大数据多维分析,推荐Kylin;大数据挖掘,推荐挖掘开源算法包MashOut。

    大数据整理服务:

    • 主数据管理:主数据标准制定、主数据清洗与校验、主数据转换(拆分合并)、主数据复制分发、主数据访问OpenAPI。

    • ETL:数据抽取、数据清洗、数据校验、数据安全脱敏

    大数据分析系统建设:

    • 大数据展示平台建设

    • 大数据商业应用模型建模

    • 大数据应用分析系统设计与开发

    大数据分析服务:

    • 大数据分析解读报告

    看看,大数据建设很复杂,大家一定要沉住气,一期期来做,这个周期和投入将会很大,不是设计个分析模型、开发个分析系统这么简单的。如果就是那样简单的,其实就是个披着大数据的报表系统而已。

    展开全文
  • 大数据技术概述

    2021-09-11 15:14:19
    一、大数据技术概述 1、大数据概述 google技术: 典型的计算模式: 1、批处理模式:MapReduce 2、流计算:实时处理,给出实时响应 3、图计算 4、查询分析计算 2、云计算: 虚拟化: 2、物联网 物联网:物物相连...

    一、大数据技术概述

    1、大数据概述
    在这里插入图片描述google技术:
    在这里插入图片描述
    典型的计算模式:
    1、批处理模式:MapReduce
    2、流计算:实时处理,给出实时响应
    3、图计算
    4、查询分析计算
    在这里插入图片描述
    2、云计算:
    在这里插入图片描述
    在这里插入图片描述
    虚拟化:
    在这里插入图片描述
    2、物联网
    物联网:物物相连的互联网。
    物联网的层次架构:
    在这里插入图片描述
    物联网的关键技术:
    1、 识别技术
    如:二维码
    2、感知技术
    如:公交卡

    二、Hadoop

    1、简介
    Hadoop是Apache软件基金会旗下的开源软件。可以支持多种编程语言。
    Hadoop的两大核心:HDFS+MapReduce。
    2、特点:
    高可靠性
    高效性
    高可扩展性

    3、应用现状:
    在这里插入图片描述
    4、版本变化:
    在这里插入图片描述
    5、Hadoop的项目结构
    在这里插入图片描述
    HDFS:分布式文件系统
    YARN:资源管理和调度框架(集群资源管理)
    MapReduce:离线计算
    Tez:DAG计算
    Spark:内存计算
    Hive
    Pig
    Hive2
    Pig2
    Shark
    Zookeeper:分布式协调服务
    Hbase:分布式数据库
    Flume:日志收集
    Sqoop:数据库ETL工具

    三、HDFS

    HDFS:分布式文件系统。
    在这里插入图片描述
    HDFS实现目标:
    1、兼容廉价的硬件设备
    2、实现流数据读写
    3、支持大数据集
    4、支持简单的文件模型
    5、强大的跨平台兼容性

    HDFS自身的局限性:
    1、不适合低延迟数据访问:不满足实时性
    2、无法高效存储大量小文件
    3、不支持多用户写入和任意修改文件,只允许追加

    HDFS概述
    块:
    1、块:HDFS中最核心的概念,HDFS中的一个块比文件系统中的块大很多。为了分摊磁盘读写开销,也就是在大量数据间分摊磁盘寻址的开销。
    2、目的:支持面向大规模数据存储、降低分布式节点的寻址开销。
    3、缺点:如果块过大会导致 MapReduce 就 一两个任务在执行完全牺牲了 MapReduce 的并行度,发挥不了分布式并行处理的效果。
    4、好处:支持大规模文件存储、简化系统设计、适合数据备份

    HDFS两大组件:
    名称节点:整个HDFS集群的管家。EditLog,存储增量数据。
    数据节点:存储实际数据
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述HDFS的体系结构:主节点+多个数据节点构成
    局限性:
    命名空间限制,名称节点是保存在内存中的,能够容纳的对象的个数会受到空间大小限制。
    性能的瓶颈,整个分布式文件的吞吐量,受限于单个名称节点的吞吐量。
    隔离问题,由于只有一个名称节点,只有一个命名空间,因此无法对不同的应用程序进行隔离。
    集群的可用性:一旦名称节点发生故障,会导致整个集群不可用。

    HDFS的存储原理:
    1、冗余数据保存的问题
    好处:加快数据的传输速度、很容易检查数据错误、保证数据可靠性
    2、数据保存策略的问题
    3、数据恢复的问题。
    数据读取:HDFS提供了一个API可以确定一个数据节点的机架ID,客户端也可以调用API获取自己所属的机架。
    读取过程:七步。
    在这里插入图片描述
    写数据过程:七步。
    在这里插入图片描述
    数据的错误和恢复:
    名称节点出错:冷备份,暂停服务一段时间,恢复后再继续;热备份,服务不用暂停。
    数据节点出错:可以调整冗余数据的位置。
    数据本身出错:校验码,验证数据是否出错,出错了则需要恢复数据。

    展开全文
  • 大数据原理和应用

    2022-05-20 14:02:29
    1. 简述大数据的概念。 答:自2012年以来,“大数据”一词越来越引起人们的关注。但是,目前为止,在学术研究领域和产业界中,大数据并没有一个标准的定义。在维克托·迈尔-舍恩伯格编写的《大数据时代》一书中大...

    习题答案:b684c768b1d74e59bae17054a8d2417d.jpg
    第一章:
    1. 简述大数据的概念。
    答:自2012年以来,“大数据”一词越来越引起人们的关注。但是,目前为止,在学术研究领域和产业界中,大数据并没有一个标准的定义。在维克托·迈尔-舍恩伯格编写的《大数据时代》一书中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。而麦肯锡全球研究所则定义大数据为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。通常来说,大数据是指数据量超过一定大小,无法用常规的软件在规定的时间范围内进行抓取、管理和处理的数据集合。
    2. 简述大数据的基本特征。
    答:
    大数据的主要特征可用“5V+1C”来进行概括,分别是:数据量大(Volume)、数据类型多(Variety)、数据时效性强(Velocity)、价值密度低(Value)、准确性高(Veracity)、复杂性高(Complexity),如下图所示。

     


    图 大数据特征图
    3.简述大数据的分析处理过程。
    答:
    大数据的处理流程基本可划分为数据采集、数据处理与集成、数据分析和数据解释4个阶段。即经数据源获取的数据,因为其数据结构不同(包括结构、半结构和非结构数据),用特殊方法进行数据处理和集成,将其转变为统一标准的数据格式方便以后对其进行处理;然后用合适的数据分析方法将这些数据进行处理分析,并将分析的结果利用可视化等技术展现给用户,这就是整个大数据处理的流程如下图所示。

    图 大数据的处理流程

    详细的分析处理过程参见《大数据技术与应用》第5章第2节


    4. 简述大数据的存储方式。
    答:
    存储系统作为数据中心最核心的数据基础,不再仅是传统分散的、单一的底层设备。除了要具备高性能、高安全、高可靠等基于大数据应用需求,“应用定义存储”概念被提出。主要有以下几种存储方式:
    1、分布式系统 
    2、NoSQL数据库 
    3、云数据库 
    4、大数据存储技术路线 
            1) 采用MPP架构的新型数据库集群 
            2) 基于Hadoop的技术扩展和封装 
            3) 大数据一体机

    5.简述大数据的商业价值和社会价值。
    答: 
    商业价值: 
    1.对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。 
    2. 运用大数据模拟实境,发掘新的需求和提高利润。
    3. 提高大数据成果在各相关部门的分享程度,提高企业决策能力。
    4. 进行商业模式、产品和服务的创新。
    社会价值: 
    1.大数据可以为个人提供个性化的医疗服务。
    2.大数据可以提供个性化教育。在大数据的支持下,教育将呈现另外        的特征:弹性学制、个性化辅导、社区和家庭学习。
    3.大数据的诞生让社会安全管理更为井然有序。
    4.大数据的发展带动了社会上各行各业的发展。 
    6.以某一行业为例,简述大数据的应用。
    答:参见《大数据技术与应用》 第1章第4节

    第二章:
    1.简述大数据集群系统。
    答:集群技术是指通过高速通信网络将一组相互独立的计算机联系在一起,组成一个计算机系统,该系统中每一台计算机都是一个独立的服务器,运行各自的进程,它们相互之间可以通信,既可以看作是一个个单一的系统,也能够协同起来为用户提供服务。对网络用户来讲,后端就像是一个单一的系统,协同向用户提供系统资源、系统服务,通过网络连接组合成一个组合来共同完一个任务。Hadoop 分布式集群是为了对海量的非结构化数据进行存储和分析而设计的一种特定的集群。其本质上是一种计算集群。
    详见《大数据技术与应用》第2章第1节

    2.简述集群系统的分类。
    答:集群分为同构与异构两种。而按功能和结构可以分成以下几类。
     (1)高可用性集群。
     (2)负载均衡集群。
     (3)高性能计算集群。
     (4)网格计算。

    3.简述Linux操作系统的特性。
    答:
    Linux操作系统是一个多用户,多任务,丰富的网络功能,它不仅有可靠的系统安全,而且良好的可移植性,具有标准的兼容性,良好的用户界面,出色的速度性能,最为重要的是开源,CentOS主要有以下特点:
        (1)主流:目前的Linux操作系统主要应用于生产环境,企业级主流Linux系统仍旧是RedHat或者CentOS。
        (2)免费:RedHat 和CentOS差别不大,基于Red Hat Linux 提供的可自由使用源代码的企业CentOS是一个Linux发行版本。
        (3)更新方便:CentOS独有的yum命令支持在线升级,可以即时更新系统,不像RedHat 那样需要花钱购买支持服务。

    4.简述计算机虚拟化技术以及常见的虚拟化软件。
    答:在计算机中,虚拟化(Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打破实体结构间的不可分割的障碍,使用户可以比原本的组态更好的方式来应用这些资源。这些资源的新虚拟部分是不受现有资源的架设方式,地域或物理组态所限制。一般所指的虚拟化资源包括计算能力和资料存储。
        常见的虚拟化软件有VirtualBox、VMware Workstation、KVM。

    5.简述大数据集群技术的架构。
    答:一般来说,大数据集群的构架,主要分为硬件资源层、OS 层、基础设施管理层、文件系统层、大数据集群层和大数据应用层,如下图所示。

    图 大数据集群的架构
    详见《大数据技术与应用》第2章第5节

    6.安装Linux系统并进行网络配置。
    答:Linux安装环境:CentOS 7.3, 官网http://www.centos.org/
    为了简化操作,使用三台服务器作为集群节点,其中一台为Master节点,两台为Slave节点。规划集群节点IP。
    对集群节点进行网络配置:
        (1)设置主机名
        (2)修改/etc/hosts文件
        (3)修改网络配置
        (4)重启网络,并查看网络IP地址
        (5)关闭并停止NetworkManager服务

        详见《大数据技术与应用》第2章第6节
    7.部署Linux集群、设置时间同步以及免密钥SSH配置。
    答:一、集群规划
    二、网络配置
       (1)设置主机名
       (2)修改/etc/hosts文件
       (3)修改网络配置
       (4)重启网络,并查看网络IP地址
       (5)关闭并停止Network Manager服务
        三、安全配置
       (1)安全密码控制
       (2)设置历史记录、退出自动清空历史记录等
       (3)设置闲置超时时间
       (4)设置Selinux
       (5)设置并停止firewalld服务
        四、时间同步
       (1)Master节点时间同步安装设置
       (2)Slave节点时间同步安装设置
       (3)设置自动加载并重启chrony服务
       (4)查看master节点时间同步信息
       (5)查看slaver节点时间同步信息
        五、SSH登录
       (1)安装openssh,开启sshd服务
       (2)以root用户登录master节点,生成SSH密钥对
       (3)把含有公用密钥文件信息复制到节点机上
       (4)使用SSH登录节点机
            详见《大数据技术与应用》第2章第6节
    第三章:
    1.简述Hadoop系统及其优点。
    答:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,它主要有以下几个优点:
    (1)高可靠性。
    (2)高扩展性。
    (3)高效性
    (4)高容错性。
    详见《大数据技术与应用》第3章第1节

    2.简述Hadoop原理及运行机制。
    答:Hadoop的核心由3个子项目组成:Hadoop Common、HDFS、和MapReduce。 Hadoop Common包括文件系统(File System)、远程过程调用协议(RPC)和数据串行化库(Serialization Libraries)
    详见《大数据技术与应用》第3章第1节

    3.简述Hadoop技术生态系统。
    答:Hadoop生态系统主要包括:HDFS、MapReduce、Spark、Storm、HBase、Hive、Pig、ZooKeeper、 Avro 、Sqoop、Ambari、HCatalog、Chukwa 、Flume、Mahout、Phoenix、Tez、Shark等, Hadoop开源技术生态系统如下图所示。


    图 Hadoop开源技术生态系统
    4. 学会JDK的安装和配置。
    答:参见《大数据技术与应用》第3章第3节

    5.掌握Hadoop的安装和配置。
    答:参见《大数据技术与应用》第3章第3节
    第四章
    1.简述 HDFS的体系架构。
    答:Hdfs架构如下图所示:

    图 HDFS架构

    2.简述 HDFS读数据的流程。 
    答:详细流程如下:
    (1)首先HDFS的客户端通过Distributed FileSystem(HDFS中API里的一个对象);
    (2)通过Distributed FileSystem发送给NameNode请求,同时将用户信息及文件名的信息等发送给NameNode,并返回给DistributedFileSystem,该文件包含的block所在的DataNode位置;
    (3)HDFS客户端通过FSDataInputStream按顺序去读取DataNode中的block信息(它会选择负载最低的或离客户端最近的一台DataNode去读block);
    (4)FSDataInputStream按顺序一个一个的读,直到所有的block都读取完毕;
    (5)当读取完毕后会将FSDataInputStream关闭。
    HDFS读数据的流程可如下图所示:

    图 HDFS读流程
    3.简述 HDFS写数据的流程。 
    答:详细流程如下:
    (1)首先HDFS的客户端通过Distributed FileSystem(HDFS中API里的一个对象);
    (2)通过Distributed FileSystem发送客户端的请求给NameNode(NameNode主要是接受客户端请求)并且会带着文件要保存的位置、 文件名、操作的用户名等信息一起发送给NameNode;
    (3)NameNode会给客户端返回了一个FSDataOutputStream,同时也会返回文件要写入哪些DataNode上(负载较低的);
    (4)通过FSDataOutputStream进行写操作,在写之前就做文件的拆分,将文件拆分成多个Block,第一个写操作写在负载比较低的DataNode上,并将这个block复制到其他的DataNode上;
    (5)当所有的block副本复制完成后会反馈给FSDataOutputStream;
    (6)当所有的block副本全都复制完成,就可以将FSDataOutputStream流关闭;
    (7)通过Distributed FileSystem更新NameNode中的源数据信息。
    HDFS写数据的流程可如下图所示:

    图 Hdfs写流程
    4.简述 Block副本的存放策略。 
    答:在大多数情况下,副本系数是3,HDFS的存放策略是将一个副本存放在本地机架的 节点上,一个副本放在同一机架的另一个节点上,最后一个副本放在不同机架的节点上。
    详细请参见《大数据技术与应用》4.1.4

    5.编写程序实现对 HDFS文件读写等。
    答:请参见《大数据技术与应用》第4章第2节

    第五章
    1.简述 MapReduce架构。 
    答:MapReduce采用Master/Slave的架构,它主要由以下4个部分组成:
      1)Client
      2)JobTracker
      3)TaskTracker:
      4)Task

    其架构图如图所示:

    图 The Hadoop Ecosystem

    2.简述 MapReduce的工作原理。 
    答:MapReduce框架的流程可以分为两个阶段来描述:
    1.Map阶段
    (1)InputFormat根据输入文件产生键值对,并传送到Mapper类的map函数中;
    (2)Map输出键值对到一个没有排序的缓冲内存中;
    (3)当缓冲内存达到给定值或者map任务完成,在缓冲内存中的键值对就会被排序,然后输出到磁盘中的溢出文件;
    (4)如果有多个溢出文件,那么就会整合这些文件到一个文件中,且是排序的;
    (5)这些排序过的、在溢出文件中的键值对会等待Reducer的获取。

    2.Reduce阶段
    (1)Reducer获取Mapper的记录,然后产生另外的键值对,最后输出到HDFS中;
    (2)Shuffle:相同的key被传送到同一个的Reducer中;
    (3)当有一个Mapper完成后,Reducer就开始获取相关数据,所有的溢出文件会被排到一个内存缓冲区中;
    (4)当内存缓冲区满了后,就会产生溢出文件到本地磁盘;
    (5)当Reducer所有相关的数据都传输完成后,所有溢出文件就会被整合和排序;
    (6)Reducer中的reduce方法针对每个key调用一次;
    (7)Reducer的输出到HDFS。

    3.简述 MapReduce的工作机制。 
    答:
    一、MapReduce运行图如图所示:


    图 Write-Ahead-Log

    二、运行解析:
    1.作业的提交
    2.作业的初始化
    3.作业的分配
    4.任务的执行
    5.进度和状态的更新
    6.作业的完成
    三、失败解析:
    1.任务失败
    2.tasktracker失败
    3.jobtracker失败

    4.编写 MapReduceWordCount。 
    答:参见《大数据技术与应用》第5章第2节

    5.实现MapReduce倒排索引编程
    答:参见《大数据技术与应用》第5章第2节

    第六章
    1、简述Hbase数据库
    答:
    (1)HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
    (2)HBase利用Hadoop HDFS作为其文件存储系统,HBase利用Hadoop MapReduce来处理HBase中的海量数据,HBase利用Zookeeper作为协同服务。
    (3)HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由Client、HMaster、HRegionServer、ZooKeeper等组成。
    (4)HBase是基于列式存储的
    (5)HBase以表的形式存储数据

    2、简述HBase过滤器的工作过程
    答: 
    如下图描述了过滤器怎样在客户端进行配置,怎样在网络传输中被序列化,怎样在服务端执行。

    图 过滤器的工作过程
    3、学会HBase集群部署
    答:参见《大数据技术与应用》第6章第2节

    4、掌握Hbase Java API编程
    答:参见《大数据技术与应用》第6章第5节

    5、掌握HBase过滤器编程
    答:参见《大数据技术与应用》第6章第5节

    第七章
    1、统一资源管理和调度平台的优点
    答:
    (1)支持多种计算框架HBase利用Hadoop HDFS作为其文件存储系统,HBase利用Hadoop MapReduce来处理HBase中的海量数据,HBase利用Zookeeper作为协同服务。
    (2)扩展性
    (3)容错性
    (4) 高资源利用率
    相对于第一代Hadoop,YARN把Hadoop中的资源控制、任务调度和具体任务计算的JobTracker/TaskTracker架构,变为ResourceManager、ApplicationMaster、NodeManager、Container、四个功能组件,让资源调度和任务调度更加细粒化。

    2、简述Yarn架构及工作流程
    答:
    总的来说,YARN的工作流程分为以下几个步骤:
    1)用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
    2)ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
    3)ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4)到7)。
    4)ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
    5)一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
    6)NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。
    7)各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
    8)应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。YARN的工作流程
    如图所示:


    YARN的工作流程图
    3、学会YARN Shell的操作命令
    答:参见《大数据技术与应用》第7章第3节

    第八章
    1. 简述Spark开源框架及其特点。 
    答:
    Spark架构采用了分布式计算中的Master-Slave模型,Spark架构如下图所示:

    图8-2 Spark架构图

    2. 简述Spark生态系统及其主要组件。 
    答:
    Spark主要包括Spark Core和在Spark Core基础之上建立的应用框架Spark SQL、Spark Streaming、MLlib和GraphX。如下图所示。

    图 Spark生态系统

    除了这些库以外,还有一些其他的库,如BlinkDB和Tachyon。此外,还有一些用于与其他产品集成的适配器,如Cassandra(Spark Cassandra连接器)和R(SparkR)。

    3. 简述RDD的基本工作原理和特性。
    答:参见《大数据技术与应用》第8章第2节

    4. 使用蒙特卡罗方法计算圆周率π值。
    答:
    step1:首先进入spark安装目录
        cd /opt/spark

    Step2:提交任务命令
        bin/spark-submit –class org.apache.spark.examples.SparkPi 
    –master spark://master:7077 
    –executor-memory 1G 
    –total-executor-cores 1 
    examples/jars/spark-examples_2.11-2.0.2.jar 
    10

    注:10是计算的次数
    输出:

    附:
    1.Python源码:
    from __future__ import print_function
    import sys
    from random import random
    from operator import add
    from pyspark.sql import SparkSession

    if __name__ == "__main__":
    spark=SparkSession\
            .builder\
            .appName("PythonPi")\
            .getOrCreate()     
    partitions = int(sys.argv[1]) if len(sys.argv) > 1 else 2        
    n = 100000 * partitions    
    print(n)

         def f(_):
            x = random() * 2 – 1
            y = random() * 2 – 1
            return 1 if x ** 2 + y ** 2 < 1 else 0

        count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(add)    print(count)
        print("Pi is roughly %f" % (4.0 * count / n))
        spark.stop()
    1.java源码:
    public final class JavaSparkPi {
    public static void main(String[] args) throws Exception {
    int slices = (args.length == 1) ? Integer.parseInt(args[0]) : 2;
    int n = 100000 * slices;
    List<Integer> l = new ArrayList<Integer>(n);
    for (int i = 0; i < n; i++) { l.add(i); }
    SparkConf sparkConf = new SparkConf().setAppName("JavaSparkPi");
    JavaSparkContext jsc = new JavaSparkContext(sparkConf);
    JavaRDD<Integer> dataSet = jsc.parallelize(l, slices);
    int count = dataSet.map(new Function<Integer, Integer>() {
        @Override
         public Integer call(Integer integer) {
             double x = Math.random() * 2 - 1;
             double y = Math.random() * 2 - 1;
             return (x * x + y * y < 1) ? 1 : 0; } }).reduce(new Function2<Integer, Integer, Integer>() {
         @Override
         public Integer call(Integer integer, Integer integer2) {
             return integer + integer2;     } });
    System.out.println("Pi is roughly " + 4.0 * count / n); jsc.stop();
     }
    }

    5. 使用Spark实现词频统计和相关系数计算
    答:参见《大数据技术与应用》第8章第3节

    第九章
    1.简述机器学习的基本概念。
    答:
    机器学习是一个庞大的家族体系,涉及众多算法、任务和学习理论。
    详见《大数据技术与应用》第9章第1节 

    2.简述机器学习的分类。
    答: 
        (1)按任务类型分,机器学习模型可以分为回归模型、分类模型和结构化学习模型。
        (2)从方法的角度分,可以分为线性模型和非线性模型,非线性模型又可以分为传统机器学习模型(SVM,KNN,决策树等)和深度学习模型。
        (3)按照学习理论分,机器学习模型可以分为有监督学习、半监督学习、无监督学习、迁移学习和强化学习。

    3.MLlib的数据类型和API函数有哪些? 如何使用?
    答:
    MLlib提供了以下数据类型:
      (1)Local vector
      (2)Labeled point
      (3)Local matrix
      (4)RowMatrix
      (5)IndexedRowMatrix
      (6)CoordinateMatrix
      (7)BlockMatrix
    MLlib提供了以下API:
      (1)基于 DataFrame的 API
      (2)基于 RDD的 API
    详见《大数据技术与应用》第9章第2节

    4. 3种鸢尾花数据(萼片宽度、萼片长度、 花瓣宽度、花瓣长度)为: (4.9,3.0,1.4,0.2)、(5.0,3.6,1.4,0.2)、(5.2,2.7,3.9,1.4)、(6.1,2.9,4.7,1.4)、(7.7,2.6,6.9,2.3)、(6.6,2.9,4.6,1.3)、(4.4,3.2,1.3,0.2)、(5.7,2.8,4.1,1.3),计算其聚类中心并将数据进行分类。
    答:参见《大数据技术与应用》第9章第3节 

    5.使用决策树算法对鸢尾花数据进行模型训练和预测。
    答:参见《大数据技术与应用》第9章第3节 

    第十章
    1.简述Hive的组成及执行流程。
    答:
    Hive的主要模块以及与Hadoop的交互工作如下图所示:

    图 Hive组成模块
    下图显示Hive与Hadoop交互的主要组件,这些组件如下:
    (1)UI——包括Shell命令、JDBC/ODBC和WebUi,其中最常用的是shell这个客户端方式对Hive进行相应操作。
    (2)Driver——Hive解析器的核心功能就是根据用户编写的SQL语法匹配出相应的MapReduce模板,形成对应的MapReduce job进行执行。
    (3)Compiler——将HiveQL编译成有向无环图(Directed Acyclic Graph,DAG)形式的MapReduce任务。
    (4)Metastore——Hive将表中的元数据信息存储在数据库中,如derby、MySQL,Hive中的元数据信息包括表的名字、表的列和分区、表的属性(是否为外部表等)、表的数据所在的目录等。编译器Compiler根据用户任务去MetaStore中获取需要的Hive的元数据信息。
    (5)Execution Engine——执行编译器产生的执行计划,该计划是一个有向无环图,执行引擎管理这些计划的不同阶段之间的依赖关系,并在相关组件上执行这些阶段。

    图 Hive执行流程

    2.比较ARRAY、MAP和STRUCT这3种数据类型的区别
    答:
    复杂数据类型包括ARRAY、MAP、STRUCT,这些复杂数据类型是由基础类型组成的,如下表所示:
    数据类型
    描述
    例子

    ARRAY
    一组有序字段。字段的类型必须相同。例如:数组A的值为[ 1, 2 ],则第2个元素为A[1]。
    ARRAY( 1, 2 )

    MAP
    一组无序的键/值对。键的类型必须是原子的,值可以是任何类型,同一个映射的键的类型必须相同,值得类型也必须相同。例如:MAP数据M的键-值对 &apos;a&apos; -> 1, &apos;b&apos; -> 2,则&apos;b&apos;的值为M[ &apos;b&apos; ]。
    MAP( ‘a’, 1, ‘b’, 2 )

    STRUCT
    一组命名的字段。字段类型可以不同。例如:name为STRUCT{ first STRING, last STRING },则使用name.last引用name中last的值。
    STRUCT( &apos;a&apos;, 1, 2 )

    表 复杂数据类型

    3.举例Hive文件格式的JSON 表示
    答:
    教材中的数据以json形式表示
    {
    "name": "王可塘",
    "salary": 12000.0,
    "degree": ["学士", "硕士"],
    "dues": {
    "公积金": .2,
    "保险金":  .05,
    "养老金":  .1
    },
    "address":{
    "province": "广东省",
    "city": "汕尾市",
    "street": "莲塘街36号.",
    "zip":  516600} 
    }

    4.使用HSQL进行词频统计。 
    答:参考《大数据技术与应用》第十章第5节

    5.从腾讯证券下载股市行情,使用Hive进行分析。
    答:参见《大数据技术与应用》第十章第6节

    第十一章
    1.简述ZooKeeper协调服务。
    答:
    分布式协调服务有Paxos、 ZooKeeper、Chubby和Fourinone等。

    2.简述ZAB协议。
    答:
     (1)所有的事务请求必须一个全局唯一的服务器   (Leader)来协调处理,集群其余的服务器称为follower服务器。
     (2) ZAB协议分为四个阶段:阶段0为leader选  举,阶段1为发现,阶段2为同步,    阶段3为广播。而实际实现时将发现及同步阶段合并为一个恢复阶段。
     (3) ZAB协议分两大块:恢复和广播。

    3.简述ZooKeeper事件监听器工作流程。
    答:
    ZooKeeper的Watcher机制主要包括客户端线程、客户端WatchManager和ZooKeeper服务器三部分。其工作流程:客户端在向ZooKeeper服务器注册Watcher的同时,会将Watcher对象存储在客户端的WatchManager中。当ZooKeeper服务器端触发Watcher事件后,会向客户端发送通知,客户端线程从WatchManager中取出对应的Watcher对象执行回调逻辑,如下图所示。

    图 Watcher工作流程

    4.简述ZooKeeper如何解决YARN中ResourceManager单点故障问题。
    答:
    为了解决 ResourceManager单点问题,YARN 设计了一套 Active/Standby模式的 ResourceManagerHA架构,如下图所示:

    图YARN HA架构

    5.编写程序实现ZNode的增加、删除等。
    答:参见《大数据技术与应用》第11章第5节

    第十二章
    1.简述大数据分析平台的原理及功能。
    答:
    功能:
    (1)流量分析 、
    (2)经营状况分析、
    (3)大数据可视化系统

    医药大数据分析平台方案主要分为三部分:数据采集子系统、数据分析子系统和数据报表呈现子系统。详情如下表所示:

    子系统
    系统定义
    交互接口

    大数据采集子系统
    系统以离线批处理方式,推送采集结果数据给大数据分析平台。
    (1)采集大数据接收的格式,(2)大数据接口定义

    大数据分析子系统
    接收采集系统的数据,客户行为分析,不同药品的精准预测算法,药品推荐算法等特色功能。生成分析结果数据
    (1)大数据的存储,(2)客户行为模型,(3)流量分析模型,(4)统计分析模型

    大数据报表呈现子系统
    采用Web的方案,进行大数据分析结果的呈现,分析结果以报表、图表的方式呈现给医药电子商务商家。
    以交互接口、调用报表数据的等方式获取需要的结果。

    图 系统组成

    医药大数改系统的子系统间的协作方式如下图所示。

    图 系统协作

    该系统的网络拓扑图如下图所示。医药电商系统以批处理方式,推送采集数据给大数据分析平台,存储到Hadoop集群,大数据报表服务器通过交换机和集群相连。
    图 系统网络拓扑

    2.简述大数据分析平台的功能。
    答:
    功能:
        (1)流量分析 
        (2)经营状况分析
        (3)大数据可视化系统

    3.简述大数据分析平台的系统组成。
    答:
    医药大数据分析平台方案主要分为三部分:数据采集子系统、数据分析子系统和数据报表呈现子系统。详情如下表所示:

    子系统
    系统定义
    交互接口

    大数据采集子系统
    系统以离线批处理方式,推送采集结果数据给大数据分析平台。
    (1)采集大数据接收的格式,(2)大数据接口定义

    大数据分析子系统
    接收采集系统的数据,客户行为分析,不同药品的精准预测算法,药品推荐算法等特色功能。生成分析结果数据
    (1)大数据的存储,(2)客户行为模型,(3)流量分析模型,(4)统计分析模型

    大数据报表呈现子系统
    采用Web的方案,进行大数据分析结果的呈现,分析结果以报表、图表的方式呈现给医药电子商务商家。
    以交互接口、调用报表数据的等方式获取需要的结果。

    表 系统组成
    4.简述大数据分析平台涉及的关键技术。
    答:
      Hadoop作为分布式计算平台。
      Hbase作为分布式数据存储数据库。
      Bootstrap作为页面搭建框架。
      jQuery进行后台交互操作。
      EChart实现数据可视化。
    5.简述大数据分析平台的存储方式。
    答:
    结合医药电商数据的具体特点和上述的设计及优化策略,为了满足商家用户进行流量分析、销售分析、药品推荐等需求,从而设计流量数据表、订单数据表、会员评价表,具体内容如下表所示:
      1.流量数据表
    RowKey
    列族 cf

    <platformtype><clicktime><userId>
    sessionId
    userId
    trackUid
    userAgent
    referer


      2.订单数据表
    RowKey
    列族 cf

    <orderId><userId>
    orderId
    userId
    orderNum
    Payment
    totalAmount
    isCod
    orderStatus


    具体请参见《大数据技术与应用》第12章第7节

     

    展开全文
  • Shark (Plunder) 可配置、插件化的爬虫引擎,二次开发框架;大数据累积项目。 支持单例、分布式部署。 Configurable, pluginable crawler engine, secondary development framework. Modules: Engine、Scheduler、...
  • 大数据常用技术梳理

    千次阅读 2021-01-01 11:09:07
    热爱大数据技术或者从事大数据开发方面可以来看看. 应该会对您有所帮助~~~
  • 随着Spark的发展对于野心勃勃的Spark团队来说Shark对于Hive的太多依赖如采用Hive的语法解析器查询优化器等等制约了Spark的One Stack Rule Them All的既定方针制约了Spark各个组件的相互集成所以提出了SparkSQL项目...
  • 大数据相关开源项目汇总

    千次阅读 2018-12-06 15:25:41
    Apache的Hadoop项目已几乎与大数据划上了等号,它不断壮大起来,已成为一个完整的生态系统,拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构...
  • 目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,...
  • Transforming Big Data with Spark and Shark,intel内部讲义
  • 大数据生态系统的主要开源技术和框架
  • Konstantin Boudnik是WANdisco大数据工程总监,负责提供公司的企业级NonStop服务器的Hadoop解决方案,ASF的Hadoop、MRUnit提交者、ASF Bigtop的合著者、Spark/Shark贡献者。此次Spark峰会上 Konstantin Boudnik介绍...
  • 初识大数据

    千次阅读 2020-04-01 11:42:07
    初识大数据1.什么是大数据2.大数据作用3.为什么要用大数据4.大数据相关的组件4.1.1 文件系统4.1.2. 数据存储4.1.3. 内存技术4.1.4. 数据搜集4.1.5. 消息系统4.1.6. 数据处理4.1.7. 查询引擎4.1.8. 分析和报告工具...
  • 本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 硬刚大数据系列文章链接: 2021年从零到大数据专家的学习指南(全面升级版) 2021年从零到大数据专家面试...
  • Hadoop大数据技术生态

    2020-12-29 21:52:54
    一、大数据技术生态图 Ambari:可以安装、部署及管理hadoop、hive、hbase、zk等集群。 HDFS:Hadoop中的分布式文件存储系统。 Yarn:Hadoop中的集群资源管理和调度系统。 MapReduce:Hadoop中...
  • 常见的大数据 引擎介绍

    千次阅读 2019-05-13 17:20:52
    作者:李小翀 ...来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。...大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、M...
  • 大数据平台建设关键技术

    千次阅读 2021-02-22 16:16:19
    横向扩展 基础架构是大数据首先面临的挑战,如何让基础架构能够存取更多的数据呢,传统的基础架构能否满足用户需求呢,目前来说,虽然基础架构面临着一些挑战,但是挑战并不是很大,但是随着大数据行业的发展,而且...
  • Databricks高级软件工程师Michael Armbrust,在此次峰会上就什么是查询优化、简捷的查询规划、优化执行、优先工作、Catalyst做了详细介绍,总之Catalyst是一个关系运算符的优化树架构。
  • 内包含大数据方向的100篇论文及综述,来自张玉宏老师翻译的《读完这100篇论文,就能成为大数据高手》,上传资源为了共享,如有侵权,麻烦告知,接收移除,谢谢!
  • 关于java习惯的笔试题大数据生态系统数据集 打包到 JSON 数据集中的大数据相关项目的不完整但有用的列表。 外部参考: , , 相关项目:由,由,由,由,由 如何贡献 项目 将新的 JSON 文件添加到projects-data目录。 ...
  • 大数据问题

    2021-03-02 22:07:05
    一、HDFS 1. HDFS的读流程  客户端向NameNode发起读数据请求;  NameNode响应请求并告诉客户端要读的文件的数据块位置(存在哪个DataNode上);  客户端到对应DataNode读取数据,当数据读取到达末端,关闭与这个...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 2,896
精华内容 1,158
热门标签
关键字:

shark 大数据