精华内容
下载资源
问答
  • Hadoop生态之Hadoop体系架构(一)

    千次阅读 2019-05-23 11:33:56
    Hadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而...

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

    Hadoop是一个开源框架,可编写和运行分布式应用处理大规模数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

    Hadoop起源于谷歌的三篇论文(GFS、MapReduce、BigTable)。

    名字起源:Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

    hadoop的特点:

    1. 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

    2. 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

    3. 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

    4. 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

    5. 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

    大数据的应用场景:

    1:各大电商平台个性化推荐(京东,淘宝);

    2:根据上网轨迹,构建用户画像,实现精准推送(今日头条,淘宝,京东)

    3:海关历年数据分析,决策辅助

    4:医疗(对多年同专业数据进行分析)

    5:农业

    大数据的数据级别及换算:

    换算基本都是以2的10次方来递增的
    1KiB(Kilobyte)=1024B ,即2的10次方字节,读音“千字节”
    1MiB(Megabyte)=1024KiB,即2的20次方字节,读音“兆字节”
    1GiB(Gigabyte)=1024MiB,即2的30次方字节,读音“吉字节”
    1TiB(Terabyte)=1024GiB,即2的40次方字节,读音“太字节”
    1PiB(Petabyte)=1024TiB,即2的50次方字节,读音“拍字节”
    1EiB(Exabyte) =1024PiB,即2的60次方字节,读音“艾字节”
    1ZiB(Zettabyte)=1024EiB,即2的70次方字节,读音“Z字节”
    1YiB(Yottabyte)=1024ZiB,即2的80次方字节,读音“Y字节”
    传说中还有
    1NiB(NonaByte)=1024YiB,即2的90次方字节
    1DiB(DoggaByte)=1024NiB,即2的100次方字节
    1CiB(Corydonbyte )=1024DiB,即2的110次方字节

    Hadopp生态体系架构图:

    Hadoop技术框架简介: 

    HDFS:Hadoop中的重要组件之一,用来做分布式存储,具有高容错,高吞吐等特性,是常用的分布式文件存储

    MR(MapReduce简称):Hadoop中的重要组件之一,作为分布式计算模型,程序人员只需在Mapper、Reducer中编写业务逻辑,然后直接交由框架进行分布式计算即可。

    Yarn:Yarn是Hadoop中的重要组件之一,负责海量数据运算时的资源调度

    Flume: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,用来做数据采集。

    Kafka:分布式的消息发布/订阅系统,通过与Spark Streaming整合,完成实时业务计算。由Java+scala开发。

    Hive/Pig:hive是基于Hadoop的一个数据仓库工具,通过将结构化的数据文件(通常为HDFS文件)映射为一张数据表,提供简单的sql查询功能,将sql语句转换为MapReduce任务运行。

     pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作,企业中很少用了。

    Hbase:HBase是建立在Hadoop文件系统之上的面向列的分布式数据库。不同于一般的关系数据库,适合于存储非结构化的数据,HBase基于列而不是基于行。

    Redis:Redis 可基于内存也可以持久化的日志型、Key-Value数据库。往往用来缓存key-value类型的小表数据。

    Sqoop:负责数据在  HIVE---HDFS---DB之间进行导入导出

    Standalone:是Spark提供的资源管理器,

    Mesos:也是Apache下的开源分布式资源管理器。

    Spark:Spark是大规模数据快速处理通用的计算引擎,其提供大量的库:Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX 。(只是计算,不作存储)。

    展开全文
  • 二、Hadoop2.x体系架构 后台进程:NameNode(名称节点) 1,他是HDFS的守护程序,是HDFS的核心程序,它起到这个分布式文件系统的总控的作用。 2,记录数据是如何分割成数据块的,以及这些数据块被存储在...

    一、基本概念

    机架:HDFS集群,由分布在多个机架上的大量DataNode组成,不同机架之间节点通过交换机通信,HDFS通过机架感知策略,使NameNode能够确定每个DataNode所属的机架ID,使用副本存放策略,来改进数据的可靠性、可用性和网络带宽的利用率。

    数据块(block):HDFS最基本的存储单元,默认为64M,用户可以自行设置大小。

    元数据:指HDFS文件系统中,文件和目录的属性信息。HDFS实现时,采用了 镜像文件(Fsimage) + 日志文件(EditLog)的备份机制。文件的镜像文件中内容包括:修改时间、访问时间、数据块大小、组成文件的数据块的存储位置信息。目录的镜像文件内容包括:修改时间、访问控制权限等信息。日志文件记录的是:HDFS的更新操作。

    NameNode启动的时候,会将镜像文件和日志文件的内容在内存中合并。把内存中的元数据更新到最新状态。

    用户数据:HDFS存储的大部分都是用户数据,以数据块的形式存放在DataNode上。
    Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理,其有许多元素构成,以下是其组成元素:

    1. Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

    2. HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的(参见图 1),这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在 HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,因此这是 HDFS 的一个缺点(单点失败)。

    存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID 架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。

    1. MapReduce:一个分布式海量数据处理的软件框架集计算集群。

    2. Avro :doug cutting主持的RPC项目,主要负责数据的序列化。有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

    3. Hive :类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。

    4. HBase :基于Hadoop Distributed File System,是一个开源的,基于列存储模型的可扩展的分布式数据库,支持大型表的存储结构化数据。

    5. Pig :是一个并行计算的高级的数据流语言和执行框架 ,SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。

    6. ZooKeeper:Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

    7. Chukwa :一个管理大型分布式系统的数据采集系统 由yahoo贡献。

    8. Cassandra:无单点故障的可扩展的多主数据库

    9. Mahout :一个可扩展的机器学习和数据挖掘库

    在HDFS中,NameNode 和 DataNode之间使用TCP协议进行通信。DataNode每3s向NameNode发送一个心跳。每10次心跳后,向NameNode发送一个数据块报告自己的信息,通过这些信息,NameNode能够重建元数据,并确保每个数据块有足够的副本。

    二、Hadoop2.x体系架构

    在这里插入图片描述

    • 后台进程:NameNode(名称节点)

    1,他是HDFS的守护程序,是HDFS的核心程序,它起到这个分布式文件系统的总控的作用。

    2,记录数据是如何分割成数据块的,以及这些数据块被存储在哪些节点上(分布式)。

    3,对内存和IO进行集中的管理。当用户跟整个hadoop的集群打交道的时候,一般首先会访问NameNode来获得他要的文件的分布状态的信息,也就是说先找出需要的文件是在哪些数据节点里面,然后用户再跟数据节点打交道,把数据拿到手。所以NameNode在整个Hadoop中起到一个核心的功能。

    4,但是,Hadoop一直以来都是把NameNode作为一个单点,也就是整个hadoop中只有一个 NameNode服务器,所以一旦NameNode节点发生故障,将使整个集群崩溃。

    • 后台进程:Secondary NameNode(辅助名称节点)

    主要作为NameNode的后备,它可以将NameNode中的元数据信息再多保存一份副本,也就是说NameNode会不断跟Secondary NameNode通讯,不断把它里面的数据往辅助名称节点这边放。一旦NameNode崩溃了,我们可以用Secondary NameNode去代替它。保护集群的运行。但是现在还不能实现二者之间的自动切换,也就是说,现在不能在NameNode倒下以后,自动将Secondary NameNode启动起来,必须手工做。所以在hadoop中,NameNode还是一个事实上的单点。

    1,监控HDFS状态的辅助后台程序。

    2,每个集群都有一个。

    3,与NameNode进行通讯,定期保存HDFS元数据快照。

    4,当NameNode故障,可以作为备用NameNode使用。

    • 后台进程:DataNode(数据节点)

    运行在各个子节点里面。一般放在从服务器上,负责文件系统的具体的数据块的读写。

    1,每个服务器都运行一个。

    2,负责把HDFS数据块读写到本地文件系统。

    • 总结
    1. 【Active Namenode】:主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求

    2. 【Secondary NameNode】:NameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;当 Active NameNode 出现故障时,快速切换为新的 Active NameNode。

    3. 【Datanode】:Slave(有多个);存储实际的数据块;执行数据块读 / 写

    4. 【Client】:与 NameNode 交互,获取文件位置信息;与 DataNode 交互,读取或者写入数据;管理 HDFS、访问 HDFS。

    三、HDFS架构

    在这里插入图片描述

    四、MapReduce架构

    在这里插入图片描述
    在这里插入图片描述
    MapReduce是一种编程模型,用于大规模数据集的并行运算。Map(映射)和Reduce(化简),采用分而治之思想,先把任务分发到集群多个节点上,并行计算,然后再把计算结果合并,从而得到最终计算结果。多节点计算,所涉及的任务调度、负载均衡、容错处理等,都由MapReduce框架完成,不需要编程人员关心这些内容。
    用户提交任务给JobTracer,JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数据块,然后把它们传给Map节点;Map节点得到每一个key/value对,处理后产生一个或多个key/value对,然后写入文件;Reduce节点获取临时文件中的数据,对带有相同key的数据进行迭代计算,然后把终结果写入文件。

    如果这样解释还是太抽象,可以通过下面一个具体的处理过程来理解:(WordCount实例)
    在这里插入图片描述
    Hadoop的核心是MapReduce,而MapReduce的核心又在于map和reduce函数。它们是交给用户实现的,这两个函数定义了任务本身。

    map函数:接受一个键值对(key-value pair)(例如上图中的Splitting结果),产生一组中间键值对(例如上图中Mapping后的结果)。Map/Reduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。
    reduce函数:接受一个键,以及相关的一组值(例如上图中Shuffling后的结果),将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)(例如上图中Reduce后的结果)

    但是,Map/Reduce并不是万能的,适用于Map/Reduce计算有先提条件:
    (1)待处理的数据集可以分解成许多小的数据集;
    (2)而且每一个小数据集都可以完全并行地进行处理;
    若不满足以上两条中的任意一条,则不适合适用Map/Reduce模式。

    五、Yarn架构

    在这里插入图片描述

    六、大数据平台架构

    在这里插入图片描述

    七、HDFS读写数据流程

    写数据在这里插入图片描述

    文件写入:

    1. Client向NameNode发起文件写入的请求
    2. NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
    3. Client将文件划分为多个文件块,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。

    读数据

    在这里插入图片描述
    文件读取:

    1. Client向NameNode发起文件读取的请求
    2. NameNode返回文件存储的DataNode的信息。
    3. Client读取文件信息。

    本文参考:

    1. https://www.cnblogs.com/jager/p/6522172.html
    2. https://www.cnblogs.com/zhangwuji/p/7594725.html
    3. https://blog.csdn.net/zl834205311/article/details/80334346
    4. https://blog.csdn.net/u013063153/article/details/53114678
    5. http://www.cnblogs.com/edisonchou/p/3485135.html
    展开全文
  • Hadoop生态体系

    2019-03-13 06:11:46
    1.Hadoop的优势: 2.HDFS架构概述 3.YARN架构概述 4.MapReduce架构概述 ...MapReduce将计算过程...5.大数据技术生态体系 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop(斯库伯)是一款开源的工具,主要用于...

    1.Hadoop的优势:

    2.HDFS架构概述

    3.YARN架构概述

     

    4.MapReduce架构概述

    MapReduce将计算过程分为两个阶段:Map和Reduce,如图2-6所示。
    1)Map阶段并行处理输入数据
    2)Reduce阶段对Map结果进行汇总

    5.大数据技术生态体系

    图中涉及的技术名词解释如下:
    1)Sqoop:Sqoop(斯库伯)是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
    2)Flume:Flume(弗鲁姆)是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
    3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
    (1)通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
    (2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
    (3)支持通过Kafka服务器和消费机集群来分区消息。
    (4)支持Hadoop并行数据加载。
    4)Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
    5)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
    6)Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
    7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
    8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
    10)R语言:R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
    11)Mahout:Apache Mahout(麦浩特)是个可扩展的机器学习和数据挖掘库。
    12)ZooKeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

     

    展开全文
  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop ...

    Hadoop是什么

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

    用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

     

    简单的说:

    Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的软件框架。具有可靠、高效、可伸缩的特点。

     

    Hadoop1.0时期架构图

     

    HDFS

    Hadoop生态系统的基础组件是Hadoop分布式文件系统(HDFS)。HDFS的机制是将大量数据分布到计算机集群上,数据一次写入,但可以多次读取用于分析。它是其他一些工具的基础,例如HBase。

    MapReduce

    Hadoop的主要执行框架即MapReduce,它是一个用于分布式并行数据处理的编程模型,将作业分为mapping阶段和reduce阶段(因此而得名)。开发人员为Hadoop编写MapReduce作业,并使用HDFS中存储的数据,而HDFS可以保证快速的数据访问。鉴于MapReduce作业的特性,Hadoop以并行的方式将处理过程移向数据,从而实现快速处理。

    HBase

    一个构建在HDFS之上的面向列的NoSQL数据库,HBase用于对大量数据进行快速读取/写入。HBase将Zookeeper用于自身的管理,以保证其所有组件都正在运行。

    Zookeeper

    Zookeeper是Hadoop的分布式协调服务。Zookeeper被设计成可以在机器集群上运行,是一个具有高度可用性的服务,用于Hadoop操作的管理,而且很多Hadoop组件都依赖它。

    Oozie

    一个可扩展的Workflow系统,Oozie已经被集成到Hadoop软件栈中,用于协调多个MapReduce作业的执行。它能够处理大量的复杂性,基于外部事件(包括定时和所需数据是否存在)来管理执行。

    Pig

    对MapReduce编程复杂性的抽象,Pig平台包含用于分析Hadoop数据集的执行环境和脚本语言(Pig Latin)。它的编译器将Pig Latin翻译为MapReduce程序序列。

    Hive

    类似于SQL的高级语言,用于执行对存储在Hadoop中数据的查询,Hive允许不熟悉MapReduce的开发人员编写数据查询语句,它会将其翻译为Hadoop中的MapReduce作业。类似于Pig,Hive是一个抽象层,但更倾向于面向较熟悉SQL而不是Java编程的数据库分析师。

    Sqoop

    是一个连通性工具,用于在关系型数据库和数据仓库与Hadoop之间移动数据。Sqoop利用数据库来描述导入/导出数据的模式,并使用MapReduce实现并行操作和容错。

    Flume

    是一个分布式的、具有可靠性和高可用性的服务,用于从单独的机器上将大量数据高效地收集、聚合并移动到HDFS中。它基于一个简单灵活的架构,提供流式数据操作。它借助于简单可扩展的数据模型,允许将来自企业中多台机器上的数据移至Hadoop。

    Mahout

    一个机器学习和数据挖掘的库,提供用于聚类、回归测试和统计建模常见算法的MapReduce实现。

    Ambari

    该项目致力于简化Hadoop的管理,提供对Hadoop集群进行供应、管理和监控的支持。

     

     

    Hadoop2.0时期架构图

     

    分析 Hadoop2.0时期架构图:

    最底层是分布式文件系统HDFS。

    在分布式文件系统之上是资源管理与调度系统YARN。

    YARN相当于一个操作系统,基于YARN可以部署离线批处理计算框架MapReduce、交互式分布式计算框架Tez,内存计算框架Spark,流式计算框架Storm等。

    上层可以运行Hive、Pig等数据库。

    Hive是一种类似于sql的分布式数据库,可以构建数据仓库。

    Pig是一种流数据库语言。

    如果需要执行多个连续的分布式计算任务,那么Oozie是理想的选择,其可以方便的执行多种任务。

    除此之外,Hbase可以作为分布式数据库来使用,例如构建海量图像数据的存储仓库,其查询速度很快,是面向列存储的数据库。

    ZooKeeper是分布式协调服务。

    Flume可以构建日志分析系统。Sqoop可以轻松将数据库中的数据导入HDFS.

    HDFS架构

     

    MapReduce架构

     

     

    JobTracker:Master节点,只有一个,管理所有作业,作业/任务的监控、错误处理等;将任务分解成一系列任务,并分派给TaskTracker。

    TaskTracker:Slave节点,运行Map Task和Reduce Task;并与JobTracker交互,汇报任务状态。

    Map Task:解析每条数据记录,传递给用户编写的map(),并执行,将输出结果写入本地磁盘(如果为map-only作业,直接写入HDFS)。

    Reducer Task:从Map Task的执行结果中,远程读取输入数据,对数据进行排序,将数据按照分组传递给用户编写的reduce函数执行。

    yarn架构

     

     

    步骤1 用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

    步骤2ResourceManager为该应用程序分配第一个Container,并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。

    步骤3ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManager查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。

    步骤4ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。

    步骤5 一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。

    步骤6NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。

    步骤7 各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。

         在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。

    步骤8 应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己。

     

    hadoop1.0与hadoop2.0比较

     

     

    Hadoop组件依赖关系

     

    Hadoop实验集群部署结构

     

    负责协调工作流程的ZooKeeper和Oozie

     

    随着越来越多的项目加入Hadoop大家庭并成为集群系统运作的一部分,大数据处理系统需要负责协调工作的的成员。随着计算节点的增多,集群成员需要彼此同步并了解去哪里访问服务和如何配置,ZooKeeper正是为此而生的。

    而在Hadoop执行的任务有时候需要将多个Map/Reduce作业连接到一起,它们之间或许批次依赖。Oozie组件提供管理工作流程和依赖的功能,并无需开发人员编写定制的解决方案。

    Ambari是最新加入Hadoop的项目,Ambari项目旨在将监控和管理等核心功能加入Hadoop项目。Ambari可帮助系统管理员部署和配置Hadoop,升级集群以及监控服务。还可通过API集成与其他的系统管理工具。

    Apache Whirr是一套运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr现今相对中立,当前支持Amazon EC2和Rackspace服务。

    展开全文
  • Hadoop是一个由Apache基金会所开发的分布式系统的基础架构。用户可以在不了解分布式的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop优点 1.高可靠性:Hadoop按位存储和处理...
  • 基于Hadoop生态体系的数据分析平台 一、项目设计 架构图 设计目标 分析系统每日访问量PV(Page View) 分析系统各个模块访问量MV(Model View) 二、环境搭建 安装Nginx并配置日志切割 #安装gcc基本环境 yum ...
  • Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。 从其定义就可以发现,它解決了两大问题:大数据...
  • 精心规划,课程涵盖Hadoop大数据生态圈全方位剖析,做到知识无死角,挑战高薪大数据职位; 循序渐进,由浅入深学习大数据技能,大数据处理技术方方面面一览无余,积跬步以至千里。 企业案例,理论与实际相结合,技术...
  • 几个有关hadoop生态系统的架构

    万次阅读 2016-09-13 17:24:53
    1、hadoop1.0时期架构 2、hadoop2.0时期架构 3、hdfs架构 Active Namenode 主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求 Secondary NameNode NameNode ...
  • 阿里巴巴飞天大数据架构体系Hadoop生态系统.pdf
  • 1hadoop1.0时期架构 2hadoop2.0时期架构 3hdfs架构 【Active Namenode】:主Master(只有一个),管理HDFS的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求 【Secondary NameNode】:...
  • hadoop生态圈各个组件简介

    万次阅读 多人点赞 2018-05-22 10:51:28
    1,HDFS(hadoop分布式文件系统) 是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故障。 client:切分文件,访问HDFS,与那么弄得交互,获取文件位置信息,与DataNode交互,读取和...
  • 大数据架构体系Hadoop生态系统

    千次阅读 2019-09-08 20:41:53
    先说Hadoop 什么是HadoopHadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决海量数据的存储、分析、分布式资源调度等。Hadoop最大的优点就是能够提供并行计算,充分利用集群的威力进行...
  • 本教程为版权作品,盗版必究 ...从内到外理解大数据各种技术,Linux、Zookeeper、Hadoop、Hive、Avropb、HBase+Phoenix、Redis、Ganglia、Flume、Sqoop、Kafka等全部技术源码级传授,从无到有掌握Hadoop生态圈技术。
  • 现在先让我们了解一下 Hadoop 生态系统的构成,主要认识 Hadoop 生态系统都包括那些子项目,每个项目都有什么特点,每个项目都能解决哪一类问题,能回答这三个问题就可以了(本段属于热身…重在理解 Hadoop 生态系统...
  • Hadoop生态圈-大数据生态体系快速入门篇  作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 一.大数据概念 1>.什么是大数据  大数据(big data):是指无法在一定时间范围内用常规...
  • 30天大数据Hadoop生态体系完整教程 张长志技术全才、擅长领域:区块链...
  • 很多人问阿里的飞天大数据平台、云梯2、MaxCompute、实时计算到底是什么,和自建Hadoop平台有什么区别。 先说Hadoop 什么是HadoopHadoop是一个开源、高可靠、可扩展的分布式大数据计算框架系统,主要用来解决...
  • HADOOP生态

    2019-07-05 13:03:15
    HADOOP生态圈介绍 hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 具有可靠、高效...
  • Hadoop生态圈中,HDFS提供文件存储,YARN提供资源管理,在基础上,进行各种处理,包括mapreduce,Tez,Sprak,Storm等计算。 第三章:Hadoop三大核心组件 Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群...
  • Hadoop生态系统

    2018-06-11 23:26:04
    Hadoop生态系统预埋一些js代码,为页面上的一些标签添加绑定事件。当事件发生时可以使用ajax请求到后台。Web服务器的日志中将会记录这些事件信息,从而获得不断增长的日志文件。离线分析:1、Hadoop生态系统概况...
  • Hadoop—Hadoop生态

    2021-02-16 15:13:28
    随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示: 根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下来...
  • hadoop生态

    2019-08-16 19:30:11
    1.Hadoop是什么? 适合大数据的分布式存储与计算...2.Hadoop生态圈 ①HBase Google Bigtable的开源实现 列式数据库 可集群化 可以使用shell、web、api等多种方式访问 适合高读写(insert)的场景 HQL查询语言 NoSQL的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,312
精华内容 3,724
关键字:

hadoop生态体系架构