hadoop2.x架构图
2019-03-06 09:05:30 zhouzhiwengang 阅读数 532

一、负责收集数据的工具:
Sqoop(关系型数据导入Hadoop)
Flume(日志数据导入Hadoop,支持数据源广泛)
Kafka(支持数据源有限,但吞吐大)


二、负责存储数据的工具:
HBase
MongoDB
Cassandra
Accumulo

MySql
Oracle
DB2

HDFS(Hadoop Distribut File System)2.0

三、底层组件
Apache Common(通用模块)、
Avro(序列化成二进制)、
OS(Linux、windows。。。)

四、通用工具
Zookeeper分布式协作服务
Oozie工作流流调度系统
Ambari图形化部署、非xml,跟踪集群状态

五、分布式计算框架
MapReduce(通过磁盘离线计算)
Spark(通过内存实时计算)
Storm(实现流式数据计算)
Tez(GAG计算,对MR拆分)
Impala(实现实时交互式计算)
Flink、Slider、Open MPI
HCatalog

YARN(跨集群资源调度管理)以上各种计算框架架构在YAEN上,H2.0引入

六、数据分析处理
Hive数据仓库
sql语句生成MR作业

Pig工作流引擎
类似sql比MR语法简单

Mahout数据挖掘库
提供了诸多机器学习算法

Java、.net
R、Scala、Solr
Impapla、Ohter ISV

七、结果输出
经过数据分析处理,输出到BI工具、展示系统
ETL Tools
BI Reporting
RDBMS
OLAP

2014-02-18 22:14:18 hanhuili 阅读数 5838

HDFS 2 architecture


YARN architecture

2019-03-13 10:47:00 weixin_30741653 阅读数 4

zk:zookeeper

NN:namenode

DN:datanode 

ZF Failover Controller:简称zkfc ,是zk的客户端,只运行在主备的namenode上,主要作用是判断 那个主节点,那莪是备用节点,同事在主备切换的时候也会做判断,zkfc 是active的状态,同理,这台namenode也是active的状态

zk 得作用是为NN做高可用得,zk的数量一般是要为奇数,最少是3个

上图绿色的方块是Journalnode,是保证namenode元数据的同步,journalnode  也是一个集群,是一个独立的进程,当namenode  active的节点命名空间有变化,会通知大部分的journalnnode

的进程,standby  namenode读取journalnode 的变化的信息,并且一直监控edit log的变化,把变化应用到自己的命名空间,保证集群出错的时候,自己的命名空间是完全同步的。

journalnode  集群工作的流程图

zk的工作原理:

集群的架构规划图:

 

后续有时间,把部署写上

 

转载于:https://www.cnblogs.com/dingbin/p/10521576.html

Hadoop 2.x 安装

阅读数 1

Hadoop 2.x 多表关联

阅读数 299

Hadoop 2.x集群搭建

阅读数 8867

hadoop 2.x 编译打包

阅读数 662

没有更多推荐了,返回首页