精华内容
下载资源
问答
  • Hadoop之HDFS思维导图

    2019-06-11 12:05:30
    Hadoop之HDFS思维导图
  • HDFS总结 思维导图

    千次阅读 2018-10-13 22:33:37
    HDFS总结HDFS HDFS分布式存储 大数据 思维导图

    思维导图请看博客:HDFS思维导图

    HDFS

    HDFS存储管理

    各个角色及作用

    NameNode

    • 接收客户端的读写请求
    • 管理元数据
      1. 上传文件的权限
      2. 上传文件的属主以及属组
      3. 上传文件的时间
      4. 上传文件的block数以及ID号
      5. 每个block的位置信息 是由DN在集群启动时汇报的 不会持久化
      6. 各个位置的DN位置
    • 管理DataNode

    DataNode

    • 接收客户端的读请求
    • 存储block块
    • 向active NN汇报心跳信息
    • 构建管道pipeline
    • 管理本机上block元数据

    SecondaryNameNode

    • 负责持久化
      • 拉取NN节点上的edits+fsimage文件合并
        • edits文件存储客户端对HDFS的操作
        • 使用edits来存储操作是怕某个NN挂掉
      • 合并过程
        • 文件拉取之时,在NN节点创建edits_new 目的为了存储在合并期间产生的操作
        • 基于拉来的edits文件重演 产出了元数据
        • 将重演产出的元数据合并到fsimage中
        • 将合并后fsimage推送给NN
        • 将edits.new文件的后缀去掉
      • 合并触发机制
        • 超过3600s合并一次
        • edits文件大小超过64M

    ZKFC

    • 监控各自的NN,将监控的情况汇报给ZooKeeper集群
    • 接收zk的选举结果,确认一下另外一个NN是否真的挂了,将自己监控的NN提升为active状态

    journalNode

    • 写数据的时候只需要保证半数以上的节点写入成功就可以了
      • 防止出现脑裂问题 也成为网络分区问题
    • 最终一致性/弱一致性
    • 存储的是edits文件

    备用的NN(standby)

    • 监控journalnode中数据变化,实时更新自己的内存元数据
    • 将内存中元数据持久化到fsimage中,然后推送给NN

    备份机制

    集群外操作

    • 第一个block存储在负载不高的节点上
    • 第二个存储在相邻的机架的节点上
    • 第三个存储在第二个机架的另一随机节点上

    集群内操作

    • 第一个block存储在本机
    • 第二个 第三个同集群外操作

    HDFS读写流程

    读流程

    • 从NN中获取block块的Id和相对于的DN地址
    • 通过以上信息去相对于的DN中读取数据

    写流程

    • 计算文件的block数量 文件大小/block大小128MB
    • client向namenode汇报
      • 当前大文件的block数量
      • 当前大文件属主 属组
      • 当前大文件 权限
      • 上传时间
    • client切割出来一个block
    • 请求block的id以及存放block的地址
    • 由于NN掌控全局,管理所有的DN,所以他将负载不高的DN地址返回的client
    • client拿到地址后,找到DN 去上传数据
      • 从NN得到了block信息 包括ID等
      • 通过id查询到该把这些block存储到哪些datanode中
      • 再把block切割成一个个packet 64k
      • 并在客户端和DN间建立了管道,源源不断的传输packet
        • 使用管道 与 切割成packet的理由:并行存储 增加效率
    • DN将block存储完毕后,会向NN汇报当前的存储情况

    搭建集群的三种模式

    • 伪分布式
    • 完全分布式
    • 高可用的完全分布式

    HDFS优缺点

    优点

    • 副本机制,数据更安全
    • 分布式的,所以适合批处理
    • 高可用性
    • 元数据持久化
    • 禁掉了一些功能,使得集群更加完美
      • 不能修改文件
      • 文件上传成功后,不能修改block大小

    缺点

    • 无法毫秒级的读写数据
      • 读写复杂 需要找nn请求
      • 形成管道 文件切割block 形成packet
    • 不适合存储大量的小文件
      • 容易造成元数据,NN内存溢出
      • 解决的办法
        • 小文件合成大文件
        • 联邦机制
    • 不能并发写入,但可以并发的读
    展开全文
  • 关于大数据相关hadoop 实用相关框架的介绍,一目了然,思维导图形式显示。hadoop入门要点说明,学习进度介绍。
  • 转载于:https://www.cnblogs.com/kaqike/p/3207953.html

    转载于:https://www.cnblogs.com/kaqike/p/3207953.html

    展开全文
  • HDFS部分笔记

    2018-04-28 21:48:24
    HDFS优点:高容错性(数据自动保存多个副本)适合批处理适合大数据处理流式文件访问(一次性写入,多次读取)建立在廉价机器上HDFS缺点:不善于处理低延迟数据访问不善于处理小文件存取(元数据存放在namenode内存中...
  • Hadoop总结—思维导图

    2018-05-10 18:52:57
    概述最近在学习Hadoop系统,目前学习了HDFS、Mapreduce、HBase、Hive、Zookeeper这些组件,因此尝试将学习的东西用思维导图的形式做一个总结回顾。思维导图总体搭建架构-HDFS架构-MapReduce组件-HBase组件-Hive组件-...
  • 在压缩包中存放了多张.xmind文件,建议下载xmind打开,导图内嵌入了架构图以及各个MR组件相关的代码,笔者在总结的时候有些劳累,如有错误和遗漏,欢迎批评和指正
  • Hadoop思维导图

    千次阅读 2019-06-24 18:01:19
    Hadoop思维导图
  • 上图是一个简化的大数据技术栈思维导图。 大数据的处理流程如下: 技术涉及以下5个方面! 1.1 数据收集 大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在...
  • 帮助记忆Hadoop各个组件包括HDFS,MapReduce,Yarn自己精心整理的
  • 消息队列技术点梳理(思维导图版) 消息队列作为服务/应用之间的通信中间件,可以起到业务耦合、广播消息、保证最终一致性以及错峰流控(克服短板瓶颈)等作用。本文不打算详细深入讲解消息队列,而是体系化的...
  • Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。 2.源码分析: testaccse1: 2.1 webserver to ...
  • 大数据系统的学习路径、思维导图

    千次阅读 2019-06-04 16:44:15
    详细剖析HDFS,从知晓原理到开发网盘的项目让大家打好学习大数据的基础,大数据之于分布式,分布式学习从学习分布式文件系统(HDFS)开始。1) HDFS底层工作原理 2) HDFS datanode,namenode详解 3) Hdfs shell ...
  • 之后思考一下学习的方向,看看自己究竟是往HDFS深究还是向算法方面发展,就像董西城老师博客中写到的,有时候学的太盲目就像值栈溢出,到头来只能是迷失。附整理之后的图片和PDF 百度网盘:图片链接:...
  • 分布式存储思维导图

    2018-10-10 09:12:21
  • HBase是架构在HDFS的NoSql数据库,数据最终是在hdfs存储的, 能够进行实时增删改查。假设有win10的系统,里面有一个NTFS文件系统,在这个系统里装了一个MySQL系统,MySQL系统是寄生在NTFS之上的,HBase脱离了HDFS就...
  • 思维导图

    2019-03-07 21:32:00
    1.使用LDAP认证作用:网络用户认证,用户集中管理网络用户信息:LDAP服务器提供conn:网络用户,本地管理2.NFS共享• Network File System,网络文件系统– 由NFS服务器将指定的文件夹共享给客户机– 客户机将此共享...
  • 这篇文档主要是以前我学习Hadoop期间做的思维导图自动生成的Markdown,因为当时还在初学阶段,内容都比较基础,具体思维导图在最下面 Hadoop Linux 环境部署 VMware安装 CentOS安装 网络环境配置 BOOTPROTO、ONBOOT...
  • hadoop生态系统思维导图 !  可能因为时间匆忙,整理的内容可能不是很详细,还请大家理解(`・ω・´)   文末有福利,先赞后看! Hadoop HDFS MapReduce Hive Flume Azkaban Hue ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 673
精华内容 269
关键字:

hdfs思维导图