精华内容
下载资源
问答
  • HDFS存储原理

    千次阅读 2019-04-04 13:45:30
    根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。京东大数据微信公众号。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client...

    根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。京东大数据微信公众号。

    一、角色出演


    如上图所示,HDFS存储相关角色与功能如下:

    Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。

    Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。

    Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。

    二、写入数据


     

    1、发送写数据请求

    HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。

    2、文件切分

    3、DN分配

    4、数据写入

    5、完成写入

    6、角色定位

    三、HDFS读文件


     

    1、用户需求

    HDFS采用的是“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

    2、先联系元数据节点

    3、下载数据

    前文提到在写数据过程中,数据存储已经按照客户端与DataNode节点之间的距离进行了排序,距客户端越近的DataNode节点被放在最前面,客户端会优先从本地读取该数据块。

    4、思考

    四、HDFS容错机制——第一部分:故障类型及监测方法


     

    1、三类故障

    (1)第一类:节点失败

    (2)第二类:网络故障

    (3)第三类:数据损坏(脏数据)

    2、故障监测机制

    (1)节点失败监测机制

    (2)通信故障监测机制

    (3)数据错误监测机制

    3、回顾:心跳信息与数据块报告

    HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本),从上可以看出,HDFS认为机器故障是种常态,所以在设计时充分考虑到单个机器故障,单个磁盘故障,单个文件丢失等情况。

    五、容错第二部分:读写容错


     

    1、写容错

    2、读容错

    六、容错第三部分:数据节点(DN)失效


    七、备份规则


    1、机架与数据节点

    2、副本放置策略

    数据块的第一个副本优先放在写入数据块的客户端所在的节点上,但是如果这个客户端上的数据节点空间不足或者是当前负载过重,则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。

    如果客户端上没有一个数据节点的话,则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。

    HDFS的存放策略是将一个副本存放在本地机架节点上,另外两个副本放在不同机架的不同节点上。

    这样集群可在完全失去某一机架的情况下还能存活。同时,这种策略减少了机架间的数据传输,提高了写操作的效率,因为数据块只存放在两个不同的机架上,减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

     

     

    展开全文
  • hadoop hdfs存储原理

    千次阅读 2017-08-25 10:19:43
    hadoop的hdfs存储原理,hdfs的存储原理,hdfs的底层存储原理

    来源url:http://www.36dsj.com/archives/41391


    根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。

    一、角色出演

    角色
    如上图所示,HDFS存储相关角色与功能如下:

    Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。

    Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。

    Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。

    二、写入数据

    1、发送写数据请求

    发送写数据请求
    HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。

    2、文件切分

    文件切割
    3、DN分配

    DN分配1 DN分配2
    4、数据写入

    数据写入1 数据写入2
    5、完成写入

    完成写入1 完成写入2 完成写入3
    6、角色定位

    角色定位

    三、HDFS读文件

    1、用户需求

    用户需求
    HDFS采用的是“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

    2、先联系元数据节点

    联系元数据节点1 联系元数据节点2 联系元数据节点2
    3、下载数据

    下载数据
    前文提到在写数据过程中,数据存储已经按照客户端与DataNode节点之间的距离进行了排序,距客户端越近的DataNode节点被放在最前面,客户端会优先从本地读取该数据块。

    4、思考

    思考

    四、HDFS容错机制——第一部分:故障类型及监测方法

    1、三类故障

    (1)第一类:节点失败

    节点失败
    (2)第二类:网络故障

    网络故障
    (3)第三类:数据损坏(脏数据)

    数据损坏
    2、故障监测机制

    (1)节点失败监测机制

    节点失败检测机制1 节点失败检测机制2 节点失败检测机制3
    (2)通信故障监测机制

    通信故障检测机制
    (3)数据错误监测机制


    数据错误检测机制1 数据错误检测机制2 数据错误检测机制3
    3、回顾:心跳信息与数据块报告

    回顾:心跳信息与数据块报告
    HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本),从上可以看出,HDFS认为机器故障是种常态,所以在设计时充分考虑到单个机器故障,单个磁盘故障,单个文件丢失等情况。

    五、容错第二部分:读写容错

    1、写容错

    写容错1 写容错2 写容错3 写容错4
    2、读容错

    读容错 读容错2

    六、容错第三部分:数据节点(DN)失效

    数据节点(DN)失效1 数据节点(DN)失效2 数据节点(DN)失效3 数据节点(DN)失效4 数据节点(DN)失效5 数据节点(DN)失效6

    七、备份规则

    备份规则
    1、机架与数据节点

    1、机架与数据节点
    2、副本放置策略

    2、副本放置策略
    数据块的第一个副本优先放在写入数据块的客户端所在的节点上,但是如果这个客户端上的数据节点空间不足或者是当前负载过重,则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。

    如果客户端上没有一个数据节点的话,则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。

    数字节点放置
    HDFS的存放策略是将一个副本存放在本地机架节点上,另外两个副本放在不同机架的不同节点上。

    这样集群可在完全失去某一机架的情况下还能存活。同时,这种策略减少了机架间的数据传输,提高了写操作的效率,因为数据块只存放在两个不同的机架上,减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

    DN节点选取 细则via:京东大数据                                                                                                                                        
    End. 

    展开全文
  • 今天的大数据入门分享,我们就来讲讲Hadoop HDFS存储原理。 1、什么是HDFS? HDFS即Hadoop distributed file system(hadoop分布式文件系统),在Hadoop当中负责分布式存储阶段的任务,它是一个分布式的文件系统...

    在大数据处理当中,最核心要解决的其实就是两个问题,大数据存储和大数据计算。在Hadoop生态当中,解决大数据存储,主要依靠就是HDFS,再配合数据库去完成。今天的大数据入门分享,我们就来讲讲Hadoop HDFS存储原理。

    1、什么是HDFS?

    HDFS即Hadoop distributed file system(hadoop分布式文件系统),在Hadoop当中负责分布式存储阶段的任务,它是一个分布式的文件系统,也可以用来存放单个机器的数据,只是大部分用来存储分布式数据。HDFS跟window下的NTFS一样可以通过目录树来查找数据。

    2、HDFS解决什么问题?

    整个Hadoop框架,本质上来说都是基于分布式实现的,随着数据规模的越来越大,一台机器无法存储所有的数据,所以需要多台机器来存储。而多台机器存储又不方便管理,所以需要一个分布式的系统来管理分布在不同机器中的数据。

    事实上,HDFS的出现,就是为了解决分布式框架下,数据存储管理的问题。而HDFS只是分布式文件系统中的一种,依托于Hadoop生态,去承担大数据分布式存储的管理任务。

    3、HDFS的概念与架构

    HDFS是典型的主/从架构。HDFS集群由一个NameNode组成,NameNode是一个主服务器,它管理文件系统名称空间并控制客户机对文件的访问。此外,还有许多datanode,通常是集群中的每个节点一个datanode,它们管理附加到它们所运行的节点上的存储。

    Namenode:

    即master,有以下功能

    *管理文件系统命名空间;

    *控制client对数据的读取和写入请求;

    *管理数据块到datanode的映射关系;

    *管理副本策略。

    Datanode:

    即slave,主要是存储文件块数据,接受来自namenode的指令,并执行指令对数据块的创建,删除,复制等操作。

    Client:

    即客户端,有以下功能:

    *对文件的切分,HDFS上传数据时,client将文件切分成多个block再进行上传;

    *与namenode交互,获取文件的索引信息;

    *与datanode交互,对数据的读取和写入;

    *在客户端中提供相关HDFS的命令,比如对HDFS的管理,格式化namenode,对HDFS对数据操作,比如上传文件到HDFS等。

    Secondary namenode:

    并非namenode的热备,当namenode挂掉的时候,并不能立马替换namenode并提供服务,只是在定时的对namenode进行备份,存在一定的时间误差,secondary会备份namenode的Fsimage和Edits,在紧急情况下,可以适用secondarynamenode来恢复部分的namenode。

    关于大数据学习,Hadoop HDFS存储入门,以上就为大家做了简单的介绍了。在Hadoop大数据框架当中,HDFS作为分布式文件系统,始终是重要的核心组件,学习当中也自然需要深入理解掌握。

    展开全文
  • hadoop HDFS存储原理

    万次阅读 多人点赞 2016-08-09 11:28:40
    根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用HDFS API操作...

    来源url:http://www.36dsj.com/archives/41391


    根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。

    一、角色出演

    角色
    如上图所示,HDFS存储相关角色与功能如下:

    Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。

    Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。

    Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。

    二、写入数据

    1、发送写数据请求

    发送写数据请求
    HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。

    2、文件切分

    文件切割
    3、DN分配

    DN分配1 DN分配2
    4、数据写入

    数据写入1 数据写入2
    5、完成写入

    完成写入1 完成写入2 完成写入3
    6、角色定位

    角色定位

    三、HDFS读文件

    1、用户需求

    用户需求
    HDFS采用的是“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

    2、先联系元数据节点

    联系元数据节点1 联系元数据节点2 联系元数据节点2
    3、下载数据

    下载数据
    前文提到在写数据过程中,数据存储已经按照客户端与DataNode节点之间的距离进行了排序,距客户端越近的DataNode节点被放在最前面,客户端会优先从本地读取该数据块。

    4、思考

    思考

    四、HDFS容错机制——第一部分:故障类型及监测方法

    1、三类故障

    (1)第一类:节点失败

    节点失败
    (2)第二类:网络故障

    网络故障
    (3)第三类:数据损坏(脏数据)

    数据损坏
    2、故障监测机制

    (1)节点失败监测机制

    节点失败检测机制1 节点失败检测机制2 节点失败检测机制3
    (2)通信故障监测机制

    通信故障检测机制
    (3)数据错误监测机制


    数据错误检测机制1 数据错误检测机制2 数据错误检测机制3
    3、回顾:心跳信息与数据块报告

    回顾:心跳信息与数据块报告
    HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本),从上可以看出,HDFS认为机器故障是种常态,所以在设计时充分考虑到单个机器故障,单个磁盘故障,单个文件丢失等情况。

    五、容错第二部分:读写容错

    1、写容错

    写容错1 写容错2 写容错3 写容错4
    2、读容错

    读容错 读容错2

    六、容错第三部分:数据节点(DN)失效

    数据节点(DN)失效1 数据节点(DN)失效2 数据节点(DN)失效3 数据节点(DN)失效4 数据节点(DN)失效5 数据节点(DN)失效6

    七、备份规则

    备份规则
    1、机架与数据节点

    1、机架与数据节点
    2、副本放置策略

    2、副本放置策略
    数据块的第一个副本优先放在写入数据块的客户端所在的节点上,但是如果这个客户端上的数据节点空间不足或者是当前负载过重,则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。

    如果客户端上没有一个数据节点的话,则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。

    数字节点放置
    HDFS的存放策略是将一个副本存放在本地机架节点上,另外两个副本放在不同机架的不同节点上。

    这样集群可在完全失去某一机架的情况下还能存活。同时,这种策略减少了机架间的数据传输,提高了写操作的效率,因为数据块只存放在两个不同的机架上,减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

    DN节点选取 细则via:京东大数据                                                                                                                                        
    End. 

    展开全文
  • 图解HDFS存储原理

    2019-10-23 16:59:45
    1. HDFS写数据原理 2. HDFS读数据原理 3. HDFS故障类型和其检测方法 第二部分:读写故障的处理 第三部分:DataNode 故障处理 副本布局策略: ...
  • HDFS存储原理图解

    千次阅读 2019-07-21 13:21:46
    http://smartsi.club/hadoop-illustrate-how-hdfs-works.html
  • 根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。 一、角色出演 如上图所示,HDFS存储相关角色与功能如下: Client:客户端,系统使用者,调用...
  • 根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。  一、角色出演    如上图所示,HDFS存储相关角色与功能如下:  Client:客户端,系统使用者,调用HDFS API操作...
  • 本次分享结合Maneesh Varshney的漫画改编,为大家分析HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;...
  • 常见面试题:Hadoop之HDFS存储原理的详细图文解析
  • HDFS存储原理

    2019-12-03 22:58:52
    块block的大小默认是128M,hdfs-site.xml <property> <name>dfs.blocksize</name> <value>134217728</value> </property> 副本数默认是3,hdfs-site.xml <property>...
  • 【漫画系列】HDFS存储原理分析(一)   提交 我的评论 加载中 已评论   【漫画系列】HDFS存储原理分析(一) 2015-05-06 京东大数据专家 京东大数据专家 京东大数据专家 ...
  • HDFS存储和读写原理

    2018-03-31 15:36:05
    1.1 HDFS写流程1. 使用HDFS提供的客户端开发库Client,向远程的Namenode发起RPC请求;Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录(账本上记录一条),否则会让...
  • Hadoop核心组件(主从集群)HDFS(分布式文件系统,集群):解决数据的存储,其角色:namenode(主), datanode, secondarynamenode(主的秘书)YARN(作业调度和集群资源管理的框架,集群):解决资源任务调度,其角色:...
  • HDFS基本原理

    2019-08-13 22:47:28
    HDFS基本原理 NameNode 概述 NameNode 是 HDFS 的核心。 NameNode 也称为 Master。 NameNode 仅存储 HDFS 的元数据:文件系统中所有文件的目录树,并跟踪整个集群中的文件。 NameNode 不存储实际数据或数据集。数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 37,347
精华内容 14,938
关键字:

hdfs存储原理