精华内容
下载资源
问答
  • HDFS命名空间管理

    千次阅读 2019-07-26 14:36:00
    转载于:https://www.cnblogs.com/fanweisheng/p/11250175.html

     

    转载于:https://www.cnblogs.com/fanweisheng/p/11250175.html

    展开全文
  • HDFS文件系统命名空间

    千次阅读 2020-03-18 14:14:23
    HDFS中,我们知道NameNode负责管理文件系统的命名空间,那么NameNode到底怎么管理HDFS命名空间,又有哪些内容需要管理呢?我们接下来将讨论到这两个问题。 作为HDFS的Master,NameNode掌握着整个HDFS的文件目录...

    HDFS Namespace

    在HDFS中,我们知道NameNode负责管理文件系统的命名空间,那么NameNode到底怎么管理HDFS的命名空间,又有哪些内容需要管理呢?我们接下来将讨论到这两个问题。

    作为HDFS的Master,NameNode掌握着整个HDFS的文件目录树及其目录与文件,这些信息会以文件的形式永久地存储在本地磁盘。我们可以在$HADOOP_HOME/tmp/dfs/name/current下找到这些文件:fsimage以及edits。

    fsimage:保存了最新的元数据检查点;
    edits:保存了HDFS中自最新的元数据检查点后的命名空间变化记录;

    为了防止edits中保存的最新变更记录过大,HDFS会定期合并fsimage和edits文件形成新的fsimage文件,然后重新记录edits文件。由于NameNode存在单点问题(Hadoop2.0以前版本),因此为了减少NameNode的压力,HDFS把fsimage和edits的合并的工作放到SecondaryNameNode上,然后将合并后的文件返回给NameNode。但是,这也会造成一个新的问题,当NameNode宕机,那么NameNode中edits的记录就会丢失。也就是说,NameNode中的命名空间信息有可能发生丢失。

    FsImage

    Fsimage是一个二进制文件,它记录了HDFS中所有文件和目录的元数据信息。关于fsimage的内部结构我们可以参看下图:


    乍看之下,这张图有点晦涩难懂,这张图是fsimage的内部结构,第一行是文件系统元数据,第二行是目录的元数据信息,第三行是文件的元数据信息,下面将逐个解析图中的字段:
    imgVersion:当前fsiamge文件的版本号;
    namespaceID:当前命名空间的ID,在NameNode的生命周期内保持不变,DataNode注册时,返回该ID作为其registrationID,每次和NameNode通信时都要检查,不认识的namespaceID拒绝连接;
    numFiles:文件系统中的文件数;
    genStamp:生成该fsimage文件的时间戳;
    path:文件或者目录路径;
    replicas:文件的副本数,目录的replicas为0;
    mtime:修改时间;
    atime:访问时间;
    blocksiz:文件的块size,目录的size为0;
    numBlock:文件包含的数据块数量,目录的为-1;
    nsQuota:目录的命名空间大小配额,默认为-1;
    dsQuota:目录的磁盘大小配额,默认为-1;
    username:文件或者目录所属的用户名;
    group:用户所属的组名;
    perm:即permission,访问权限;
    blockid:文件的文件块id;
    numBytes:该文件块的bytes数,即文件块的大小;
    genStamp:该文件块的时间戳。

    那么怎么在fsimage中保存根目录呢?path的length为0,即表示这个目录为根目录。

    NameNode将这些信息读入内存之后,构造一个文件目录结构树,将表示文件或目录的节点填入到结构中。

    BlocksMap

    我们知道,NameNode将文件命名空间的文件树结构等信息固化在本地文件中,同时还将文件块与DataNode的映射关系存储在内存中。NameNode是通过DataNode的blockreport获取文件块与DataNode的映射关系的。

    BlocksMap中保存了文件块block与DataNodes的映射信息以及DataNode与文件块blocks的信息,这里用到三元组进行表示,每个文件块block有几个副本,就有几个三元组:
    (DataNodeID, PreBlock, NextBlock)
    第一个元素DataNodeID表示当前文件块block存储在哪个DataNode上;第二个元素PreBlock指向前一个文件块block;第三个元素NextBlock指向下一个文件块block;

    借助这个三元组可以找到一个文件块block所属的所有DataNode,也可以通过三元组的后两个元素信息找到一个DataNode上所有的文件块blocks。

    Conclusion

    通过fsimage与blocksmap两种数据结构,NameNode就能建立起完整的命名空间信息以及文件块映射信息。在NameNode加载fsimage之后,BlocksMap中只有每个block到其所属的DataNode列表的对应关系信息还没建立,这个需要通过DataNode的blockReport来收集构建,当所有的DataNode上报给NameNode的blockReport处理完毕后,BlocksMap整个结构也就构建完成。

    展开全文
  • hdfs高可用命名空间

    千次阅读 2019-04-02 21:28:10
    nn单节点时 访问hdfs 命令 hadoop fs -ls hdfs://hadoop001/ 但是高可用时 不可能改ip hadoop001,要做到无感切换时,需要命名空间来操作,通过命名空间来寻找切换主节点,这个命名空间不是一个进程,通过 hdfs://...

    高可用命名空间原理图

    nn单节点时 访问hdfs 命令 hadoop fs -ls hdfs://hadoop001/ 但是高可用时 不可能改ip hadoop001,要做到无感切换时,需要命名空间来操作,通过命名空间来寻找切换主节点,这个命名空间不是一个进程,通过 hdfs://nameservice1/ 访问hdfs文件这个过程他会去找core-site.xml,hdfs-site.xml文件,找到对应的NN主节点

    1 代表nameservice1 访问 NN2 看是不是active状态,如果不是经过2返回命名空间在经过3查看NN1是不是active状态

    是正常访问节点

    a代表一次访问就找到active节点

    展开全文
  • hdfs是nas_hdfs 存储空间

    2020-12-19 14:53:44
    使用的是master/slave体系结构,角色有三种:NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文件系统树中,文件信息在硬盘上保存成两个文件:命名空间镜像文件...

    HDFS文件读写流程

    一、HDFS体系结构

    HDFS作为分布式文件系统,使用的是master/slave体系结构,角色有三种:

    NameNode:为HDFS提供元数据服务,NameNode可以控制所有文件的操作,它会把所有的文件元数据存储在文件系统树中,文件信息在硬盘上保存成两个文件:命名空间镜像文件(fsimag...

    文章

    姚攀

    2017-12-11

    785浏览量

    CDH在云上利用文件存储HDFS实现存储计算分离

    阿里云文件存储HDFS服务是阿里云专门针对先进的存储计算分离架构下的大数据分析场景定制推出的文件存储服务。文件存储HDFS采用全自研的底层架构,有效规避了开源HDFS系统的诸多短板,并提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、...

    文章

    luoming0439

    2019-11-01

    1532浏览量

    HDFS应用场景、原理、基本架构

    一、HDFS是什么源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版 Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务

    1、HDFS优点

    高容错性数据自动保存多个...

    文章

    调皮仔3683

    2018-05-24

    5293浏览量

    万券齐发助力企业上云,爆款产品低至2.2折起!

    限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

    广告

    Hadoop学习(二)——HDFS简介

    Hadoop提供了一个被称为HDFS的分布式文件系统的实现。HDFS是Hadoop系统的基础层,主要负责数据的存储、管理和容错处理,设计思想来源于Google的GFS(Google File System)文件系统。HDFS是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布...

    文章

    jara0705

    2015-10-07

    808浏览量

    独家 | 一文读懂Hadoop(二)HDFS(下)

    5.1 用户命令

    hadoop集群用户的常用命令。

    5.1.1 classpath

    打印获取Hadoop jar和所需库所需的类路径。如果无参数调用,则打印由命令脚本设置的类路径,可以在类路径条目中包含通配符。其他选项在通配符扩展后打印类路径或将类路径写入jar文件的清单。后者在不能使用通配符且扩...

    文章

    行者武松

    2017-08-01

    1317浏览量

    《深入理解大数据:大数据处理与编程实践》一一3.1 HDFS的基本特征与构架

    本节书摘来自华章计算机《深入理解大数据:大数据处理与编程实践》一书中的第3章,第3.1节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    3.1 HDFS的基本特征与构架

    HDFS被设计成在普通的商用服务器节点构成的集群上即可运...

    文章

    华章计算机

    2017-07-04

    1115浏览量

    HDFS架构设计

    HDFS架构设计

    标签: 大数据 Hadoop

    [toc]

    原文:http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

    介绍

    HDFS是个分布式文件系统,包含几个特点(区别于普通...

    文章

    尊渊

    2016-10-23

    3339浏览量

    HDFS追本溯源:体系架构详解

    Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用Java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。

    Hadoop框架中最核心...

    文章

    anzhsoft

    2014-04-11

    1973浏览量

    分布式文件系统HDFS体系

    系列文件列表: http://os.51cto.com/art/201306/399379.htm

    1.介绍

    hadoop文件系统(HDFS)是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的,HDFS是高容错性的,可...

    文章

    孤剑

    2014-09-01

    545浏览量

    《Hadoop海量数据处理:技术详解与项目实战》一3.1 认识HDFS

    本节书摘来异步社区《Hadoop海量数据处理:技术详解与项目实战》一书中的第3章,第3.1节,作者: 范东来 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

    3.1 认识HDFS

    Hadoop海量数据处理:技术详解与项目实战HDFS的设计理念源于非常朴素的思想:当数据集的大小...

    文章

    异步社区

    2017-05-02

    1667浏览量

    面对业务增长,Uber是如何扩展HDFS文件系统的

    3年前,Uber采用了Hadoop作为大数据分析的存储(HDFS)和计算(YARN)基础设施。借助于这套系统,Uber的服务能力得到了增强,用户体验也得到了提升。

    Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的...

    文章

    开源大数据EMR

    2020-02-10

    232浏览量

    Hadoop HDFS概念学习系列之HDFS源代码结构(十四)

    了解了HDFS体系结构中的名字节点、数据节点和客户端以后,我们来分析HDFS实现的源代码结构。HDFS源代码都在org.apache.hadoop.hdfs包下,其结构如图6-3所示。

    HDFS的源代码分布在I6个目录下,它们可以分为如下四类1.基础包

    包括工具和安全包。其中,h...

    文章

    技术小哥哥

    2017-11-14

    1625浏览量

    Hadoop使用(二)

    前提和设计目标

    硬件错误

    硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目...

    文章

    skyme

    2016-04-25

    1193浏览量

    【官方文档】Hadoop分布式文件系统:架构和设计

    http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html

    引言

    前提和设计目标

    硬件错误

    流式数据访问

    大规模数据集

    简单的一致性模型

    “移动计算比移动数据更划算”

    异构软硬件平台间的可移植性

    Namenode 和 Datan...

    文章

    孤剑

    2014-09-01

    597浏览量

    Hadoop HDFS概念学习系列之初步掌握HDFS的架构及原理1(一)

    HDFS 是做什么的?

    HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、...

    文章

    技术小哥哥

    2017-11-14

    1020浏览量

    如何从根源上解决 HDFS 小文件问题

    我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到...

    文章

    开源大数据EMR

    2019-04-07

    1359浏览量

    《Hadoop MapReduce实战手册》一2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况

    本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第2章,第2.5节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

    2.5 使用多个磁盘/卷以及限制HD...

    文章

    异步社区

    2017-05-02

    1620浏览量

    hadoop笔记一

    Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。

    是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员

    Hadoop 由许多元素构成。其最底部是 H...

    文章

    e生态

    2014-03-21

    1015浏览量

    HDFS简单入门

    为什么我们需要HDFS

    文件系统由三部分组成:与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。

    既然读取一块磁盘的所有数据需要很长时间,写入更是需要更长时间(写入时间一般是读取时间的3倍)。我们需要一个巨大文件难道得换传输速度10GB/S的磁盘(现在没有这样的磁盘),而且即使有文件为...

    文章

    wuyudong

    2016-04-21

    4035浏览量

    《Scala机器学习》一一3.6 运行Hadoop的HDFS

    3.6 运行Hadoop的HDFS没有分布式存储的分布式框架是不完整的。HDFS是其中的一种分布式存储。即使Spark在本地模式下运行,它仍然可以在后台使用分布式文件系统。与Spark将计算任务分解成子任务一样,HDFS也会将文件分成块,并将它们存储在集群上。为了实现高可用性(High Avail...

    文章

    华章计算机

    2017-08-02

    1241浏览量

    《Hadoop实战第2版》——1.3节Hadoop体系结构

    1.3 Hadoop体系结构如上文所说,HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且它会通过MapReduce来实现分布式并行任务处理的程序支持。下面首先介绍HDFS的体系结构。HDFS采用了主从(Maste...

    文章

    华章计算机

    2017-08-01

    1063浏览量

    《Scala机器学习》一一3.6 运行Hadoop的HDFS

    本节书摘来自华章计算机《Scala机器学习》一书中的第3章,第3.6节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区“华章计算机”公众号查看。

    3.6 运行Hadoop的HDFS

    没有分布式存储的分布式框架是不完整的。HDFS是其中的一种分布式存储。即使...

    文章

    华章计算机

    2017-07-04

    1358浏览量

    HDFS设计思想

    硬件故障是常态

    HDFS的目标是在有机器故障时仍能保证数据可靠,并自动进行故障恢复。

    流式数据访问

    HDFS主要为批处理应用设计,而非交互式应用,看重数据访问的吞吐量而非访问延迟。

    海量大文件存储

    HDFS主要针对大文件存储设计,一个典型的HDFS文件大小在数G到数T之间,由多个64M的block...

    文章

    knuthocean

    2016-03-24

    2273浏览量

    Hadoop HDFS概念学习系列之HDFS的特性和目标(九)

    HDFS的特性

    HDFS和传统的分布式文件系统相比较,具有以下明显的特性:高度容错,可扩展性及可配置性强。由于容错性高,因此非常适合部署利用通用的硬件平台构建容错性很高的分布式系统。容易扩展是指扩展无须改变架构只需要增加节点即可,同时可配置性很强。跨平台。使用Java语言开发,支持多个主流平台环境...

    文章

    技术小哥哥

    2017-11-14

    1004浏览量

    Hadoop HDFS概念学习系列之HDFS Block(八)

    块是文件系统中的一个很重要的概念。在UNIX/Linux系统中有一个数据块(Data Block)的概念,Data Block是文件系统读写的最小数据单元。一般在文件系统中数据块的大小是512字节,一个文件所占的大小就是数据块大小的整数倍.对于用户来讲对文件的访问/存取都是透明的,同样系统管理员...

    文章

    技术小哥哥

    2017-11-21

    1067浏览量

    基于JindoFS+OSS构建高效数据湖

    为什么要构建数据湖

    大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高...

    文章

    阿里云E-MapReduce团队

    2020-09-14

    4468浏览量

    独家 | 带你认识HDFS和如何创建3个节点HDFS集群(附代码&案例)

    作者:尼廷·兰詹(Nitin Ranjan)

    文章来源:微信公众号 数据派THU

    翻译:陈之炎

    校对:王威力

    ----

    在本文中,大数据专家将为您介绍如何使用HDFS以及如何利用HDFS创建HDFS集群节点。

    我们将从HDFS、Zookeeper、Hbase和OpenTSDB上的系列博客开始,了解...

    文章

    初商

    2019-08-27

    600浏览量

    《R与Hadoop大数据分析实战》一1.6 HDFS和MapReduce架构

    本节书摘来自华章出版社《R与Hadoop大数据分析实战》一书中的第1章,第1.6节,作者 (印)Vignesh Prajapati,更多章节内容可以访问云栖社区“华章计算机”公众号查看

    1.6 HDFS和MapReduce架构

    由于HDFS和MapReduce是Hadoop框架的两个主要特征,我们...

    文章

    华章计算机

    2017-07-03

    929浏览量

    Hadoop HDFS概念学习系列之NameNode(五)

    HDFS采用Master/Slave架构。NameNode就是HDFS的Master架构。HDFS系统包括一个NameNode组件,主要负责HDFS文件系统的管理工作,具体包括名称空间(namespace)管理,文件Block管理。

    NameNode提供的是始终被动接收服务的server。

    ...

    文章

    技术小哥哥

    2017-11-14

    913浏览量

    数据库必知词汇:HDFS

    Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)是指被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。

    HDFS有着高容错性(fault-tolerant)的...

    文章

    萌萌怪兽

    2020-02-23

    58浏览量

    展开全文
  • 命名空间,每一个命名空间在Datanode上都有一个对应的块池存储这个命名空间的数据块,这个块池 是由一个BPOfferService实例管理的。由于一个命名空间可以定义多个NameNode,所以BPOfferService类 需要与多个...
  • 读取命名空间镜像和编辑日志数据 1.读取命名空间镜像 类FSImage是 命名空间镜像的java实现,在源码中,英文注释为, /** * FSImage handles checkpointing and logging of the namespace edits. * */ ...
  • 【Hadoop HDFS学习笔记】HDFS基本学习

    千次阅读 2019-01-06 10:14:53
    文章目录HDFS文件系统HDFS设计的目标计算机集群的基本结构建构在上述物理结构之上的逻辑结构HDFS的基本架构HDFS命名空间管理通信协议客户端HDFS体系结构的局限性HDFS 的关键底层结构块(文件处理的基本单元)!...
  • 示例:zookeeper <name>hbase.zookeeper.quorum <value>flux04:2181,flux05:2181,flux06:2181 示例: <name>hbase.rootdir <value>hdfs://hadoop01:9000
  • hdfs中CheckSum

    2018-11-18 17:04:00
    当客户端创建HDFS文件时,它会计算文件每个块的校验和,并将这些校验和存储在同一HDFS命名空间中的单独隐藏文件中。当客户端检索文件内容时,它会验证从每个DataNode接收的数据是否与存储在关联校验和文件中的校验和...
  • HDFS】基本概念

    2020-11-04 17:01:00
    文章目录3.1 HDFS简介3.1.1块3.1.2NameNode3.1.3DataNode3.1.4 Scondary NameNode3.2 HDFS体系结构3.2.1HDFS体系结构概述3.2.2 HDFS命名空间管理3.2.3 客户端3.3 HDFS数据存取原理3.3.1 数据存放策略数据存放数据...
  • Cloudera Manager支持配置多个Nameservices,管理单独的HDFS名称空间,所有这些名称空间共享DataNode集合中可用的存储空间。 这些名称服务是联合的,这意味着每个名称服务都是独立的,不需要与其他名称服务协调。...
  • HDFS

    2019-01-29 19:33:48
    clusterID是将HDFS集群作为一个整体赋予的唯一标识符,对于联邦HDFS非常重要,这里一个集群由多个命名空间组成,且每个命名空间由一个namenode管理。blockpoolID是数据块池的唯一标识符,数据块池中包含了由一个...
  • 在HDFS中,节点分为两类:名称节点...HDFS命名空间的管理,是指对HDFS中目录、文件、块做类似文件系统的创建、修改、删除等基本操作。 FsImage:维护文件系统树 以及 文件树中的文件和文件夹的元数据; EditLog:...
  • HDFS数据存储和删除

    2018-04-15 09:10:00
    一、数据写入 在客户端想HDFS写数据的过程中,主要分为下面几个过程: ...当这个本地的临时文件到达HDFS中的块大小限制时,客户端访问Namenode,Namenode将文件的名字插入到HDFS命名空间中,并且为其分配相应的存...
  • HDFS Federation(HDFS 联盟)介绍

    千次阅读 2016-08-07 16:40:45
    1. 当前HDFS架构和功能概述 我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace management)和块/...命名空间管理:是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、
  • ClientProtocol定义了所有由客户端发起... 管理HDFS命名空间(namespace)的相关操作 系统问题与管理相关的操作 快照相关的操作 缓存相关的操作 其他操作 HDFS文件读操作、HDFS文件写与追加写操作、以及命令空间的...
  • 第一章 HDFS概述 hdfs背景意义 hdfs是一个分布式文件系统 使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。 优缺点 高容错性,适合处理... namenode,管理hdfs命名空间,配置副本策略,管...
  • HDFS Federation

    2017-09-02 20:13:32
    1. 当前HDFS架构和功能概述 我们先回顾一下HDFS功能。HDFS实际上具有两个功能:命名空间管理(Namespace ...命名空间管理:是指命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 796
精华内容 318
关键字:

hdfs命名空间