精华内容
下载资源
问答
  • 分布式文件系统

    2020-04-29 15:19:40
    目录什么是分布式文件系统为什么要使用分布式文件系统FastDFS 与 HDFS 什么是分布式文件系统 随着文件数据的越来越多,通过tomcat或nginx虚拟化的静态资源文件在单一的一个服务器节点内是存不下的,如果用多个节点...

    什么是分布式文件系统

    • 随着文件数据的越来越多,通过tomcat或nginx虚拟化的静态资源文件在单一的一个服务器节点内是存不下的,如果用多个节点来存储也可以,但是不利于管理和维护,所以我们需要一个系统来管理多台计算机节点上的文件数据,这就是分布式文件系统。
    • 分布式文件系统是一个允许文件通过网络在多台节点上分享的文件系统,多台计算机节点共同组成一个整体,为更多的用户提供分享文件和存储空间。比如常见的网盘,本质就是一个分布式的文件存储系统。虽然我们是一个分布式的文件系统,但是对用户来说是透明的,用户使用的时候,就像是访问本地磁盘一样。
    • 分布式文件系统可以提供冗余备份,所以容错能力很高。 系统中有某些节点宕机,但是整体文件服务不会停止,还是能够为用户提供服务,整体还是运作的,数据也不会丢失。
    • 分布式文件系统的可扩展性强,增加或减少节点都很简单,不会影响线上服务,增加完毕后会发布到线上,加入到集群中为用户提供服务。
    • 分布式文件系统可以提供负载均衡能力,在读取文件副本的时候可以由多个节点共同提供服务,而且可以通过横向扩展来确保性能的提升与负载。

    为什么要使用分布式文件系统

    使用分布式文件系统可以解决如下几点问题:

    1. 海量文件数据存储
    2. 文件数据高可用(冗余备份)
    3. 读写性能和负载均衡

    以上3点都是我们使用tomcat或nginx所不能够实现的,这也是我们为什么要使用分布式文件系统的原因

    FastDFS 与 HDFS

    说到分布式文件存储,肯定会有人想到HDFS,他们两者主要定位和应用场景是不一样的。

    1. Hadoop中的文件系统HDFS主要解决并行计算中分布式存储数据的问题。其单个数据文件通常很大,采用了分块(切分)存储的方式,所以是大数据大文件存储来使用的场景。
    2. FastDFS主要用于互联网网站,为文件上传和下载提供在线服务。所以在负载均衡、动态扩容等方面都支持得比较好,FastDFS不会对文件进行分快存储。FastDFS用于存储中小文件都是不错的,比如用户头像啊,一些较小的音视频文件啊等等都行。
    展开全文
  • 什么是分布式文件系统 分布式文件系统解决了海量文件存储及传输访问的瓶颈问题,对海量视频的管理、对海量图片的管理等。 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接...

    什么是分布式文件系统

    分布式文件系统解决了海量文件存储及传输访问的瓶颈问题,对海量视频的管理、对海量图片的管理等。

    分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连

     

    为什么会有分布文件系统

    1.存在问题

    分布式文件系统是面对互联网的需求而产生,互联网时代对海量数据如何存储?靠简单的增加硬盘的个数已经满足不了我们的要求,因为硬盘传输速度有限但是数据在急剧增长,另外我们还要要做好数据备份、数据安全等问题。

    2.解决办法

    采用分布式文件系统可以将多个地点的文件系统通过网络连接起来,组成一个文件系统网络,结点之间通过网络进行通信,一台文件系统的存储和传输能力有限,我们让文件在多台计算机上存储,通过多台计算共同传输

    好处

    1.一台计算机的文件系统处理能力扩充到多台计算机同时处理

    2.如果一台计算机挂了,还有另外副本计算机提供数据。

    3.每台计算机可以放在不同的地域,这样用户就可以就近访问,提高访问速度

     

    主流的分布式文件系统

    ①NFS

    在客户端上映射NFS服务器的驱动器,客户端通过网络访问NFS服务器的硬盘完全透明。

     

    ②GFS

    GFS采用主从结构,一个GFS集群由一个master大量的chunkserver组成。master存储了数据文件的元数据,一个文件被分成了若干块存储在多个chunkserver中。用户从master中获取数据元信息,从chunkserver存储数据。

     

    ③HDFS

    Hadoop分布式文件系统主要用于大数据。HDFS采用主从结构,一个HDFS集群由一个名称结点若干数据结点组成

    名称结点存储数据的元信息,一个完整的数据文件分成若干块存储在数据结点。客户端从名称结点获取数据的元信息及数据分块的信息,得到信息客户端即可从数据块来存取数据。

     

     

    展开全文
  • 一、各种分布式文件系统对比 1.1 表格对比 技术 优点 缺点 总结 1、 HDFS 1、大数据批量读写,吞吐量高; 2、一次写入,多次读取,顺序读写; ...

     

    一、各种分布式文件系统对比

    1.1 表格对比

    技术

    优点

    缺点

    总结

    1、   HDFS

    1、大数据批量读写,吞吐量高;

    2、一次写入,多次读取,顺序读写;

    1、交互式应用,低延迟很难满足;

    2、不支持多用户并发写相同文件。

    如果是很多小文件,nameNode压力大

    2、    googleFs

    1、成本低,运行在廉价的普通硬件上

    1、不开源

    不开源,使用困难

    3、   Tfs

    1、    开源

    1、小于1M的文件

    2、TFS内部是没有任何数据的内存缓冲的

     适合单个文件比较小的系统

    4、   Lustre

    1、  开源

    2、  支持POSIX

    3、  文件被分割成若干的Chunk,每个chunk是一般为1MB-4MB

     

     

    5、 Ceph

     

    1、支持POSIX

    2、开源

     

     

    1、  在Linux主流内核中找到ceph

    2、不成熟,处于测试推广阶段

    6、  MogileFs

    1、开源

     

     比FastDFS

    7、   FastDFS

    1、  开源

    2、  适合以文件为载体的在线服务

    3、  FastDFS没有对文件做分块存储

    4、  不需要二次开发即可直接使用

    5、  比mogileFS更易维护和使用

    6、  直接使用socket通信方式,相对于MogileFS的HTTP方式,效率更高。

    1、文件访问方式使用专有API,不支持POSIX

     

    8、swiftfs

     

     

    1、基于HDFS

    9、NFS

    1、用户和程序可以象访问本地文件一样访问远端系统上的文件

     

     

     

     

    开源的分布式文件/对象系统比较有名的包括Lustre(HPC)GlusterFS(NAS NFS)、HDFS(hadoop)、ceph(虚机块存储)、swift(restful对象存储),各有不同的领域。

     

    1.2 相关链接

    1.2.1     Hadoop

    http://tech.it168.com/a2012/1029/1414/000001414776.shtml

    hadoop文档 :http://hadoop.apache.org/

    https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html

    1.2.2     Googlefs 不开源

    1.2.3     Tfs

    开源首页:http://tfs.taobao.org/

    1.2.4     Lustre

    http://lustre.org/

    http://lustre.org/getting-started-with-lustre/

    1.2.5     ceph:

    社区网站地址:
    http://ceph.org.cn/
    中文文档:
    http://docs.ceph.org.cn/start/intro/

    源码:https://github.com/ceph/ceph

    https://www.oschina.net/translate/ceph

    http://dockone.io/article/307

    1.2.6     MogileFs

    1.2.7     fastdfs

    http://elf8848.iteye.com/blog/1739596

    MogileFsFastDFS 对比:http://blog.csdn.net/wishfly/article/details/6940504

    http://www.sunnyu.com/?p=105

    http://bbs.chinaunix.net/thread-2001101-1-1.html

    1.2.8     swiftfs

    https://github.com/ovh/svfs

    https://wiki.openstack.org/wiki/Swift

    https://support.rackspace.com/how-to/swift-filesystem-for-hadoop/

    1.2.9     综合

     现在主流的开源分布式文件系统架构有哪些?

    https://www.zhihu.com/question/19832447

     如何选择分布式文件系统?

    https://segmentfault.com/q/1010000000449947

     各种分布式文件系统

    http://os.51cto.com/art/201007/212689_all.htm

    索引树:http://bbs.chinaunix.net/tree/index_304_1/

    当下流行的分布式文件系统大阅兵

    http://os.51cto.com/art/201007/212689_all.htm

     

    公众号:关注【哥妞】,了解技术,学会泡妞~
    [个人博客]

    展开全文
  • 一.MFS分布式文件系统详述 分布式简介 MFS分布式文件系统的原理 MFS文件系统的组成 MFS文件系统的工作过程 二.MFS分布式文件系统的部署 实验环境 配置Master Server 配置MetaLogger Server 配置Chunk Server1和Chunk...
  • 分布式文件系统 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。...

    特点:分块(hadoop2:128M)、流水线读写


    分布式文件系统

    • 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。
    • 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。
    • 通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。
    • 容错。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。
    • 分布式文件管理系统很多,hdfs只是其中一种。适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适。

    为什么小文件不适合呢?瓶颈在于存储元数据信息。元数据信息存放在namenode上,为保证数据安全和快速读写,namenode把信息放到磁盘一份和内存一份。


    常见的分布式文件系统

    GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。




    Google学术论文,这是众多分布式文件系统的起源
    ==================================
    Google File System(大规模分散文件系统)
    MapReduce (大规模分散FrameWork)
    BigTable(大规模分散数据库)
    Chubby(分散锁服务)
    一般你搜索Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)就有了。
    做个中文版下载源:http://dl.iteye.com/topics/download/38db9a29-3e17-3dce-bc93-df9286081126
    做个原版地址链接:
    http://labs.google.com/papers/gfs.html
    http://labs.google.com/papers/bigtable.html 
    http://labs.google.com/papers/mapreduce.html




    GFS(Google File System)
    --------------------------------------
    Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。
    下面分布式文件系统都是类 GFS的产品。




    HDFS
    --------------------------------------
    Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。




    Ceph
    ---------------------------------------
    是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。并使用Ceph完成了他的论文。
    说 ceph 性能最高,C++编写的代码,支持Fuse,并且没有单点故障依赖, 于是下载安装, 由于 ceph 使用 btrfs 文件系统, 而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持。
    可是ceph太不成熟了,它基于的btrfs本身就不成熟,它的官方网站上也明确指出不要把ceph用在生产环境中。




    Lustre
    ---------------------------------------
    Lustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护的。
    该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10000个节点,数以PB的数据量存储系统。
    目前Lustre已经运用在一些领域,例如HP SFS产品等。
    适合存储小文件、图片的分布文件系统研究
    ====================================
    用于图片等小文件大规模存储的分布式文件系统调研
    架构高性能海量图片服务器的技术要素
    nginx性能改进一例(图片全部存入google的leveldb)
    FastDFS分布文件系统
    TFS(Taobao File System)安装方法
    动态生成图片 Nginx + GraphicsMagick 




    MogileFS
    ---------------------------------------
    由memcahed的开发公司danga一款perl开发的产品,目前国内使用mogielFS的有图片托管网站yupoo等。
    MogileFS是一套高效的文件自动备份组件,由Six Apart开发,广泛应用在包括LiveJournal等web2.0站点上。
    MogileFS由3个部分组成:
      第1个部分是server端,包括mogilefsd和mogstored两个程序。前者即是 mogilefsd的tracker,它将一些全局信息保存在数据库里,例如站点domain,class,host等。后者即是存储节点(store node),它其实是个HTTP Daemon,默认侦听在7500端口,接受客户端的文件备份请求。在安装完后,要运行mogadm工具将所有的store node注册到mogilefsd的数据库里,mogilefsd会对这些节点进行管理和监控。
      第2个部分是utils(工具集),主要是MogileFS的一些管理工具,例如mogadm等。
      第3个部分是客户端API,目前只有Perl API(MogileFS.pm)、PHP,用这个模块可以编写客户端程序,实现文件的备份管理功能。




    mooseFS
    ---------------------------------------
    持FUSE,相对比较轻量级,对master服务器有单点依赖,用perl编写,性能相对较差,国内用的人比较多
    MooseFS与MogileFS的性能测试对比 
     


    FastDFS
    ---------------------------------------
    是一款类似Google FS的开源分布式文件系统,是纯C语言开发的。
    FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。
    官方论坛  http://bbs.chinaunix.net/forum-240-1.html
    FastDfs google Code     http://code.google.com/p/fastdfs/
    分布式文件系统FastDFS架构剖析   http://www.programmer.com.cn/4380/
     
    TFS
    -------------------------------------
    TFS(Taobao !FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用 在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构,可将文件名映射到文件的物理地址,简化 了文件的访问流程,一定程度上为TFS提供了良好的读写性能。
    官网 : http://code.taobao.org/p/tfs/wiki/index/




    GridFS文件系统
    -------------------------------------
    MongoDB是一种知名的NoSql数据库,GridFS是MongoDB的一个内置功能,它提供一组文件操作的API以利用MongoDB存储文件,GridFS的基本原理是将文件保存在两个Collection中,一个保存文件索引,一个保存文件内容,文件内容按一定大小分成若干块,每一块存在一个Document中,这种方法不仅提供了文件存储,还提供了对文件相关的一些附加属性(比如MD5值,文件名等等)的存储。文件在GridFS中会按4MB为单位进行分块存储。
    MongoDB GridFS 数据读取效率 benchmark
    http://blog.nosqlfan.com/html/730.html
    nginx + gridfs 实现图片的分布式存储  安装(一年后出问题了)
    http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/05/2038285.html
    基于MongoDB GridFS的图片存储 
    http://liut.cc/blog/2010/12/about-imsto_my-first-open-source-project.html
    nginx+mongodb-gridfs+squid
    http://1008305.blog.51cto.com/998305/885340

    展开全文
  • Ceph分布式文件系统

    千次阅读 2019-04-29 14:18:29
    什么是分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连 分布式文件系统的设计基于客户机/服务器模式 常用...
  • 分布式文件系统HDFS

    2020-03-01 22:10:54
    分布式文件系统HDFS 分布式文件系统:   分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统的设计一般采用“客户机/服务器”模式,客户端以特定的通信协议通过网络与...
  • 对一些图片、大文本,使用数据库就不合适了,所以我们会采用分布式文件系统来实现文件存储,分布式文件系统有很多产品、比如淘宝的TFS、google的GFS。还有开源的HDFS
  • 分布式文件系统PPT

    2009-10-18 14:40:48
    分布式文件系统设计分布式文件系统设计分布式文件系统设计分布式文件系统设计
  • 分布式文件系统概念

    2019-10-07 22:59:35
    什么是分布式文件系统  分布式文件系统 distributed file system 是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连  分布式文件系统的设计基于客户机/服务器模式  一...
  • 分布式文件系统选型小记

    千次阅读 2020-06-07 23:30:03
    分布式文件系统选型小记 Q&A 分布式文件系统是什么? 分布式文件系统(Distributed File System,DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,是通过计算机网络与节点(可简单的理解为一...
  • 分布式计算框架与分布式文件系统是两个概念。分布式计算框架是用于处理大数据的一种模型,而分布式文件系统可以用于大数据的存储。 一、分布式计算框架 对于如何处理大数据,计算机科学界有两大方向:一是集中式计算...
  • 分布式文件系统配置

    2019-05-23 21:49:49
    分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供...
  • 分布式文件系统监控

    2018-03-12 00:00:00
    序言 分布式文件系统用来存储各种非结构化数据,例如海量的图片,海量的视频,海量的xml等数据。在这种分布式存储中,是不支持随机的读写的,要么直接覆盖,要么删除然后再修改。 越来越多的存储都用到了分布式...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 40,901
精华内容 16,360
关键字:

分布式文件系统