精华内容
下载资源
问答
  • 分布式存储技术

    2013-05-01 00:21:47
    与目前常见的集中式存储技术不同,分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业...

    分布式存储技术

    分布式存储概念

    与目前常见的集中式存储技术不同,分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。结构化数据的存储及应用所谓结构化数据是一种用户定义的数据类型,它包含了一系列的属性,每一个属性都有一个数据类型,存储在关系数据库里,可以用二维表结构来表达实现的数据。大多数系统都有大量的结构化数据,一般存储在 Oracle MySQL 的等的关系型数据库中,当系统规模大到单一节点的数据库无法支撑时,一般有两种方法:垂直扩展与水平扩展。

    垂直扩展:垂直扩展比较好理解,简单来说就是按照功能切分数据库将不同功能的数据,存储在不同的数据库中,这样一个大数据库就被切分成多个小数据库,从而达到了数据库的扩展。一个架构设计良好的应用系统,其总体功能一般肯定是由很多个松耦合的功能模块所组成的,而每一个功能模块所需要的数据对应到数据库中就是一张或多张表。各个功能模块之间交互越少,越统一,系统的耦合度越低,这样的系统就越容易实现垂直切分。

     水平扩展:简单来说,可以将数据的水平切分理解为按照数据行来切分,就是将表中的某些行切分到一个数据库中,而另外的某些行又切分到其他的数据库中。为了能够比较容易地判断各行数据切分到了哪个数据库中,切分总是需要按照某种特定的规则来进行的,如按照某个数字字段的范围,某个时间类型字段的范围,或者某个字段的 hash 值。

    垂直扩展与水平扩展各有优缺点,一般一个大型系统会将水平与垂直扩展结合使用。

     

    非结构化数据的存储及应用

    相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XMLHTML、各类报表、图像和音频/视频信息等等。分布式文件系统是实现非结构化数据存储的主要技术,说到分布式文件系统就不得不提GFS(全称为"Google File System"),GFS 的系统架构图如下图所示。

    GFS 将整个系统分为三类角色:Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。

    Client(客户端):是 GFS提供给应用程序的访问接口,它是一组专用接口,不遵守 POSIX 规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起。

    Master(主服务器):是 GFS管理节点,主要存储与数据文件相关的元数据,而不是 Chunk(数据块)。元数据包括:命名空间(Name Space),也就是整个文件系统的目录结构,一个能将 64 位标签映射到数据块的位置及其组成文件的表格,Chunk 副本位置信息和哪个进程正在读写特定的数据块等。还有Master 节点会周期性地接收从每个Chunk节点来的更新("Heart- beat")来让元数据保持最新状态。

    Chunk Server(数据块服务器):负责具体的存储工作,用来存储 ChunkGFS将文件按照固定大小进行分块,默认是 64MB,每一块称为一个 Chunk(数据块),每一个 Chunk Block 为单位进行划分,大小为 64KB,每个 Chunk有一个唯一的64位标签。GFS采用副本的方式实现容错,每一个Chunk有多个存储副本(默认为三个)。Chunk Server 的个数可有有多个,它的数目直接决定了 GFS 的规模。

     

    半结构化数据的存储及应用

    就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,半结构化数据模型具有一定的结构性,但较之传统的关系和面向对象的模型更为灵活。半结构数据模型完全不基于传统数据库模式的严格概念,这些模型中的数据都是自描述的。

    由于半结构化数据没有严格的schema定义,所以不适合用传统的关系型数据库进行存储,适合存储这类数据的数据库被称作“NoSQL”数据库。

    NoSQL 的定义:

    被称作下一代的数据库,具有非关系型,分布式,轻量级,支持水平扩展且一般不保证遵循ACID原则的数据储存系统。NoSQL”其实是具有误导性的别名,称作Non Relational Database(非关系型数据库)更为恰当。所谓“非关系型数据库”指的是:

    使用松耦合类型、可扩展的数据模式来对数据进行逻辑建模(Map,列,文档,图表等),而不是使用固定的关系模式元组来构建数据模型。

    以遵循于CAP定理(能保证在一致性,可用性和分区容忍性三者中中达到任意两个)跨多节点数据分布模型而设计,支持水平伸缩。这意味着对于多数据中心和动态供应(在生产集群中透明地加入/删除节点)的必要支持,也即弹性(Elasticity)

    拥有在磁盘或内存中,或者在这两者中都有的,对数据持久化的能力,有时候还可以使用可热插拔的定制存储。

    支持多种的‘Non-SQL’接口(通常多于一种)来进行数据访问。
    展开全文
  • 常见分布式存储系统

    千次阅读 2020-04-21 16:22:40
    一、数据存储类型 一般情况下,我们将存储分成了4种类型,基于本机的DAS和网络的NAS存储、SAN存储、对象存储。...如果将计算和存储分离了,存储成为一个独立的设备,并且存储有自己的文件系统,可以自己管理...

    一、数据存储类型

    一般情况下,我们将存储分成了4种类型,基于本机的DAS和网络的NAS存储、SAN存储、对象存储。对象存储是SAN存储和NAS存储结合后的产物,汲取了SAN存储和NAS存储的优点。

    1.DAS

    DAS将计算、存储能力一把抓,封装在一个服务器里。大家日常用的电脑,就是一个DAS系统。
    在这里插入图片描述

    2.NAS

    如果将计算和存储分离了,存储成为一个独立的设备,并且存储有自己的文件系统,可以自己管理数据,就是NAS。所以NAS存储可以被不同的主机共享。服务器只要提需求,不需要进行大量的计算,将很多工作交给了存储完成,省下的CPU资源可以干更多服务器想干的事情,即计算密集型适合使用NAS。
    在这里插入图片描述

    3.NAS

    计算和存储分离了,存储成为一个独立的设备,存储只是接受命令不再做复杂的计算,只干读取或者写入文件2件事情,叫SAN。
    因为不带文件系统,所以也叫“裸存储”,有些应用就需要裸设备,如数据库。存储只接受简单明了的命令,其他复杂的事情,有服务器端干了。再配合FC网络,这种存储数据读取/写入的速度很高。
    但是每个服务器都有自己的文件系统进行管理,对于存储来说是不挑食的只要来数据我就存,不需要知道来的是什么,不管是英语还是法语,都忠实记录下来的。但是只有懂英语的才能看懂英语的数据,懂法语的看懂法语的数据。所以,一般服务器和SAN存储区域是一夫一妻制的,SAN的共享性不好。当然,有些装了集群文件系统的主机是可以共享同一个存储区域的。

    4.对象存储

    对象存储大量使用在互联网上,大家使用的网盘就是典型的对象存储。对象存储有很好的扩展性,可以线性扩容。并可以通过接口封装,还可以提供NAS存储服务和SAN存储服务。

    VMware的vSAN本质就是一个对象存储。

    二、分布式存储系统

    普通存储方案:Rsync、DAS(IDE/SATA/SAS/SCSI等块)、NAS(NFS、CIFS、SAMBA等文件系统)、SAN(FibreChannel, iSCSI, FoE存储网络块),Openfiler、FreeNas(ZFS快照复制)由于生产环境中往往由于对存储数据量很大,而SAN存储价格又比较昂贵,因此大多会选择分布式存储

    GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存 储服务。
    在这里插入图片描述

    TFS

    TFS(Taobao File System)是由淘宝开发的一个分布式文件系统,其内部经过特殊的优化处理,适用于海量的小文件存储,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。目前已经对外开源;

    TFS采用自有的文件系统格式存储,因此需要专用的API接口去访问,目前官方提供的客户端版本有:C++/JAVA/PHP。

    FastDFS

    FastDFS是国人开发的一款分布式文件系统,目前社区比较活跃。如上图所示系统中存在三种节点:Client、Tracker、Storage,在底层存储上通过逻辑的分组概念,使得通过在同组内配置多个Storage,从而实现软RAID10,提升并发IO的性能、简单负载均衡及数据的冗余备份;同时通过线性的添加新的逻辑存储组,从容实现存储容量的线性扩容。

    文件下载上,除了支持通过API方式,目前还提供了apache和nginx的插件支持,同时也可以不使用对应的插件,直接以Web静态资源方式对外提供下载。

    目前FastDFS(V4.x)代码量大概6w多行,内部的网络模型使用比较成熟的libevent三方库,具备高并发的处理能力。

    《操作和部署过程》

    HDFS

    Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,

    后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。

    GFS(Google File System)

    Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。

    展开全文
  • 分布式存储技术及应用

    万次阅读 2012-04-12 13:54:36
    1百万亿亿 (1024)。毫无疑问,各个大型网站也都存储着海量的数据,这些...分布式存储技术就是为了解决这个问题而发展起来的技术,下面让将会详细介绍这个技术及应用。 分布式存储概念 与目前常见的集中式存储

    根据did you know(http://didyouknow.org/)的数据,目前互联网上可访问的信息数量接近1秭= 1百万亿亿 (1024)。毫无疑问,各个大型网站也都存储着海量的数据,这些海量的数据如何有效存储,是每个大型网站的架构师必须要解决的问题。分布式存储技术就是为了解决这个问题而发展起来的技术,下面让将会详细介绍这个技术及应用。

    分布式存储概念

    与目前常见的集中式存储技术不同,分布式存储技术并不是将数据存储在某个或多个特定的节点上,而是通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。

    具体技术及应用:

    海量的数据按照结构化程度来分,可以大致分为结构化数据,非结构化数据,半结构化数据。 

    本文接下来将会分别介绍这三种数据如何分布式存储。

    结构化数据的存储及应用

    所谓结构化数据是一种用户定义的数据类型,它包含了一系列的属性,每一个属性都有一个数据类型,存储在关系数据库里,可以用二维表结构来表达实现的数据。

    大多数系统都有大量的结构化数据,一般存储在Oracle或MySQL的等的关系型数据库中,当系统规模大到单一节点的数据库无法支撑时,一般有两种方法:垂直扩展与水平扩展。

    · 垂直扩展:垂直扩展比较好理解,简单来说就是按照功能切分数据库,将不同功能的数据,存储在不同的数据库中,这样一个大数据库就被切分成多个小数据库,从而达到了数据库的扩展。一个架构设计良好的应用系统,其总体功能一般肯定是由很多个松耦合的功能模块所组成的,而每一个功能模块所需要的数据对应到数据库中就是一张或多张表。各个功能模块之间交互越少,越统一,系统的耦合度越低,这样的系统就越容易实现垂直切分。

    · 水平扩展:简单来说,可以将数据的水平切分理解为按照数据行来切分,就是将表中的某些行切分到一个数据库中,而另外的某些行又切分到其他的数据库中。为了能够比较容易地判断各行数据切分到了哪个数据库中,切分总是需要按照某种特定的规则来进行的,如按照某个数字字段的范围,某个时间类型字段的范围,或者某个字段的hash值。

    垂直扩展与水平扩展各有优缺点,一般一个大型系统会将水平与垂直扩展结合使用。

    实际应用:图1是为核高基项目设计的结构化数据分布式存储的架构图。


    图1可水平&垂直切分扩展的数据访问框架

    · 采用了独立的分布式数据访问层,后端分布式数据库集群对前端应用透明。

    · 集成了Memcached集群,减少对后端数据库的访问,提高数据的查询效率。

    · 同时支持垂直及水平两种扩展方式。

    · 基于全局唯一性主键范围的切分方式,减轻了后续维护的工作量。

    · 全局唯一性主键的生成采用DRBD+Heartbeat技术保证了可靠性。

    · 利用MySQL Replication技术实现高可用的架构。

    注:以上的数据切分方案并不是唯一扩展MySql的方法,有兴趣的读者可以关注一下” 云计算时代的MySQL-Clustrix Sierra分布式数据库系统”

    非结构化数据的存储及应用

    相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

    分布式文件系统是实现非结构化数据存储的主要技术,说到分布式文件系统就不得不提GFS(全称为"Google File System"),GFS的系统架构图如下图所示。


    图2 Google-file-system架构图

    图3 Google-file-system架构图(详细)

    GFS将整个系统分为三类角色:Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。

    · Client(客户端):是GFS提供给应用程序的访问接口,它是一组专用接口,不遵守POSIX规范,以库文件的形式提供。应用程序直接调用这些库函数,并与该库链接在一起。

    · Master(主服务器):是GFS的管理节点,主要存储与数据文件相关的元数据,而不是Chunk(数据块)。元数据包括:命名空间(Name Space),也就是整个文件系统的目录结构,一个能将64位标签映射到数据块的位置及其组成文件的表格,Chunk副本位置信息和哪个进程正在读写特定的数据块等。还有Master节点会周期性地接收从每个Chunk节点来的更新("Heart- beat")来让元数据保持最新状态。

    · Chunk Server(数据块服务器):负责具体的存储工作,用来存储Chunk。GFS将文件按照固定大小进行分块,默认是64MB,每一块称为一个Chunk(数据块),每一个Chunk以Block为单位进行划分,大小为64KB,每个Chunk有一个唯一的64位标签。GFS采用副本的方式实现容错,每一个Chunk有多个存储副本(默认为三个)。 Chunk Server的个数可有有多个,它的数目直接决定了GFS的规模。

    GFS之所以重要的原因在于,在Google公布了GFS论文之后,许多开源组织基于GFS的论文开发了各自的分布式文件系统,其中比较知名的有HDFS,MooseFS,MogileFS等。

    实际应用:由于核高基的项目中未来会有大量的数据与应用需要存储,所以我们设计时也采用分布式文件系统的方案,由于开源的分布式文件系统可以基本满足我们需求,另外从时间上来说也比较紧张,所以我们采用了开源的MooseFS作为底层的分布式文件系统。

    · MooseFS存在的问题:由于MooseFS是也是按照GFS论文设计的,只有一个Master(主服务器),虽然可以增加一个备份的日志服务器,但是还是存在Master无法扩展的问题,当单一Master节点上存储的元数据越来越多的时候,Master节点占用的内存会越来越多,直到达到服务器的内存上限,所以单一Master节点存在内存上的瓶颈,只能存储有限的数据,可扩展性差,并且不稳定。

    · 对MooseFS的优化:面对MooseFS存在的问题,我们采用了类似分布式数据库中的“Sharding”技术,设计了一个分布式文件系统访问框架,可以做到对分布式文件系统做垂直与水平切分。这样就最大限度的保证了MooseFS系统的可扩展性与稳定性。

    下图是为核高基项目设计的非结构化数据分布式存储的架构图。我们设计了两种访问方式,一种是类似GFS的API访问方式,以库文件的方式提供,应用程序通过调用API直接访问分布式文件系统。第二种是通过RESTful web Service访问。

    图4可水平&垂直切分扩展的分布式文件系统访问框架(API版)

    图5可水平&垂直切分扩展的分布式文件系统访问框架(RESTful web Service版)

    半结构化数据的存储及应用

    就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据, 半结构化数据模型具有一定的结构性,但较之传统的关系和面向对象的模型更为灵活。半结构数据模型完全不基于传统数据库模式的严格概念,这些模型中的数据都是自描述的。

    由于半结构化数据没有严格的schema定义,所以不适合用传统的关系型数据库进行存储,适合存储这类数据的数据库被称作“NoSQL”数据库。

    NoSQL的定义:

    被称作下一代的数据库,具有非关系型,分布式,轻量级,支持水平扩展且一般不保证遵循ACID原则的数据储存系统。“NoSQL”其实是具有误导性的别名,称作Non Relational Database(非关系型数据库)更为恰当。所谓“非关系型数据库”指的是:

    · 使用松耦合类型、可扩展的数据模式来对数据进行逻辑建模(Map,列,文档,图表等),而不是使用固定的关系模式元组来构建数据模型。

    · 以遵循于CAP定理(能保证在一致性,可用性和分区容忍性三者中中达到任意两个)的跨多节点数据分布模型而设计,支持水平伸缩。这意味着对于多数据中心和动态供应(在生产集群中透明地加入/删除节点)的必要支持,也即弹性(Elasticity)。

    · 拥有在磁盘或内存中,或者在这两者中都有的,对数据持久化的能力,有时候还可以使用可热插拔的定制存储。

    · 支持多种的‘Non-SQL’接口(通常多于一种)来进行数据访问。

    图6是Sourav Mazumder提出的NoSQL总体架构:

    图6 NoSQL总体架构

    · 接口:REST (HBase,CouchDB,Riak等),MapReduce (HBase,CouchDB,MongoDB,Hypertable等),Get/Put (Voldemort,Scalaris等),Thrift (HBase,Hypertable,Cassandra等),语言特定的API(MongoDB)。

    · 逻辑数据模型:面向键值对的(Voldemort,Dynomite 等),面向Column Family的(BigTable,HBase,Hypertable 等),面向文档的(Couch DB,MongoDB等),面向图的(Neo4j, Infogrid等)

    · 数据分布模型:致性和可用性(HBase,Hypertable, MongoDB等), 可用性和可分区性(Cassandra等)。一致性和可分区性的组合会导致一些非额定的节点产生可用性的损失。有趣的是目前还没有一个“非关系型数据库”支持这一组合。

    · 数据持久性:基于内存的(如Redis,Scalaris, Terrastore),基于磁盘的(如MongoDB,Riak等),或内存及磁盘二者的结合(如 HBase,Hypertable,Cassandra)。存储的类型有助于我们辨别该解决方案适用于哪种类型。然而,在大多数情况下人们发现基于组合方 案的解决方案是最佳的选择。既能通过内存数据存储支持高性能,又能在写入足够多的数据后存储到磁盘来保证持续性。

    NoSQL中的重要理论基础:

    CAP理论:

    · C: Consistency 一致性

    · A: Availability 可用性(指的是快速获取数据)

    · P: Tolerance of network Partition 分区容忍性(分布式)

    图7 CAP理论

    CAP原理告诉我们,这三个因素最多只能满足两个,不可能三者兼顾。对于分布式系统来说,分区容错是基本要求,所以必然要放弃一致性。对于大型网站来说,分区容错和可用性的要求更高,所以一般都会选择适当放弃一致性。对应CAP理论,NoSQL追求的是AP,而传统数据库追求的是CA,这也可以解释为什么 传统数据库的扩展能力有限的原因。

    BASE模型:

    说起来很有趣,BASE的英文意义是碱,而ACID是酸。真的是水火不容啊。

    · Basically Availble –基本可用

    · Soft-state –软状态/柔性事务

    · Eventual Consistency –最终一致性

    BASE模型是传统ACID模型的反面,不同于ACID模型,BASE强调牺牲高一致性,从而获得可用性或可靠性。

    基本可用是指通过Sharding,允许部分分区失败。

    软状态是指异步,允许数据在一段时间内的不一致,只要保证最终一致就可以了。

    最终一致性是整个NoSQL中的一个核心理念,强调最终数据是一致的就可以了,而不是时时一致。

    Quorum NRW

    8 Quorum NRW

    N: 复制的节点数,即一份数据被保存的份数。
    R: 成功读操作的最小节点数,即每次读取成功需要的份数。
    W: 
    成功写操作的最小节点数 ,即每次写成功需要的份数。

    这三个因素决定了可用性,一致性和分区容错性。只需W + R > N,就可以保证强一致性。

    实际应用: 今年上半年我在aspire的搜索团队中负责互联网搜索的设计与开发,我设计的网页爬虫系统就是采用Cassandra来存储网页与链接信息的。下面结合我的实际使用经验谈谈我对Cassandra的看法:

    优点:

    · 弹性扩展:由于Cassandra是完全分布式的,使用时不需要再像使用MySQL那样自己设计复杂的数据切分方案,也不再配置复杂的DRBD+Heartbeat,一切都变得非常简单了,只需要简单的配置就可以给一个集群中增加一个新的节点,而且对客户端完全是透明的,不需要任何更改。

    · 灵活的schema:不需要象数据库一样预先设计schema,增加或者删除字段非常方便。

    · 使用简单:由于没有类似SQL这样复杂的查询语言,学习成本不高,很容易上手。

    缺点:

    · 稳定性差:在我们的实际使用过程中发现,单机数据量达到200G以上,时不时就会发生宕机现象。

    · 缺乏管理与分析工具:传统的关系型数据都有比较好用的管理与分析工具,使用这些工具可以轻松的管理数据库,查看数据,分析性能瓶颈等,而Cassandra确缺少类似的工具,就连简单的查看一条数据,都要通过编程才能看到。

    展开全文
  • 分布式技术原理(八):分布式存储

    千次阅读 多人点赞 2020-05-25 22:46:00
    分布式存储 分布式系统设计原则 CAP准则 CAP策略选择 分布式存储系统三要素 三要素含义 主流分布式数据存储系统 数据分布及原则 数据分布设计原则 常见数据分布方法 分布式数据复制(副本) 同步复制 异步...
    展开全文
  • 在实际工作中,为了更好地引入分布式存储技术,我们需了解各种分布式存储技术的特点,以及各种技术的适用场景,在此希望请教下同行,城商行应该如何选择这些分布式存储技术,他们各自的特点和场景如何? 在以
  • 【摘要】本文拟通过对Ceph、HDFS、Swift、GFS、Luster等几种主流的分布式存储技术实现原理的阐述,并总结其各自的特点和合适的使用场景,以帮助架构师在进行存储架构规划时,选择合适的存储技术。 【作者】范永清,...
  • 我们继续互联网技术架构-分布式存储。 总目录: 分布式存储概述 分布式存储特性 - 哈希分布/一致性哈希分布 分布式存储协议 - 两阶段与Paxos
  • 分布式存储与传统存储架构

    万次阅读 2019-04-10 20:34:58
    随着主机、磁盘、网络等技术的发展,对于承载大量数据存储的服务器来说,服务器内置存储空间,或者说内置磁盘往往不足以满足存储需要或者虽然能满足要求,但各个服务器之间独立,严重降低了磁盘的利用率。...
  • 分布式存储基础知识

    万次阅读 2018-11-11 20:47:42
    分布式存储的数据类型以下三类: 非结构化的数据:主要是数据之间的关联系不大,像文本图片之类的数据 结构化的数据:数据之间关联系很大,关系型数据库这种,可以用表进行表示的 半结构化的数据:介于上述两种...
  • (一)分布式存储综述

    万次阅读 多人点赞 2017-03-17 20:30:02
    这篇博客主要来总结一下分布式存储系统的历史,发展以及特性,从而对分布式存储系统一个大概的了解,主要从一下几个部分来介绍分布式存储分布式存储概念 分布式文件系统的发展 分布式存储系统的分类 分布式存储...
  • 区块链分布式存储

    千次阅读 2019-02-16 12:12:35
    区块链分布式存储 https://blog.csdn.net/weixin_44172023/article/details/87072804 想知道更多区块链技术知识,请百度【链客区块链技术问答社区】 链客,有问必答!! BAT垄断了互联网创业道路,DAPP成为创投...
  • 分布式存储综述、存储原理与设计

    千次阅读 2019-07-04 16:13:53
    目录 分布式存储概念 分布式文件系统的发展 分布式存储系统的分类 ...这篇博客主要来总结一下分布式存储系统的历史,发展以及特性,从而对分布式存储系统一个大概的了解,主要从一下几个部分来介绍分布式存储...
  • 面试中如何考察分布式存储 ...可以看到,分布式存储技术的范围非常大,技术覆盖的广度和深度都很料,比如分布式协同系统或者各种流计算框架,都可以单独作为一个专栏来进行展开讲解。 由于篇幅有限,
  • 分布式存储简介

    千次阅读 2021-01-28 13:37:23
    一、概述 分布式文件系统是分布式领域的一个基础应用,...分布式存储 GlusterFS 介绍与部署 本文试图分析和思考,在分布式文件系统领域,我们要解决哪些问题、有些什么样的方案、以及各自的选择依据。 二、过去的样
  • 大数据背景下的分布式存储

    千次阅读 2021-03-02 14:48:01
    互联网企业纷纷对数据存储和管理,出重金加大数据中心的建设,阿里投2000亿用于云操作系统、服务器、芯片等技术的研发事项,以应对海量数据的到来,腾讯乘胜追击出资5000亿……,存储技术是这场“数据战”中的核心...
  • 分布式存储比较

    千次阅读 2018-02-06 11:37:59
    一、概述 ... iSCSI, FoE存储网络块),Openfiler、FreeNas(ZFS快照复制)由于生产环境中往往由于对存储数据量很大,而SAN存储价格又比较昂贵,因此大多会选择分布式 存储来解决一下问题:
  • 来源 |清平の乐来源 | CSDN博客,责编 | Carol头图 | CSDN 下载自视觉中国一、数据存储类型一般情况下,我们将存储分成了4种类型,基于本机的DAS和网络的NAS存储、...
  • 1. 企业级互联网分布式系统应用架构学习免费课程:...2. 分布式计算免费课程:https://edu.aliyun.com/course/39本课程针对大数据分步式计算中的相关技术进行讲解,核心讲解流式计算...
  • 对公司内部使用的文件系统进行了梳理,当前公司内部使用的文件系统GlusterFS,FastDFS等,由于文件系统在海量小文件和高并发之下性能急剧下降,性能遭遇瓶颈,因此打算建设分布式对象存储平台。下面对市面上比较...
  • 分布式存储与集中式存储

    万次阅读 2017-10-13 18:42:02
    从集中式到分布式 前言 随着计算机系统规模变得越来越大,将所有业务单元集中部署在一个或者若干个大型机 上的体系结构物,已经越来越不能满足当今计算机系统,尤其是大型互联网系统的快速发展,...
  • 数据正成为世界上最价值的资源,分布式文件存储是应对数据爆炸的最好解决方案,那就会涉及到分布式文件存储方案、选型、架构设计等。 分布式文件存储的来源 在这个数据爆炸的时代,产生的数据量不断地在攀升,从...
  • Ceph分布式存储系统

    千次阅读 2016-09-12 01:38:07
    Ceph是根据加州大学Santa Cruz分校的Sage Weil的博士论文所设计开发的新一代自由软件分布式文件系统,其设计目标是良好的...这些多触角的头足类动物,是对一个分布式文件系统高度并行的形象比喻。 其设计遵循了三个
  • 分布式数据存储技术 主从结构(Master/Slave) Master:提供服务的接口 Slave:存储 Master节点接收用户的请求,包括增、删、改、查等,同时保持和slave节点之间的状态同步,通过心跳协议进行监控。 3.3 常见的...
  • 2.2.6 大型网站技术和java中间件-大型网站及其架构演进过程:弥补分布式数据库的不足,引入分布式存储系统 常见分布式存储系统: 1.分布式文件系统 1.1 在分布式环境中,由多个节点组成的与单机文件系统一样的...
  • 不过,在这名声鹊起的背后,关于IPFS分布式存储的认知错误也是时出现,各种流言更是层出不穷。在这里,盘古开源带你一起来探寻那些常见的认知误区,以及其背后的真相。 关于IPFS分布式存储的四个认知误区 误区1 ...
  • 分布式存储系统 面临着的首要问题,就是如何将 大量的数据 分布在 不同的存储节点 上。无论上层接口是 KV 存储、对象存储、块存储、亦或是 列存储,在这个问题上大体是一致的。本文将介绍如何 分布式存储系统 中 做...
  • 分布式存储系统中的Data Scrubbing机理

    千次阅读 2019-02-24 11:35:19
    在大型的分布式存储系统内,当系统运行超过一段时间,个别存储节点出现数据块的损坏是再常见不过的事情了。这时候从系统层面,它最好能够自动发现并从其它节点同步副本数据。我们称这个过程为Data Scrubbing(数据...
  • 大规模分布式存储系统笔记一

    千次阅读 多人点赞 2020-03-24 17:58:13
    大规模分布式存储系统笔记一欢迎进入分布式的世界概述功能快捷键合理的创建标题,助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 121,775
精华内容 48,710
关键字:

常见的分布式存储技术有