精华内容
下载资源
问答
  • 2022-01-16 17:04:04

    大数据存储技术面向的是海量、异构数据,因此,它需要提供高性能、高可靠的存储和访问能力。本节将介绍大数据存储技术的概率和原理,包括Hadoop分布式文件系统(HDFS)、列式数据库(HBase)和其他数据存储技术

    2.3.1分布式文件系统:HDFS

    解决了大规模数据存储问题的有效方案。HDFS是hadoop两大核心组成部分之一

    HDFS集群包含一个名称节点(NameNode)和若干数据节点(DataNode)

    名称节点作为中心服务器,负责管理文件系统的命名空间,以及客户端对文件的访问

    数据节点负责处理文件系统客户端的读写请求,它在名称节点的统一调度下进行数据库的创建、复制和删除等操作。

    2.HDFS的存储特点

    体现在数据冗余存储、数据存储策略,以及数据错误与恢复等方面

    2.1数据冗余存储是指HDFS采用了多副本方式对数据进行冗余存储。通常,一个数据块的多个副本会分布在不同的数据节点,比如数据块1被分别存放在数据节点A和数据节点C,而数据块2被分别存放在数据节点A和数据节点B。这种多副本的方式可以加快数据传输速度,易于检查数据错误,还能保证数据的可靠性

    2.2在数据存储策略方面,HDFS针对数据存储,数据读取和数据复制等进行了设计与实现,以此提升系统整体的读写响应性能

    2.3在数据错误与恢复方面,HDFS具有较高的容错性,无论是名称节节点或数据节点出错,还是数据出错,HDFS都可以检测到错误并自动恢复

    2.3.2海量数据列式存储:HBase

    HBase是一个建立在HDFS之上、面向列的NoSQL数据库。它可用于快速读写大量数据,是一个高可靠、高并发读写、高性能、面向列、可伸缩和易构建的分布式存储系统

    HBase具有海量数据存储、快速随机访问和大量写操作等特点

    更多相关内容
  • 对于容量快速增长、日趋多元化的大数据,业界亟需开发可行性更好的存储工具。为满足大数据存储需求,存储机制已经形成从...然而,目前可用的大数据存储技术无法为持续增长的异构数据提供一致、可扩展和可用的解决方案。
  • 大数据存储技术和标准化
  • 大数据存储技术了解

    千次阅读 2022-01-20 09:20:33
    大数据环境下使用海量的非结构化数据,所以我们常使用HDFS分布式文件系统和NoSQL数据库进行存储 HDFS分布式文件系统 HDFS特点: 存储数据较大 支持流式数据访问 支持多硬件平台 数据一致性高 有效预防硬件失效 ...

    在大数据环境下使用海量的非结构化数据,所以我们常使用HDFS分布式文件系统和NoSQL数据库进行存储

    HDFS分布式文件系统

    HDFS特点:

    1. 存储数据较大
    2. 支持流式数据访问
    3. 支持多硬件平台
    4. 数据一致性高
    5. 有效预防硬件失效
    6. 支持移动计算

    HDFS局限性:

    1. 不适合低延迟的数据访问
    2. 无法高效地存储大量小文件
    3. 不支持多用户写入以及任意修改文件

    HDFS的体系结构

    在这里插入图片描述

    NameNode和DataNode
    1. HDFS采用主从结构存储数据,NameNode节点负责集群任务调度,DataNode负责执行任务和存储数据块
    2. NameNode管理文件系统的命名空间,维护整个系统的文件目录树以及这些文件的索引,目录
    3. 从NameNode中可以获取每个文件的每个块存储在DataNode节点的位置,NameNode会在每次启动系统时动态的重建这些信息。客户端通过NameNode获取元数据信息,与DataNode进行交互以访问整个文件系统。
    4. DataNode是文件系统的工作节点,提供客户端和NameNode调用并执行具体任务,存储文件块。
    数据块

    数据块是磁盘进行数据经读/写操作的最小单位
    HDFS使用抽象的数据块的优势:

    1. 通过集群扩展能力可以存储大于网络中的任意一个磁盘容量的任意大小文件
    2. 使用抽象块而非整个文件作为存储单元,可以简化存储子系统,固定的块大小方便元数据和文件数据块内容分开存储
    3. 便于数据备份和数据容错,提高系统的安全性(HDFS默认将文件块副本数设置为3份)
    机架感知策略

    大规模Hadoop集群节点分布在不同的机架上,HDFS采用机架感知技术来提高数据的可靠性,可用性和网络宽带的利用率
    NameNode可以确定每个DataNode所属的机架ID,HDFS会把副本放在不同的机架上
    (1)Distance(Rack1/D1 Rack1/D1)=0
    (2)Distance(Rack1/D1 Rack1/D3)=2
    (3)Distance(Rack1/D1 Rack1/D2)=4
    Rack1、Rack2表示机柜标识号,D1、D2、D3表示机柜中的DataNode节点主机的编号
    同一主机的两个数据块的距离为0
    同一机架不同主机的两个数据块距离为2
    不同机架的两个数据块的距离为4

    安全模式

    安全模式是HDFS所处的一种特殊状态,Data只能读取数据,不能修改、删除数据

    文件安全性

    HDFS文件数据库的描述信息由NameNode节点上集中管理,一旦NameNode出现故障,集群就无法获取文件块的位置,也就无法通过DataNode上的数据块来重建文件。所以为了保证文件的安全性,HDFS提供备份,NameNode元数据和增加Secondary NameNode节点两种基本方案

    NoSQL数据库

    键值(Key-Value)存储数据库

    这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果数据库管理员(DBA)只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB。

    列存储数据库

    这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.

    文档性数据库

    文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值,在处理网页等复杂数据时,文档型数据库比传统键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。

    图(Graph)数据库

    图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J, InfoGrid, Infinite Graph。

    分类Examples举例典型应用场景数据模型优点缺点
    键值(Key-Value)存储数据库Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。Key 指向 Value 的键值对,通常用hash table来实现查找速度快数据无结构化,通常只被当作字符串或者二进制数据
    列存储数据库Cassandra, HBase, Riak分布式的文件系统以列簇式存储,将同一列数据存在一起查找速度快,可扩展性强,更容易进行分布式扩展功能相对局限
    文档性数据库CouchDB, MongoDbWeb应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)Key-Value对应的键值对,Value为结构化数据数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构查询性能不高,而且缺乏统一的查询语法。
    图(Graph)数据库Neo4J, InfoGrid, Infinite Graph社交网络,推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。比如最短路径寻址,N度关系查找等很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。

    NoSQL特点:

    • 易扩展性
    • 大数据量,好性能
    • 灵活的数据模型
    • 高可用性
    展开全文
  • 大数据2017年进展,了解大数据存储技术从产生到2017年的发展过程,以及当前成熟度、成果介绍。。。。
  • 煤矿安全监控联网数据量巨大,数据的快速、高效、准确存储已经成为系统效率的瓶颈。通过实验的方式,证明数据库批处理存储具有明显的优势,为煤矿安全监控联网大数据存储提供了有效的解决方案。
  • 第3章 大数据存储技术 大数据项目组 2018年7月 华中科技大学软件学院 第3章-大数据存储技术----大数据基础全文共111页,当前为第1页。 目录 2 理解HDFS分布式文件系统 NoSQL数据库 Hadoop的安装和配置 HDFS文件管理 ...
  • 大数据存储技术分析

    2016-02-19 16:22:37
    由于业务数据量的爆炸式增长从而导致了存储成本的不断上涨,同时加大了存储管理的难度,目前我们公司大数据架构采用结构化、非结构化数据库、(Nosql),HDFS分布式文件系统相结合的存储结构模式进行数据的存储工作...
  • 大数据的火热,带来的是大数据相关技术的火热,大数据处理当中面临的第一道障碍就是关于大数据存储的问题。那么针对于大数据存储问题的解决,大数据的存储方式有哪些,在这些大数据存储方式上又该如何选择,下面我们...
  • 大数据存储技术

    千次阅读 2015-03-27 10:27:33
    近期由中关村大数据产业联盟举办的“大数据100分”线上研讨会中,南大通用的CTO、资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正在经历的巨大变革。以下为分享实录:  大数据这个领域过去5...

    数据管理技术经历了三个阶段:人工管理阶段\文件系统阶段 和 数据库阶段 
    书上说,文件系统和数据库阶段最本质的区别是:数据的结构化 

    近期由中关村大数据产业联盟举办的“大数据100分”线上研讨会中,南大通用的CTO、资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正在经历的巨大变革。以下为分享实录:

      大数据这个领域过去5年发展很快、热度很高,但是总的来说目前还在起步阶段。本次研讨会我会先谈谈数据,以及大数据对数据处理技术的压力,然后为大家分享一下为什么这几年数据处理技术上的创新很多。

      1. 数据价值的发现与使用

      在大数据的4个V中,最显著的特征应该是Value(价值)。不管数据多大,是什么结构,来源如何,能给使用者带来价值的数据是最重要的数据。

      我跟数据打了20多年的交道,从来没感觉到搞数据的地位有今天这么高。整个社会对数据的认知变了,大数据最大的贡献至少是让社会各个层面开始认识到数据的重要性,包括最高领导和底层的老百姓。

      目前大家基本达成共识:数据像石油、煤一样是宝贵的资产,其内在的价值非常巨大。另外一个显著的贡献无疑是互联网企业对于数据的巧妙使用和价值体现。

      2. 数据处理技术的回顾

      互联网的数据“大”是不争的事实,现在分析一下数据处理技术面临的挑战。目前除了互联网企业外,数据处理领域还是传统关系型数据库(RDBMS)的天下。传统RDBMS的核心设计思想基本上是30年前形成的。过去30年脱颖而出的无疑是Oracle公司。全世界数据库市场基本上被 Oracle,IBM/DB2,Microsoft/SQL Server 垄断,其他几家市场份额都比较小。SAP去年收购了Sybase,也想成为数据库厂商。有份量的独立数据库厂商现在就剩下Oracle和 Teradata。开源数据库主要是MySQL,PostgreSQL,除了互联网领域外,其他行业用的很少。这些数据库当年主要是面向OLTP交易型需求设计、开发的,是用来开发人机会话应用为主的。这些传统数据库底层的物理存储格式都是行存储,比较适合数据频繁的增删改操作,但对于统计分析类的查询,行存储其实效率很低。在这些成熟的数据库产品中,有2个典型特例:一个是Teradata,一个是Sybase IQ。

      Teradata一开始就使用MPP(Massive Parallel Processing)架构,以软硬一体机的产品方式提供给客户,其定位是高端客户的数据仓库和决策分析系统,Teradata在全世界的客户只有几千个。在这个数据分析高端市场上,Teradata一直是老大,在数据分析技术上Oracle和IBM打不过Teradata。Sybase IQ是一款最早基于列存储的关系型数据库产品,其定位跟Teradata类似,不过是以软件方式销售的。Teradata和Sybase IQ在数据分析应用上的性能其实都比Oracle,DB2等要普遍好。

      3. 数据增长加速,数据多样化,大数据时代来临

      如果说现在是大数据时代了,其实是数据来源发生了质的变化。在互联网出现之前,数据主要是人机会话方式产生的,以结构化数据为主。所以大家都需要传统的RDBMS来管理这些数据和应用系统。那时候的数据增长缓慢、系统都比较孤立,用传统数据库基本可以满足各类应用开发。

      互联网的出现和快速发展,尤其是移动互联网的发展,加上数码设备的大规模使用,今天数据的主要来源已经不是人机会话了,而是通过设备、服务器、应用自动产生的。传统行业的数据同时也多起来了,这些数据以非结构、半结构化为主,而真正的交易数据量并不大,增长并不快。机器产生的数据正在几何级增长,比如基因数据、各种用户行为数据、定位数据、图片、视频、气象、地震、医疗等等。

      所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取,以及半结构化数据的内容检索、理解等。

      传统数据库对这类需求和应用无论在技术上还是功能上都几乎束手无策。这样其实就给类似Hadoop的技术和平台提供了很好的发展机会和空间。互联网公司自然就选择能支撑自己业务的开源技术了,反过来又推动了开源技术的快速发展。

      4. 新的数据处理技术、产品和创新

      为了应对数据处理的压力,过去十年间在数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外(Altibase, Timesten),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析的,也可以说是大数据分析的。

      在这些面向数据分析的创新和产品中,除了基于Hadoop环境下的各种NoSQL外,还有一类是基于Shared Nothing架构的面向结构化数据分析的新型数据库产品(可以叫做NewSQL),如:Greenplum(EMC收购),Vertica(HP 收购),Asterdata(TD 收购),以及南大通用在国内开发的GBase 8a MPP Cluster等。目前可以看到的类似开源和商用产品达到几十个,而且还有新的产品不断涌出。一个有趣的现象是这些新的数据库厂商多数都还没有10年历史,而且发展好的基本都被收购了。收购这些新型数据库厂商的公司,比如EMC、HP,都希望通过收购新技术和产品进入大数据处理市场,是新的玩家。SAP 除了收购Sybase外,自己开发了一款叫HANA的新产品,这是一款基于内存、面向数据分析的内存数据库产品。

      这类新的分析型数据库产品的共性主要是:

      架构基于大规模分布式计算(MPP);硬件基于X86 PC 服务器;存储基于服务器自带的本地硬盘;操作系统主要是Linux;拥有极高的横向扩展能力(scale out)和内在的故障容错能力和数据高可用保障机制;能大大降低每TB数据的处理成本,为“大数据”处理提供技术和性价比支撑。

      总的来看,数据处理技术进入了一个新的创新和发展高潮,机会很多。这里的主要原因是一直沿用了30年的传统数据库技术遇到了技术瓶颈,而市场和用户的需求在推动着技术的创新,并为此创造了很多机会。在大数据面前,越来越多的用户愿意尝试新技术和新产品,不那么保守了,因为大家开始清晰地看到传统技术的瓶颈,选择新的技术才有可能解决他们面临的新问题。

      现在的总体趋势是在数据量快速增长、多类数据分析并存的需求压力下,数据处理技术朝着细分方向发展,过去30年一种平台满足所有应用需求的时代已经过去。我们必须开始根据应用需求和数据量选择最适合的产品和技术来支撑应用。世界数据处理市场格局正在发生革命性的变化,传统数据库(OldSQL)一统天下变成了OldSQL+NewSQL+NoSQL+其他新技术(流、实时、内存等)共同支撑多类应用的局面。在大数据时代,需要的是数据驱动最优平台和产品的选择。

      5. MPP关系型数据库与Hadoop的非关系型数据库

      大数据存储技术路线最典型的共有三种:

      第一种是采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本 PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。

      这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。

    大数据存储技术

      图1 MPP架构图

      第二种是基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。

      第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

      6. 数据仓库的重要性

      在互联网高速发展之前,无论是电信运营商,还是大银行,保险公司等都花费了巨额资金建立了自己的企业级数据仓库。这些仓库主要是为企业决策者生成企业的一些关键指标(KPI),有的企业有几千张、甚至上万张KPI报表,有日表,周表,月表等等。这些系统有几个主要特征:

      技术架构主要基于传统RDBMS + 小型机 + 高端阵列 (就是大家说的IOE),当然数据库有部分DB2,Teradata等。

      报表基本都是固定的静态报表,产生的方式是T+1 (无法即时产生)。

      数据量增长相对缓慢,DW的环境变化很少。

      最终用户只能看汇总的报表,很少能够基于汇总数据做动态drilldown (钻取)。

      多数领导基本上认为花了很多钱,但看不出是否值得做,有鸡肋的感觉。最后大家对大量的报表都视而不见了。

      这类系统属于“高富帅”,是有钱的企业给领导用的。

      最后,目前多数企业和部门根本就没有数据仓库。其实大家对传统数据的分析还没做得太好、还没有普及,现在又遇上了大数据。

      数据仓库对企业是真正有用的,其关键还是如何把数据用好。

      7. 数据处理技术的核心问题到底是什么?

      其实我们一直面临着数据处理中最核心、最大的问题,那就是性能问题。性能不好的技术和产品是没有生命力的。数据处理性能问题不是因为大数据才出现,也不会有了大数据技术而消失。处理性能的提升将促进对数据价值的挖掘和使用,而数据价值挖掘的越多、越深入,对处理技术要求就越高。

      目前的数据仓库只能满足一些静态统计需求,而且是T+1模式;也是因为性能问题,运营商无法有效构造超过PB级别的大数据仓库,无法提供即席查询、自助分析、复杂模型迭代分析的能力,更无法让大量一线人员使用数据分析手段。

      今天如果做“大数据”数据仓库,运营商面临的挑战比上个10年要大的多。目前没有单一技术和平台能够满足类似运营商的数据分析需求。可选的方案只能是混搭架构,用不同的分布式技术来支撑一个超越PB级的数据仓库系统。这个混搭架构主要的核心是新一代的MPP并行数据库集群+ Hadoop集群,再加上一些内存计算、甚至流计算技术等。

      大数据需要多元化的技术来支撑。当前数据处理对企业的挑战越来越大,主要是下面几个原因:

      第一个原因是数据量已经是上一代的一个数量级了,1个省份级运营商1年就可超越1PB结构化数据。

      第二个原因是“大数据”关注的更多是用户行为、群体趋势、事件之间的相关性等,而不仅仅是过去的KPI,。这就对数据分析平台对数据的分析能力和性能提出了新的要求和挑战。

    大数据存储技术

      图2未来大数据处理的核心技术

      8. 总结——新型MPP数据库的价值

      技术:基于列存储+MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别,是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。

      用户价值:新型数据库是运行在x-86 PC服务器之上的,可以大大降低数据处理的成本(1个数量级)。

      未来趋势:新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。

      下图是南大通用正在做的大数据处理平台架构图,将逐步把MPP与Hadoop技术融合在一起,为用户提供透明的数据管理平台。

    武新:新型MPP数据库将支撑起大数据时代

      图3 MPP与Hadoop技术融合的产品架构图

    展开全文
  • PB级大数据存储技术与分析技术解析
  • 大数据存储技术选型

    千次阅读 2020-04-23 15:06:32
    什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 通常我们将PB...

    什么是大数据?

    大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
    通常我们将PB级别以上的通常为大数据

    如何计算数据?

    比如银行交易只要记下帐号、日期、金额;电信的通话记录也只是通话号码、时刻、时长等。就按100字节算,也就是0.1K,那么1T空间就可以放下10G行记录,100亿条!
    1KB=1024B
    1MB=1024KB
    1GB=1024MB
    1TB=1024GB
    1PB=1024TB
    1EB=1024PB
    1ZB=1024EB
    1YB=1024ZB

    如何存储如何选型?

    一般来说,大数据存储技术有三种:
    第一种:近年来最火的一个词Hadoop。其实简单的理解:Hadoop是一个生态,里面包含了各种产品,比如:有做数据存储的HBase,有做消息队列的Kafka等等。就像我们的微信小程序一样,也是一个生态,里面包含各种各种的小程序。通过官网文档以及其他伙伴实际得知,Hadoop在半结构化、非机构化大数据方面的优势非常明显。(本人未实践过)
    第二种:采用MPP架构的新型数据库集群,以Greenplum数据库为例。是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。我们一般采用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求
    第三种:大数据存储技术选型第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
    (本人未实践过)

    展开全文
  • 第二章大数据存储技术
  • 大数据存储技术;大数据存储技术;数据存储概述;数据库根据存储的数据类型不同主要分为关系型数据库SQL与非关系型数据库NoSQL其中非关系型数据库中包含4种类型列式数据库键值数据库图像图形数据库面向文档数据库;6.1 ...
  • 大数据存储技术研究.docx
  • 大数据存储技术.x.pdf

    2020-11-15 23:38:07
    大数据存储技术 .docx 大数据存储技术 1 2 3 4 5 刘雷杜鹏程贺俊铭孔庆春张莉莉 1,2,3,4,5(清华大学 计算机科学与技术系 ,北京 100084) Abstract Big data analysis compared with the traditional data warehouse ...
  • 大数据存储技术培训.pptx
  • HC1209202 第二章 大数据存储技术;目标;目录;大数据存储架构;目录;传统存储与对象存储;大数据存储技术分布式对象资源池;大数据存储技术--Erasure code;对象存储数据写流程;对象存储数据读取流程;数据块损坏时的数据...
  • 大数据存储技术解决方案.docx
  • 华为大数据存储教程系列
  • 模块3大数据存储技术-作业答案 1 简答题 1请阐述HDFS读数据流程 回答HDFS读取数据流程图 1首先调用FileSystem对象的open方法其实获取的是一个DistributedFileSystem的实例 2DistributedFileSystem通过RPC(远程过程...
  • FusionStorage大数据存储技术白皮书.docx
  • PB级大数据存储技术与分析技术解析44.docx

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 201,401
精华内容 80,560
关键字:

大数据存储技术