-
2022-01-16 17:04:04
大数据存储技术面向的是海量、异构数据,因此,它需要提供高性能、高可靠的存储和访问能力。本节将介绍大数据存储技术的概率和原理,包括Hadoop分布式文件系统(HDFS)、列式数据库(HBase)和其他数据存储技术
2.3.1分布式文件系统:HDFS
解决了大规模数据存储问题的有效方案。HDFS是hadoop两大核心组成部分之一
HDFS集群包含一个名称节点(NameNode)和若干数据节点(DataNode)
名称节点作为中心服务器,负责管理文件系统的命名空间,以及客户端对文件的访问
数据节点负责处理文件系统客户端的读写请求,它在名称节点的统一调度下进行数据库的创建、复制和删除等操作。
2.HDFS的存储特点
体现在数据冗余存储、数据存储策略,以及数据错误与恢复等方面
2.1数据冗余存储是指HDFS采用了多副本方式对数据进行冗余存储。通常,一个数据块的多个副本会分布在不同的数据节点,比如数据块1被分别存放在数据节点A和数据节点C,而数据块2被分别存放在数据节点A和数据节点B。这种多副本的方式可以加快数据传输速度,易于检查数据错误,还能保证数据的可靠性
2.2在数据存储策略方面,HDFS针对数据存储,数据读取和数据复制等进行了设计与实现,以此提升系统整体的读写响应性能
2.3在数据错误与恢复方面,HDFS具有较高的容错性,无论是名称节节点或数据节点出错,还是数据出错,HDFS都可以检测到错误并自动恢复
2.3.2海量数据列式存储:HBase
HBase是一个建立在HDFS之上、面向列的NoSQL数据库。它可用于快速读写大量数据,是一个高可靠、高并发读写、高性能、面向列、可伸缩和易构建的分布式存储系统
HBase具有海量数据存储、快速随机访问和大量写操作等特点
更多相关内容 -
大数据存储技术综述(2017年)
2020-11-08 18:43:39对于容量快速增长、日趋多元化的大数据,业界亟需开发可行性更好的存储工具。为满足大数据存储需求,存储机制已经形成从...然而,目前可用的大数据存储技术无法为持续增长的异构数据提供一致、可扩展和可用的解决方案。 -
大数据存储技术和标准化_李海波.pdf
2016-11-04 08:30:32大数据存储技术和标准化 -
大数据存储技术了解
2022-01-20 09:20:33在大数据环境下使用海量的非结构化数据,所以我们常使用HDFS分布式文件系统和NoSQL数据库进行存储 HDFS分布式文件系统 HDFS特点: 存储数据较大 支持流式数据访问 支持多硬件平台 数据一致性高 有效预防硬件失效 ...在大数据环境下使用海量的非结构化数据,所以我们常使用HDFS分布式文件系统和NoSQL数据库进行存储
HDFS分布式文件系统
HDFS特点:
- 存储数据较大
- 支持流式数据访问
- 支持多硬件平台
- 数据一致性高
- 有效预防硬件失效
- 支持移动计算
HDFS局限性:
- 不适合低延迟的数据访问
- 无法高效地存储大量小文件
- 不支持多用户写入以及任意修改文件
HDFS的体系结构
NameNode和DataNode
- HDFS采用主从结构存储数据,NameNode节点负责集群任务调度,DataNode负责执行任务和存储数据块
- NameNode管理文件系统的命名空间,维护整个系统的文件目录树以及这些文件的索引,目录
- 从NameNode中可以获取每个文件的每个块存储在DataNode节点的位置,NameNode会在每次启动系统时动态的重建这些信息。客户端通过NameNode获取元数据信息,与DataNode进行交互以访问整个文件系统。
- DataNode是文件系统的工作节点,提供客户端和NameNode调用并执行具体任务,存储文件块。
数据块
数据块是磁盘进行数据经读/写操作的最小单位
HDFS使用抽象的数据块的优势:- 通过集群扩展能力可以存储大于网络中的任意一个磁盘容量的任意大小文件
- 使用抽象块而非整个文件作为存储单元,可以简化存储子系统,固定的块大小方便元数据和文件数据块内容分开存储
- 便于数据备份和数据容错,提高系统的安全性(HDFS默认将文件块副本数设置为3份)
机架感知策略
大规模Hadoop集群节点分布在不同的机架上,HDFS采用机架感知技术来提高数据的可靠性,可用性和网络宽带的利用率
NameNode可以确定每个DataNode所属的机架ID,HDFS会把副本放在不同的机架上
(1)Distance(Rack1/D1 Rack1/D1)=0
(2)Distance(Rack1/D1 Rack1/D3)=2
(3)Distance(Rack1/D1 Rack1/D2)=4
Rack1、Rack2表示机柜标识号,D1、D2、D3表示机柜中的DataNode节点主机的编号
同一主机的两个数据块的距离为0
同一机架不同主机的两个数据块距离为2
不同机架的两个数据块的距离为4安全模式
安全模式是HDFS所处的一种特殊状态,Data只能读取数据,不能修改、删除数据
文件安全性
HDFS文件数据库的描述信息由NameNode节点上集中管理,一旦NameNode出现故障,集群就无法获取文件块的位置,也就无法通过DataNode上的数据块来重建文件。所以为了保证文件的安全性,HDFS提供备份,NameNode元数据和增加Secondary NameNode节点两种基本方案
NoSQL数据库
键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果数据库管理员(DBA)只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB。
列存储数据库
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.
文档性数据库
文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值,在处理网页等复杂数据时,文档型数据库比传统键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。
图(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J, InfoGrid, Infinite Graph。
分类 Examples举例 典型应用场景 数据模型 优点 缺点 键值(Key-Value)存储数据库 Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB 内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。 Key 指向 Value 的键值对,通常用hash table来实现 查找速度快 数据无结构化,通常只被当作字符串或者二进制数据 列存储数据库 Cassandra, HBase, Riak 分布式的文件系统 以列簇式存储,将同一列数据存在一起 查找速度快,可扩展性强,更容易进行分布式扩展 功能相对局限 文档性数据库 CouchDB, MongoDb Web应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容) Key-Value对应的键值对,Value为结构化数据 数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构 查询性能不高,而且缺乏统一的查询语法。 图(Graph)数据库 Neo4J, InfoGrid, Infinite Graph 社交网络,推荐系统等。专注于构建关系图谱 图结构 利用图结构相关算法。比如最短路径寻址,N度关系查找等 很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。 NoSQL特点:
- 易扩展性
- 大数据量,好性能
- 灵活的数据模型
- 高可用性
-
大数据存储技术进展2017
2017-08-17 16:26:33大数据2017年进展,了解大数据存储技术从产生到2017年的发展过程,以及当前成熟度、成果介绍。。。。 -
煤矿安全监控联网大数据存储技术
2020-05-09 23:47:06煤矿安全监控联网数据量巨大,数据的快速、高效、准确存储已经成为系统效率的瓶颈。通过实验的方式,证明数据库批处理存储具有明显的优势,为煤矿安全监控联网大数据存储提供了有效的解决方案。 -
基于NoSQL的文件型大数据存储技术研究
2016-04-27 16:10:44 -
第3章-大数据存储技术----大数据基础.pptx
2022-06-22 02:33:17第3章 大数据存储技术 大数据项目组 2018年7月 华中科技大学软件学院 第3章-大数据存储技术----大数据基础全文共111页,当前为第1页。 目录 2 理解HDFS分布式文件系统 NoSQL数据库 Hadoop的安装和配置 HDFS文件管理 ... -
大数据存储技术分析
2016-02-19 16:22:37由于业务数据量的爆炸式增长从而导致了存储成本的不断上涨,同时加大了存储管理的难度,目前我们公司大数据架构采用结构化、非结构化数据库、(Nosql),HDFS分布式文件系统相结合的存储结构模式进行数据的存储工作... -
大数据有哪些存储方式?
2021-01-07 12:45:20大数据的火热,带来的是大数据相关技术的火热,大数据处理当中面临的第一道障碍就是关于大数据存储的问题。那么针对于大数据存储问题的解决,大数据的存储方式有哪些,在这些大数据存储方式上又该如何选择,下面我们... -
大数据存储技术
2015-03-27 10:27:33近期由中关村大数据产业联盟举办的“大数据100分”线上研讨会中,南大通用的CTO、资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正在经历的巨大变革。以下为分享实录: 大数据这个领域过去5... -
PB级大数据存储技术与分析技术解析.docx
2022-05-20 17:28:21PB级大数据存储技术与分析技术解析 -
大数据存储技术选型
2020-04-23 15:06:32什么是大数据? 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 通常我们将PB...什么是大数据?
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
通常我们将PB级别以上的通常为大数据如何计算数据?
比如银行交易只要记下帐号、日期、金额;电信的通话记录也只是通话号码、时刻、时长等。就按100字节算,也就是0.1K,那么1T空间就可以放下10G行记录,100亿条!
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
1YB=1024ZB如何存储如何选型?
一般来说,大数据存储技术有三种:
第一种:近年来最火的一个词Hadoop。其实简单的理解:Hadoop是一个生态,里面包含了各种产品,比如:有做数据存储的HBase,有做消息队列的Kafka等等。就像我们的微信小程序一样,也是一个生态,里面包含各种各种的小程序。通过官网文档以及其他伙伴实际得知,Hadoop在半结构化、非机构化大数据方面的优势非常明显。(本人未实践过)
第二种:采用MPP架构的新型数据库集群,以Greenplum数据库为例。是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。我们一般采用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求
第三种:大数据存储技术选型第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。(本人未实践过) -
第二章大数据存储技术.pptx
2022-04-15 20:08:47第二章大数据存储技术 -
大数据导论 第6章 大数据存储技术.pptx
2020-09-25 08:29:18大数据存储技术;大数据存储技术;数据存储概述;数据库根据存储的数据类型不同主要分为关系型数据库SQL与非关系型数据库NoSQL其中非关系型数据库中包含4种类型列式数据库键值数据库图像图形数据库面向文档数据库;6.1 ... -
大数据存储技术研究.docx
2021-11-25 10:16:40大数据存储技术研究.docx -
大数据存储技术.x.pdf
2020-11-15 23:38:07大数据存储技术 .docx 大数据存储技术 1 2 3 4 5 刘雷杜鹏程贺俊铭孔庆春张莉莉 1,2,3,4,5(清华大学 计算机科学与技术系 ,北京 100084) Abstract Big data analysis compared with the traditional data warehouse ... -
大数据存储技术培训.pptx
2021-10-06 14:01:05大数据存储技术培训.pptx -
HC1209202第二章大数据存储技术2081.pptx
2020-06-11 03:41:33HC1209202 第二章 大数据存储技术;目标;目录;大数据存储架构;目录;传统存储与对象存储;大数据存储技术分布式对象资源池;大数据存储技术--Erasure code;对象存储数据写流程;对象存储数据读取流程;数据块损坏时的数据... -
大数据存储技术解决方案.docx
2021-10-14 05:17:50大数据存储技术解决方案.docx -
HC1209202 第二章 大数据存储技术2.0.ppt
2020-05-07 18:21:17华为大数据存储教程系列 -
大数据技术应用 模块导学、作业答案 大数据存储技术-作业答案.docx
2020-10-24 13:25:35模块3大数据存储技术-作业答案 1 简答题 1请阐述HDFS读数据流程 回答HDFS读取数据流程图 1首先调用FileSystem对象的open方法其实获取的是一个DistributedFileSystem的实例 2DistributedFileSystem通过RPC(远程过程... -
FusionStorage大数据存储技术白皮书.docx
2021-10-14 00:15:03FusionStorage大数据存储技术白皮书.docx -
PB级大数据存储技术与分析技术解析44.docx
2021-09-22 12:08:42PB级大数据存储技术与分析技术解析44.docx