精华内容
下载资源
问答
  • 数据存储技术 - 林康平

    千次阅读 2021-04-05 11:49:12
    第7章 SAN技术介绍 Storage Area Network 7.1 SAN存储基础 DAS - ICT - 信息通信 LAN HBA - Host Bus Adapter 交换机 网桥 集线器 网关 FC接口 - FC协议 ETH接口 - iSCSI协议 FCoE接口 - FCoE协议 7.2 FC SAN Fibre ...

    第7章 SAN技术介绍
    Storage Area Network

    7.1 SAN存储基础
    DAS -
    ICT - 信息通信
    LAN
    HBA - Host Bus Adapter

    交换机
    网桥
    集线器
    网关

    FC接口 - FC协议
    ETH接口 - iSCSI协议
    FCoE接口 - FCoE协议

    7.2 FC SAN
    Fibre Channel - 光纤通道协议
    7.3 IP SAN
    IP协议
    7.4 FCoE
    7.5 本章小结

    展开全文
  • 海量数据存储技术与解决方案

    千次阅读 2015-07-22 17:50:36
    海量数据存储难点:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用率高;要求很高的处理方法和技巧。 海量数据存储处理经验: 一、选用优秀的数据库工具  现在的数据库工具厂家比较多,对...
    海量数据存储难点:数据量过大,数据中什么情况都可能存在;软硬件要求高,系统资源占用率高;要求很高的处理方法和技巧。
    海量数据存储处理经验:
    一、选用优秀的数据库工具
        现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近发布的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。
    二、对海量数据进行分区操作
        对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。
    三、编写优良的程序代码
        处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。
    四、建立广泛的索引
        对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。
    五、加大虚拟内存
        如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P42.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 =25600 M,解决了数据处理中的内存不足问题。
    六、建立缓存机制
        当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。
    七、使用临时表和中间表
        数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。
    八、使用文本格式进行处理
        对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。
    九、分批处理
        海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。
    十、优化查询SQL语句
        在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。
    十一、避免使用32位机子(极端情况)
        目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。
    十二、使用数据仓库和多维数据库存储
        数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。
    十三、建立视图或者物化视图
        视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。
    十四、使用采样数据,进行数据挖掘
        基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。

    海量数据存储并行计算解决方案
        解决大规模数据处理的方法之一就是并行计算。将大量数据分散到多个节点上,将计算并行化,利用多机的计算资源,从而加快数据处理的速度。目前,这种并行计算的模型主要分为三大类:
    1)MPI 
        MPI 即消息传递接口(MessagePassing Interface),是一种编程接口标准,而不是一种具体的编程语言。
        MPI 是一种工业标准的 API规范,专为在多处理器计算机、计算机集群和超级计算机上进行高性能计算而设计。该标准是由大量计算机供应商和软件开发商于 1994 年共同设计完成。 
        MPI 作为目前国际上最流行的并行编程环境之一,因其良好的可移植性和易用性、完备的异步通信功能等优点,而在机群高性能计算中得到广泛应用。在基于 MPI 编程模型中,计算任务是由一个或多个彼此间通过调用库函数进行消息收、发通信的进程所组成。绝大部分 MPI 实现在程序初始化时生成一组固定的通信进程。这些进程在不同的节点上运行(通常一个处理器一个进程) ,执行着相同或不同的程序,以点对点通信或者集合通信的方式进行进程间交互,共同协作完成同一个计算任务。 
        以任务之间的消息传递驱动的 MPI,其进行大规模数据处理的基本思路就是,将任务划分成为可以独立完成的不同计算部分, 将每个计算部分需要处理的数据分发到相应的计算节点分别进行计算,计算完成后各个节点将各自的结果集中到主计算节点进行结果的最终汇总。 
    2) MapReduce编程
        MapReduce是谷歌在 2004 年提出的应用于大规模集群进行大规模数据处理的并行计算模型。 Map(映射)和 Reduce(化简)的概念,以及他们的主要思想,都来自于函数式语言。
        在一个计算任务中,计算被抽象并简化成为两个阶段:Map 和 Reduce。Map 阶段,系统调用用户提供的 Map 函数,完成从一组键值到新一组键值的映射计算;而 Reduce 阶段,用户指定的 Reduce 函数则被用来将所有 Map 计算完成的结果进行一次化简归约。 与 MPI 有所不同的是,Map/Reduce 是通过将计算(Map 或者Reduce)分发到相应的数据存储节点或靠近的节点,让计算(Map 或者 Reduce)在数据存储节点就地或者就近完成,尽可能减轻大量数据在网络上传输所产生的压力。
    3)Dryad
           Dryad 是微软在 2007 年提出的数据并行计算模型。目前已经在 Microsoft Ad’Center 投入使用。 与 MapReduce的思路类似, Dryad 也是通过将计算任务移动到相应的数据存储节点或靠近的节点,让计算就地或者就近完成,从而减轻网络上传输的压力。 在 Dryad 中,每个计算任务被表示成一个有向无环图(Directed Acyclic Graph, DAG) ,计算任务按照有向无环图的方向按照依赖关系执行。DAG 相对于两阶段式的 MapReduce,可以表达更加丰富的计算类型;同时,它支持在子任务之间通过 TCP管道、Shared-memory FIFOs(共享内存先进先出)进行结果传递,尽量避免一些不必要的磁盘输入输出,加速计算的执行。

    你可能还对以下关于数据处理的文章感兴趣

    大数据处理:技术与流程            大数据技术与应用

    海量数据处理解决方案
    Bloom Filter
    Hash
    Bit-Map
    堆(Heap)
    双层桶划分
    数据库索引
    倒排索引(Inverted Index)
    外排序
    Trie树
    展开全文
  • 例如:前端IPC有130W到500W像素,码流也从有2Mbps到8Mbps,而一个130W像素,8Mbps码流的前端,录像一个月就需要2531.3GB,数据量不可小觑。 存储周期方面,现在也有了政府的有力推动。对当前整个安防市场来讲,特别...

    高清、长周期呈现海量存储需求

    高清已经在安防行业全面铺开应用。除了带给用户能够看得更清的良好视觉感受外,对存储容量的需求亦成几何式增长。例如:前端IPC有130W到500W像素,码流也从有2Mbps到8Mbps,而一个130W像素,8Mbps码流的前端,录像一个月就需要2531.3GB,数据量不可小觑。

    存储周期方面,现在也有了政府的有力推动。对当前整个安防市场来讲,特别是大公安、大交通、楼宇、司法监所、金融、文教卫、能源项目等行业迅猛发展,甲方客户的需求及大集成商的存储解决方案越来越倾向集中化。需要保存的数据也成线性增长。应对如此巨大的数据量,数据存储及客户数据快速有效查询就变得至关重要。海康一直紧跟行业发展方向,致力于推出更符合用户需求与行业需求的监控/数据中心解决方案。

    现有的安防存储模式

    1. DVR/NVR前端本地存储

    此种模式,一般应用于实施较早项目,使用的是DVR/NVR前端本地存储,随着大数据时代的来临,采用了比较直接的方法,在DVR/NVR直接连接扩展柜来实现容量的扩容。原来系统及原数据保持不变。此种模式由于采用DVR/NVR存储容量相对较小,况且DVR/NVR性能较低,信息孤岛现象严重,无法满足大数据需求。

    2. 集中存储模式

    客户数据采用磁盘阵列模式。可以采用在存储节点后直接增加扩展柜的模式,随着集群的推出也可以通过增加存储节点来实现容量增加。相对于DVR/NVR模式,容量大大提升,并实现了数据的集中存储,同时支持存储节点间的故障的自动业务接管,最大程度上实现了业务数据的完整性。但是随着大数据的来临,后续项目扩容时,需要人为配置设备的负载均衡。一台存储故障后导致设备存储的数据部分中断或者接管设备压力较大,另外考虑到网络延时,可能导致存储数据不完整,数据获取需要人为指定设备数据获取,管理成本较高等。为了设备的负载均衡,空间的虚拟化设备易维护的问题,云存储技术应运而生。

    3. 云存储模式

    随着云存储技术普及.目前市面大体分为通用云存储(文件云\集群NAS )和视频云存储。

    通用云存储

    通过软件运用集群技术、虚拟化技术、分布式存储技术将网络中大量各种不同类型的存储设备集合起来协同工作,共同对外提供数据存储和业务访问功能。通用云存储较传统集中基本设备形态不变,故主要部件为:存储服务器(元数据服务器)+磁盘阵列。

    通用云存储中许多都是通过优化改造传统IPSAN/NAS存储而演化而来,其通过实现服务器和存储设备集群化管理,存储资源虚拟化,达到分布式数据存储,因其内部数据处理以结构化数据为主。

    工作模式:前端摄像机视频数据流经流媒体服务器转发到存储管理服务器集群,最后在写入指定的磁盘阵列。视频数据需经过流媒体服务器转发进入存储服务器,一定流媒体故障,系统业务中断,数据存在丢失风险。通用云存储可以实现存储资源虚拟化,但虚拟化能力有限。通用云存储以结构化的文件系统存储非结构化视频图片数据,视频存储效率低。

    基于以上几点,通用云存储产品当前都是面向全行业项目支持,主要作为一款存储方案,即不对安防视频应用做应用支撑.不太适合做安防视频整体的解决方案。

    安防专用的视频云存储

    基于云架构进行开发,融合了集群应用、负载均衡、虚拟化、云结构化、离散存储等技术,将网络中各种不同类型的存储设备,通过专业应用软件集合起来协同工作,共同对外提供视频、图片数据存储和业务访问服务。视频云存储基本组成单元: 云存储管理服务器、云存储存储节点、云存储软件。

    视频监控平台根据业务需求为各前端摄像机下发录像计划,视频云存储系统根据当前系统内的业务负载情况分配具体的存储空间,前端摄像机推送视频数据流直写到分配的存储设备上。视频云存储数据传输协议支持主流的流媒体协议(如RTSP/ONVIF/PSIA等)和GB/T28181规范;支持平台直接调取,架构简化而开放,空间自我管理,可独立组网。在此我向大家推荐一个大数据技术交流圈: 658558542  突破技术瓶颈,提升思维能力  

    对于通用云存储,视频云存储优势如下:

    相在大型视频监控项目中,视频云存储在视频/图片存储效率优于通用云存储。

    在项目预算中,视频云存储较通用云存储能节省部分服务器投入,有成本优势。

    视频云存储是专门针对视频安防行业的高效安全稳定的后端存储解决方案,所以可以支撑大量的视频功能应用,这个也是通用云存储所不具备的。

    视频云存储特点如下:

    1) 高效灵活的空间管理

    对存储资源进行虚拟化整合,提高用户管理效率;

    支持存储资源的在线扩展,实现容量与性能的线性增长;

    虚拟空间可灵活调整,不但能扩大,同样能缩小;后续产品只需要增加存储节点就能完成容量升级

    2) 海量数据的快速检索

    采用一体化索引设计,大大提高了查找速度;

    深化视频、图片的应用设计,支持I帧信息快速读取;

    3) 持续可靠的数据服务

    提供7X24小时不间断高效可持续的数据服务,充分保护数据安全和可靠性;

    采用全集群化设计,性能全面提升,设备压力负载均衡,单/多点故障,录像业务不中断;

    数据存储采用离散存储算法,提供系统级高效、稳定存取服务;

    4) 高可扩展的应用支撑

    系统的高性能设计,能够并发服务以满足视频数据的高速读取需求。

    采用流式数据结构,面向视频、图片数据而设计,满足视频数据的持续写入;

    深入开发视频录像的专业化应用设计,优化了应用的服务质量;

    5) 开放透明的兼容系统

    统一开放的应用功能接口,由上层业务平台直接调用;

    数据存储采用离散存储算法,提供系统级高效、稳定存取服务;

    6) 高可扩展的应用支撑

    系统的高性能设计,能够并发服务以满足视频数据的高速读取需求。

    采用流式数据结构,面向视频、图片数据而设计,满足视频数据的持续写入;

    深入开发视频录像的专业化应用设计,优化了应用的服务质量;

    7) 开放透明的兼容系统

    统一开放的应用功能接口,由上层业务平台直接调用;

    采用的是标准设备兼容模式,支持标准IP SAN、FC SAN存储设备的接入;

    目前需要存储容量不断增加,客户要求数据存储周期越来越长,带库和云存储融合方案慢慢呈现在客户面前。

    4.视频云+带库

    长周期数据云存储+带库方案:致力于解决重要数据的归档备份,数据快速提取。存储组成缓存存储系统,提供足够的存储空间满足热数据及备份数据的容量需求,结合专业的备份软件和磁带库实现数据的在线和离线备份云存储系统统一管理冷热数据存储及状态切换,提供对热数据的转码、压缩等丰富的功能应用。同时完全继承传统云存储虚拟化资源分配、离散存储、在线扩容、集群容灾,兼容第三方存储等云存储特性

    在此我向大家推荐一个大数据技术交流圈: 658558542  突破技术瓶颈,提升思维能力 。方案中所有存储设备均可设计为冗余连接,在满足用户存储需求的同时,兼顾整个系统的存储性能和安全性。

    系统功能简介:

    业务层面

    支持实时视频流、视频文件、图片、普通文件混合存储;支持对数据自定义归档存储,同时保存热数据及归档数据;将客户经常使用的视频图片及文件存入热数据存储资源池;把客户访问频率不高的视频视频文件、图片、普通文件且需要长周期存储的数据存入冷数据存储资源池.冷热数据资料可以通过管理软件实现数据迁移.数据归档和迁移时可以按照文件时间、文件大小、各级存储的位置、文件的历史版本、存根信息等进行策略定制,实现基于策略的数据归档和迁移

    数据高可靠性保障系统

    带库方案是基于目前稳定的存储系统架构,采用成熟稳定的硬件,可以保障系统长时间稳定运行。系统的管理软件具有报警措施,控制软件发现软硬件异常时,通过多种方式进行报警。管理软件包括快照和克隆的功能,可以使所管理的数据回滚到原来某一时刻的状态,防止用户错误操作带来的数据丢失。同时通过存储管理软件实现备份功能。

    高安全数据存储

    系统通过用户名、密码、IP地址认证等认证方式,保证数据空间访问权限的控制,保障数据不会被其他人恶意窃取或破坏。方案中,根据客户需求可以设定不同的登录权限和读写操作权限,实现数据的安全性。存储设备内嵌WORM归档模块,它是针对档案类存储提供的基于硬盘的写一次,读多次的存储产品。可以有效防止关键文件数据被篡改。

    高扩展的带库存储

    整个系统的存储容量可以在不影响业务运行的情况下随需采购磁带扩展。存储的性能也可以动态线性增加,通过增加驱动器的方式,拓宽整个系统的处理性能。系统易扩展为远程容灾存储系统。系统是基于存储和备份软件结合,易于实现远程的数据传输;为以后扩展到其他地区,结合为一体的容灾存储系统建立好的基础条件。

    科学有效的备份实现

    日常需要备份的主要业务数据,可以用文件同步和文件备份功能实现。设定合理的备份策略, 尽可能利用非业务时间进行文件同步和备份,避免增加对应用局域网的负载压力。采用专业的文件集中备份功和数据库备份功能实现。不干扰用户的局域网正常业务,达到LAN FREE效果。

    较低的保存环境要求

    磁带是可移动介质,可以异地离线保存,运输方便,可以根据用户需求在不同存放地点之间搬运,这对数据的安全来说是非常有利的,适合数据交换。离线磁带不会受机械振动、电力变化等因素带来对寿命的影响,对存放条件要求简单。

    通常情况下,性价比和高可用仍是企业或者个人选择存储系统最优先考虑的两大因素,此外存储的易于部署和管理以及磁盘和闪存的紧密整合也是企业用户评估存储的重要考虑因素.随着大数据时代的来临,企业会根据自身需求和预算来挑选适合自己的企业的解决方案。 整体来说,目前云存储发展最为迅猛, 以其遥遥领先的优势独占鳌头,必然会是未来大数据应用的重点组成部分,同时数据分层、融合以及智能也将逐渐普及应用,可以说,安防行业为了迎接大数据来临,已经做好了充足的准备。

    结语

    感谢您的观看,如有不足之处,欢迎批评指正。

    在此我向大家推荐一个大数据开发交流圈:

    658558542    (☛点击即可加入群聊

    里面整理了一大份学习资料,全都是些干货,包括大数据技术入门,大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等,送给每一位大数据小伙伴,让自学更轻松。这里不止是小白聚集地,还有大牛在线解答!欢迎初学和进阶中的小伙伴一起进群学习交流,共同进步!

    最后祝福所有遇到瓶颈的大数据程序员们突破自己,祝福大家在往后的工作与面试中一切顺利。

    展开全文
  • 大数据技术数据存储

    万次阅读 2018-04-05 10:13:40
    目前市场上有两种类型的大数据分析方式--同步的和异步的,两种都有各自在存储容量和特性上的要求。 近来大数据分析这个词正逐渐成为IT界流行的一个术语,以代指有关大数据本身的猜想,通俗说来即成堆数据背后问题的...

    目前市场上有两种类型的大数据分析方式--同步的和异步的,两种都有各自在存储容量和特性上的要求。

      近来大数据分析这个词正逐渐成为IT界流行的一个术语,以代指有关大数据本身的猜想,通俗说来即成堆数据背后问题的答案。然而,如果我们能够从足够的数据点入手比对及交叉分析,或许能帮助我们找到一些有用的数据,甚至可能帮助避免灾难。

      问题是显而易见的,所有的分析都需要大量甚至海量的数据,这便给当今的IT管理人员带来了更新的挑战,即如何捕获、存取、以及分析这些数据并将从中得到的分析用于后续任务的执行?

      大数据分析应用通常会使用例如网络流量、金融交易记录以及敏感数据来替代传统形式的内容。数据本身的价值在于数据间的比对、关联或者引用。对大数据的分析通常会意味着与大量的小数据对象打交道,而这些小数据对象往往对响应延时要求非常之高。

      当前业界主要有两种大数据分析场景,而它们通常是根据数据处理的形式而区分:

      在实时使用场景下,响应效率是最为关键的 ,因此大数据存储架构本身的设计需要满足最小延时的功能。

      同步,即实时的或者近乎于实时的;另外一种就是异步的方式,这种方式下,数据首先会被获取,记录下来然后再用批处理进程进行分析。

      同步分析

      可以想到的近乎于实时的大数据分析的最早的例子就是超级市场里的工作人员是如何统计消费者行为习惯以便于提供相应的优惠促销券的。事实上是,消费者购买行为计算很可能在用户收银前就已经完成,但是概念本身是非常类似的。另外一个相关的例子是在线社交网站可以通过访问用户的行为建立属于他们的行为数据库,这样就可以根据各自不同的消费习惯提供不同的点对点广告植入。

      在零售行业,一些大型商铺正开始在停车场对前来购物的消费者使用面部识别技术,这样一旦他们路过或者经过对应的商铺与之相应的促销信息便随之而来。因此,在这样一类的实时大数据分析场景中,速度是第一要素,故而大数据存储架构需要建设成为低延时的场景。

      针对同步大数据分析的存储

      实时分析应用通常会运行在例如NoSQL之类的数据库上,通常都能支持海量可扩展的商用硬件上。Hadoop,从另一角度考虑,非常适合批量的数据处理,这种技术非常合适于异步大数据分析。由于在很多场合下,存储本身会成为延时问题的瓶颈,那么固态存储设备对于实时数据分析是很有帮助的。闪存存储可以以多种形式进行部署:作为传统存储磁盘阵列的一层,以NAS系统的方式,再或者以应用服务器本身的方式都可以实现。

      这种服务器端的闪存实施方式广受用户欢迎,之所以这样是由于它能够实现最低程度的延时(因该方式下的存储最为接近CPU),并且提供了很灵活的容量选择,几百GB容量就可以实现。SAS/SATA接口的固态硬盘本身就是个选择,但是近来我们看到PCIe板卡为接口的固态设备逐渐成了性能应用(比如实时分析)的标准,因为相对于前者,其延时更低。

      如今,业界有许多提供PCIe闪存存储的公司,包括Fusion-io、LSI、Micron Technology、SanDisk、sTec(现在是HGST的一部分,作为Western Digital的一个部门)、Violin Memory以及Virident (也被Western Digital收购)。其它所有主流服务器及存储厂商们也都提供PCIe解决方案,大多数是与这些公司通过了OEM协议。

      尽管PCIe卡最大容量已经近乎于10 TB,但仍无法满足用户的需求,因此一个共享的存储资源池也是需要考虑的。一个解决方案是使用Virident的FlashMAX Connect software,这种软件可以实现将PCIe卡的资源通过服务器上的InfiniBand,进行资源池化。

      这对扩展闪存容量会非常有帮助,尤其是对于那些PCIe插槽不足的服务器或者需要使用VMware vSphere的Storage vMotion功能的时候。通过在不同服务器之间实现闪存的池化,这些解决方案可以提供冗余以及高可用性方面的支持。

      另外一个选择是通过InfiniBand、光纤通道或者甚至PCIe的连接方式使用全闪存阵列。全闪存阵列的容量从10 TB到100 TB之间,可以以模块的方式进行扩容。以全闪存阵列这类的高端解决方案可以提供至少100万IOPS,相对应到百万微秒级别。大多数主流的存储厂商都有相应的全闪存阵列类别,除了IBM对Texas Memory的收购,小厂商都有类似的产品并提供了更多的选择,他们中有Kaminario、Nimbus Data Systems、Pure Storage、Tegile、即将被思科收购的Whiptail以及Violin Memory.

      异步大数据分析

      异步处理的大数据分析中遵守了捕获、存储加分析的流程,过程中数据由传感器、网页服务器、销售终端、移动设备等获取,之后再存储到相应设备上,之后再进行分析。由于这些类型的分析都是通过传统的关系型数据库管理系统(RDBMS)进行的,数据形式都需要转换或者转型成为RDBMS能够使用的结构类型,例如行或者列的形式,并且需要和其它的数据相连续。

      处理的过程被称之为提取、变形、加载或者称为ETL.首先将数据从源系统中提取处理,再将数据标准化处理且将数据发往相应的数据仓储等待进一步分析。在传统数据库环境中,这种ETL步骤相对直接,因为分析的对象往往是为人们熟知的金融报告、销售或者市场报表、企业资源规划等等。然而在大数据环境下,ETL可能会变得相对复杂,因此转型过程对于不同类型的数据源之间处理方式是不同的。

      当分析开始的时候,数据首先从数据仓储中会被抽出来,被放进RDBMS里以产生需要的报告或者支撑相应的商业智能应用。在大数据分析的环节中,裸数据以及经转换了的数据大都会被保存下来,因为可能在后面还需要再次转换。

      适用于异步大数据分析的存储设备

      在异步大数据场景下对于存储的调整主要来自于容量、可扩展性、可预见性,尤其是提供这些功能的成本。当数据仓库产生大量数据集的时候,磁带存储的延时会显得非常大以至于无法满足业务需求。换而言之,传统的向上扩展的磁盘存储架构在相同容量标准下,往往并不能做到节约成本。

      横向扩展存储。横向扩展存储是使用模块或者节点以群集的方式将资源池化,以文件系统的形式作为接口为大数据分析服务。例如有Dell EqualLogic、EMC Isilon、Exablox (also object-based)、Gridstore、HP StoreAll (之前叫Ibrix)以及IBM横向扩展NAS (SONAS)。这些解决方案里,每个节点都包含有处理能力及磁盘容量,它们能实现容量与性能的并行扩展。

      Hadoop技术也被应用于存储架构的方式,使得企业能够以较低的硬件成本与较高的灵活性,搭建属于它们自己的高可扩展性存储系统。Hadoop运行在集群的不同节点上,每个节点都有自己的存储及计算资源,尤其是在面对数据处理需求的时候。其它节点会协调这些处理任务并以分布式资源池的方式进行处理,通常是以Hadoop分布式文件系统HDFS的形式存在。

      为什么Hadoop对大数据意义重大

      Hadoop得以在大数据应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送(Map)到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。

      但是对于Hadoop,特别是Hadoop分布式文件系统(HDFS)来说,数据至少需要三份以支持数据的高可用性。对于TB级别的数据来说,HDFS看起来还是可行的,但当达到PB级别海量数据的时候,其带来的存储成本压力不可小觑。即便是可横向扩展存储亦不能避免压力本身,一些厂商选择了使用RAID技术实现卷级别的保护,而在系统级别则使用了复制的方式。对象存储技术可以提供面对大型环境的数据冗余问题的解决方案。

      对象存储。基于对象的存储架构可以通过替代分层存储架构的方式,极大程度上提升可横向扩展存储的优势,它使用的方式则是以单一索引来关联灵活的数据对象。这将解决无限制扩展问题,从而提升了性能本身。对象存储系统包含了无需RAID或者复制作为数据保护的纠删码,极大程度上提升了存储的使用效率。

      不像HDFS方式下需要两份或者三份多余数据拷贝以及额外的RAID机制,对象存储系统的纠删码可仅以50%-60%的额外容量就能达到更高的数据保护级别。在大数据存储级别,对于存储本身的节省将是非常重大的。许多对象存储系统亦可选择,包括Caringo、DataDirect Networks Web Object Scaler、NetApp StorageGRID、Quantum Lattus以及开源的 OpenStack Swift和 Ceph.

      一些对象存储系统,比如Cleversafe的,甚至可以做到与Hadoop兼容。在这些项目的实施中,Hadoop软件组件可以运行在这些对象存储节点的CPU上,对象存储系统将替换存储节点的Hadoop分布式文件系统。

      大数据存储的底线

      大数据分析逐渐在IT行业成为了一个热门的话题,越来越多的企业相信它将引领企业走向成功。然而任何事情都有两个方面。这件事情上来看,就是现有存储技术本身。传统存储系统不管是在需要极低延时响应、实时大数据应用或者还是面对海量数据仓储的数据挖掘应用的时候都会遇到瓶颈。为了保证大数据分析业务能正常运行,相应的存储系统需要足够快,可扩展并且性价比有优势。

      对于闪存解决方案来说,不管是以服务器端flash卡的形式还是以全闪存阵列的形式,都提供了一些对于高性能、低延时、大容量存储的替代解决方案。基于对象的带有擦写功能编程的可横向扩展架构为使用传统RAID以及复制方式的存储结构提供了一种能具备更高效率和更低价格的选择。

    展开全文
  • 文件存储技术-数据持久化-Android

    千次阅读 2020-11-09 16:08:56
    学习笔记持久化技术简介第一种方式:文件存储将数据存储到文件中从文件中读取数据案例-文件存储技术MainActivity.ktactivity_main.xml 持久化技术简介 数据持久化就是指将那些内存中的瞬时数据保存到存储设备中,...
  • Android中的数据存储技术  前言:Android中提供了多种数据存储技术来保存永久性应用数据,以便开发者能够根据需求选择合适的数据存储方案。例如:数据是应用的私有数据,还是可供其他应用(和用户)访问的数据,...
  • 简介: 在云计算和大数据时代,基于数据开展生产、运营、决策成为常态,根据...数据湖(Data Lake)概念自2011年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,数据湖也从单一数据存储池概念演
  • Oracle的海量存储技术

    千次阅读 2009-11-17 22:20:00
    下午去参加一个Oracle有关海量数据存储技术的培训讲座了。地址在广州市林和西路101号天河区计经大楼西侧三楼。培训发起机构为:广州中睿信息技术有限公司。 下面就简要总结一下所听到的一些东西,也算是学到的这些...
  • Hadoop数据存储

    万次阅读 2016-05-24 22:49:24
    Hadoop数据存储Hadoop能高效处理数据的基础是有其数据存储模型做支撑,典型的是Hadoop的分布式文件系统HDFS和HBase。一、HDFS文件系统1.0、 HDFS简介HDFS是Hadoop的分布式文件系统的实现,它设计的目的是存储海量的...
  • 数据采集技术:实时与离线采集 实时流处理模式:通过K-V查询接口,以流处理模式,逐条传输、ETL,融合并入库至业务平台。 离线批处理模式:通过SFTP传输接口,将数据离线批量采集至业务平台缓存中,再进行批量...
  • 高效存储技术研究

    万次阅读 热门讨论 2010-12-08 21:29:00
    数据压缩、重复数据删除、自动精简配置、自动分层存储、存储虚拟化等高效存储技术有效解决或缓解了这些难题。然而,目前还没有从根本上解决,挑战和压力依然很巨大,我们期待高密度、超低能耗、高可靠的存储硬件技术...
  • 如何利用区块链技术进行数据存储?

    千次阅读 2019-01-21 17:15:56
    在大型、集中式的数据中心中存储数据,往往存在性能、可用性和可扩展性等方面问题,同时也会带来较高的资本或运营支出。而且,集中存储数据也极易受...出于这些原因,企业开始寻求去中心化数据存储的方法——区...
  • 数据仓库之-历史数据存储方案

    万次阅读 2017-11-07 21:06:08
    现状:隔一段时间去数据中心获取一次数据,每次获取数据时只有极少部分数据会发生变更,但是系统需要溯源数据变更的情况。方案: 现状表+历史表结合的方式: ... 将全量数据存储在Hbase中,现状数
  • 存储中的重复数据删除技术

    千次阅读 2020-06-06 15:47:53
    在当前的“大数据”时代,尽管磁盘空间越来越便宜,I/O速度在提升,但重复数据删除仍是存储管理员最为关注的技术之一,这项技术的存在,使得我们能够以更低的存储成本和管理成本,得到更高的存储效率。 在Windows ...
  • 前言:大数据技术诞生之初,就是为了解决海量数据存储和计算问题。 大数据起源于Google。 Google是当时世界上(尽管目前也是)最大的搜索引擎公司,由于互联网时代的到来,Google积累了海量的用户,海量用户...
  • 数据结构和存储从存储介质来看,Zookeeper的存储主要分为两部分:一部分是内存存储,另外一部分是磁盘存储内存存储如下三个图是Zookeeper将数据存储字在内存中最重要的三个数据结构。DataNode.java DataNode是...
  • 英特尔快速存储技术

    千次阅读 2015-08-21 08:10:40
    英特尔快速存储技术,即IntelRapid Storage Technology (简称IntelRST)),是一个基于 Windows的应用程序。该程序为配备 SATA 磁盘的台式机、移动电脑和服务器平台系统提供更高的性能和可靠性。当使用一个或多个 ...
  • Hive的数据存储

    千次阅读 2018-07-16 09:35:05
    阅读数:1070Hive的数据分为表数据和元...一、Hive的数据存储在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格...
  • 360度解析亚马逊AWS数据存储服务

    千人学习 2015-05-19 12:09:35
    一方面用户数据存储的需求随着互联网和应用服务的演变有了很大的变化,另一方面随着技术的发展我们现在有了更多的存储服务选择。经过8年多的发展,AWS云平台为用户提供了多种不同的数据存储服务。综合使用多种AWS云...
  • 数据存储到 XML 文件

    千次阅读 热门讨论 2016-01-18 20:21:43
    通常,我们在数据库中存储数据。不过,如果希望数据的可移植性更强,我们可以把数据存储 XML 文件中。
  • ceph存储 重复数据删除技术简介

    千次阅读 2015-04-16 19:10:12
     一般情况下,数据中心每周需要将主存储设备的所有数据备份到辅存储设备上,并保存数月时间,我们称之为全备份。另外,数据中心可能每天还需做一次增量备份,只备份当天改变的数据。辅存储设备的容量达到主存储设备...
  • 区块链之分布式数据存储

    千次阅读 2018-08-23 17:14:26
    区块链之分布式数据存储 30年前,有一个未来学家提出未来世界的趋势是分布式将代替去中心化:一个机器蜘蛛的六条腿配置分布式的计算...这其中有一个最基础的技术就是分布式数据存储。区块链的分布式数据存储不像gi...
  • 区块链项目数据存储系统分析

    千次阅读 2019-07-21 21:43:16
    二、数据存储: 1 比特币(Bitcoin) 2 以太坊 3 Hyperledger Fabric 4 EOS(Enterprise Operation System) 4.1 IPFS 4.2 EOS存储的设计 5 The Libra Blockchain存储模块 Storage 5.1 账本历史 5.2账本状态 ...
  • Android数据存储与持久化

    千次阅读 2016-09-29 23:00:43
    一、持久化技术简介瞬时数据是指那些存储在内存当中,有可能会因为程序关闭或其他原因导致内存被回收而丢失的数据。这对于一些关键性的数据信息来说是绝对不能容忍的,谁都不希望自己刚发出去的一条微博,刷新一下就...
  • Hive数据仓库ODS层数据存储设计

    千次阅读 2017-12-01 17:11:07
    数据来源是将8台服务器日志各自压缩成*.gz(8个gz文件)后,按天和小时分区传入到HDFS上,然后通过创建Hive ODS外部表加载到表对应分区,这样一天下来会生产192个gz文件,gz文件是不能进行切分所以查询一天则会产生...
  • 顺序存储在计算机中用一组地址连续的存储单元依次存储线性表的各个数据元素,称作线性表的顺序存储结构。特点:随机存取表中元素。插入和删除操作需要移动元素。链接存储在计算机中用一组任意的存储单元存储线性表的...
  • 后台架构设计—数据存储

    千次阅读 2017-12-18 09:31:54
    后台架构设计—数据存储层 来源:http://www.cnblogs.com/xiwang6428/p/6060138.html 数据存储重要性: 数据是企业最重要的财产; 数据可靠性是企业的命根,一定要保证。 单机存储原理: ...
  • 离线数据存储和上传方案

    千次阅读 2017-06-03 16:47:30
    QQ技术交流群:129518033   解决方案下载地址: http://download.csdn.net/detail/itas109/9859688 Github相关项目: https://github.com/itas109/OfflineDataStorge   引言   在网络广泛...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,177,907
精华内容 471,162
关键字:

数据存储技术