精华内容
下载资源
问答
  • 那么针对于大数据存储问题的解决,大数据的存储方式有哪些,在这些大数据存储方式上又该如何选择,下面我们来了解一下。 大数据的兴起,看起来似乎也就是这几年的功夫,但是实际上,只是因为大数据技术走向成熟,才...
  • 大数据存储

    2013-07-07 19:07:25
    什么是大数据存储? 首先,我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序)。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息...

    什么是大数据存储?


    首先,我们需要清楚大数据与其他类型数据的区别以及与之相关的技术(主要是分析应用程序)。大数据本身意味着非常多需要使用标准存储技术来处理的数据。大数据可能由TB级(或者甚至PB级)信息组成,既包括结构化数据(数据库、日志、SQL等)以及非结构化数据(社交媒体帖子、传感器、多媒体数据)。此外,大部分这些数据缺乏索引或者其他组织结构,可能由很多不同文件类型组成。

    由于这些数据缺乏一致性,使标准处理和存储技术无计可施,而且运营开销以及庞大的数据量使我们难以使用传统的服务器和SAN方法来有效地进行处理。换句话说,大数据需要不同的处理方法:自己的平台,这也是Hadoop可以派上用场的地方。

    Hadoop是一个开源分布式计算平台,它提供了一种建立平台的方法,这个平台由标准化硬件(服务器和内部服务器存储)组成,并形成集群能够并行处理大数据请求。在存储方面来看,这个开源项目的关键组成部分是Hadoop分布式文件系统(HDFS),该系统具有跨集群中多个成员存储非常大文件的能力。HDFS通过创建多个数据块副本,然后将其分布在整个集群内的计算机节点,这提供了方便可靠极其快速的计算能力。

    从目前来看,为大数据建立足够大的存储平台最简单的方法就是购买一套服务器,并为每台服务器配备数TB级的驱动器,然后让Hadoop来完成余下的工作。对于一些规模较小的企业而言,可能只要这么简单。然而,一旦考虑处理性能、算法复杂性和数据挖掘,这种方法可能不一定能够保证成功。


    如果是基于SAN结构的话,最好的最前沿的方案就是HA.
    主要的是存储设备的HA(高可用),当一台存储包含链路发生问题时,前端业务不会受到中断的影响。

    用文件存储将其存储在硬盘上


    IBM  cognos多维分析用到的技术:

    1、组建好FM模型

    2、组建好TS多维模型

    3、TS将源数据按模型生成目标的二进制文件

    4、将二进制文件加载到服务器内存中,利用COGNOS进行分析 


    开源Mondrain 多维分析用到的技术:(主要是数据处理)

    1、建立好多维模型

    2、将数据处理成多维模型的格式,{例如一个表字段有存款类型、存款时间、存款金额,则可将存款类型、存款金额做成一个A表,存款时间、存款金额做成一个B表,当分析存款类型、存款金额,则自动跳到该A表中了。}

    展开全文
  • 关键词:大数据 存储架构 处理技术。高效的大数据存储架构涉及 大数据重复数据删除和编码优化 问题,从这两方面对大数据存储结构进行描述。
  • 十大大数据存储工具

    千次阅读 2017-07-03 09:31:00
    摘要:市面上有大量的大数据存储产品。 市面上有大量的大数据存储产品。哪些产品是最好的?很显然,没有一个简单的答案。选择大数据存储工具牵涉许多变化因素,包括现有环境、目前的存储平台、数据增长预期、文件的...

    摘要:市面上有大量的大数据存储产品。

    市面上有大量的大数据存储产品。哪些产品是最好的?很显然,没有一个简单的答案。选择大数据存储工具牵涉许多变化因素,包括现有环境、目前的存储平台、数据增长预期、文件的大小及类型、数据库和应用程序程序组合等。

    虽然本文根本不是什么完整的清单,但还是列出了值得你考虑的几种顶尖的大数据存储工具。

      大数据存储领域的主要竞争者

    日立

    日立提供了几款大数据存储产品。与Pentaho软件公司合作开发的大数据分析工具、日立超级横向扩展平台(HSP)、HSP技术架构以及日立视频管理平台(VMP)。后一个例子专门针对大视频这个方兴未艾的大数据子集,面向视频监控及其他视频密集型存储应用领域。

    DDN

    类似地,DataDirect Networks(DDN)也有一批面向大数据存储的解决方案。

    比如说,其高性能SFA7700X文件存储可以自动分层到WOS对象存储归档系统,支持快速收集、同时分析和经济高效地保留大数据。

    DDN的营销战略和运营高级主管迈克尔·金(Michael King)说:“斯克里普斯研究所使用该产品用于冷冻电子显微镜(Cryo-EM),每周收集30 多TB的数据,寻找艾滋病毒、埃博拉、寨卡及主要神经疾病的治疗方法。而在过去,查看蛋白质结构和产生的抗体至少需要一年的时间。Cyro-EM在几周内就完成了发现过程。”

    Spectra BlackPearl

    Spectra Logic的BlackPearl深度存储网关为基于SAS的磁盘、SMR降速磁盘或磁带提供了对象存储接口,所有这些技术都可以放在存储环境中BlackPearl的后面。

    Kaminario K2

    Kamiario提供了另一种大数据存储平台。虽然它并不提供经典的大数据设备,但其全闪存阵列正在许多大数据应用领域找到一席之地。

    Kaminario的首席技术官沙恰·菲恩布利特(Shachar Fienblit)说:“由于开发人员把实时分析融入到应用中,存储基础设施策略必须能够管理大数据分析工作负载以及传统的事务处理工作负载。Kaminario K2全闪存阵列就是为了支持这种动态工作负载环境而开发的。”

    Caringo

    Caringo成立于2005年,旨在发掘数据的价值,并解决大规模保护、管理、组织和搜索数据方面的问题。有了旗舰产品Swarm,用户无需将数据迁移到不同的解决方案,即可实现长期保存、交付和分析,因而降低总体拥有成本。它已经被全球400多家组织所使用,比如美国国防部、巴西联邦法院系统、奥斯汀市、西班牙电信、英国电信、Ask.com和约翰斯霍普金斯大学。

    Caringo的产品副总裁托尼·巴巴加洛(Tony Barbagallo)说:“为了简化获取数据、馈送给Swarm,我们有FileFly(用于Windows文件服务器及NetApp服务器)和SwarmNFS(提供功能齐全的NFSv4基础设施)。”

    Infogix

    Infogix企业数据分析平台基于五项核心功能:数据质量、事务监控、均衡及协调、身份匹配、行为分析以及预测模型。这些功能据说可帮助公司提高运营效率、带来新的收入、确保合规,并获得竞争优势。该平台可以实时检测出现的数据错误,并自动实行全面分析,以优化大数据项目的表现。

    Avere混合云

    Avere提供了另一种大数据存储方案。其Avere混合云部署在混合云基础设施中的各种用例。物理FXT集群用于NAS优化这种用例,充分利用基于磁盘的现有NAS系统前面的全闪存高性能层。FXT集群使用缓存,以便自动加快活跃数据,使用集群扩展性能(添加更多的处理器和内存)及容量(添加更多的固态硬盘),并将有时部署在广域网上的核心存储的延迟隐藏起来。用户发觉它是加速渲染、基因组分析、金融模拟、软件工具和二进制代码库等性能的好方法。

    在面向私有对象的文件存储这种用例下,用户希望从NAS迁移到私有对象存储。他们往往喜欢私有对象的效率、简单性和弹性,但不喜欢其性能或基于对象的API接口。在这种用例下,FXT集群提升了私有对象存储的性能,其实现方式与NAS优化这种用例一样。

    Avere Systems的产品管理和市场营销高级主管杰夫·泰伯(Jeff Tabor)说:“此外,FXT集群提供了熟悉的NAS协议,可转换成存储端的对象API,那样用户不用改写应用程序,或不用改变数据访问方法,就可以使用对象存储。”

    最后,云存储网络这种用例类似面向私有对象的文件存储这种用例,增添的一个好处是,企业可以开始构建更少的数据中心,将数据迁移到云端。延迟是这种用例要克服的挑战之一,这正是物理FXT集群所要解决的。访问时,数据在FXT集群上本地缓存,那样之后进行的所有访问都具有低延迟的优点。FXT集群可能拥有多达480TB的总缓存容量,因而大量数据可以在本地存储起来,避免云的延迟。

    DriveScale

    大数据通常存储在本地磁盘上,这意味着为了在大数据集群的规模不断扩大时,能实现效率和扩展性,就需要保持计算和存储之间的逻辑关系。于是出现了一个问题是:如何将磁盘从服务器分离开来,又继续在处理器/内存组合和驱动器之间提供同样的逻辑关系?如何实现共享存储池的成本、规模和可管理性等方面的效率,同时仍提供局部性的好处?据说DriveScale通过利用Hadoop数据存储,就可以做到这点。

    然而,希望为大数据应用安装和管理资源的存储专业人员主要受制于Hadoop架构,这种架构本身是针对服务器上的本地驱动器来优化的。随着数据量不断增加,唯一的办法就是购买数量越来越多的服务器,不仅要满足计算需求,还要提供更大的存储容量。DriveScale让用户得以在独立于计算容量的情况下单独购置存储容量,从而在每个层面做到容量正好。

    DriveScale的产品管理副总裁S.K. Vinod说:“没有理由无法将大家在数据中心习惯获得的专有纵向扩展基础设施环境具有的优点引入到商用横向扩展环境。我们为IT管理员提供了构建和运行弹性大数据基础设施的工具,在这种基础设施环境下,服务器和磁盘子系统可以根据需要,实时分解和重组。单个驱动器从JBOD连接磁盘组成的共享池配置给服务器,因而消除了成本不相称。”

    Hedvig

    Hedvig分布式存储平台提供了一种统一解决方案,让你可以定制结合低成本商用硬件和高性能存储,以支持任何应用程序、虚拟机管理程序、容器或云。据说它可以针对数据块、文件和对象存储,为任何规模的任何计算提供存储,具有可编程性,而且支持任何操作系统、虚拟机管理程序或容器。此外,混合多站点复制使用独特的灾难恢复策略来保护每个应用程序,并通过跨多个数据中心或云的存储集群提供高可用性。最后,高级数据服务让用户可以借助可按照卷来选择的一系列企业服务,定制存储。

    Hedvig公司首席执行官兼创始人阿维纳什·拉克希曼(Avinash Lakshman)说:“对于Hadoop来说,如果你想要一些功能由HDFS来处理,其他功能由存储平台来处理,这至关重要。”

    Nimble

    Nimble存储预测闪存平台据说可显著提高分析应用和大数据工作负载的性能。它通过结合闪存性能和预测分析,防止IT复杂性导致的数据速度面临的障碍来做到这一点。

    本文转自d1net(转载)

    展开全文
  • 大数据储存单位

    2018-12-17 10:37:38
  • 大数据存储技术选型

    千次阅读 2020-04-23 15:06:32
    什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 通常我们将PB...

    什么是大数据?

    大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
    通常我们将PB级别以上的通常为大数据

    如何计算数据?

    比如银行交易只要记下帐号、日期、金额;电信的通话记录也只是通话号码、时刻、时长等。就按100字节算,也就是0.1K,那么1T空间就可以放下10G行记录,100亿条!
    1KB=1024B
    1MB=1024KB
    1GB=1024MB
    1TB=1024GB
    1PB=1024TB
    1EB=1024PB
    1ZB=1024EB
    1YB=1024ZB

    如何存储如何选型?

    一般来说,大数据存储技术有三种:
    第一种:近年来最火的一个词Hadoop。其实简单的理解:Hadoop是一个生态,里面包含了各种产品,比如:有做数据存储的HBase,有做消息队列的Kafka等等。就像我们的微信小程序一样,也是一个生态,里面包含各种各种的小程序。通过官网文档以及其他伙伴实际得知,Hadoop在半结构化、非机构化大数据方面的优势非常明显。(本人未实践过)
    第二种:采用MPP架构的新型数据库集群,以Greenplum数据库为例。是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。我们一般采用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求
    第三种:大数据存储技术选型第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。
    (本人未实践过)

    展开全文
  • 大数据存储综述

    万次阅读 2018-04-01 14:57:08
    1 存储方式1.1 块存储存储就好比硬盘一样,直接挂载到主机,一般用于主机的直接存储空间和数据库应用的存储。它分两种形式:DAS:一台服务器一个存储,多机无法直接共享,需要借助操作系统的功能,如共享文件夹。...
  • 空间大数据存储管理

    2021-04-21 15:52:33
    能满足空间大数据存储和管理需求,需要对传统 空间数据引擎进行升级与扩展。基于分布式文件 系统、分布式数据库发展的分布式空间数据库,可 以有效提升对空间大数据存储和管理能力。代 表 性 的 分 布 式 数 据 ...
  • 大数据存储实训报告

    2019-12-28 08:41:13
    马上就要开始为期一周的大数据存储实训报告,又是一个充满挑战与激情的十几天~ 本次实训立个 Flag :可能用到 MongoDB、HBase、Cassandra 和 Neo4j。(真的好想再加上 Redis~) -- 一个未完成的任务单 : 实训期间...
  • 大数据存储技术和标准化
  • GirdFS是一种专门对大数据文件存储的。 什么时候使用GirdFS: 1、大文件 2、上传文件 3、文件经常性的改变 使用方法: $ ./mongofiles list 查看文件 connected to: 127.0.0.1 $ ./mongofiles put ...
  • 在存储方面,2000 年左右谷歌等提出的文件系统(GFS)、以及随后的 Hadoop 的分布式文件系统 HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。 与传统系统相比,GFS/HDFS 将计算和存储节点在物理上...
  • 大数据存储技术

    千次阅读 2015-03-27 10:27:33
    近期由中关村大数据产业联盟举办的“大数据100分”线上研讨会中,南大通用的CTO、资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正在经历的巨大变革。以下为分享实录:  大数据这个领域过去5...
  • 大数据存储方案

    2018-11-26 18:15:00
    数据流处理 客户端节点通过Ignite数据流处理器向Ignite缓存中注入有限的或者持续的数据流;...数据流可以在Ignite数据节点上以并置的方式直接并行处理; 客户端也可以在数据流上执行并发的SQL查询。 ...
  • 大数据存储管理大趋势  IDC的研究表明,到2020年,全球以电子形式存储的数量将达到35ZB(1ZB=100万PB),是2009年存储量的40倍。其中企业数据以55%的速度在逐年增长,大数据时代已经来临。 对其内容详细...
  • 基于新型存储的大数据存储管理金培权1,21. 中国科学技术大学计算机科学与技术学院,安徽 合肥 2300272. 中国科学院电磁空间信息重点实验室,安徽 合肥 23002...
  • 大数据:70多个网站让你免费获取大数据存储库 你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果...
  • 是一个既支持随机读写,又支持OLAP(Online analytical processing)分析的大数据存储引擎,平衡HDFS和HBase随机读写和批量分析性能的存储引擎。 1、组织架构 Master Server:负责监听集群tserver状态、管理元...
  • 管理大数据存储的十大技巧

    千次阅读 2018-04-04 11:15:38
    它实用有效但也出现了大数据存储集群的独立操作问题。以下十项是Hadoop环境中管理大数据存储技巧。在1990年,每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储...
  • 大数据存储与备份,迫在眉睫!

    千次阅读 2018-01-19 16:07:51
    大数据存储备份然而凡事都有两面性,云时代大数据的到来给我们的工作生活带来了无数的方便,可与之对应的是信息和网络安全的脆弱性。根据美国FBI统计,每年因为信息和网络安全问题所造成的损失高达75亿美元,并且还...
  • 本标准规定了大数据存储与处理系统的分布式文件存储、分布式结构化数据存储、分布式列式数据存储、分布式图数据存储、批处理框架、流处理框架、图计算框架、内存计算框架和批流融合计算框架等的功能要求。...
  • 大数据本地存储

    2015-10-21 11:50:49
    本地存储 session 大数据本地存储 cookie
  • 需求如下 10w台硬件,每分钟上传1条位置信息,一天工作12个小时, 每天的数据量大概为 10W*12*60 = 7200w条记录...用mongodb 设计储存 怎么设计好 查询需求 1.查询一台硬件一天的轨迹 2.查询某个坐标范围内的硬件数量
  • 大数据存储与处理技术,孟小峰, 任玮,综大数据体系结构的相关研究以存储和计算两方面展开。存储问题主要表现为数据访问和移动代价问题更为突出。计算问题主要表现为,��
  • 大数据存储与管理的技术对整个大数据系统都至关重要,数据存储与管理的好坏直接影响了整个大数据系统的性能表现。数据存储作为大数据的核心环节之一,可以理解为方便对既定数据内容进行归档、整理和共享的过程。 ...
  • 大数据存储HDFS详解

    千次阅读 2018-11-20 15:26:34
    数据序列化 FaceBook Thrift(具体序列化和RPC两个功能)、Google Protocol Buffers(ProtoBuf)...4、计算引擎方式:SQL方式,Hive、Impala及Presto等查询引擎均允许用户直接使用SQL访问HDFS中的存储文件。  
  • 最近几年,全球的数据量出现爆炸式增长,大数据存储需求发生了很大变化。数据量的大小由TB级增长至PB级,并仍在不断增长,企业日益将数据的深度分析作为利润增长的支撑点。随着社会的发展,各行业、各领域的数据量...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 278,510
精华内容 111,404
关键字:

大数据存储的方式