精华内容
下载资源
问答
  • 为此,「巨杉最具价值专家SVP」技术交流会特别邀请巨杉北美实验室核心成员Danny Chen ,讲解数据湖的技术原理巨杉数据库数据湖中的应用实践。 01关于数据湖 从架构演进来说,数据湖可以理解为一个storage即...

    随着大数据时代的到来,数据已经渗透到各行各业,成为重要的生产要素,数据管理成为当今计算机最重要的应用领域。出于对数据管理领域的关注,不同行业也逐步提升了对数据存储、数据管理及数据分析能力的要求,这一趋势带来了新理念。为此,「巨杉最具价值专家SVP」技术交流会特别邀请巨杉北美实验室核心成员Danny Chen ,讲解数据湖的技术原理与巨杉数据库在数据湖中的应用实践。

    01 关于数据湖

    从架构演进来说,数据湖可以理解为一个storage即存储区域,存放内容多为原始数据,也叫做裸数据。裸数据是数据原始生成的格式,因此数据湖最大的意义在于当我们不清楚某些数据存在的价值时,可以将数据以原生格式天然沉积在数据湖。数据湖除了单纯的存储数据,还在用户使用数据湖中的数据使其产生价值时,具备了为用户解决数据访问、分析的能力。一般来说,对数据湖的了解主要有以下几点:

    • 数据来源;支持较为方便的将数据按数据原生状态注入到数据湖中。

    • 数据量和种类;可以支持存储多种类的原生数据且支持长期扩展。

    • 数据处理能力;具备对数据进行大数据处理分析能力。

    • 性能和成本;数据湖由于数据量较大,数据类型包含热数据和冷数据,成本是一个考虑因素。

    所以,数据湖可以使用不同的注入过程将数据注入到数据湖中。数据来源也各不相同,它能够存储结构化数据(行列数据信息、便于排序和数据挖掘的信息)和非结构化数据(如电子邮件、图片、视频、音频、社交数据、PDF等),最终都是为了在用户需要的时候可以更好的处理数据。

    数据湖与数仓的本质区别在于数据湖存储包括结构化和非结构化不同形式的数据。数仓存储的通常是经过转换处理的结构化数据,人们在使用数仓时,对数据的使用目的非常明确,所以在注入数据时按照一定结构、规则来组织和存放。

    02 巨杉在数据湖的应用

    随着大数据技术的融合发展,数据湖不断演变,逐步实现对数据进行大数据处理、实时分析和机器学习等技术。本章节将介绍数据湖在巨杉数据库的实践中,分布式数据库的优势与数据湖带来的变革。

    1.SequoiaDB: 分布式架构

    基于巨杉数据库的分布式架构特性,巨杉数据库提供了上层的访问层,可支持包括 MySQL、PostgreSQL 与 SparkSQL 等instance访问。SequoiaDB 存储引擎采用分布式架构,同一个操作系统下可以部署多个节点,节点之间采用不同的端口进行区分。集群中的每个节点为一个独立进程,节点之间采用 TCP/IP 协议进行通讯。

    图片

    协调节点将用户请求分发至相应的数据节点,最终合并数据节点的结果应答对外进行响应。在特定操作下,协调节点与数据节点均会向编目节点请求元数据信息,以感知数据的分布规律和校验请求的正确性。

    巨杉数据库具有原生 SQL与HTAP 读写分离的特殊能力,我们有一个大的底座,使得数据可以持续横向扩展。在上层,巨杉数据库可以支持多种不同的实例,对各类数据库实例做到统一化管理,防止数据碎片化,并对来自不同实例和服务的数据统一实时分析,避免联机交易与分析业务相互干扰。

    2.SparkSQL实例优势

    Spark 是一个可扩展的数据分析平台,SparkSQL多用于分析型批量处理,在传统的意义上可以理解为数仓。相对来说有以下优势:

    • 专门针对统计分析审计等场景使用。

    • 多个不同联机交易库中的表可以被直接映射到同一个 SparkSQL 实例中,自身无法使用索引,执行非例行非经常性的分析查询,避免ETL迁移流程。

    • 源和目标均在SDB集群中,Transform相对不十分复杂,可能包含数据过滤、简单聚合等。

    • 支持数据分区的读写分离,确保联机交易业务与统计分析任务在不同物理机中执行。

    • 对于关联查询,约70%使用mysql和pg直接完成,剩下约30%,spark在整体性能上明显占优的情况下,则通过spark实现。

    • Spark能发现SDB的节点状况,直接访问可读的数据节点,并自动使用可能的并发机制,Task数量由需要访问的数据量决定,保证更大的并发处理。

    • 多模数据支持。

    • 数据可以直接注入SDB或通过Spark/Spark stream。

    SparkSQL注意事项:

    • 理想情况,spark集群建议在sdb以外的服务器进行部署,效果会更加理想。

    • 如果需要部署在同一集群中,特别是数据量比较大的情况下,建议限制spark集群的资源使用上限,从而保证内存分配给sdb使用。

    03 案例分享

    案例1:某医院临床知识库系统 

    医疗系统采集工作难点在于数据量庞杂,数据间隔时间长且采集步骤多。在数据类型上,医疗系统的数据类型复杂。与此同时,由于接入的业务和用户规模增长速度加快,为了满足业务的日常运行,保持数据库低延迟和高性能是基本需求。

    在总体架构上,实际分为以下三层:

    • 「数据采集层」:主要负责从临床业务系统采集海量历史临床数据,历史记录采集方式分为批采集和实时采集。

    • 「存储分析层」:主要负责数据存储以及数据分析两大部分业务。使用JSON格式,大数据存储引用使用SequoiaDB数据库,数据分析部分由Spark集群来完成。分析结果写入临床知识数据库,临床知识数据库也使用SequoiaDB巨杉数据库进行存储。

    • 「应用逻辑层」:主要负责人机交互以及分析结构回馈临床系统的渠道,也为临床系统的业务辅助。

    图片

     

    系统数据流程如下图,整个系统经由数据源数据采集,写入大数据存储SequoiaDB集群,然后由Spark进行分析计算,分析生成的临床知识再写入SequoiaDB知识库,经由WebUI以及标准的API交由临床使用。

    图片

     

    使用SDB的能力包括以下几方面:

    • 多模;具备jason、文档、图像等多种数据格式

    • 对接Spark进行分析处理

    • 联机查询

    • 批量导入与实时数据采集

    案例2:某证券客户实时数据查询平台

    案例中的实时数据查询平台并非全新平台,而是带有一个开源的mysql能力的老系统,老系统由于业务的发展存在一定的风险:

    • MySQL数据能否存储上线以来所有的投票明细数据以及统计结果。

    • 当投票数据量达到一定量之后,在实时查询和统计上的性能已经不能完全满足客户需求,与此同时,作为使用者基金公司管理员和投资人亦不能实时看到大会的最终统计结果。

    • 投票明细数据达到一定的量之后,大会结束,准确统计投票结果的耗时以及频率下降。

    图片

    改造后的系统要求:

    • 能够快速,实时,并发的获取基金投票明细数据。并保证数据唯一,零丢失。

    • 基金投票明细数据按照顺序获取统计。

    • 基金投票历史数据存储备份至高可用,高性能可应对海量数据的数据库中。

    • 基金投票明细数据实时统计入库。实时统计结果在短时间内入库。

    最终在原有系统变更改动最小的情况下,附加一个新的基金投票实时统计分析系统。

    图片

    巨杉数据库在此次的案例中使用了以下处理方式:

    • 使用Spark Streaming 流数据处理模式,分别从kafka topic 中获取基金投票明细数据,并过滤清洗,批量入SequoiaDB库的集合中,在SequoiaDB库的集中建立唯一联合索引。

    • 每个数据批基于Spark Streaming流数据处理的API进行实时统计,并将统计结果更新至MySQL库实时统计结果表中。

    • SequoiaDB即可以作为流计算的sink,又可以作为批量数据处理和实时访问数据源。同时利用其弹性扩张能力解决海量数据存储和查询。

    图片

     

    04 SequoiaDB未来发展

    巨杉数据库在处理SparkSQL系列之后,也会不断提高原生分析型的处理能力,结合Spark在参与社区建设的过程中完善实时访问能力。同时,巨杉数据库将会不断提高自身分析型计算引擎、完善列存储能力、适应未来的云发展。具体如下:

    分析型计算引擎

    • 优化访问计划

    • 高性能并发计算

    • 低延时数据访问

    列存储

    • 提高数据压缩

    • 提高数据访问效率

    云原生与跨平台的支持

    • 不绑定

    • 线上线下都支持

    讲到这里,相信大家对于巨杉数据库在数据湖中的应用实践也有了一定的了解,若还有疑问或想要了解更多,欢迎大家留言与我们交流。

    展开全文
  • 《福布斯》杂志将数据湖与数据仓库相比定义为:“数据湖与数据仓库的区别在于数据仓库中的数据在输入点被预先分类,这可以决定如何对其进行分析。” Gartner将数据湖定义为“作为企业级数据管理平台进行营销,用于以...

    Pentaho的CTO James Dixon在2010年创造了“数据湖”这个术语,并将其定义如下:“如果你把数据集市看作一个瓶装水的储存——清洁、包装和结构化以便于消费。将这个术语的数据版本和数据湖流的内容从源头转换为填充湖泊,并且该湖的各种用户可以前来检查、潜水或取样。”

    《福布斯》杂志将数据湖与数据仓库相比定义为:“数据湖与数据仓库的区别在于数据仓库中的数据在输入点被预先分类,这可以决定如何对其进行分析。”

    Gartner将数据湖定义为“作为企业级数据管理平台进行营销,用于以原生格式分析不同的数据源”。

    数据湖与数据仓库一样,是一套系统解决方案,数据湖的建设是从数据的角度出发进行数据展现、分析、挖掘。进而解决业务痛点。数据湖囊括了各种各样的规模化数据,可帮助用户快速就绪新增业务流程。同时各业务系统数据彼此关联分析更能发现新的数据价值,为企业增加数据资产。

    数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要应用是对企业中的所有数据进行统一存储,从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON 的日志),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像、音频、视频)从而形成一个集中式数据存储容纳所有形式的数据。

    让我们先看看开源hadoop平台上的数据库都有哪些?如何更好地选择和使用这些数据库

    1、Hive数据库,批量分析处理的最佳选择

    Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。它利用MR进行数据分析处理,架构简单,运行稳定,但是执行效率差,耗时长。它不是一个关系数据库,无法实现联机事务处理(OLTP)和实时查询和行级更新。下图是Hive数据库的整体架构:
    在这里插入图片描述
    2、HBase数据库,实时并发查询最佳选择
    HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。数据库采用key-value的数据存储结构,可以实现海量数据的毫秒级的查询响应。由于它是nosql数据库,不提供sql支持,使用不灵活,开发维护难度大。下图是HBase数据库的整体架构:
    在这里插入图片描述
    数据湖的主要应对的场景是海量数据存储,批量数据分析处理、实时业务查询检索应用;采用的架构是hadoop大数据平台架构,如果采用上述两种数据库,提供离线数据处理和在线实时业务查询服务,需要部署两个数据库,而且数据还需要迁移,数据要进行冗余备份存储。是否一款数据库既能支持离线分析处理,又能支持在线实时访问?答案是确定的,存在,就是HTAP数据库。HTAP是混合 OLTP 和 OLAP 业务同时处理的数据库系统,2014年Garnter公司给出了严格的定义:混合事务/分析处理(HTAP)是一种新兴的应用体系结构,它打破了事务处理和分析之间的“墙”。它支持更多的信息和“实时业务”的决策。因此,HTAP数据是非常适合数据湖框架的数据库选型。

    天云数据结合业内大数据相关数据库使用经验,研发一款HTAP数据库—HUBBLE(Hubble Volume Transaction Distributed-Engine)。一款高可用、可扩展、具备健壮性的分布式实时事务数据库,支持上千个用户并发的实时查询,可以实现在线实时场景和批量数据分析场景的能力。HUBBLE分布式数据库将数据可以实现实时在线写入能力,同时也可以通过bluckload方式进行数据加载,通过标准的SQL进行数据分析查询和检索。在线查询性能基本为毫秒级,批量分析比hive性能高1000倍。下图是Hubble数据库的整体架构:
    在这里插入图片描述
    结论:数据湖使用一套数据存储资源池,可有效解决企业中的数据烟囱问题,利用HTAP数据库,提供统一的命名空间,多协议互通访问,实现数据资源的高效共享,减少数据移动,支持OLAP和OLTP混合的应用场景。HTAP数据库在数据湖框架中的应用,可以加速数据库行业解决方案落地。

    展开全文
  • 在传统的数据库系统(以及最初的基于Hadoop的数据湖)中,存储计算服务器紧密结合。服务器要么有内置的存储,要么直接连接到存储。 在现代基于云的数据湖架构中,数据存储和计算是独立的。数据被保存在云对象存储...
    在数据库和数据湖的工作中,有几个关键的概念性差异。在这篇文章中,让我们来确定其中的一些差异,这些差异在第一眼看到时可能并不直观,特别是对于具有强大关系型数据库背景的人来说。

    数据库和数据湖的关键概念性差异数据库和数据湖的关键概念性差异

    服务器是一次性的。数据在云中。

    解耦存储和计算。在谈论数据湖时,这是一个典型的问题。

    在传统的数据库系统(以及最初的基于Hadoop的数据湖)中,存储与计算服务器紧密结合。服务器要么有内置的存储,要么直接连接到存储。

    在现代基于云的数据湖架构中,数据存储和计算是独立的。数据被保存在云对象存储(例如:AWS S3、Azure Storage)中,通常是以一种开放的格式,如parquet,而计算服务器是无状态的,它们可以在必要时启动/关闭。

    拥有一个解耦的存储和计算使。

    1. 降低计算成本。服务器在必要时运行。当不使用时,它们可以被关闭,从而降低了计算成本。
    1. 可扩展性。你不必为高峰期的使用而购置硬件。服务器/中央处理器/内存的数量可以根据当前的使用情况动态地增加/减少。
    1. 沙盒化。相同的数据可以被多个计算服务器/集群同时读取。这使得你可以让多个团队在不同的集群中并行工作,读取相同的数据,而不影响彼此。
    1. RAW数据才是王道!策划的数据只是衍生的。

    在数据库范式中,来自源系统的数据被转化并加载到数据库表中后,它就不再有用了。在数据湖范式中,RAW数据被保留为真理的源泉,最终永远保留,因为它是真正的资产。

    然而,RAW数据通常不适合商业用户的消费,因此它要经过一个策划过程,以提高其质量,提供结构并方便消费。经过整理的数据最终被储存起来,供数据科学团队、数据仓库、报告系统以及业务用户的一般消费使用。

    数据库和数据湖的关键概念性差异数据库和数据湖的关键概念性差异

    典型的数据湖消费者只看到策划过的数据,因此他们对策划过的数据的重视程度远远超过产生这些数据的RAW数据。

    然而,数据湖的真正资产是RAW数据(连同策展管道),从某种意义上说,策展的数据类似于一个可以随时刷新的物化视图。

    主要收获:

    1. 可以在任何时候从RAW中重新创建。
    1. 可以通过改进策展过程来重新创建。
    1. 我们可以有多个策划好的视图,每个视图都用于特定的分析。

    今天做出的模式决定不会制约未来的需求

    通常情况下,信息需求会发生变化,一些原先没有从源头/运营系统中收集的信息需要被分析。

    在一个典型的情况下,如果原始的RAW数据没有被存储,历史数据就会永远丢失。

    然而,在数据湖架构中,今天决定不把某个字段加载到策划的模式中,以后可以推翻,因为所有的详细信息都安全地存储在数据湖的RAW区域,历史策划的数据可以用额外的字段重新创建。

    数据库和数据湖的关键概念性差异数据库和数据湖的关键概念性差异

    主要收获:

    1. 如果你现在不需要,就不要花大量的时间去创建一个通用的一刀切的策划模式。
    1. 迭代地创建一个策划的模式,从添加你现在需要的字段开始。
    1. 当需要额外的字段时,将它们添加到策展过程中并重新处理。

    最后的思考

    数据湖不是数据库的替代品,每种工具都有它的优势和致命弱点。

    将数据湖用于OLTP可能是一个坏主意,就像使用数据库来存储数千兆字节的非结构化数据一样。

    我希望这篇文章有助于阐明两个系统之间的一些关键设计差异。

    展开全文
  • 数据仓库与数据湖 当企业从运营系统获得大量数据可用于分析时,他们通常会选择数据仓库或数据湖泊。数据仓库通常作为单一数据源,存储着经过清理和分类的历史数据。数据库中的数据可能不准确,并可能来自企业运营...

    数据仓库与数据湖

    当企业从运营系统获得大量数据可用于分析时,他们通常会选择数据仓库或数据湖泊。数据仓库通常作为单一数据源,存储着经过清理和分类的历史数据。数据库中的数据可能不准确,并可能来自企业运营系统之外,它并不适合普通业务分析用户。实际的仓库和湖泊:仓库存储来自特定来源的计划好的货物,而湖泊来自河流、溪流和其他来源,且都是原始内容。

    数据仓库和数据集市
    数据集市通常是数据仓库的子集,其中的数据通常来自数据仓库—尽管可能来自其他来源。发送到数据集市的数据主要是针对特定用户群(例如销售团队)并经过整理,以便用户能够快速找到所需数据。这些数据用于特定目的,例如财务分析。数据集市比数据仓库小得多,只有数十亿字节,而数据仓库可容纳数百千兆字节到数拍字节数据。 数据集市可从现有数据仓库或其他数据源系统构建,通过设计和构建数据库表,使用相关数据填充数据表并决定谁可以访问它即可。

    关系型数据库与数据仓库及数据湖
    数据仓库和数据湖与关系型数据库系统的主要区别在于,关系型数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据,而数据仓库用于保存来自多个来源的结构化数据。数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。 关系型数据库创建起来相对简单,可用于存储和整理事务数据。关系型数据库的缺点是它们不支持非结构化数据或现在生成的大量数据。这让我们需要在数据仓库和数据湖中做出选择。尽管如此,很多企业仍然依赖关系型数据库来完成运营数据分析或趋势分析等任务。

    展开全文
  • 近来数据湖日益流行,而且往往与数据仓库相对比。认识到二者之间存在许多差异,不应该以同样的方式使用是十分重要的。 数据仓库保存组织中各种来源的大量数据,用于指导管理决策,而数据湖是数据存储库或简称存储库...
  • 其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为了处理大数据量,擅长处理非结构化数据。 我们通常会将...
  • 一、数据架构与数据模型 在数据资产化浪潮汹涌而来的时候,数据平台,数据中台,数据湖等平台也成为了企业的数据资产化建设的的‘基建项目’,数据模型是这个基建项目的核心内容之一,贯穿了整个数据架构。 数据...
  • 什么是数据湖 如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 数据湖从企业的多个数据源获取...1. 数据湖与企业的关系
  • 数据湖的现实梦想

    千次阅读 2019-06-25 00:01:35
    下面我们就给大家介绍一下数据湖数据库的相关知识。 那么什么是数据湖呢?其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制...
  • 数据湖和Hudi

    2021-02-18 10:22:47
    目录1 数据湖1.1 什么是数据湖?...是一种数据存储策略,并不具体的某个技术框架关联,数据库、数据仓库也一样; 是专注于原始数据保真以及低成本长期存储的存储设计模式,相当于是对数据仓库的补充; 是用于长期存
  • 简单对比下数据湖与数据仓库。 数据湖存储起来非常方便,为了保证敏捷开发,是无需管理的,对吗? Apache Hudi是干什么的?仅仅实现增删改查吗? 基于Hudi的数据湖数据是以什么方式存储的? Hudi有元数据吗?元...
  • 浅谈数据湖

    2020-10-01 10:47:17
    一、数据湖的定义二、数据湖的参考架构 1、数据集成能力(数据接入) 2、数据存储 3、数据搜索 4、数据治理 5、数据质量 6、安全管控 7、自助数据发现三、数据湖与数据仓库的区别四、数据湖的优势 一、数据湖的定义...
  • 数据3分钟由 ACDU (中国 DBA 联盟) 墨天轮联合出品的全新视频节目上线啦~三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布、公司大事件、行业新闻等。本期...
  • 文章目录金融信贷数仓项目项目背景1、数据仓库理论1.1 什么是数据仓库1.2 数据仓库四大特征1.3 数据仓库作用1.4 数据仓库与数据库的区别1.5 数据集市1.6 数据仓库建模方法1.6.1 ER模型1.6.2 维度模型1.7 数据仓库...
  • 课题二基于Flink+Hudi构建企业万亿级云上实时数据湖教程 随着互联网的发展,数据的不断膨胀,从刚开始的关系型数据库到非关系型数据库,再到大数据技术,技术的不断演进最终是随着数据膨胀而不断改变,最初的数据...
  • 初识数据湖

    2020-07-18 22:59:28
    数据管理面临的挑战和转变 随着大数据技术日益成熟,...2)传统数据库不能应对数据的增长,数据ETL、数据建模工作的响应速度与数据反哺业务迭代创新之间的挑战;例如:移动互联网和物联网时代,产生了大量的网站数据
  • 下面我们就给大家介绍一下数据湖数据库的相关知识。 2010年,James Dixon提出数据湖(Data Lake)的概念。 2011年Dan Woods在福布斯发表“大数据需要更大的新架构”(Big Data Requires a Big New Architecture...
  • 近期,经广州巨杉软件开发有限公司上海上讯信息技术股份有限...巨杉数据库SequoiaDB具有引擎级多模、多计算实例兼容、生态兼容等特性,在「湖仓一体」化的架构下,可以帮助企业构建全新的融合数据平台,打破数据湖...
  • 文章目录从数据仓库到数据湖——浅谈数据架构演进martin-flower-about-Datalake数据仓库的架构设计 数据库–>数据仓库–>数据湖的架构演变,反映的是数据需求变更 了解最近技术发展动态,记录一下相关...
  • 2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,...
  • 数据湖架构--DeltaLake

    2021-02-01 20:00:17
    DeltaLake是一个开源的存储层,它为大数据的读写带来了ACID的能力,通过快照隔离机制为HDFS提供了读写一致性的保证,同时DeltaLake提供内部版本的跟踪更能,使得用户...数据稳定性问题,传统关系性数据库相比,大数
  • 数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点...
  • 2010年左右,还是在上学的时候,学过一门课程叫《数据仓库与数据挖掘》,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在苦苦学习这些之时,...
  • 本次兼容性互认证经巨杉数据库与中软融鑫公司联合测试得出:产品运行稳定、相互兼容、性能卓越,能够更好的为企业级客户提供全方面的数据保障。 巨杉数据库是基于「仓一体」的金融级分布式数据库,独创四级...
  • 然而,任何新兴技术一样,不存在放之四海而皆准的解决方案:数据湖可能非常适合某些场景,但在其他情况下,坚持使用经实践检验过的数据库架构将是更好的解决方案。在本文中,我们将研究四个指标,它们应该有...
  • 数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点...
  • 本课程基于真实的企业数据湖案例进行讲解,结合业务实现数据湖平台,让大家在实践中理解和掌握数据湖技术,未来数据湖的需求也会不断加大,希望同学们抓住这个机遇。项目中将以热门的互联网电商业务场景为案例讲解...
  • 导读:数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心...
  • 下一代数据湖技术的关键在于In-memory处理的普及+能够在单一环境下支持多重数据分析负载的架构。 文中表示,Pivotal Big Data Suite一直以来的理念...然而随着高性能内存的性价比越来越高,内存数据库的相关技术企业
  • 一、数据湖背景中的数据摄取层 数据摄取层是数据湖的一个核心功能层,如果需要处理来自不同应用的流式和批量数据,则该层至关重要。 1、数据摄取层 数据摄取指的是获取或导入数据用于中间处理或存储到数据库的...

空空如也

空空如也

1 2 3 4
收藏数 78
精华内容 31
关键字:

数据库与数据湖