精华内容
下载资源
问答
  • 数据湖 数据仓库 数据集市 数据湖是一个系统或存储库,它以原始格式存储数据以及转换后的可信数据集,并提供对这些数据的编程访问和基于SQL的访问,以执行各种分析任务,例如数据探索,交互式分析和机器学习。...

    数据湖 数据仓库 数据集市

    数据湖是一个系统或存储库,它以原始格式存储数据以及转换后的可信数据集,并提供对这些数据的编程访问和基于SQL的访问,以执行各种分析任务,例如数据探索,交互式分析和机器学习。 存储在数据湖中的数据可以包括来自关系数据库的结构化数据(行和列),半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频视频)。

    数据湖的挑战不会陷入专有格式或系统中。 此锁定限制了将数据移入和移出以供其他用途或使用其他工具处理数据的能力,并且还可以将数据湖绑定到单个云环境。 这就是为什么企业应该努力建立开放数据湖的原因,其中数据以开放格式存储并通过基于标准的开放接口进行访问。 坚持开放的哲学应该渗透到系统的每个方面,包括数据存储,数据管理,数据处理,操作,数据访问,治理和安全性。

    [ 也在InfoWorld上:深度学习与机器学习:理解差异 ]

    开放格式是一种基于底层开放标准的格式,它是通过公共的,社区驱动的过程开发和共享的,没有特定于供应商的专有扩展。 例如,开放数据格式是独立于平台的机器可读数据格式,例如ORC或Parquet,其规范已发布到社区,因此任何组织都可以创建工具和应用程序以读取该格式的数据。

    典型的数据湖具有以下功能:

    • 数据提取和存储
    • 数据处理和对连续数据工程的支持
    • 数据访问和消费
    • 数据治理,包括发现性,安全性和合规性
    • 基础设施和运营

    在以下各节中,我们将描述每种功能的开放性要求。

    数据提取和存储

    开放的数据湖从诸如应用程序,数据库,数据仓库和实时流之类的源中提取数据。 它将数据格式化并存储为开放数据格式,例如ORC和Parquet,它是独立于平台,机器可读的,针对快速访问和分析进行了优化,并且可以不受限制地提供给消费者使用,而不会妨碍重复使用该信息。

    开放数据湖支持基于拉式和基于推式的数据提取。 它支持通过批处理数据管道进行基于拉取的提取,并通过流处理来支持基于推送的提取。 对于这两种类型的数据摄取,开放数据湖都支持用于编写数据转换的开放标准,例如SQLApache Spark 对于批处理数据管道,它支持对湖中的数据集进行行级插入和更新(UPSERT)。 具有快照隔离功能(更常见的是ACID语义)的Upsert功能极大地简化了任务,与重写数据分区或整个数据集相反。

    开放数据湖的接收功能可确保零数据丢失,并且一次写入或一次写入,处理架构可变性,以最优化的数据格式写入正确的分区,并提供重新写入数据的能力。需要。

    数据处理和对连续数据工程的支持

    开放数据湖以标准化的开放格式存储来自各种数据源的原始数据。 但是,诸如数据探索,交互式分析和机器学习之类的用例要求对原始数据进行处理,以创建用例驱动的受信任数据集。 对于数据探索和机器学习用例,用户不断优化数据集以满足其分析需求。 因此,每个数据湖实施都应使用户能够在数据工程和用例(例如交互式分析和机器学习)之间进行迭代。 可以将其视为连续数据工程,它涉及编写,监视和调试数据管道的交互功能。 在开放数据湖中,这些管道是使用标准接口和开放源代码工具(例如SQL,Python,Apache Spark和Apache Hive)编写的。

    数据访问和消费

    数据湖最明显的结果就是它启用的用例类型。 无论用例是数据探索,交互式分析还是机器学习,访问数据都是至关重要的。 可以通过SQL或Python,R和Scala等编程语言来访问数据。 尽管SQL是交互式分析的规范,但程序语言用于机器学习和深度学习等更高级的应用程序。

    开放数据湖通过不带专有扩展的基于标准SQL实现支持数据访问。 它使外部工具能够通过ODBC和JDBC等标准访问该数据。 此外,开放的数据湖支持通过标准编程语言(例如R,Python和Scala)以及用于数值计算和机器学习的标准库(例如TensorFlow,Keras,PyTorch,Apache Spark MLlib,MXNet和Scikit)以编程方式访问数据-学习。

    数据治理–可发现性,安全性和合规性

    如果很好地实施数据提取和访问,则可以使数据以民主化的方式广泛地提供给用户。 当多个团队开始访问数据时,数据架构师需要对治理,安全性和合规性进行监督。

    数据发现

    数据本身很难找到和理解,而且并不总是可信赖的。 用户需要能够发现和分析数据集完整性的功能,然后才能信任自己的用例。 数据目录通过不同的机制丰富了元数据,将其用于记录数据集,并支持搜索界面以帮助发现。

    由于第一步是发现所需的数据集,因此至关重要的是,将元数据提供给最终用户以进行探索,查看数据所在的位置及其包含的内容,并确定其是否对回答特定问题有用。 发现包括数据分析功能,该功能支持对数据集进行交互式预览,以使您对格式,标准化,标签,数据形状等有所了解。

    开放的数据湖应具有开放的元数据存储库。 例如,Apache Hive元数据存储库是一个开放的存储库,可防止供应商锁定元数据。

    安全

    越来越多的数据可访问性要求数据湖支持强大的访问控制和安全功能。 要开放,数据湖应该通过非专有的安全和访问控制API来做到这一点。 例如,与开放源代码框架(例如Apache Ranger和Apache Sentry)的深度集成可以促进表级,行级和列级的粒度安全。 这使管理员可以授予对企业目录(如Active Directory)中已定义的用户角色的权限。 通过基于开放源代码框架的访问控制,开放数据湖可避免由于专有安全性实施而导致的供应商锁定。

    合规

    新的或扩展的数据隐私法规,例如GDPR和CCPA,围绕“擦除权”和“被遗忘权”提出了新要求。 这些规则支配着消费者关于其数据的权利,并对违规行为处以严厉的经济处罚(高达全球营业额的4%),因此绝对不能忽视它们。 因此,删除特定数据子集而不中断数据管理过程的能力至关重要。 开放数据湖通过开放格式和开放元数据存储库支持此功能。 通过这种方式,它们可以使供应商不可知的解决方案满足合规性需求。

    基础设施和运营

    无论数据湖是部署在云中还是内部部署,每个云提供商都具有特定的实施方案来配置,配置,监视和管理数据湖及其所需的资源。 开放的数据湖与云无关,并且可在任何云本地环境(包括公共云和私有云)中移植。 从经济学,安全性,治理和敏捷性的角度来看,这使管理员可以利用公共云和私有云的优势。

    [ 通过InfoWorld Daily新闻通讯了解软件开发,云计算,数据分析和机器学习方面的最新发展 ]

    开放创新

    数据量,速度和种类的增加,再加上新类型的分析和机器学习,使得数据湖成为更传统数据仓库的必要补充。 数据仓库主要存在于专有格式,专有SQL扩展和专有元数据存储库的世界中,并且缺乏对数据的编程访问。 数据湖不需要遵循这种专有路径,这会导致创新受限和成本上升。 精心设计的开放式数据湖提供了可靠的,面向未来的数据管理系统,可满足各种数据处理需求,包括数据探索,交互式分析和机器学习。

    阿希什Thusoo是联合创始人兼首席执行官Qubole 在与他人共同创立Qubole之前,Ashish负责管理Facebook的数据基础架构团队。 在他的领导下,Facebook数据基础架构团队构建了世界上最大的数据处理和分析平台之一,并创建了一系列工具,技术和模板,这些工具,技术和模板已在当今整个行业中使用。

    -

    新技术论坛提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。 选择是主观的,是基于我们选择的技术,我们认为这些技术对InfoWorld读者来说是重要的,也是他们最感兴趣的。 InfoWorld不接受发布的营销担保,并保留编辑所有贡献内容的权利。 将所有查询发送到 newtechforum@infoworld.com

    翻译自: https://www.infoworld.com/article/3534516/is-your-data-lake-open-enough-what-to-watch-out-for.html

    数据湖 数据仓库 数据集市

    展开全文
  • 数据库 数据仓库 数据集市 Implementing best data warehouse designs and practices such as data lineage reduces the need to ever have to restore an entire relational data warehouse. However, sometimes ...

    数据湖 数据仓库 数据集市

    Implementing best data warehouse designs and practices such as data lineage reduces the need to ever have to restore an entire relational data warehouse. However, sometimes there are instances whereby you have inherited poorly designed data warehouse environments that leaves you with no other options but to perform an entire database restore in an event of a sudden disaster. I recently found myself in a similar situation of having to recover one of my data mart following a data integrity issue wherein all data of a type 1 dimension was updated/overwritten using an incorrect source file. In this article I take a look at how different approaches can be utilised to restore the compromised SQL Server-based data mart back to its “good state”.

    实施最佳的数据仓库设计和实践(例如数据沿袭)可以减少恢复整个关系数据仓库的需要。 但是,有时在某些情况下您继承了设计不佳的数据仓库环境,使您别无选择,只能在发生突发灾难时执行整个数据库还原。 最近,我发现自己处于类似的情况,因为数据完整性问题(其中使用错误的源文件更新/覆盖了所有类型1维的所有数据),不得不恢复我的一个数据集市。 在本文中,我将探讨如何利用不同的方法将已损坏的基于SQL Server的数据集市恢复到“良好状态”。

    背景 (Background)

    Likewise, such a topic is better discussed through practical examples. Thus, below are the details of a fictitious data warehouse that I will refer to throughout this article. Figure 1 indicates my fictitious data warehouse, selectSIFISOBlogs2014, as well as a recently restored backup of the same data warehouse labelled selectSIFISOBlogs2014_BAK.

    同样,可以通过实际示例更好地讨论这一主题。 因此,下面是我将在本文中引用的虚拟数据仓库的详细信息。 图1指示了我的虚拟数据仓库selectSIFISOBlogs2014,以及最近恢复的相同数据仓库的备份,该备份标签为selectSIFISOBlogs2014_BAK


    Both selectSIFISOBlogs2014 and selectSIFISOBlogs2014_BAK contains dimensions and fact objects that relate to each other in a multidimensional star schema, as shown in Figure 2.

    selectSIFISOBlogs2014selectSIFISOBlogs2014_BAK都包含多维星型架构中彼此相关的维和事实对象, 如图2所示。


    The customer dimension is the compromised object that has recently been updated with an incorrect source. For instance, Figure 3-4 compares the two versions of customer dimension, as it can be seen that whilst the version in the selectSIFISOBlogs2014_BAK contains correct customer name values the version in selectSIFISOBlogs2014 has been updated using method of payment (MOP) source file in such a way that customer name values are now set to either CASH or ELECTRONIC.

    客户维度是最近使用不正确来源更新的受害对象。 例如, 图3-4客户维度的两个版本进行比较,因为这可以看出,虽然在selectSIFISOBlogs2014_BAK版本包含正确的客户名称值selectSIFISOBlogs2014的版本已经使用支付(MOP)源文件的方法,在这样的更新现在可以将客户名称值设置为CASHELECTRONIC



    Another significant change between the data in the two versions of the data warehouse is the amount of data they each possess. Script 1 makes use of an EXCEPT T-SQL clause to identify differences in the fruit dimension between the two data warehouse environments.

    两个版本的数据仓库中的数据之间的另一个重要变化是它们各自拥有的数据量。 脚本1使用EXCEPT T-SQL子句来识别两个数据仓库环境之间的水果维度上的差异。

     
    SELECT [FruitKey]
          ,[FruitName]
          ,[InsertDate]
    FROM [selectSIFISOBlogs2014].[DIM].[Fruit]
    EXCEPT
    SELECT [FruitKey]
          ,[FruitName]
          ,[InsertDate]
    FROM [selectSIFISOBlogs2014_BAK].[DIM].[Fruit]
     
    

    The results of Script 1 execution are shown in Figure 5 and they indicate that the fruit dimension in the backup database is missing an entry that contains an apricot fruit.

    执行脚本1的结果如图5所示,它们表明备份数据库中的水果维度缺少包含杏果实的条目。


    Not surprisingly, as shown in Figure 6 the results of comparing the FruitSales fact table indicates that the selectSIFISOBlogs2014 database has one more transaction relating to the sale of apricots than its counterpart in the backup database.

    毫不奇怪, 如图6所示, FruitSales事实表的比较结果表明, selectSIFISOBlogs2014数据库与杏销售相关的交易比备份数据库中的对应交易多。


    方法1:完整数据仓库还原 (Approach 1: Full Data Warehouse Restore)

    Given the discrepancies observed in the two versions of customer dimensions, the simplest way of restoring this dimension to a previous “good state” is by conducting a full database restore of. Figure 7 shows a restore of selectSIFISOBlogs2014 data warehouse environment using the Restore Database wizard in SQL Server Management Studio (SSMS).

    鉴于在两个版本的客户维度中都观察到差异,将这个维度还原到先前的“良好状态”的最简单方法是对它进行完整的数据库还原。 图7显示了使用SQL Server Management Studio(SSMS)中的“还原数据库”向导还原selectSIFISOBlogs2014数据仓库环境。


    1. Pros and Cons of a Full Data Warehouse Restore

      完整数据仓库还原的利与弊

      An obvious benefit of this approach is that it is so simple that you don’t need to depend on a data warehouse team to run with the restore operation as even your typical SQL Server DBA can easily perform this operation. Unfortunately, simplicity of this approach can be its very own disadvantage. For instance, with this approach you are likely to lose any changes (i.e. data changes, table structure changes, etc.) that you would have made after the backup was created. This means that in the case of our fictitious data warehouse we are going to lose the information relating to the apricot transaction.

      这种方法的一个明显好处是它是如此简单,以至于您无需依赖数据仓库团队来执行还原操作,因为即使您的典型SQL Server DBA都可以轻松地执行此操作。 不幸的是,这种方法的简单性可能是其自身的缺点。 例如,使用这种方法,您很可能会丢失创建备份后所做的任何更改(即,数据更改,表结构更改等)。 这意味着,对于我们的虚拟数据仓库,我们将丢失与杏交易有关的信息。

      Therefore, although this approach is easy to implement, it may result into some undesirable outcomes (i.e. loss of data). It is therefore recommended that prior to its implementation that you consult with consumers of your data warehouse environment on the potential consequences of this approach.

      因此,尽管此方法易于实施,但可能会导致某些不良后果(即数据丢失)。 因此,建议在实施此方法之前,先就此方法的潜在后果咨询数据仓库环境的使用者。

    方法2:部分数据仓库还原 (Approach 2: Partial Data Warehouse Restore)

    Instead of restoring the entire database, we can also just restore only the affected customer dimension which will ensure that we avoid data loss in the fruit dimension and fruit sales fact table. Unlike its counterpart, the partial data restore approach involves several steps:

    除了还原整个数据库,我们还可以仅还原受影响的客户维度,这将确保我们避免水果维度和水果销售事实表中的数据丢失。 与相应的方法不同,部分数据恢复方法涉及以下步骤:

    1. Ensure that both the current version and backup version of databases are online

      确保数据库的当前版本和备份版本都处于联机状态

      In our case we need to ensure that selectSIFISOBlogs2014 and selectSIFISOBlogs2014_BAK databases are online.

      在我们的案例中,我们需要确保selectSIFISOBlogs2014selectSIFISOBlogs2014_BAK数据库处于联机状态。

    2. Copy data to replace compromised object(s)

      复制数据以替换受损的对象

      In this step you have to restore the selected table from the backup database. This can be done using SQL Server Integration Services (SSIS) packages, or T-SQL. Another method would be to drop the current version of the customer dimension and recreate it using the SSMS Import and Export wizard as shown in Figure 8-9.

      在此步骤中,您必须从备份数据库中还原选定的表。 可以使用SQL Server Integration Services(SSIS)程序包或T-SQL来完成。 另一种方法是删除客户维度的当前版本,并使用SSMS导入和导出向导重新创建它, 如图8-9所示。



      Figure 8: Import Data Wizard
      图8:导入数据向导



      Figure 9: Choosing to copy Customer dimension
      图9:选择复制客户维度
    1. Pros and Cons of a Partial Data Warehouse Restore

      部分数据仓库还原的利与弊

      The benefit of this approach is that the restore will only affect selected data warehouse objects and as a result it will not overwrite the entire environment which could be costly. Unfortunately, this approach has several drawbacks too:

      这种方法的好处是还原将只影响选定的数据仓库对象,因此不会覆盖可能会造成高昂成本的整个环境。 不幸的是,这种方法也有几个缺点:

    1. Import data wizard creates heaps

      导入数据向导创建堆

      To illustrate this point let’s look at the original definition of the customer dimension in Script 2, as it can be seen, it has several constraints that are crucial to the data consistency and integrity of this dimension.

      为了说明这一点,让我们看一下脚本2中客户维度的原始定义,可以看出,它具有几个约束,这些约束对于该维度的数据一致性和完整性至关重要。

       
      CREATE TABLE [DIM].[Customer](
      	[CustomerKey] [int] IDENTITY(1,1) NOT NULL,
      	[CustomerCode] [varchar](50) NOT NULL,
      	[CustomerName] [varchar](250) NOT NULL,
      	[InsertDate] [datetime] NOT NULL DEFAULT (getdate()),
       CONSTRAINT [PK_CustomerKey] PRIMARY KEY CLUSTERED 
      (
      	[CustomerKey] ASC
      )WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
      ) ON [PRIMARY]
       
      

      Script 2: Customer dimension script with constraints
      脚本2:具有约束的客户维度脚本

      However, the import wizard led to a creation of a dimension that is missing default constraints and primary key, as shown in Script 3.

      但是,导入向导导致创建缺少默认约束和主键的维,如脚本3所示。

       
      CREATE TABLE [DIM].[Customer](
      	[CustomerKey] [int] NOT NULL,
      	[CustomerCode] [varchar](50) NOT NULL,
      	[CustomerName] [varchar](250) NOT NULL,
      	[InsertDate] [datetime] NOT NULL
      ) ON [PRIMARY]
       
      

      Script 3: Customer dimension script without constraints
      脚本3:无限制的客户维度脚本

      An obvious work around to this would be to modify the table after the restore and add those missing constraints back to the dimension or fact table. Another workaround, instead of using the import wizard, would be to restore the selectSIFISOBlogs2014_BAK database on the same/linked server as selectSIFISOBlogs2014; drop and recreate the customer dimension and then use T-SQL (which will include temporarily disabling identity insert) to populate the compromised dimension as shown in Script 4.

      解决此问题的一个明显方法是在还原后修改表,并将缺少的约束添加回维表或事实表。 另一种解决方法,而不是使用导入向导,将还原相同/链接服务器作为selectSIFISOBlogs2014selectSIFISOBlogs2014_BAK数据库; 删除并重新创建客户维度 然后使用T-SQL(将包括暂时禁用身份插入)来填充受损的维度,如脚本4所示。

       
      SET IDENTITY_INSERT [selectSIFISOBlogs2014].[DIM].[Customer] ON
       
      INSERT INTO [selectSIFISOBlogs2014].[DIM].[Customer]
      ([CustomerKey]
            ,[CustomerCode]
            ,[CustomerName]
            ,[InsertDate])
      SELECT ([CustomerKey]
            ,[CustomerCode]
            ,[CustomerName]
            ,[InsertDate]
      FROM [selectSIFISOBlogs2014_BAK].[DIM].[Customer]
       
      SET IDENTITY_INSERT [selectSIFISOBlogs2014].[DIM].[Customer] OFF
       
      

      Script 4: Insert statement with identity insert
      脚本4:带有标识插入的Insert语句
    2. Different resources required

      需要不同的资源

      As mentioned earlier this approach is complex and unlike the full restore approach you cannot just rely on a DBA – instead a data warehouse developer will have to be involved to write T-SQL statements or SSIS packages.

      如前所述,这种方法很复杂,与完全还原方法不同,您不能仅依靠DBA,而是必须由数据仓库开发人员来编写T-SQL语句或SSIS包。

    结论 (Conclusion)

    In this article we have demonstrated, by using a fictitious data warehouse, the different approaches available to successfully restore a data warehouse environment. The benefits and disadvantages of such approaches were discussed with a recommendation that whenever possible you should inform consumers of your data warehouse environment about any planned changes to the environment.

    在本文中,我们通过使用虚拟数据仓库演示了可用于成功还原数据仓库环境的不同方法。 讨论了这种方法的优点和缺点,并建议您尽可能将有关计划中的环境更改告知数据仓库环境的使用者。

    参考 (Reference)

    翻译自: https://www.sqlshack.com/two-methods-restoring-data-warehousedata-mart-environment/

    数据湖 数据仓库 数据集市

    展开全文
  • 数据仓库数据集市数据湖

    千次阅读 2019-11-03 19:44:15
    一、数据仓库数据集市的概念 二、数据集市的特点 三、数据仓库数据集市的区别 四、数据湖的出现 出现的原因: 数据湖的优点: 数据湖架构显著的特点: 五、数据仓库数据湖对比 一、数据仓库数据集市...

    目录

    一、数据仓库和数据集市的概念

    二、数据集市的特点

    三、数据仓库与数据集市的区别

    四、数据湖的出现

    出现的原因:

    数据湖的优点:

    数据湖架构显著的特点:

    五、数据仓库和数据湖对比


    一、数据仓库和数据集市的概念


         

            数据仓库:是一个集成的面向主题的数据集合,设计的目的是支持DSS(决策支持系统)的功能,在数据仓库里,每个数据单元都和特定的时间相关。数据仓库包括原子级别的数据和轻度汇总的数据。数据仓库是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
        不能将数据仓库简单地理解成一套软件,数据仓库是重建企业数据流和信息流的过程,在这个过程中,构造企业的决策支持环境,以区别原来的业务系统所构建的操作型环境。数据仓库的价值并不是你在仓库中所存储的数据量的多少,而关键在于从仓库中能够获得的信息和分析结果的质量。
          数据集市:是一个小型的部门或工作组级别的数据仓库。有两种类型的数据集市——独立型和从属型。独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据仓库获取数据。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定。
          独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市,当数据集市达到一定的规模可以直接转换为数据仓库,然而这是不正确的,多个独立的数据集市的累积并不能形成一个企业级的数据仓库,这是由数据仓库和数据集市本身的特点决定的。如果脱离集中式的数据仓库,独立的建立多个数据集市,企业只会又增加了一些信息孤岛,仍然不能以整个企业的视图分析数据,数据集市为各个部门或工作组所用,各个集市之间又会存在不一致性。当然,独立型数据集市是一种既成事实,为满足特定用户的需求而建立的一种分析型环境,但是,从长远的观点看,是一种权宜之计,必然会被企业级的数据仓库所取代。

    二、数据集市的特点

    数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的): 
    (1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。 
    (2) 支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。) 
    (3) 调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。 
    (4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。 
    (5) 为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短)。

    三、数据仓库与数据集市的区别

    数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近,或分布到更靠近用户的位置,放置在何处取决于使用和通讯成本。数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。
    数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。

    数据仓库是一个集中的、多用途的存储库, 在它的锁定和照顾下, 数据集市浮出水面, 作为为满足特定部门或业务功能的特定报告需求而构建的技术的一个子集。数据仓库是用自上而下的方法构建的, 存储详细的、结构化的数据,数据集市通常是从底层生成的, 其目的是提供选择数据的汇总形式。


    四、数据湖的出现

    出现的原因:

    更大、更多样的数据的出现–包括网络日志、图像、视频、直接消息等非结构化信息, 以及几乎无穷无尽的实时互联网数据流–给传统数据仓库/数据带来了挑战。集市体系结构根本没有能力处理。此外, 单一数据仓库存储库的集中远景从未完全具体化, 使得大多数组织都有少量的数据仓, 这会阻碍有效的决策。

    数据湖的优点:

    输入数据湖, 这是用于收集和处理数据的集中平台的最新格式副本, 这次使用的是一个平坦的、架构更少的体系结构, 通常围绕 Hadoop 构建, 并针对一般用途的数据处理进行调整。与数据仓库一样, 数据湖可以存储不同的数据源, 但相比之下, 数据不需要在采集过程中进行清理和转换。缺乏结构和预定义的架构使数据湖更具通用性, 使其非常适合于数据发现和更广泛的分析用例。此外, 数据湖能够实时地摄取和处理数据, 这更符合当今数字业务应用的紧迫性

    虽然有些人将数据湖作为数据仓库的替代品, 但许多数据管理专家并没有这样认为。相反, 他们认为这两种技术是互补的, 每个都为自己的用例服务。例如, 数据仓库非常适合于需要使用针对历史分析应用程序的预聚合和预集成信息的业务用户。另一方面,数据湖泊对数据科学家和其他想要使用原始数据的人来说是好的, 也许是为了构建基于机器学习的模型, 需要快速发现、探索和测试–与新一代的规定性和预测分析有了这样的基础结构, 组织就可以向前迈进下一代的数据驱动应用程序, 这将成为数字业务成功背后的引擎。

    数据湖架构显著的特点:

    1. 数据存储:大容量低成本
    2. 数据保真度:数据湖以原始的格式保存数据
    3. 数据使用:数据湖中的数据可以方便的被使用
    4. 延迟绑定:数据湖提供灵活的,面向任务的数据绑定,不需要提前定义数据模型

    五、数据仓库和数据湖对比

    展开全文
  • 数据湖数据集市数据仓库 每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。 数据湖 是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、...

    数据湖、数据集市、数据仓库

    每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。

    数据湖

    是一个存储企业的各种各样原始数据的大型仓库
    存储所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。
    数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求

    数据仓库

    只能对结构化数据进行处理,而且这些数据必须与数据仓库事先定义的模型吻合。
    处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满足后续的高级报表及数据分析需求。

    数据湖与数据仓库的差别很明显。然而,在企业中两者的作用是互补的,不应认为数据湖的出现是为了取代数据仓库,毕竟两者的作用是截然不同的。

    数据仓库与数据集市

    数据仓库中数据结构采用的规范化模式,三范式(关系数据库设计理论)是面向企业(数据粒度,最细的粒度
    数据集市的数据结构采用的星型模式,雪花模型、两者混合(多维数据库设计理论)是面相部门(数据粒度,较粗的粒度

    展开全文
  • 数据库, 数据仓库, 数据集市数据湖,数据中台

    千次阅读 多人点赞 2019-02-22 16:21:47
    数据仓库数据集市的区别 作者:修鹏李 出处:CSDN 大数据:数据仓库和数据库的区别 作者:南宫蓉 出处:简书 第一篇:数据仓库概述 第二篇:数据库关系建模 作者:穆晨 出处:CNBLOS 摘要 本文简要介绍...
  • 数据仓库数据湖 当企业从运营系统获得大量数据可用于分析时,他们通常会选择数据仓库或数据湖泊。数据仓库通常作为单一数据源,存储着经过清理和分类的历史数据。数据库中的数据可能不准确,并可能来自企业运营...
  • 数据仓库数据湖数据集市、和数据中台的故事

    千次阅读 多人点赞 2020-04-24 11:05:33
    数据仓库数据湖数据集市、和数据中台的故事 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且...
  • 数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持...数据集市数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包...
  • “人家都数据中台了,你还在做数据报表”“人家都数据湖了,你还在搞数据仓库”“阿里“拆中台”了,中台难道不香了”…… 到底为什么要做数据湖/数据中台,有什么价值呢?孰优孰劣?究竟我的公司是不是也要做数据...
  • 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,...数据集市(Data Mart) ,也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,...
  • 随着互联网的快速发展,越来越多的人涌进互联网,通过浏览器、智能终端、各种设备,产生了海量的数据,同时也产生了很多数据的概念,如数据库、数据仓库数据湖数据集市、数据中台等,这些概念相互交错,互相关联...
  • 点击上方蓝字关注数据玩家经常看到有人问这个问题,数据玩家也看过很多解释,感觉都不够直观,这里,我尝试用一个大家都理解的例子来说明。什么是数据仓库?大家都去宜家买过东西吧,还记得一楼的大仓...
  • 什么是数据仓库? 大家都去宜家买过东西吧,还记得一楼的大仓库不,你如果看中了某个家具,想要自己去仓库提货,一般都会记下商品上的编码: 这个编码对于顾客来说,肯定是没有任何含义的,看到这个编码,...
  • 伴随着企业数字化转型的浪潮,数据仓库数据集市数据湖、数据中台等术语“迎风而生”,那么这些术语到底有什么区别呢?企业数字化转型是不是都得做这些工作呢?为了让广大用户更好的理解这些术语,“i 说数据”...
  • 该术语由Pentaho的CTO James Dixon发明并首次描述,他在博客中写道:“如果您将数据集市视为瓶装水的存储库,经过清洗,包装和结构化以便于使用,那么数据湖就很大了。水体处于更自然的状态。数据湖的内容从源头流入...

空空如也

空空如也

1 2 3 4
收藏数 75
精华内容 30
关键字:

数据湖数据仓库数据集市