精华内容
下载资源
问答
  • 数据集市数据仓库区别 几乎所有公司都已经存在数据仓库很多年了。 尽管它们仍然与20年前一样好,并且与相同的用例相关,但是它们无法解决新的,现有的挑战,并且肯定会在不断变化的数字世界中出现。 接下来的...

    数据集市和数据仓库的区别

    几乎所有公司都已经存在数据仓库很多年了。 尽管它们仍然与20年前一样好,并且与相同的用例相关,但是它们无法解决新的,现有的挑战,并且肯定会在不断变化的数字世界中出现。 接下来的部分将阐明何时仍然使用数据仓库以及何时使用现代Live Datamart

    什么是数据仓库(DWH)?

    数据仓库是来自不同来源的集成数据的中央存储库。 它存储历史数据 ,以为整个企业的知识工作者创建分析报告。 DWH包括存储历史数据的服务器和用于分析和报告的客户端。

    ETL(提取-转换-加载)过程从同质或异类数据源(例如文件或关系数据库中提取数据,转换数据以将其以适当的格式或结构存储,以进行查询和分析。 数据通常是在长时间运行的批处理过程中从操作数据库传输到DWH。 当数据进入DWH时,它已经处于静止状态,并且已有几分钟,几小时甚至几天的时间。

    广泛使用的DWH是Teradata,EMC Greenplum或IBM Netezza。 客户端(通常称为商业智能(BI)或数据发现工具)是服务器产品的一部分(通常仅用于报告,例如每周或每月销售报告),或者是独立的解决方案(例如TIBCO Spotfire )为业务用户提供服务轻松发现数据以发现新模式或其他见解的能力报告的示例包括从年度和季度比较和趋势到详细的每日销售分析。

    最后,我们可以进一步将已部署并专注于单个主题或功能领域(销售,财务或市场营销)的某些数据仓库分类为Datamart。 接下来,我们探讨Live Datamart如何改善您的业务。

    什么是Live Datamart(LDM)?

    实时数据集市就像是数据仓库或从数据仓库派生的数据集市,但用于来自传感器,社交订阅源,交易市场和其他消息传递系统的实时流数据 。 它提供了基于推式的实时分析解决方案,使业务用户能够分析,预测和接收关键事件发生时的警报,并在事件或威胁发生时采取行动 。 您可以在升级发生时管理和覆盖升级。

    DWH的“静态数据库”的技术关键区别在于LDM服务器的连续查询引擎 ,该引擎可处理高速流数据,创建完全实现的实时数据表,管理来自客户端的临时查询并不断推送实时结果随着条件的实时变化。

    流数据在一个用户界面( 单个LDM客户端)中被摄取,规范化和查看。 客户可以

    • 富客户端 ,通过“拖放”用户界面对表格,图表和查询提供开箱即用的支持
    • 使用Java或.NET API自行开发的自定义富客户端
    • 使用HTML5和JavaScript等标准将Web用户界面集成到网站,门户或移动应用程序中

    从最终用户的角度来看,LDM客户端可以由高级用户使用,例如其笔记本电脑,大屏幕上的运营中心或使用平板电脑的客户现场人员。 当然,如果适当的话,事件也可以自动处理(例如,向另一个系统发送警报)。

    历史数据与实时数据的结合

    当然, Live Datamart也可以连接到历史数据库并定义要针对该数据库执行的查询。 对于最终用户而言,LiveView使历史表看起来像实时表,这使用户可以通过一个用户界面以相同的方式访问实时和历史两种数据类型。 此外, Live Datamart还可以基于其已捕获的实时数据轻松地填充历史数据库 ,无论是批量处理日末负载还是并行捕获。 有关某些示例用例, 请参见此博客文章

    TIBCO Live Datamart是市场上唯一可用的选项,您可以在其中将自动流分析和主动的人机交互与一个工具集结合在一起

    什么时候使用哪个?

    本质上,传统的数据仓库或Datamart可以帮助管理基于昨天的数据,而Live Datamart可以帮助管理日内数据。

    结合使用数据仓库和商业智能工具来分析和报告历史数据 。 这样,您可以就收入,成本和其他KPI分析和比较不同的策略,部门,财务数据,订单信息等。 您还可以在历史数据中找到模式,并通过针对新事件的流分析实时实现这些模式(例如,欺诈检测,预测性故障管理,交叉销售)。

    使用Live Datamart实时管理操作(而不是太晚)。 这样,您可以更改营销策略,更改交叉销售报价,或者维修和更换机器和设备,这些设备(可能)很快就会失效。 Live Datamart不仅是用于监视的仪表板,而且是可行的!

    总而言之,主要区别在于,Live Datamart允许在事件发生时自动主动地进行主动操作,并通过人机交互(以适当者为准)。 数据仓库仅允许分析已经发生的事件。

    幻灯片和网络研讨会

    这是讨论此主题的幻灯片:

    数据仓库与实时数据集市–比较与差异
    凯·瓦纳

    接下来的15分钟点播网络研讨会包含一个讨论上述幻灯片的视频。

    翻译自: https://www.javacodegeeks.com/2015/10/difference-between-a-data-warehouse-and-a-live-datamart.html

    数据集市和数据仓库的区别

    展开全文
  • 数据仓库数据集市区别
  • 数据仓库数据集市区别

    千次阅读 2017-11-29 14:46:56
    看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库数据集市区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述: (1) 基本概念 (2) 为什么提出...
    数据仓库与数据集市
    看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:
    (1) 基本概念
    (2) 为什么提出数据集市
    (3) 数据仓库设计方法论
    (4) 数据集市和数据仓库的区别
    (5) 仓库建模与集市建模
    (6) 案例分析:电信CRM数据仓库

    Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:
    (1) 采取自上而下还是自下而上的设计方法
    (2) 企业范围还是部门范围
    (3) 先建立数据仓库还是数据集市
    (4) 建立领航系统还是直接实施
    (5) 数据集市是否相互独立

     

    一、基本概念

    数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

    为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。原子仓库存在的主要目的是作为数据集市的工作基础,同时也作为参照性数据仓库。原子仓库的大小、集中存放和数据库设计可能无法满足特殊类型用户的各种需求。其子集,即各个数据集市被拷贝到其它计算机上,可作为它们自己的数据仓库。数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近,或分布到更靠近用户的位置,放置在何处取决于使用和通讯成本。数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。
    数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市(如下图):
     
    独立型(直接从操作型环境中获取数据):这些数据集市是由特定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际上,它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性
    从属型(从企业级数据仓库中获取数据):这样的数据集市往往以分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据

     


    二、为什么提出数据集市

    虽然 OLTP 和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问的信息的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。

    数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的): 
    (1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。 
    (2) 支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。) 
    (3) 调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。 
    (4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。 
    (5) 为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短)。


    三、数据仓库设计方法论

    在数据仓库建立之前,会考虑其实现方法,通常有自顶向下、自底向上和两者综合进行的这样三种实现方案,下面分别对其做简要阐述:

    (1)自顶向下的实现
    自顶向下的方法就是在单个项目阶段中实现数据仓库。自顶向下的实现需要在项目开始时完成更多计划和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。

    (2)自底向上的实现
    自底向上的实现包含数据仓库的计划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。

    (3)一种折中方案
    每种实现方法都有利弊。在许多情况下,最好的方法可能是某两种的组合。该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度,因为数据仓库是用自底向上的方法进行构建。在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时,您可以一个接一个地集成不同业务主题领域中的数据集市,从而形成设计良好的业务数据仓库。这样的方法可以极好地适用于业务。在这种方法中,可以把数据集市理解为整个数据仓库系统的逻辑子集,换句话说数据仓库就是一致化了的数据集市的集合。这种方案的实施步骤通常分如下几步:
    (6) 从整个企业的角度定义计划和需求
    (7) 构建完整的仓库体系结构
    (8) 使数据内容一致而且标准化
    (9) 将数据仓库作为一种超级数据集市来实施

    关于Inmon 和 Kimball的大辩论:
    Ralph Kimball 和 Bill Inmon 一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。
    Bill Inmon 将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”;他通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、销售、产品等等。每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。 Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。下图是他的设计方法图解:
     

    Ralph Kimball 说“数据仓库仅仅是构成它的数据集市的联合”,他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”。每个数据集市将联合多个数据源来满足特定的业务需求。通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。设计方法如下图:
     

       Kimball 的方法将提供集成的数据来回答组织迫切的业务问题并且要快于 Inmon 的方法。Inmon 的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而 Kimball 认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。 
    实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,或者希望为今后打下良好的基础,那么 Inmon 的方法就更好一些。 如果该组织迫切需要给用户提供信息,那么 Kimball 的方法将满足该需求。而一旦满足了迫切的信息需求后,就应该考虑包含独立数据仓库的数据体系结构的转换计划。数据仓库将使数据集市与遗留系统和 OLTP 系统隔离,并且支持更快地创建将来的数据集市。由于数据仓库在整个发展中一直承担了重任,所以它将支持极力关注数据集市。实际上基于商业驱动的需要,采用上面三种设计方案中的最后一种方法:自顶向下和自底向上综合的方案会很好的适应数据仓库建立过程中的不同需求。


    四、数据仓库与数据集市的区别

    数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。数据仓库和数据集市之间的区别如下图:

    数据仓库和数据集市的区别可从如下三个方面进行理解:
    (1) 数据仓库向各个数据集市提供数据
    (2) 几个部门的数据集市组成一个数据仓库
     

    (3) 下面从其数据内容特征进行分析,数据仓库中数据结构采用规范化模式,数据集市中的数据结构采用星型模式,通常仓库中数据粒度比集市的粒度要细,下图反映了数据结构和数据内容特征的区别
     

     

    五、数据仓库建模与数据集市建模

    数据只是所有业务活动、资源以及企业结果的记录。数据模型是对那些数据的组织良好的抽象,因此数据模型成为理解和管理企业业务的最佳方法是极其自然的。数据模型起到了指导或计划数据仓库的实现的作用。在真正的实现开始之前,联合每个业务领域的数据模型可以帮助确保其结果是有效的数据仓库,并且可以帮助减少实现的成本。

    (1)数据仓库的建模
    数据仓库数据的建模是将需求转换成图画以及支持表示那些需求的元数据的过程。出于易读性目的,本文将关于需求和建模的讨论相分离,但实际上这些步骤通常是重叠的。一旦在文档中记录一些初始需求,初始模型就开始成型。随着需求变得更加完整,模型也会如此。
    最重要的是向终端用户提供良好集成并易于解释的数据仓库的逻辑模型。这些逻辑模型是数据仓库元数据的核心之一。为终端用户提供的简单性以及历史数据的集成和联合是建模方法应该帮助提供的关键原则。

    (2)数据集市的数据建模
    因为仓库终端用户直接与数据集市进行交互,所以数据集市的建模是捕获终端用户业务需求的最有效工具之一。数据集市的建模过程取决于许多因素。下面描述了三个最重要的:

    数据集市的建模是终端用户驱动的。终端用户必须参与数据集市的建模过程,因为他们显然是要使用该数据集市的人。因为您应期望终端用户完全不熟悉复杂的数据模型,所以应该将建模技术和建模过程作为整体进行组织,以便使复杂性对终端用户透明。

    数据集市的建模是由业务需求驱动的。数据集市模型对于捕获业务需求十分有用,因为它们通常由终端用户直接使用,且易于理解。

    数据集市的建模极大地受到了数据分析技术的影响。数据分析技术可以影响所选择的数据模型的类型及其内容。目前,有几种常用的数据分析技术:查询和报表制作、多维分析以及数据挖掘。

    如果仅仅意图提供查询和报表制作功能,那么带有正规(normalized)或非正规(denormalized)数据结构的 ER 模型就是最合适的。维度数据模型也可能是较好的选择,因为它是用户友好的,并具有更好的性能。如果其目标是执行多维数据分析,那么维度数据模型就是这里的惟一选择。然而,数据挖掘通常在可用的最低细节级(level of detail)工作得最好。因此,如果数据仓库是用于数据挖掘的,就应该在模型中包含较低细节级(level of detail)的数据。

    展开全文
  • 数据仓库数据集市

    2019-01-12 10:37:35
    数据仓库数据集市的基本概念和区别数据仓库数据集市的基本概念和区别
  • 看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库数据集市区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述: (1) 基本概念 (2) 为什么提出...
    数据仓库与数据集市
    看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:
    (1) 基本概念
    (2) 为什么提出数据集市
    (3) 数据仓库设计方法论
    (4) 数据集市和数据仓库的区别
    (5) 仓库建模与集市建模
    (6) 案例分析:电信CRM数据仓库

    Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:
    (1) 采取自上而下还是自下而上的设计方法
    (2) 企业范围还是部门范围
    (3) 先建立数据仓库还是数据集市
    (4) 建立领航系统还是直接实施
    (5) 数据集市是否相互独立

     

    一、基本概念

    数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

    为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。原子仓库存在的主要目的是作为数据集市的工作基础,同时也作为参照性数据仓库。原子仓库的大小、集中存放和数据库设计可能无法满足特殊类型用户的各种需求。其子集,即各个数据集市被拷贝到其它计算机上,可作为它们自己的数据仓库。数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近,或分布到更靠近用户的位置,放置在何处取决于使用和通讯成本。数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。
    数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市(如下图):
     
    独立型(直接从操作型环境中获取数据):这些数据集市是由特定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际上,它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性
    从属型(从企业级数据仓库中获取数据):这样的数据集市往往以分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据

     


    二、为什么提出数据集市

    虽然 OLTP 和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问的信息的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。

    数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的): 
    (1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。 
    (2) 支持访问非易变(nonvolatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受 OLTP 系统进行中的更新的影响。) 
    (3) 调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。 
    (4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。 
    (5) 为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短)。


    三、数据仓库设计方法论

    在数据仓库建立之前,会考虑其实现方法,通常有自顶向下、自底向上和两者综合进行的这样三种实现方案,下面分别对其做简要阐述:

    (1)自顶向下的实现
    自顶向下的方法就是在单个项目阶段中实现数据仓库。自顶向下的实现需要在项目开始时完成更多计划和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。

    (2)自底向上的实现
    自底向上的实现包含数据仓库的计划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。

    (3)一种折中方案
    每种实现方法都有利弊。在许多情况下,最好的方法可能是某两种的组合。该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度,因为数据仓库是用自底向上的方法进行构建。在使用自底向上或阶段性数据仓库项目模型来构建业务范围架构中的一系列数据集市时,您可以一个接一个地集成不同业务主题领域中的数据集市,从而形成设计良好的业务数据仓库。这样的方法可以极好地适用于业务。在这种方法中,可以把数据集市理解为整个数据仓库系统的逻辑子集,换句话说数据仓库就是一致化了的数据集市的集合。这种方案的实施步骤通常分如下几步:
    (6) 从整个企业的角度定义计划和需求
    (7) 构建完整的仓库体系结构
    (8) 使数据内容一致而且标准化
    (9) 将数据仓库作为一种超级数据集市来实施

    关于Inmon 和 Kimball的大辩论:
    Ralph Kimball 和 Bill Inmon 一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。
    Bill Inmon 将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”;他通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、销售、产品等等。每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。 Inmon 的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。下图是他的设计方法图解:
     

    Ralph Kimball 说“数据仓库仅仅是构成它的数据集市的联合”,他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”。每个数据集市将联合多个数据源来满足特定的业务需求。通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。设计方法如下图:
     

       Kimball 的方法将提供集成的数据来回答组织迫切的业务问题并且要快于 Inmon 的方法。Inmon 的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而 Kimball 认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。 
    实际上,方法的选择取决于项目的主要商业驱动。如果该组织正忍受糟糕的数据管理和不一致的数据,或者希望为今后打下良好的基础,那么 Inmon 的方法就更好一些。 如果该组织迫切需要给用户提供信息,那么 Kimball 的方法将满足该需求。而一旦满足了迫切的信息需求后,就应该考虑包含独立数据仓库的数据体系结构的转换计划。数据仓库将使数据集市与遗留系统和 OLTP 系统隔离,并且支持更快地创建将来的数据集市。由于数据仓库在整个发展中一直承担了重任,所以它将支持极力关注数据集市。实际上基于商业驱动的需要,采用上面三种设计方案中的最后一种方法:自顶向下和自底向上综合的方案会很好的适应数据仓库建立过程中的不同需求。


    四、数据仓库与数据集市的区别

    数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。数据仓库和数据集市之间的区别如下图:

    数据仓库和数据集市的区别可从如下三个方面进行理解:
    (1) 数据仓库向各个数据集市提供数据
    (2) 几个部门的数据集市组成一个数据仓库
     

    (3) 下面从其数据内容特征进行分析,数据仓库中数据结构采用规范化模式,数据集市中的数据结构采用星型模式,通常仓库中数据粒度比集市的粒度要细,下图反映了数据结构和数据内容特征的区别
     

     

    五、数据仓库建模与数据集市建模

    数据只是所有业务活动、资源以及企业结果的记录。数据模型是对那些数据的组织良好的抽象,因此数据模型成为理解和管理企业业务的最佳方法是极其自然的。数据模型起到了指导或计划数据仓库的实现的作用。在真正的实现开始之前,联合每个业务领域的数据模型可以帮助确保其结果是有效的数据仓库,并且可以帮助减少实现的成本。

    (1)数据仓库的建模
    数据仓库数据的建模是将需求转换成图画以及支持表示那些需求的元数据的过程。出于易读性目的,本文将关于需求和建模的讨论相分离,但实际上这些步骤通常是重叠的。一旦在文档中记录一些初始需求,初始模型就开始成型。随着需求变得更加完整,模型也会如此。
    最重要的是向终端用户提供良好集成并易于解释的数据仓库的逻辑模型。这些逻辑模型是数据仓库元数据的核心之一。为终端用户提供的简单性以及历史数据的集成和联合是建模方法应该帮助提供的关键原则。

    (2)数据集市的数据建模
    因为仓库终端用户直接与数据集市进行交互,所以数据集市的建模是捕获终端用户业务需求的最有效工具之一。数据集市的建模过程取决于许多因素。下面描述了三个最重要的:

    数据集市的建模是终端用户驱动的。终端用户必须参与数据集市的建模过程,因为他们显然是要使用该数据集市的人。因为您应期望终端用户完全不熟悉复杂的数据模型,所以应该将建模技术和建模过程作为整体进行组织,以便使复杂性对终端用户透明。

    数据集市的建模是由业务需求驱动的。数据集市模型对于捕获业务需求十分有用,因为它们通常由终端用户直接使用,且易于理解。

    数据集市的建模极大地受到了数据分析技术的影响。数据分析技术可以影响所选择的数据模型的类型及其内容。目前,有几种常用的数据分析技术:查询和报表制作、多维分析以及数据挖掘。

    如果仅仅意图提供查询和报表制作功能,那么带有正规(normalized)或非正规(denormalized)数据结构的 ER 模型就是最合适的。维度数据模型也可能是较好的选择,因为它是用户友好的,并具有更好的性能。如果其目标是执行多维数据分析,那么维度数据模型就是这里的惟一选择。然而,数据挖掘通常在可用的最低细节级(level of detail)工作得最好。因此,如果数据仓库是用于数据挖掘的,就应该在模型中包含较低细节级(level of detail)的数据。

    展开全文
  • 数据集市: ...数据集市数据仓库区别: 不同于数据集市数据仓库处理整个组织范围内的多个主题域,通常是由组织内的核心单位,如IT部门承建,所以经常被称为数据仓库或企业数据仓库数据仓库...

    数据集市:

    数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售,财务,市场等。数据集市的数据源可以是操作系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)

    数据集市和数据仓库的区别:

    不同于数据集市,数据仓库处理整个组织范围内的多个主题域,通常是由组织内的核心单位,如IT部门承建,所以经常被称为数据仓库或企业数据仓库。数据仓库需要集成很多操作系统源系统中的数据。由于数据集市的复杂度和需要处理的数据都小于数据仓库,因此更容易建立与维护。

    对比项目数据仓库数据集市
    范围企业级部门级或业务线
    主题多个主题单一主题
    数据源遗留系统,事务系统,外部数据的多个数据源数据仓库或事务系统的少量数据源
    数据粒度较细的粒度较粗的粒度
    数据结构通常是规范化结构(3NF)星型模型,雪花模型,或两者混合
    历史数据全部历史数据部分历史数据
    完成需要的时间几个月到几年几个月
    展开全文
  • 见过很多人搞不清楚数据仓库数据集市区别,下面是我见过的最好的关于“什么是数据仓库”的回答: “数据仓库是一种关系数据库模式,其中保存了来自一个或者多个源数据库的历史数据和元数据。数据仓库的目的是...
  • 1.为什么会出现数据仓库数据集市? “数据仓库”的概念可以追溯到80 年代中期。从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。...
  • 数据库 、数据仓库数据集市区别与联系

    万次阅读 多人点赞 2018-09-06 19:24:33
    下面我会依次介绍下数据库、数据仓库数据集市的概念以及他们之间的区别。 首先是概念: 数据库:按照数据结构来组织、存储、管理数据的建立在计算机存储设备上面的仓库。数据库一般适用于操作型系统。因为符合三...
  • 数据集市数据仓库区别数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的( Integrate )、相对稳定的(Non -Volatile )、反映历史变化( Time Variant)的数据集合用于支持管理决策。对于...
  • 数据集市数据集市是一种微型的数据仓库,它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务。 为管理者提供支持决策: 数据仓库: 数据仓局是...
  • Hive:数据仓库数据集市区别

    千次阅读 2018-09-26 20:47:25
    见过很多人搞不清楚数据仓库数据集市区别,下面是我见过的最好的关于“什么是数据仓库”的回答:  “数据仓库是一种关系数据库模式,其中保存了来自一个或者多个源数据库的历史数据和元数据。数据仓库的目的是...
  • 数据集市 数据仓库

    千次阅读 2011-03-25 22:32:00
    数据集市 数据仓库
  • 数据集市数据仓库

    2018-12-06 14:52:39
    企业规划数据仓库项目的时候,往往会遇到很多数据仓库软件供应商。各供应商除了推销相关的软件工具外,同时也会向企业灌输许多概念。... 对于数据仓库数据集市的概念有各种不同的版本,这里参照数据仓库之父Inmo...
  • 维度建模(dimensionalmodeling)是专门用于分析型数据库、数据仓库数据集市建模的方法。它本身属于一种关系建模方法,但和之前在操作型数据库中介绍的关系建模方法相比增加了两个概念:表示对分析主题所属类型的...
  • 数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持...数据集市数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包...
  • 数据仓库数据集市和数据挖掘 三者关系形象说明
  • 数据仓库数据集市

    2008-03-05 16:08:44
    数据仓库数据集市.pdf
  • 数据库, 数据仓库, 数据集市,数据湖,数据中台

    千次阅读 多人点赞 2019-02-22 16:21:47
    数据仓库数据集市区别 作者:修鹏李 出处:CSDN 大数据:数据仓库和数据库的区别 作者:南宫蓉 出处:简书 第一篇:数据仓库概述 第二篇:数据库关系建模 作者:穆晨 出处:CNBLOS 摘要 本文简要介绍...
  • 数据仓库 数据集市

    2010-10-18 16:10:00
    理论上讲,应该有一个总的数据仓库的概念,然后才有数据集市。实际建设数据集市的时候,国内很少这么做。国内一般会先从数据集市入手,就某一个特定的主题(比如企业的客户信息)先做数据集市,再建设数据仓库...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,130
精华内容 3,652
关键字:

区别数据仓库数据集市