精华内容
下载资源
问答
  • 目录 前言 什么是维度建模 维度建模的好处 未来内容 更多技术文章请关注公众号: ...数据模型就是数据的组织和存储方法,它强调从业务...数仓典型的模型方法论有以下几种:ER模型,维度模型,Data Vault模型,Anch...

    维度模型系列文章:

    《维度模型系列》-1初识维度模型

    《维度模型系列》-2数据仓库总线架构

    《维度模型系列》-3事实表核心技术(上)

    《维度模型系列》-3事实表核心技术(下)

    。。。

    更多最新文章请文末扫码关注公众号查看


    前言

    数据模型就是数据的组织和存储方法,它强调从业务,数据存取,和使用角度合理的存储数据。

    模型设计是数据仓库的必备技能和主要工作之一。模型设计的好坏直接影响数仓整体的性能,存储成本,使用效率,数据质量等等。

    数仓典型的模型方法论有以下几种:ER模型,维度模型,Data Vault模型,Anchor模型,目前互联网行业应用最广泛的应属于维度模型。

    本系列文章对维度模型理论做完整的介绍,通过实例让大家对维度建模有更加深入的理解。本人经验有限,文章中有理解错误或不同观点,欢迎指正。

     

    什么是维度建模

    维度建模是一种将数据结构化的逻辑设计方法。首先介绍两个最重要的概念:事实,维度。

    维度建模将业务过程分为度量和上下文。度量是由业务过程和支持它们的业务源系统获取的,常常以数值形式体现,我们称它们为“事实”。

    事实由大量的文本形式的上下文包围着,这些文本形式的上下文是伴随着事实产生而确定的。这些上下文被直观的分割成多个独立的模块我们将其称作“维”。维度描述了事实的相关信息,比如who,what,when,where,why等等。

    举个栗子:

    小明在淘宝上下单100元买了两箱牛奶,100元和2箱就是事实,而小明,牛奶,时间,配送地址等等这些信息就是维

    如下图就是按照维度建模方式来组织的数据结构,看上去像个星状结构,也经常被称作星型模型。中间蓝色的就是事实表有若干维度键和度量值组成,黄色就是维度表,维度表由维度键和若干属性组成(如用户维度表可以包含姓名,性别,年龄,住址,学历等等信息)

     

    维度建模的好处

    • 易于理解使用

    相对于业务系统的规范化(3NF)模型,维度建模更易于业务用户理解,因为相同类别的信息已经放到对应的维度表中,对于使用分析来说意义都很明确。业务分析人员很容易就能找出分析操作所需的信息

    • 查询性能

    维度建模的反规范化维度层次结构,减少了查询的关联操作,而关联查询是非常耗时的查询操作。

    • 一致性

    维度建模强调维度一致性和事实一致性,数据仓库总线架构要求所有事实共用一套维度表,这样保证了数据一致性

    • 快速迭代

    基于一致性维度的总线架构,其实施过程可以按照不同业务过程进行拆分,快速满足业务需求

     

    未来内容

    前面对维度建模进行了简单介绍,其中很多技术细节和专业数据没有展开细讲,只是让大家对维度建模有一个初步的认识。未来文章会对维度建模做更加详细的介绍,包括数据仓库总线架构概念,事实表和维度表技术细节的讨论,以及维度设计过程详解

     

    更多技术文章请关注公众号:

     

    展开全文
  • 2.1 维度模型 2.1.1 星型模型 2.1.2 雪花模型 2.1.3星座模型 2.2 范式模型 2.3 Data Vault模型 2.4 Anchor模型

    目录

    写在前面

    一、为什么要进行数据仓库建模?

    二、四种常见模型

    2.1 维度模型

    2.1.1 星型模型

    2.1.2 雪花模型

    2.1.3 星座模型

    2.2 范式模型

    2.3 Data Vault模型

    2.4 Anchor模型

    三 数据模型的评价标准

    小编有话


     

    写在前面

    大数据时代,维度建模已成为各大厂的主流方式。

    维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。

    系列文章详见「数仓系列文章- 传送门

    一、为什么要进行数据仓库建模?

    • 性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐
    • 成本:减少数据冗余、计算结果复用、从而降低存储和计算成本
    • 效率:改善用户使用数据的体验,提高使用数据的效率
    • 改善统计口径的不一致性,减少数据计算错误的可能性

    二、四种常见模型

    2.1 维度模型

    维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

    Kimball老爷爷维度建模四个步骤:

    选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

    2.1.1 星型模型

    星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。

     

    2.1.2 雪花模型

    雪花模型,在星型模型的基础上,维度表上又关联了其他维度表。这种模型维护成本高,性能方面也较差,所以一般不建议使用。尤其是基于hadoop体系构建数仓,减少join就是减少shuffle,性能差距会很大。

    星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。

    2.1.3 星座模型

    星座模型,是对星型模型的扩展延伸,多张事实表共享维度表。

    星座模型是很多数据仓库的常态,因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表,他们之间是否共享一些维度表。

    2.2 范式模型

    即实体关系(ER)模型,数据仓库之父Immon提出的,从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF。此建模方法,对建模人员的能力要求非常高。

    特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长,维护成本高。

    详见:https://blog.csdn.net/weixin_39032019/article/details/89379482

    2.3 Data Vault模型

    DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性) 三部分组成 ,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。

    2.4 Anchor模型

    高度可扩展的模型,所有的扩展只是添加而不是修改,因此它将模型规范到6NF,基本变成了K-V结构模型。企业很少使用。

     

    三 数据模型的评价标准

    数据模型建设的怎么样,极度依赖规范设计,如果代码风格是千人千面,那么恐怕半年下来,业务系统就没法看了。没有什么比数据系统更看重法制,规范体系不仅能保障数据建设的一致性,也能够应对业务交接的情况,更能够为自动化奠定基础。

    1. 业务过程清晰:ODS就是原始信息,不修改;DWD面向基础业务过程;DIM描述维度信息;DWS针对最小场景做指标计算;ADS也要分层,面向跨域的建设,和面向应用的建设;
    2. 指标可理解:按照一定业务事务过程进行业务划分,明细层粒度明确、历史数据可获取,汇总层维度和指标同名同义,能客观反映业务不同角度下的量化程度;
    3. 核心模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型;
    4. 高内聚低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务的指标,造成该模型主题不清晰和性价比低。

    小编有话

    • 在传统企业数仓中,业务相对稳定,以范式建模为主。 如电信、金融行业等
    • 在互联网公司,业务变化快,需求来来回回的改,计算和存储也不是问题,我们更关心快速便捷的响应业务需求,所以以维度建模为主流。

     

    数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html

    展开全文
  • (一)维度模型基础  既然维度模型是数据仓库建设中的一种数据建模方法,那不妨先看一下几种主流的数据仓库架构。  1. Kimball的DW/BI架构 图(一)- 1  2. Inmon企业信息工厂架构 图(一)- 2  3. 混合型...
    (一)维度模型基础

            既然维度模型是数据仓库建设中的一种数据建模方法,那不妨先看一下几种主流的数据仓库架构。

            1. Kimball的DW/BI架构

    图(一)- 1
            2. Inmon企业信息工厂架构

    图(一)- 2
            3. 混合型架构

    图(一)- 3

            从图中可以看出,每种架构中都有数据集市。数据集市就是面向终端用户的数据库。数据集市通常使用维度模型来建模,并根据报表和分析的需求而优化。Kimball和Inmon架构最大的区别就是是否需要一个企业级的数据仓库(EDW)。Inmon架构中有EDW,Kimball架构中没有。EDW本质上就是一个大的数据仓库,包括了从企业各个数据源集成过来的所有的历史数据。EDW不能由终端用户直接访问,仅用来存储和报表相关的,用于审计的各种历史数据。Inmon认为EDW位于业务系统和数据集市之间,也是数据集市的唯一数据来源。至于混合型架构则是结合了Kimball与Inmon架构的产物。

            以上这些方法论的东西简单描述了几种数据仓库总体架构的异同之处。除了架构层面,还有两种主要的建模方法,即规范化模型和维度模型。规范化模型用于EDW建模,而维度模型用于数据集市建模。规范化模型对于数据库设计者来说非常熟悉,通常业务数据库、OLTP系统都采用规范化模型。简单地说,1NF就是消除重复元组,并保持列的原子性,具体到数据库设计上就是每个表都要有一个主键来唯一标识一行记录。2NF就是在1NF的基础上消除了部分依赖,即非键属性必须完全依赖于主键。3NF在2NF基础上消除了传递依赖,即非键属性只能完全依赖于主键。一般数据库设计需要满足3NF。在《构建Oracle高可用环境》这本书里有一个很好的例子讲述数据库范式设计。而对于维度模型最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。这种方法被人们熟知的有星型模式和雪花模式。

            星型模式是部署在关系数据库管理系统之上的多维结构,主要包含事实表,以及通过主键/外键关系与之关联的维度表。在星型模式实施中,所有维度级别的维度数据存储在单个表或视图中。雪花模就是将维度层次进一步规范化为子维度。在雪花模式实施中,使用多个表或视图来存储维度数据。单独的数据库表或视图存储与维中每个级别相关的数据。

            看一下以上星型模式的定义,问题来了:既然事实表与维度表也是以主键/外键的方式相互关联,换句话说,3NF和维度模型都能用实体/关系图(ERD)表示,那么两者的根本区别是什么呢?答案就是:3NF的本质是消除数据冗余,那么维度模型与其根本区别就是数据冗余程度不同。随着规范化程度的提高,必然会使得表和表之间的关系越来越多。而维度模型虽然常应用在关系数据库管理系统之上,但是并不要求必须满足3NF,也就是说维度模型允许可控的数据冗余。这样做简少了表和表间关系的数量,同时提高了查询速度。下面引用《数据仓库设计》书中的一个例子,进一步说明3NF与维度模型的差异。

    图(一)- 4 

            左边是一个销售订单的典型的规范化表示。订单(Order)实体描述有关订单文档的信息,订单明细(Order Line)实体描述有关订单明细的信息,两个实体都包含描述订单和它的状态的信息。右边是一个订单状态维(Order Status Dimension),该维描述与订单和订单明细中对应的状态编码值的唯一组合。它包括在实体模型的订单和订单明细实体中都出现的属性。当销售订单事实行被装载时,参照在订单状态维中的适合的状态编码的组合设置它的外键。

            维设计的整体观点是要简化和加速查询。例如,假设有100万订单,每个订单有10条明细,订单状态和订单明细状态各有10种。如果用户要查询某种状态特性的订单,按3NF模型,逻辑上需要关联100万与1000万的两个大表,然后过滤两个表的状态值得到所要的结果。另一方面,事实表(图中并没有画出)按最细数据粒度有1000万记录,3NF里的订单表属性在事实表里是冗余数据,状态维度有100条数据,只需要关联1000万与100的两个表,再进行状态过滤即可。

    展开全文
  • 大数据分析基础——维度模型

    千次阅读 2019-06-14 16:29:10
    维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。 1.1维度 维度是度量的环境,用来反映业务的一类属性 , 这类属性的集合构成一个维度 ,...

    1基本概念
    维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。
    1.1维度
    维度是度量的环境,用来反映业务的一类属性 , 这类属性的集合构成一个维度 , 也可以称为实体对象。 维度属于一个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)。
    维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实” , 将环境描述为“维度”,维度是用于分析事实所需要的多样环境。例如, 在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。
    维度所包含的表示维度的列,称为维度属性。维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。
    1.2事实表
    事实表是维度模型的基本表,每个数据仓库都包含一个或者多个事实数据表。事实数据表可能包含业务销售数据,如销售商品所产生的数据,与软件中实际表概念一样。
    事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。
    事实表中一条记录所表达的业务细节程度被称为粒度。通常粒度可以通过两种方式来表述:一种是维度属性组合所表示的细节程度:一种是所表示的具体业务含义。
    作为度量业务过程的事实,一般为整型或浮点型的十进制数值,有可加性、半可加性和不可加性三种类型。
    相对维度来说,通常事实表要细长,行的增加速度也比维度表快的多,维度表正好相反。
    事实表有三种类型 :

    事务事实表:事务事实表用来描述业务过程,眼踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为“原子事实表\周期快照事实表”。
    周期快照事实表:周期快照事实表以具有规律性的、可预见的时间间隔记录事实 ,时间间隔如每天、每月、每年等。
    累积快照事实表:累积快照事实表用来表述过程开始和结束之间的关键步骤事件,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点,当过程随着生命周期不断变化时,记录也会随着过程的变化而被修改。

    1.3度量 / 原子指标
    原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务定义中不可 再拆分的指标,具有明确业务含义的名词 ,如支付金额。
    事实表和维度交叉汇聚的点,度量和维度构成OLAP的主要概念,这里面对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。
    1.4维度表与事实表
    维度表是事实表不可分割的部分。维度表是进入事实表的入口。丰富的维度属性给出了丰富的分析切割能力。维度给用户提供了使用数据仓库的接口。最好的属性是文本的和离散的。属性应该是真正的文字而不应是一些编码简写符号。应该通过用更为详细的文本属性取代编码,力求最大限度地减少编码在维度表中的使用。
    维度表和事实表二者的融合也就是“维度模型”,“维度模型”一般采用“星型模式”或者“雪花模式”,“雪花模式”可以看作是“星型模式”的拓展,表现为在维度表中,某个维度属性可能还存在更细粒度的属性描述,即维度表的层级关系。
    维度属性也可以存储到事实表中,这种存储到事实表中的维度列被称为“退化维度”。与其他存储在维表中的维度一样 ,退化维度也可以用来进行事实表的过滤查询、实现聚合操作等。
    1.5维度与指标例子
    下表显示的是一个维度(“城市”)和两个指标(“会话数”和“每次会话浏览页数”)。
    在这里插入图片描述
    2 维度设计
    2.1维度基本设计方法
    在这里插入图片描述
    2.2维度的特点
    2.2.1维度的层次结构
    维度中的一些描述属性以层次方式或一对多的方式相互关联,可以被理解为包含连续主从关系的属性层次。比如商品类目的最低级别是叶子类目,叶子类目属于二级类目,二级类目属于一级类目。在属性的层次结构中进行钻取是数据钻取的方法之一。
    2.2.2范式与反范式
    当属性层次被实例化为一系列维度,而不是单一的维度时,被称为雪花模式。
    大多数联机事务处理系统( OLTP)的底层数据结构在设计时采用此种规范化技术,通过规范化处理将重复属性移至其自身所属的表中,删除冗余数据。
    将维度的属性层次合并到单个维度中的操作称为反规范化。分析系 统的主要目的是用于数据分析和统计,如何更方便用户进行统计分析决 定了分析系统的优劣。采用雪花模式,用户在统计分析的过程中需要 大 量的关联操作,使用复杂度高,同时查询性能很差;而采用反规范化处 理,则方便、易用且性能好。
    2.3交叉探查
    数据仓库总线架构的重要基石之一就是一致性维度。在针对不同数 据域进行迭代构建或并行构建时,存在很多需求是对于不同数据域的业 务过程或者同 一数据域的不同业务过程合并在 一起观察。比如对于日志数据域,统计了商品维度的最近一天的 PV 和 UV; 对于交易数据域, 统计了商品维度的最近一天的下单MV。现在将不同数据域的商品的 事实合并在一起进行数据探查 ,如计算转化率等,称为交叉探查。
    2.4维度整合
    我们先来看数据仓库的定义:数据仓库是一个面向主题的、集成的、 非易失的且随时间变化的数据集合,用来支持管理人员的决策。
    数据由面向应用的操作型环境进人数据仓库后,需要进行数据 集成。将面向应用的数据转换为面向主题的数据仓库数据,本身就是一种集成。
    具体体现在如下几个方面:

    命名规范的统一。
    字段类型的统一。
    公共代码及代码值的统一。
    业务含义相同的表的统一 。主要依据高内聚、低稠合的理念,在物理实现中,将业务关系大、源系统影响差异小的表进行整合。

    表级别的整合,有两种表现形式。

    垂直整合,即不同的来源表包含相同的数据集,只是存储的信息不同。比如商品基础信息表、 商品扩展信息表、商品库存信息表,这些表都属于商品相关信息表,依据维度设计方法,尽量整合至商品维度模型中,丰富其维度属性。
    水平整合,即不同的来源表包含不同的数据集,不同子集之间无交叉,也可以存在部分交叉。如果进行整合,首先需要考虑各个体系是否有交叉,如果存在交叉,则需要去重;如果不存在交叉,则需要考虑不同子集的自然键是否存在冲突,如果不冲突, 则可以考虑将各子集的自然键作为整合后的表的自然键;另一种方式是设置超自然键,将来源表各子集的自然键加工成一个字段作为超自然键。

    2.5维度拆分
    水平拆分
    维度通常可以按照类别或类型进行细分。由于维度分类的不同而存在特殊的维度属性,可以通过水平拆分的方式解决此问题。
    在设计过程中需要重点考虑以下三个原则。

    扩展性:当源系统、业务逻辑变化时,能通过较少的成本快速扩 展模型,保持核心模型的相对稳定性。软件工程中的高内聚、低 稠合的思想是重要的指导方针之 一 。
    效能 : 在性能和成本方面取得平衡。通过牺牲一定的存储成本, 达到性能和逻辑的优化。
    易用性:模型可理解性高、访问复杂度低。用户能够方便地从模 型中找到对应的数据表,并能够方便地查询和分析。

    根据数据模型设计思想,在对维度进行水平拆分时,主要考虑如下两个依据。

    维度的不同分类的属性差异情况
    业务的关联程度

    垂直拆分
    在维度设计内容中,我们提到维度是维度建模的基础和灵魂,维度 属性的丰富程度直接决定了数据仓库的能力。在进行维度设计时,依据 维度设计的原则,尽可能丰富维度属性,同时进行反规范化处理。
    某些维度属性的来源表产出时间较早,而某些维度属性的来 源 表产出时间较晚;或者某些维度属性的热度高、使用频繁,而某些维度属性的热度低、较少使用 ; 或者某些维度属性经常变化,而某些维度属性比较稳定。在“水平拆分”中提到的模型设计的三个原则同样适合解决此问题。
    出于扩展性、产出时间、易用性等方面的考虑,设计 主从维度。主 维表存放稳定 、 产出时间早、热度高的属性;从维表存放变化较快、产 出时间晚、热度低的属性。

    展开全文
  • 数据仓库维度模型设计

    千次阅读 2020-05-05 16:36:32
    维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 维度建模是专门应用于分析型数据库、数据仓库、...
  • EDW与维度模型间的抉择

    千次阅读 2017-10-16 21:11:22
    EDW与维度模型间的抉择   1 EDW(enterprisedatawarehouse,企业级数据仓库),强调从源系统的业务与数据出发,在企业的的全局高度进行业务对象抽象,使其包含整个企业不同源系统的具体业务对象。 1.1 采用...
  • 维度建模时,力求在数据仓库中记录最明细粒度的数据,以保证完整记录业务发生的事实,从而满足日后面临不同分析需求时能够对数据...可在商业智能项目中往往还需要更高粒度的数据,这时就会面临维度模型粒度提升的情况。
  • 维度模型数据仓库之退化维度

    千次阅读 2019-05-03 14:45:37
    (五)进阶技术         8. 退化维度  ... 本篇讨论一种称为退化维度的技术。该技术减少维度的数量,简化维度数据...需要把退化维度的相关数据迁移到事实表中,然后删除退化的维度。  ...
  • 关系模型、维度模型

    千次阅读 2016-03-31 16:53:08
    关系模型 1. 以遵循第三范式(3NF)为基础的关系模型,从ER图的“观感”上来说,较为松散、零碎,物理表数量多,而数据冗余程度低。由于数据分布于众多的表中,这些数据可以更为灵活地被应用,功能性较强 2. 主要...
  •  上一篇说了很多数据仓库和维度模型的理论,从本篇开始落地实操,用一个小而完整的示例说明维度模型及其相关的ETL技术。示例数据库和ETL的SQL实现是在《Dimensional Data Warehousing with MySQL: A Tutorial》基础...
  • 数据仓库中的ER实体模型和维度模型

    千次阅读 2020-02-16 16:34:30
    一、数据仓库建模的意义 一个公司中会有多个业务业务系统,比如:OA系统、订单系统、财务系统、人事系统、仓储系统等,因此需要按照一定的组织结构将所有...二、ER实体模型 在数据系统中,将事物抽象为实体(Entity)...
  • 数据仓库——关系模型和维度模型

    千次阅读 2018-07-07 09:59:40
    关系建模又叫ER建模,是数据仓库之父Inmon推崇的,其从全企业的高度设计一个3NF模型的方法,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,其是站在企业角度进行面向主题的抽象,而不是针对...
  • 数据建模-关系模型、维度模型

    千次阅读 2016-08-24 10:18:25
    Kimball:维度建模以数据分析需求为驱动,倡导总线架构:一致的事实和一致的维度,这种数据模型易于用户理解和数据分析操作。 Immon:基于主题域的实体关系建模以源系统数据为驱动,整合企业的所有数据,站在企业级...
  • (五)进阶技术  3. 维度子集  有些需求不需要最细节的数据。例如更想要某个月而不是某天的记录。再比如相对于全部的销售数据,... 本篇中将准备两个特定维度,它们均取自现有的维度:月份维度(日期维度的子集),P
  • 维度模型数据仓库(十三) —— 退化维度

    万次阅读 多人点赞 2015-11-12 12:47:12
    该技术减少维度的数量,简化维度数据仓库的模式。简单的模式比复杂的更容易理解,也有更好的查询性能。当一个维度没有数据仓库需要的任何数据时就可以退化此维度。需要把退化维度的相关数据迁移到事实表中,然后删除...
  • 维度模型对比 模型总结 关系模型:站在企业角度进行面向主题的抽象,而不是针对某个具体业务流程,更多的是面向数据的整合和一致性治理。 维度模型:以分析决策的需求为出发点构建模型,有较好的大规模查询性能,更...
  •  大多数维度都具有一个或多个层次。例如,日期维度就有一个四级层次:年、季度、月和日。这些级别用date_dim表里的列来表示。日期维度是一个单路径层次,因为除了年-季度-月-日这条路径外,它没有任何其它层次。除...
  • CDM层又细分为DWD层和DWS层,分别是明细数据层和汇总数据层,采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性;同时在汇总数据...
  •  当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个交货日期,这时就需要引用日期维度表两次。  本篇将说明两类角色扮演维度的实现,分别是表别名和数据库视图...
  • 简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。例如销售订单,它可能有很多离散数据(yes-no这种类型的值),如 verification_ind(如果订单已经被审核,值为yes)credit_check_flag(表示此订单的...
  • 维度建模三种模式2.1 星形模型2.2 雪花模式2.3 星座模式数据仓库分层架构1. 为什么要分层2.数仓分层思想数据运营层(ODS)数据仓库层(DW)数据服务层/应用层(ADS):3. 阿里巴巴数据仓库分层架构1. ODS 数据准备...
  • 了解过数据仓库历史的人都知道Bill Inmon、 Ralph Kimball。 Bill Inmon 代表作《Building the Data WareHouse》 , Ralph Kimball代表...两位大师对数据模型都分别作了深入阐述,个人理解的数据模型是数据平台的灵...
  • 维度模型数据仓库(一) —— 概述

    千次阅读 2015-10-31 07:51:12
    最近看了三本关于数据仓库的书,很有收获,也很受启发。这三本书分别是《数据仓库工具箱(第三版)》、《Dimensional Data ...Ralph Kimball的经典著作数据仓库工具箱阐述的是维度建模方法论和按不同行业建模的示例。Di

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 213,822
精华内容 85,528
关键字:

维度模型