精华内容
下载资源
问答
  • 维度建模

    2021-07-28 00:00:04
    维度建模维度建模架构图维度建模定义(What)维度建模模型类型维度建模意义(Why)维度建模步骤(How)1、选择业务过程2、声明粒度3、确定维度4、确定事实 维度建模架构图 维度建模定义(What) 维度建模是数据...

    维度建模架构图

    维度建模架构图

    维度建模定义(What)

    维度建模是数据仓库建设中的一种数据建模方法,其最简单的描述就是按照事实表,维表来构建数据仓库,数据集市

    维度建模模型类型

    1、星形模型:由一个事实表和一组维表组成
    星型模型

    2、雪花模型:对星形模式的扩展,每个维表可继续向外连接多个子维表
    雪花模型

    3、星座模型:多个事实表共用一组维表
    星座模型

    维度建模意义(Why)

    1、查询方便与性能提升,通过数据冗余减少复杂关联查询
    2、拓展新好,方便在不改变模型粒度情况下,增加新的分析维度和事实

    维度建模步骤(How)

    维度建模步骤

    1、选择业务过程

    维度建模是紧贴业务的,所以必须以业务为根基进行建模,企业业务部门或企业功能职责不等同于业务过程,应该将注意力放在业务过程,而不是放在功能化的部门,可以更方便的获得一致的企业信息,不以部门为边界建立维度模型

    2、声明粒度

    代表事实表中的最细粒度组合,以业务术语描述事实表中每一行的内容,如每日每个SKU的库存数量 【日期 | SKU | 库存数量】,其中数据粒度为 日期 | SKU

    3、确定维度

    维度定义数据分析的角度,如是谁,什么时候,在哪的问题,作为聚合查询中的查询条件,分组条件,排序条件

    4、确定事实

    事实也可以理解为指标,是聚合查询中用来聚合的字段,如pv,uv,订单数等 确定业务过程,数据建模,不应该是数据驱动,而应该是业务驱动。
    是同一事实表中的所有度量必须具有相同的粒度

    事实表类型

    • 事务事实表
    • 周期快照事实表
    • 累积快照事实表
    • 无事实的事实表
    展开全文
  • 分类目录:商业智能《维度建模》总目录 数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。...

    分类目录:商业智能《维度建模》总目录

    数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。业界已建立了数以千计的DW/BI系统。随着数据仓库原子数据的不断增加以及更新越来越频繁,数据容量不断增长。在我们的职业生涯中,我们见证了数据库容量从MB到GB再到TB甚至PB的发展过程,但是,DW/BI系统面临的基本挑战并未发生重大变化。我们的工作就是管理组织中的数据并将其用于业务用户的决策制定过程中。总的来说,我们必须实现这一目标,确保商务人士制定更好的决策,并从他们的DW/BI投资中获得回报。

    维度建模作为一种主要的DW/BI展现技术受到广泛认可。从业者与学者都认识到数据展现要获得成功,就必须建立在简单性的基础之上。简单性是使用户能够方便地理解数据库,使软件能够方便地访问数据库的基础性的关键要素。许多情况下,维度建模就是时刻考虑如何能够提供简单性。坚定不移地回到业务驱动的场景,坚持以用户的可理解性和查询性能为目标,才能建立始终如一地服务于组织的分析需求的设计。

    维度建模还是建立集成化的DW/BI系统的主导结构。当您使用维度模型的一致性维度和一致性事实时,可以增量式地建立具有可实践的、可预测的、分布式的复杂DW/BI系统的框架。

    尽管业界的一切始终在变化,但Ralph Kimball提出的核心维度建模技术经受住了时间的考验。诸如一致性维度、缓慢变化维度、异构产品、无事实的事实表以及企业数据仓库总线矩阵等概念仍然是全球范围内设计论坛所讨论的问题。最初的概念通过新的和互补的技术被逐渐完善并强化。《维度建模》系列文章的目标就是提供维度建模技术的一站式商店。本系列详细介绍了维度设计原则和技术的工具箱。

    展开全文
  • 数据仓库(二)之维度建模

    万次阅读 多人点赞 2018-09-12 22:29:28
    维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的...
    • 概述

    维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。

    • 维度建模优点

                                                            

    • 事实表 

    事实表存储了从业务活动或事件提炼出来的性能度量,它主要包含维度表的外键和连续变化的可加性数值或半可加事实。事实表产生于业务过程中而不是业务过程的描述性信息。它一般是行多列少,占了数据仓库的90%的空间。在维度模型中也有表示多对多关系的事实,其他都是维度表。 

    事实表粒度

    事实表的粒度是产生事实行的度量事件的业务定义。粒度确定了事实表的业务主键, 事实表的所有度量值必须具有相同的粒度。 

    事实表类型

    1.事务事实表

     它是面向事务的,其粒度是每一行对应一个事务,它是最细粒度的事实表。

    2.周期快照事实表

    它是按照良好的时间周期间隔(每天,每月)来捕捉业务活动的执行情况,一旦装入事实表就不会再去更新,它是事务事实表的补充,而非替代品。

    3.累积快照事实表

    它用于描述业务过程中某个不确定时间跨度里的活动,它随着业务活动的发生会不断的更新。

    事实表区别: 

                     

    • 维度表 

    维度表是对业务过程的上下文描述,主要包含代理键、文本信息和离散的数字。它是进入事实表的入口,丰富的维度属性给出了对事实表的分析切割能力,它一般是行少列多。如果属性值是离散的,用于过滤和标记的,就放到维度表里,如果是属性值是连续取值,用于计算的,就放到事实表中。

    维度表类型

    缓慢变化维

     

    1.类型1

    字段值发生变化时覆盖原来的值。 

                                

     

    2.类型2

    字段值发生变化时会新增一行,重新分配代理键,每一行添加开始日期,结束日期,版本号,是否当前值。

     

    3.类型3

    每条记录会新增一列来标识变化前的值,发生变化时,把旧值放到新增的列中,把新值覆盖旧值。

    4.混合类型

    把上面的三种类型混合来使用。

     

    日期维

    它是数据仓库必须有的维度,包含日期,日期所属的周,月,季度,年等信息。 

    角色维

     相同的维度表在维度模型中扮演不中的逻辑角色,一般通过创建视图来表示。

    杂项维

    如果每个属性值都很少,可以把这些维度的组合起来生成一个维度表。 

                    

    支架维

     如果维度之间是一对多的关系或区别于原维度的多个描述性维度属性,可以建雪花型支架维度。

                                 

    多值维度桥接维

    如果二个维度表是多对多的关系,可以使用多值维度设计。

    微型维

     一个大型维有些属性变化比较频繁,把这些属性单独生成一个微型维度表。

     

     缩小维

    它是维度表的一个子集或部分属性。

    查找维

    系统里代码表里维度信息。

    层次维

    有些维度表是有层次结构的,可以通过视图生成树形结构的维度表。

    手工维护的维表

     有些数据不在业务系统里,需要业务用户手工维护的维度表。

    • 企业数据仓库总线架构

    企业价值链 

    每家机构都有一个关键业务过程组成的潜在价值链,这个价值链确定机构主体活动的自然逻辑流程。数据仓库建设就是围绕着价值链建立一致化的维度和事实。

    数据总线

                     

    这些业务过程都会共用一些维度,形成了企业数据仓库的总线,一致化维度和事实看作一组标准的应用程序连接口,可以看作一个数据仓库的总线架构。它可以将新的业务过程引入数据仓库中,该业务过程从总线获得动力,并且和其他已经存在的业务过程和谐共存。 

    数据总线矩阵

    矩阵的每一行对应都对应机构中的一个业务过程,每一列都和一个业务维度相对应,用叉号填充显示的是和每一行相关的列。业务过程应该先从单个数据源系统开始,然后再进行多数据源的合并。

    企业数据仓库总线矩阵是DW/BI系统的一个总体数据架构,提供了一种可用于分解企业数据仓库规划任务的合理方法,开发团队可以独立的,异步的完成矩阵的各个业务过程,迭代地去建立一个集成的企业数据仓库。 

    • 一致性维度和事实

    企业数据仓库应该建立一个一致性维度和事实,而不是为每个部门建立维度和事实。 

    一致性维度

    具有一致的维度关键字,一致的属性列名称,一致的属性定义和一致的属性值。一致性维度要么是统一的,要么是维度表的一个子集。

     一致性事实

    指每个度量在整个数据仓库中都是唯一的统计口径,为了避免歧义,一个度量只有唯一的业务术语。

    • 维度模型设计方法 

    • 维度模型设计流程图 

                                      

    • 维度模型设计步骤                                    

    1.需求调研 

    2.数据探查

    根据总线矩阵,确定业务过程的优先级,就要对候选数据源进行可行性评估,产出文档有源系统跟踪报告,数据评估报告。主要内容有:

                                     

     

    3.高层模型设计

                                              

    4.识别维度和度量

    有了高层模型,就要设计维度和度量,维度和度量清单不仅仅是业务用户所关心,还要从业务过程出发,自上而下的设计所涉及的维度和度量。防止业务用户的需求变化带来的冲击。 

    5.确定命名规范

    在详细设计之前,为DW/BI系统制定规范,主要包含源系统、主题、业务术语、报表,物理设计命名、调度任务、文档方面的规范。 

    6.编写详细设计映射文档

    详细设计文档包括从源系统到维度模型的每个数据层的物理映射文档。 

    7.审查和验证模型

    详细设计文档出来后,要和业务用户和团队成员进行评审,记录下来评审过程中的问题,形成问题清单。

    8.完成设计文档

     最后确定设计文档,进行下一步的ETL开发。

     


    正在招聘大数据方向的人才,有意向可以联系我!

    https://www.lagou.com/jobs/7620558.html

    展开全文
  • ER建模 维度表和事实表 维度建模三种模式 如何维度建模 什么是缓慢变化的维度 最常见的三种数据仓库建模体系 联机分析处理 OLAP 元数据(Metadata)

    ER建模

    • 实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。
    • **实体:矩形 | 属性:椭圆 | 联系:菱形 4种基数约束 **
    • 基数约束
      • 一个实体A对应多个实体B
      • 一个实体A对应0个或多个实体B
      • 一个实体A对应一个实体B
      • 一个实体A对应0个或1个实体B
    • 复合属性 圆括号 地址属性 包括省份 城市 街道
    • 多值属性 双层椭圆 属性有多值,一个职工可能有多个电话号码
    • 派生属性 虚线椭圆 从其他属性或者其他数据(如当前日期)派生出来
    • 可选属性 属性名后面添加(0)标识分属性可能有也可能没有取值,比如说职工奖金。
    • 基数约束上可以加最大最小基数、联系的角色

    维度表和事实表

    • 1. 维度表 dimension
      • 每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键
      • 表示对分析主题所属类型的描述。比如"昨天早上张三在京东花费200元购买了一个皮包"。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),地点维度(京东), 商品维度(皮包)。通常来说维度表信息比较固定,且数据量小
    • 2. 事实表(fact table)
      • 发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从最低的粒度级别来看,事实表行对应一个度量事件, 反之亦然。
      • 表示对分析主题的度量。比如上面那个例子中,200元就是事实信息。事实表包含了与各维度表相关联的外键,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。
      • 常考虑两个属性:
        • 事物标识码(TID),各种订单号、事物编号,不放入维度表是因为数量级太大每次查询都会耗很多资源来join,将某些逻辑意义上的维度放到事实表里的做法称为退化维度
        • 事务时间数量级大,分布式数据仓库工具会对数据进行分区,默认分区字段为日期

    维度建模三种模式

    • 星形模式

      • 一个事实表和一组维表构成,以事实表为核心,维表围绕核心呈星状分布
      • 维表只和事实表关联,维表之间没有关联
      • 每个维表的主键为单列,且该主键放在事实表中,作为两边连接的外码
      • 在这里插入图片描述
    • 雪花模式

      • 每个维表可继续向外连接多个子维表
      • 雪花模型相当于将星形模式的大维表拆分成小维表,满足规范化设计,再实际中较少
      • 在这里插入图片描述
    • 星座模式

      • 多对多
      • 维度空间内的事实表可能不止一个,一个维表可能被多个事实表用到
      • 好处:能够共享维度 和 设置细节/聚集事实表
        • 共享维度:公司希望用分析销售主题的方法分析劣质产品,不需要重新建模,只需要加入一个新的劣质产品事实表
        • 细节事实表:每条记录表示单一事实,通常设置TID属性,查询灵活但速度慢
        • 聚集事实表:每条记录聚合多条事实,无TID属性,速度快但查询功能受到一定限制
        • 常见做法同时设置这两种事实表
        • 在这里插入图片描述
    • 三种模式对比

      • 雪花模式是将星形模式的维表进一步划分,使维表满足规范化设计
      • 星座模式允许星形模式中出现多个事实表

    如何维度建模

    地区 - 商店 - 交易记录 - 顾客 - 产品 - 种类 - 卖主

    • 哪些维度对主题分析(这里是销售额)有用
      • 产品product、顾客customer、商店store、日期date 对销售额分析有帮助
    • 如何使用现有数据生成维表
      • 产品维度 可由产品关系、供应商关系和种类关系得到
      • 顾客维度 可由顾客关系得到
      • 商店维度 可由商店维度和地理维度得到
      • 日期维度 可由交易记录的日期列得到
    • 用什么指标来度量主题
      • 本例的主题是销售,销售和销售额最能反映销售情况
    • 如何用现有数据生成事实表
      • 销售和销售额信息可以通过交易记录得到

      • 在这里插入图片描述

      • 维表不满足3NF,事实表1NF都不满足,各维表的主键由xxID 变成 xxKey,Key这样的字段被称为代理码(surrogate key),它是一个通过自动分配整数生成的主码,没有任何其他意义。使用它主要是为了能够处理"缓慢变化的维度"

    什么是缓慢变化的维度

    • 当业务数据库中的一些数据发送了变化,如顾客的联系方式发生改变,应该如何把这些变化也反映到数据仓库中,一些基本信息的更改可能会引起数据归纳和分析出现的问题。在数据仓库中,其数据主要的特征一是静态历史数据,二是少改变不删除,三是定期增长,其作用主要用来数据分析
    • 缓慢渐变类型一 :不记录历史数据,将旧的业务数据覆盖重写
    • 缓慢渐变类型二 :保存多条记录,直接新添记录,新增加一个 Key(代理键),配合时间戳 告诉数据仓库 哪个是最新在用的 ,通常是DW表的主键,用来连接业务数据库 和 数据仓库的
    • 代理键的好处:
      • 解决这种缓慢渐变维度,维护历史信息记录
      • business key可能较长,代理键可以设置为整形,效率高节省体积
      • 业务数据库来自不同的系统,可能出现相同的business key,用代理键可以处理/
    • 缓慢渐变类型三:添加历史列,用不同的字段保存变化痕迹.它只能保存两次变化记录.适用于变化不超过两次的维度

    最常见的三种数据仓库建模体系

    • 规范化数据仓库:规范化设计的分析型数据库,首先对ETL得到的数据进行ER建模,关系建模,得到一个规范化的数据库模式。各部门开发人员大都从这些数据集市提数,通常来说不允许直接访问中心数据库。
    • 维度建模数据仓库: 使用交错维度进行建模的数据仓库,创建一个大星座模型表示所有分析型数据
    • 独立数据集市:公司的各个组织自己创建并完成ETL,自己维护自己的数据集市,信息分散,效率低
    • 三种对比
      • 规范化数据仓库:需要全局进行规范化建模,前期花费时间大,投入使用慢,后期容易维护
      • 维度建模数据仓库:敏捷性强,适用于业务变化频繁的情况,开发要求没那么高

    联机分析处理 OLAP

    • OLAP需要以大量历史数据为基础,再配合上时间点的差异,对多维度及汇整型的信息进行复杂的分析。
    • Online Analytical Process,以多维度的方式分析数据,而且能够弹性地提供上卷(Roll-up)、下钻(Drill-down)和透视分析(Pivot) 等操作,它是呈现集成性决策信息的方法,多用于决策支持系统、商务智能或数据仓库
    • 联机交易处理(OLTP),联机交易处理,更侧重于基本的、日常的事务处理,包括数据的增删改查

    元数据(Metadata)

    一个管理元数据信息的系统,能够提供方便的元数据的操作和查询操作

    展开全文
  • 维度建模指南

    2018-06-19 14:10:39
    维度建模指南,上传资源即表示确认该资源不违反资源分享的使用条款,并且您拥有该资源的所有版权或者上传资源的授权
  • 自己更具实际业务整理的数据仓库-维度建模知识点 自己更具实际业务整理的数据仓库-维度建模知识点 自己更具实际业务整理的数据仓库-维度建模知识点 自己更具实际业务整理的数据仓库-维度建模知识点
  • 维度建模——数据仓库初步

    万次阅读 2019-11-19 21:32:14
    本文是《维度建模》后续文章的基础。我们首先从宏观层面上考察数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)系统。DW/BI系统首先应该仔细考虑的问题是业务需求。《维度建模》系列文章将...
  • 一、前言二、什么是维度建模三、维度建模的基本要素3.1 事实表3.2 维度表 一、前言 学习数据仓库,你一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball。 Inmon...
  • 维度建模简介

    2020-01-05 17:11:36
    维度建模简介 维度建模是一种将数据结构化的逻辑设计方法,因此它对业务用户来说很直观,并能提供较快的查询性能。 维度建模将客观世界分为事实和维度。 1、维度建模 VS 范式(3NF)建模 建模方法 开发周期 开发...
  • Kimball维度建模

    2020-05-30 16:43:13
    文章参考经典书籍:《数据仓库工具箱(第3版)-维度建模指南》 基本概念: 维度建模: 事实表 维度表 Kimball维度建模4步骤 选择业务过程 声明粒度 确认维度 确认事实 ...
  • 数仓维度建模

    2020-09-13 22:28:07
    20世纪80年代末期,数据...Kimball提出了数据仓库的建模技术--维度建模(dimensional modelling),该方法是在实践观察的基础上开发的。虽然它不基于任何理论,但是在实践中却非常成功。维度建模被视为设计数据仓库和数据
  • 详解维度建模

    2019-09-16 17:18:47
    前一篇已经对常用的几种数据模型做了简单的介绍,本篇主要对其中最常用的维度建模做一个深入的理解。 0x01 什么是维度建模 维度模型是数据仓库领域另一位大师 Ralph Kimball 所倡导,他的《The DataWarehouse ...
  • 关系建模和维度建模

    2021-05-12 15:37:28
    对于大数据来讲,维度建模区别于关系建模的优点有三: 方便理解模型,以业务为驱动更符合人的思维 join少shuffle少性能好 更方便做数据分析
  • 各种数据建模方法,如维度建模。调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体系中,数据模型的核心地位是不可替代的。因此,下面的将详细地阐述...
  • 维度建模示例

    2021-03-17 00:34:16
    以库存模块和零售模块这两个模块来谈一谈维度建模的相关事项梳理库存业务中的表的构造与设计思想梳理一下缓慢变化维的处理方法与优缺这篇博客计划用周末来完成,只能简单的讨论一下建模概况,从维度建模...
  • 数据仓库建模 Powerdesigner 维度建模 软件分析 建模 视频教程
  • 维度建模理论

    2021-02-22 22:34:17
    维度建模和关系建模 实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。 维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。 关系模型 -在关系型数据库使用,...
  • 数仓-维度建模

    2020-09-29 15:34:13
    文章目录一、维度建模介绍1.维度建模:2.维度建模的好处3.事实表1.事务型事实表2.周期快照事实表3.累计快照事实表4.维度表5.维度建模过程6.缓慢变化维(scd) 一、维度建模介绍 1.维度建模: 是一种将数据结构化的逻辑...
  • 数据仓库维度建模

    2018-07-30 09:14:46
    数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。
  • 我的维度建模笔记

    2014-05-13 09:48:41
    数据仓库维度建模的读书笔记,建议学习维度建模的初学者可以了解一下
  • 数据仓库维度建模笔记 2009-03-24 20:01 数据仓库工具箱维度建模的完全指南是数据仓库建模方面的经典著作 1996年第一版出版被认为是数据仓库方面具有里程碑意义的事件作者kimballl是数据仓库方面的权威他将多年的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 55,081
精华内容 22,032
关键字:

维度建模