精华内容
下载资源
问答
  • 事实维度表

    2021-08-26 15:49:19
    文章目录前言一、事实1.2、事实的特征1.3、事实的类型1.3.1、...2.3、维度表的好处三、维度表 vs 事实3.1、事实和维之间的主要区别3.2、对比项关注我的公众号【宝哥大数据】,更干货 前言 事实包含系统

    前言

    事实表包含系统的事实作为其数据内容,维度表包含事实表的所有属性或对象,这些属性或对象有助于将事实表连接到各个维度表。两个表中的数据都可以是普通的文本格式,而事实表可以有数字和文本。在创建数据库的过程中,维度表由于其自身的特性,先于事实表创建。

    一、事实表

    数据仓库系统中的事实表只不过是包含所有事实或业务信息的表,可以在需要时进行分析和报告活动。这些表包含表示直接事实的字段,以及用于将事实表与数据仓库系统中的其他维度表连接起来的外部字段。一个数据仓库系统可以有一个或多个事实表,这取决于用于设计数据仓库的模型类型。

    1.2、事实表的特征

    • 键: 它有一个键或一个主键,它是与其链接的所有维度表的所有主键的累积。该键称为串联键,有助于唯一标识该行。
    • 事实表粒度: 表的粒度描述了该表中包含的信息的详细程度或深度。级别越高,表的效率越高。
    • 添加度量: 此中存在的属性可以是完全添加、非添加或半添加。将完全可加或可加的度量添加到所有维度。半加性是添加到某些维度而非所有维度的那些度量,非加性度量是存储业务流程的基本度量单位。
    • 稀疏数据: 有些记录的属性包含空值或度量。他们不提供任何信息。
    • 收缩汇总维度: 收缩汇总维度是基础维度的细分。

    1.3、事实表的类型

    它分为三个基本测量事件

    • 事务性
    • 定期快照
    • 累积快照

    1.3.1、交易事实表

    这是业务运营的基本和基本观点。它用于表示在任何瞬时时间点发生的事件。事实度量仅对那个特定时刻有效,并且只对那个事件有效。与事务表关联的粒度指定为“事务中每行一行”。通常,它包含详细级别的数据,这导致它具有大量关联的维度。它在最基本的或原子级别的维度上捕获测量。这有助于表格为用户提供强大的维度分组、汇总和向下钻取报告功能。它密集而稀疏。它可能很大,可能包含数十亿条记录。让我们看一个杂货店销售的例子。
    在这里插入图片描述

    1.3.2、快照事实表

    快照给出了特定时间实例或“瞬间图片”的事物状态。它通常包括更多的非加成和半加成事实。它有助于定期和可预测的时间间隔审查业务的累积绩效。在这种情况下,表示在每天或一周或一个月或任何其他时间间隔结束时的活动性能,这与事务事实表不同,其中为每个事件的发生添加新行。但是快照事实表或定期快照依赖于事务事实表来获取事务事实表中存在的详细数据。周期快照表大多是密集的,并且可以像事务事实表一样大。让我们看一下交易事实表中同一家杂货店销售额的定期快照示例。

    在这里插入图片描述

    1.3.3、积累事实表

    这些用于表示具有明确定义和明确开始和结束的任何流程的活动。累积快照大多具有多个数据戳,代表生命周期中发生的可预测阶段或事件。有时会有一个额外的列包含显示该行上次更新时间的日期。让我们看一个例子。

    累积 -1.3

    1.4、它如何在数据仓库中工作?

    它基本上代表与事件相关的指标。任何事实表的含义都必须由表名或表主键的组成来表示。最重要的选择是决定主键。也可以创建代理键作为主键。如果用户不想使用代理键,那么他可以使用指向与事实相关的维度组合的外键组合。使用外键可以了解 表的粒度 或 粒度。

    Kimball 描述了可以遵循的四个设计步骤:

    • 选择要建模的业务流程。
    • 声明谷物。
    • 选择维度。
    • 识别事实。

    1.5、事实表的优点

    • 它包含用于分析的定量信息。
    • 它包含的性能指标通常是标准化的。
    • 它可以包含不同的度量,如加性、半加性和非加性。

    二、维度表

    维度表存在于星型或雪花模型中。维度表有助于描述维度,即维度值、属性和键。它的尺寸通常很小。大小可以从几行到几千行不等。它描述了事实表中存在的对象。维度表是指与任何可测量事件相关的信息的集合或组。它们构成了维度建模的核心。它包含一个可以被视为主键列的列,有助于唯一标识每个维度行或记录。它通过这个键与事实表连接。创建时,系统生成的称为代理键的键用于唯一标识维度中的行。

    为什么我们需要使用?

    • 它有助于存储历史信息或维度信息。
    • 它比规范化表更容易理解。
    • 可以向表中添加更多列,而不会影响使用这些列的现有应用程序。

    2.1、维度表类型

    2.1.1、SCD(缓慢变化维)

    倾向于随时间缓慢变化而不是在固定时间间隔内变化的维度属性称为缓慢变化维度。例如地址和电话号码更改但不定期更改。让我们看一个例子,一个人去不同的国家旅行,所以他需要根据那个国家改变他的地址。这可以通过三种方式完成:

    类型 1:覆盖之前的值。这种方法易于应用,有助于节省空间从而降低成本。但是,在这种情况下,历史丢失了。

    更改前的表

    ID姓名国家国籍
    1001雷切尔印度印度人

    更改后的表

    ID姓名国家国籍
    1001雷切尔中国印度人

    类型 2:添加具有新值的新行。在这种方法中,历史被保存并且可以在必要时使用。但占用空间大,增加了成本。

    更改前的表

    ID姓名国家国籍
    1001雷切尔印度印度人

    更改后的表

    ID姓名国家国籍
    1001雷切尔印度印度人
    1001雷切尔中国印度人

    类型 3:添加新列。这是最好的方法,因为历史可以轻松维护。

    更改前的表

    ID姓名国家国籍
    1001雷切尔印度印度人

    更改后的表

    ID姓名国家老国家国籍
    1001雷切尔中国印度印度人

    2.1.2、一致维度

    该维度在多个主题领域或数据集市之间共享。同样可以在不同的项目中使用,而无需在同一项目中进行任何修改。这用于保持一致性。一致维度是那些完全相同或任何其他维度的适当子集的维度。

    2.1.3、垃圾维度

    垃圾维度是一组低基数的属性。它包含与任何其他属性无关的不同或各种属性。这些可用于实现 RCD(快速变化的维度),例如标志、权重等。

    2.1.4、退化维度

    它存储在事实表本身中而不是作为单独的维度表存储的属性,这些属性称为退化维度。例如票号、发票号、交易号等。

    2.1.5、角色扮演维度

    与事实表的多重关系称为角色扮演维度。换句话说,当同一个维度键及其所有相关属性与事实表中的许多外键连接时。它可以在同一个现有数据库中实现多种用途。

    2.2、它在数据仓库中是如何工作的?

    • 维度是指与任何可测量事件相关的信息的集合或组。它们构成了维度建模的核心。创建维度时,会生成项目的结构。Created 可以跨不同的项目使用,它反映了可重用性的想法。当其中任何一项发生更改时,其影响仅反映在该特定表中。当要创建报告时,用户可以从维度表中获取数据,因为维度表包含所有必要的信息。
    • 当执行维度建模时,原子数据被加载到维度结构中。然后围绕业务流程生成或构建维度模型。创建时必须记住过滤域值并将报告的标签存储在这些表中。必须确保在创建维度表时必须使用代理键(在创建维度表期间使用的系统生成的键,它有助于唯一标识维度表中存在的每条记录。)。它必须是非规范化的,因为它们的任务是让用户轻松高效地读取和分析数据,而不是管理事务。维度的主要目的是提供过滤、执行分组和高效标记。

    2.3、维度表的好处

    • 它具有简单的结构。
    • 很容易分析和理解。
    • 非规范化数据。
    • 有助于维护任何维度的历史信息。
    • 很容易从中检索数据。
    • 快速创建和实施。
    • 它提供了任何业务流程的上下文。

    三、维度表 vs 事实表

    3.1、事实表和维表之间的主要区别

    • 事实表包含维度表的属性的值或度量。
    • 事实表包含更少的属性和更多的记录,而维度表包含更少的记录和更多的属性。
    • 事实表垂直增长,而维度表水平增长。
    • 事实表包含一个连接键,而维度表包含一个主键。
    • 必须在创建事实表之前创建维度表。
    • 任何模式都包含更多的维度表和更少的事实表。

    3.2、对比项

    特征事实表尺寸表
    基本定义它包含属性的度量、事实或度量。它是包含使用哪个事实表推断事实的属性的伴随表。
    设计它由数据粒度定义。它是描述性的、完整的和冗长的。
    任务它包含度量并用于分析和决策。它包含有关业务及其流程的信息。
    数据类型它包含数字和文本格式的数据。它只包含文本格式的数据。
    key每个维度都有一个主键,作为维度表中的外键。它有一个与事实表的主键相关联的外键。
    存储它将过滤器域和报告标签存储在维度表中。它将详细的原子数据存储到维度结构中。
    等级制度它没有层次结构。它包含一个层次结构。
    属性它的属性较少更多属性
    记录更多记录记录少。
    表增长桌子垂直增长。桌子水平增长。
    创建时间创建维度表后,会创建事实表。首先需要创建维度表。
    模式结构模式中的事实表数量较少。模式中有许多维度表。

    关注我的公众号【宝哥大数据】,更多干货

    在这里插入图片描述

    展开全文
  • 维度表的冗余很大,主要是因为维度一般不大(相对于事实来说的),而维度表的冗余可以使事实节省很空间。 事实一般都很大,如果以普通方式查询的话,得到结果一般发的时间都不是我们可以接受的。所以它一般要...

    简单解释:

    • 事实表就是交易表。
    • 维度表就是基础表。

    二者的区别:

    1. 维度表的冗余很大,主要是因为维度一般不大(相对于事实表来说的),而维度表的冗余可以使事实表节省很多空间。
    2. 事实表一般都很大,如果以普通方式查询的话,得到结果一般发的时间都不是我们可以接受的。所以它一般要进行一些特殊处理。如SQL Server 2005就会对事实表进行如预生成处理等。
    3. 事实表一般是没有主键的,数据的质量完全由业务系统来把握。

    以上内容仅供参考学习,如有侵权请联系我删除!
    如果这篇文章对您有帮助,左下角的大拇指就是对博主最大的鼓励。
    您的鼓励就是博主最大的动力!

    展开全文
  • 一、维度建模的基本概念维度建模... 维度表(dimension)表示对分析主题所属类型的描述。比如"昨天早上张三在京东花费200元购买了一个皮包"。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天...

    一、维度建模的基本概念

    维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。

    它本身属于一种关系建模方法,但和在操作型数据库中介绍的关系建模方法相比增加了两个概念:

    1. 维度表(dimension)

    表示对分析主题所属类型的描述。比如"昨天早上张三在京东花费200元购买了一个皮包"。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),地点维度(京东), 商品维度(皮包)。通常来说维度表信息比较固定,且数据量小。

    2. 事实表(fact table)

    表示对分析主题的度量。比如上面那个例子中,200元就是事实信息。事实表包含了与各维度表相关联的外码,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。

    二、维度建模的三种模式

    1. 星形模式

    星形模式(Star Schema)是最常用的维度建模方式,下图展示了使用星形模式进行维度建模的关系结构:星型模式

    可以看出,星形模式的维度建模由一个事实表和一组维度表组成,且具有以下特点:维度表只和事实表关联,维度表之间没有关联;

    每个维度表的主码为单列,且该主码放置在事实表中,作为两边连接的外码;

    以事实表为核心,维度表围绕核心呈星形分布。

    2. 雪花模式

    雪花模式(Snowflake Schema)是对星形模式的扩展,每个维度表可继续向外连接多个子维度表。下图为使用雪花模式进行维度建模的关系结构:雪花模式

    星形模式中的维度表相对雪花模式来说要大,而且不满足规范化设计。雪花模型相当于将星形模式的大维度表拆分成小维度表,满足了规范化设计。然而这种模式在实际应用中很少见,因为这样做会导致开发难度增大,而数据冗余问题在数据仓库里并不严重。

    3. 星座模式

    星座模式(Fact Constellations Schema)也是星型模式的扩展。基于这种思想就有了星座模式:星座模式

    前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。

    4. 三种模式对比

    归纳一下,星形模式/雪花模式/星座模式的关系如下图所示:三种模式的关系

    雪花模式是将星型模式的维表进一步划分,使各维度表均满足规范化设计。而星座模式则是允许星形模式中出现多个事实表。

    三、建模技巧

    通常在需求搜集完毕后,便可进行维度建模了。Adventure Work Cycles案例即可采用星形模型维度建模。但不论采取何种模式,维度建模的关键在于明确下面四个问题:

    1. 哪些维度对主题分析有用?

    Adventure Work Cycles案例中,根据产品种类、销售区域、时间,对销售额、销量进行分析是非常有帮助的。

    2. 如何使用现有数据生成维度表?

    Adventure Work Cycles案例中,样本数据已经生成维度表。

    3. 用什么指标来"度量"主题?

    Adventure Work Cycles案例的主题是销售,而销量和销售额这两个指标最能直观反映销售情况,此外客单价、平均运费、平均税率等指标也可以进行分析。

    4. 如何使用现有数据生成事实表?

    Adventure Work Cycles案例中,样本数据已经生成事实表。

    明确这四个问题后,便能轻松完成维度建模。

    展开全文
  • 事实维度表

    2021-11-03 06:59:03
    一、事实 事实记录了特定行为事件的数字化信息,一般由数值型数字和指向维度表的外键组成。...维度表的记录数比事实少,但是每条记录可能会包含很字段。 1.2.2 分类 主要包含两大类数据: 高

    一、事实表

    • 事实表记录了特定行为事件的数字化信息,一般由数值型数字和指向维度表的外键组成。此类数据的数据量较大,更新比较频繁。
    • 事实表的设计依赖于业务系统,事实表的数据可以计算出业务系统的指标数据。数据分析的实质就是基于事实表开展的计算操作。
      思考:

    二、维度表

    • 维度是指观察数据的角度,一般是一个名词,比如对于销售金额这个事实,我们可以从销售时间、销售产品、销售店铺、购买顾客等多个维度来观察分析。
    • 维度表的记录数比事实表少,但是每条记录可能会包含很多字段。
      1.2.2 分类
    • 主要包含两大类数据:
      • 高基数维度数据:一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。
      • 低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表、地理维表等。数据量可能是个位数或者几千条几万条。

    三、基数

    基数指的是一个字段中不同值的个数,比如主键列具有唯一值,所以具有最高的基数,而性别枚举值(日期、地区等)这样的列的基数就很低。

    四、对比

    1. 数据特性:事实表一般都是行为数据,数据量较大,更新较频繁;维度表相对较小,不更
      新或更新频率低;
    2. 图表展现:在图表展现中,事实数据体现为x轴,维度数据体现为y轴;
    3. 统计实现:在统计sql中,维度字段体现在groupby分组中,行为指标字段体现在count/sum
      等聚合函数中。

    五、栗子:

    • 时间维度表
      描述事件发生的时间,数据仓库就是一个随时间变化的数据集合,因此可能需要一个时间维度表。年月日时分秒。
    • 地理维度表
      描述地理位置信息数据,国家、省市县镇村、邮编等。
    • 产品维度表
      描述产品属性。比如书的分类,有科技、教育、小说等分类属性。
    • 人员维度表
      描述人员相关信息,销售人员、市场人员、开发人员等。
    展开全文
  • 步骤0:初始化拉链(首次独立执行) (1)建立拉链 hive (gmall)> drop table if exists dwd_dim_user_info_his; create external table dwd_dim_user_info_his( id string COMMENT ‘用户id’, name string ...
  • ER建模 维度表和事实 维度建模三种模式 如何维度建模 什么是缓慢变化的维度 最常见的三种数据仓库建模体系 联机分析处理 OLAP 元数据(Metadata)
  • 维度,此处采用拉链存储用户维度数据。 1)什么是拉链 2)为什么要做拉链 3)拉链形成过程 4)拉链制作过程图 5)拉链制作过程 步骤 0:初始化拉链(首次独立执行) (1)...
  • 对于 Inmon 和 Kimball 两种建模方式可以长篇大论叙述,但理论是很枯燥的,尤其是晦涩难懂的文字,大家读完估计也不会收获太,所以我根据自己的理解用通俗的语言提炼出最核心的概念。 范式建模 范式建模是数仓之父...
  • 知识图谱(Knowledge Graph),...通过云端智能分析和终端智能分析的结合,可以满足场景、全业务、深挖掘的分析需求。源中瑞通过领先的技术能力、丰富的实战经验、强大的业务理解能力正在成为公安机关忠实的合作伙伴。
  • 对于Reno5和nova8哪个好这个问题,其实要从维度来分析,毕竟每一个用户对于手机的日常使用需求都不尽相同。有的注重外观设计,有的则注重影像和续航,那么在这些方面弄清楚需求,Reno5和nova8哪个好其实就能知
  • 多维度分析对比腾讯云服务器和阿里云服务器 云服务器具有维护成本低,安全稳定,高可扩展性和 7 X 24 小时的售后支持的优势,因此云服务器成为中小企业建站的首要选择。国内的云服务器竞争中最具优势的是腾讯云和...
  • OpenVAS 还拥有自己的报告功能,允许您创建漏洞评估报告,并将次扫描与可视元素和饼图合并为一份报告。OpenVAS 可以导出HTML、PDF和CSV格式的报告。Nessus 的报告功能在生产价值方面可能具有优势,但 OpenVAS ...
  • 那当数据分析维度,该怎么办?比如像要做比较分析,就要用柱图、雷达图等;想要看数据分析的占比情况,就要用漏斗、饼图;想要看数据的趋势有线形图;想要看数据与数据之间的关系,有树状图…….而每个分类里...
  • head_list)-1))*600) py.plot(fig) 多维度子图展示 具体实现效果如下 可以看到,我们将不同维度的数据,展示在各个图上,可以直观的看到涨跌幅相较于价格的变化趋势。 个文件分列展示在同一画布 在前面的基础上,...
  • 场景: 用户有两类数据,一组实际业务发生的值,直接DIRECTQUERY在线连接系统获取...研究发现,报表自带的对比值只有平均,最大,最小之类,而且要在同样的维度中。AS-IS:TO-BE思路: 计算好按BU的数据实际数据,...
  • CLIP-对比图文模态预训练的读后感

    千次阅读 2021-08-08 16:46:17
    CLIP-对比图文模态预训练的读后感 FesianXu 20210724 at Baidu Search Team 前言 CLIP是近年来在模态方面的经典之作,其用大量的数据和算力对模型进行预训练,使得模型的zero-shot性能甚至可以匹敌众多数据...
  • Tableau可视化分析功能一览使用体会豆瓣电影数据分析条形图(各国电影数量)直方图(电影评分分布)折线图(电影数量逐年变化)环形图(不同...箱线图(不同产地电影评分)弧线图(电影强国数量对比)仪表盘(图.
  • 2、有哪些实时数据库查找关联3、有哪些预加载维关联?4、如何进行维变更日志关联?上篇博客提到 Flink SQL 如何 Join 两个数据流,有读者反馈说如果不打算用 SQL 或者想自己实现底层操作,那么如何基于 ...
  • 维度与指标

    2021-03-16 17:35:26
    指标与维度最基本的作用是描述与衡量,维度与指标往往成对出现,搭配使用,往往通过组合筛选一系列指标来形成一个维度,也可以理解为不同的维度需要不同组合指标来实现。 指标 用于衡量事物发展程度的单位或方法 ...
  • 近些年来,数据库产业发展迅猛,各种数据库产品层出不穷。那么如何选择一款数据库产品成为很企业面临的问题?特别是随着数据规模、计算能力等需求,分布式数据库产品成为很企业的新宠。那么这类数据...
  • 维度建模关系

    2021-05-21 00:56:22
    复杂的数据关系数据仓库模型建设数据管理一直在演进,从早期的电子表格、蛛网系统到架构式数据仓库。发展至今以维度建模和关系建模为主,而随着互联网的发展,数据从GB到PB的裱花,企业业务迭代更新...
  • 前言 ...这样的操作有助于更好地组织维度和度量,以及容纳具有相同名称的两个或更个字段以用于更好的数据分析。 关于tableau的高级部分内容,大家可自行订阅专栏 tableau可视化数据分析高级教程 ...
  • 财务RPA机器人应用风险多维度分类解析 财务RPA机器人可以分别按部署方式、操作场景、运行方式等进行分类。而不同的分类模式中,财务RPA机器人应用中所面临的风险也是不同的,通常分为4类:监管合规风险、内部管控...
  • 我主页中的思维导图中内容大多从我的笔记中整理而来, 有兴趣的可以去 我的主页了解更计算机学科的精品思维导图整理 本文可以转载,但请注明来处,觉得整理的不错的小伙伴可以点赞关注支持一下哦! ...
  • Numpy,Tensor维度的理解方式 就像学数学一样,对加减乘除各方式都需要一个理解的入门方法。 import numpy as np b = np.array([[[1,2], [3,4], [5,6]], [[11,12],[13,14],[15,16]], [[21,22],[23,24],[25,26]], ...
  • 电商是一个伴随数据而生的行业,数据在电商平台上高速运转,由此也诞生了非常的电商信息化平台,有物流系统、供应链系统、OA系统、流量分析平台等,而各平台产生的数据都被分散在各个系统中,无法发挥出数据的价值...
  • 我们从以下几个方面来探究思考,抛砖引玉,看看大家是否有其他维度来提高项目,欢迎在评论区留言。 文章目录1.框架选择方面(开发速度、项目性能)我们来探究一下相较于其他框架,为什么swoole的速度更快?swoole是...
  • 点上方人工智能算法与Python大数据获取更干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转载于 :新智元自监督学习的一个弊端在于没有正负样例的修正...
  • 可是当建立个滑动条的时候发现,修改并不同步。不同的滑动条修改时候并不会在已经修改的基础上进行改变而是在原图的基础上修改。 为了方便理解下面滑动条操作,以下是一些参数: 函数说明: createTrackbar()...
  • 1. OLTP与OLAP 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical ...二者的主要区别对比如下所示。 对比属性 OLTP

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 93,050
精华内容 37,220
关键字:

多维度对比表

友情链接: main.zip