精华内容
下载资源
问答
  • 数据维度建模中星型模型与雪花模型的区别以及优缺点对比概念星型模型雪花模型区别及优缺点什么时候使用雪花模型总结 概念 根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,...

    数据维度建模中星型模型与雪花模型的区别以及优缺点对比

    概念

    根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,一般都会围绕着这两种模型来设计表关系或者结构。那么什么是事实表和维度表呢?在维度建模中,将度量称为“事实” ,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。事实则紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。例如订单作为交易行为的核心载体,直观反映了交易的状况。订单的流转会产生很多业务过程,而下单、支付和成功完结三个业务过程是整个订单的关键节点。获取这三个业务过程的笔数、金额以及转化率是日常数据统计分析的重点,事务事实表设计可以很好地满足这个需求。

    星型模型

    当所有维表都直接连接到事实表上时,整个图解就像星星一样,故将该模型称为星型模型。

    星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一点的冗余。如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。
    在这里插入图片描述
    星型模型强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。

    雪花模型

    当有一个或多个维表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。
    雪花模型是对星型模型的扩展,它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。如将地域维表分解为国家,省份,城市等维表。它的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,去除了数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。
    在这里插入图片描述

    区别及优缺点

    星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花模型要高。
    星型模型不用考虑很多正规化的因素,设计与实现都比较简单。

    雪花模型由于去除了冗余,有些统计就需要通过表的连接才能产生,所以效率不一定有星型模型高。

    正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。
    在这里插入图片描述

    什么时候使用雪花模型

    Ralph Kimball,数据仓库大师,讲述了三个例子。对于三个例子,使用雪花模型不仅仅是可接受的,而且可能是一个成功设计的关键。

    1、一个用户维度表且数据量较大。其中,80%的事实度量表是匿名访问者,仅包含少数详细信息。20%的是可靠的注册用户,且这些注册用户有较为详细的信息,与多个维度表中的数据相连。

    2、例如一个金融产品维度表,且这些金融产品有银行类的,保险类等等区别。因此不同种类的产品有自己一系列的特殊属性,且这些属性并非是所有产品共享的。

    3、多个企业共用的日历维度表。但每个企业的财政周期不同,节假日不同等等。在数据仓库的环境中用雪花模型,降低储存的空间,到了具体某个主题的数据集市再用星型模型。

    雪花模型使得维度分析更加容易,比如“针对特定的广告主,有哪些客户或者公司是在线的?”,星形模型用来做指标分析更适合,比如“给定的一个客户他们的收入是多少?”

    总结

    通过上面的对比我们可以发现,在数据仓库建设中大多时候比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL,Oracle中非常常见,尤其像电商的数据库表。在数据仓库中雪花模型的应用场景比较少,但也不是没有,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。

    转自: https://blog.csdn.net/winterPassing/article/details/105929303.

    展开全文
  • 根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,一般都会围绕着这两种模型来设计表关系或者结构。那么什么是事实表和维度表呢?在维度建模中,将度量称为“事实” ,将环境...

    概念

    根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,一般都会围绕着这两种模型来设计表关系或者结构。那么什么是事实表和维度表呢?在维度建模中,将度量称为“事实” ,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。事实则紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。例如订单作为交易行为的核心载体,直观反映了交易的状况。订单的流转会产生很多业务过程,而下单、支付和成功完结三个业务过程是整个订单的关键节点。获取这三个业务过程的笔数、金额以及转化率是日常数据统计分析的重点,事务事实表设计可以很好地满足这个需求。

    当所有维表都直接连接到事实表上时,整个图解就像星星一样,故将该模型称为星型模型。

    星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一点的冗余。如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。

    星型模型强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。

    当有一个或多个维表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。

    雪花模型是对星型模型的扩展,它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。如将地域维表分解为国家,省份,城市等维表。它的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,去除了数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。

    区别及优缺点

    星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花模型要高。

    星型模型不用考虑很多正规化的因素,设计与实现都比较简单。

    雪花模型由于去除了冗余,有些统计就需要通过表的连接才能产生,所以效率不一定有星型模型高。

    正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率。

    什么时候使用雪花模型

    Ralph Kimball,数据仓库大师,讲述了三个例子。对于三个例子,使用雪花模型不仅仅是可接受的,而且可能是一个成功设计的关键。

    1、一个用户维度表且数据量较大。其中,80%的事实度量表是匿名访问者,仅包含少数详细信息。20%的是可靠的注册用户,且这些注册用户有较为详细的信息,与多个维度表中的数据相连。

    2、例如一个金融产品维度表,且这些金融产品有银行类的,保险类等等区别。因此不同种类的产品有自己一系列的特殊属性,且这些属性并非是所有产品共享的。

    3、多个企业共用的日历维度表。但每个企业的财政周期不同,节假日不同等等。在数据仓库的环境中用雪花模型,降低储存的空间,到了具体某个主题的数据集市再用星型模型。

    雪花模型使得维度分析更加容易,比如“针对特定的广告主,有哪些客户或者公司是在线的?”,星形模型用来做指标分析更适合,比如“给定的一个客户他们的收入是多少?”

    总结

    通过上面的对比我们可以发现,在数据仓库建设中大多时候比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL,Oracle中非常常见,尤其像电商的数据库表。在数据仓库中雪花模型的应用场景比较少,但也不是没有,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。

    参考文档:

    《数据仓库工具箱》

    什么时候用雪花模型:https://blog.csdn.net/rav009/article/details/70666289

    星型模型和雪花型模型比较:https://blog.csdn.net/nisjlvhudy/article/details/7889422

    理解数据仓库中星型模型和雪花模型:https://www.iteye.com/blog/qindongliang-2383473

     

    展开全文
  • 根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,一般都会围绕着这两种模型来设计表关系或者结构。那么什么是事实表和维度表呢?在维度建模中,将度量称为“事实” ,将环境...

    原文链接: https://blog.csdn.net/winterPassing/article/details/105929303

    概念
    根据事实表和维度表的关系,可将常见的模型分为星型模型和雪花模型。在数据仓库的建设中,一般都会围绕着这两种模型来设计表关系或者结构。那么什么是事实表和维度表呢?在维度建模中,将度量称为“事实” ,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的环境。事实则紧紧围绕着业务过程来设计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度和与业务过程有关的度量。例如订单作为交易行为的核心载体,直观反映了交易的状况。订单的流转会产生很多业务过程,而下单、支付和成功完结三个业务过程是整个订单的关键节点。获取这三个业务过程的笔数、金额以及转化率是日常数据统计分析的重点,事务事实表设计可以很好地满足这个需求。

    当所有维表都直接连接到事实表上时,整个图解就像星星一样,故将该模型称为星型模型。

    星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一点的冗余。如在地域维度表中,存在国家 A 省 B 的城市 C 以及国家 A 省 B 的城市 D 两条记录,那么国家 A 和省 B 的信息分别存储了两次,即存在冗余。

    星型模型强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hive时,经常会看到一些大宽表的原因,大宽表一般都是事实表,包含了维度关联的主键和一些度量信息,而维度表则是事实表里面维度的具体信息,使用时候一般通过join来组合数据,相对来说对OLAP的分析比较方便。

    当有一个或多个维表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。

    雪花模型是对星型模型的扩展,它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 "层次 " 区域,这些被分解的表都连接到主维度表而不是事实表。如将地域维表分解为国家,省份,城市等维表。它的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能,去除了数据冗余,但是在分析数据的时候,操作比较复杂,需要join的表比较多所以其性能并不一定比星型模型高。

    区别及优缺点
    星型模型因为数据的冗余所以很多统计查询不需要做外部的连接,因此一般情况下效率比雪花模型要高。

    星型模型不用考虑很多正规化的因素,设计与实现都比较简单。

    雪花模型由于去除了冗余,有些统计就需要通过表的连接才能产生,所以效率不一定有星型模型高。

    正规化也是一种比较复杂的过程,相应的数据库结构设计、数据的ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下,实际运用中星型模型使用更多,也更有效率

    什么时候使用雪花模型
    Ralph Kimball,数据仓库大师,讲述了三个例子。对于三个例子,使用雪花模型不仅仅是可接受的,而且可能是一个成功设计的关键。

    1、一个用户维度表且数据量较大。其中,80%的事实度量表是匿名访问者,仅包含少数详细信息。20%的是可靠的注册用户,且这些注册用户有较为详细的信息,与多个维度表中的数据相连。

    2、例如一个金融产品维度表,且这些金融产品有银行类的,保险类等等区别。因此不同种类的产品有自己一系列的特殊属性,且这些属性并非是所有产品共享的。

    3、多个企业共用的日历维度表。但每个企业的财政周期不同,节假日不同等等。在数据仓库的环境中用雪花模型,降低储存的空间,到了具体某个主题的数据集市再用星型模型。

    雪花模型使得维度分析更加容易,比如“针对特定的广告主,有哪些客户或者公司是在线的?”,星形模型用来做指标分析更适合,比如“给定的一个客户他们的收入是多少?”

    总结
    通过上面的对比我们可以发现,在数据仓库建设中大多时候比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系型数据库中如MySQL,Oracle中非常常见,尤其像电商的数据库表。在数据仓库中雪花模型的应用场景比较少,但也不是没有,所以在具体设计的时候,可以考虑是不是能结合两者的优点参与设计,以此达到设计的最优化目的。


    参考文档:
    《数据仓库工具箱》
    什么时候用雪花模型:https://blog.csdn.net/rav009/article/details/70666289
    星型模型和雪花型模型比较:https://blog.csdn.net/nisjlvhudy/article/details/7889422
    理解数据仓库中星型模型和雪花模型:https://www.iteye.com/blog/qindongliang-2383473

    展开全文
  • 什么是星型模型

    千次阅读 2019-02-12 15:18:36
    1.什么是星型模型? Star schema 星型模型是最简单的数据集市模型,是最广泛用于开发数据仓库和维度数据集市的方法。星型模型由一个或多个引用任意数量的维度表的事实表组成。 星型模型是雪花模型的一个重要特例,...

    1.什么是星型模型? Star schema

    星型模型是最简单的数据集市模型,是最广泛用于开发数据仓库和维度数据集市的方法。星型模型由一个或多个引用任意数量的维度表的事实表组成。 星型模型是雪花模型的一个重要特例,对于处理更简单的查询更有效。

    星型模型的名称来自物理模型与星形的相似之处,其中心有一个事实表,周围的维度表代表星的点。

    在这里插入图片描述

    2.优点

    • 星型模型是非规范化的 ,这意味着应用于事务性关系数据库的常规规范化规则在星型模型设计和实现过程中被放宽。 星型模型非规范化的好处是:

    • 更简单的查询 - 星型模型连接逻辑通常比从高度规范化的事务模型中检索数据所需的连接逻辑更简单。

    • 简化的业务报告逻辑 - 与高度规范化的模型相比,星型模型简化了常见的业务报告逻辑,例如周期和报告。

    • 查询性能提升 - 与高度规范化的模型相比,星型模型可以为只读报告应用程序提供性能增强。

    • 快速聚合 - 针对星型模型的简单查询可以提高聚合操作的性能。

    • 所有OLAP系统都使用提供多维数据集 - 星型模型来有效地构建专有的OLAP多维数据集 ; 事实上,大多数主要的OLAP系统都提供ROLAP操作模型,可以直接使用星型模型作为源,而无需构建专有的多维数据集结构。

    3.缺点

    • 星型模型的主要缺点是数据完整性不能很好地实施,因为它处于高度非规范化状态。 一次性插入和更新可能导致数据异常,规范化模型旨在避免。 一般而言,星型模型通过批处理或近实时数据流以高度受控的方式加载,以补偿由归一化提供的缺乏保护。

    • 星型模型在分析需求方面也不像标准化数据模型那样灵活。规范化模型允许执行任何类型的分析查询,只要它们遵循模型中定义的业务逻辑即可。 星型模型往往更专门针对特定的数据视图而构建,因此实际上不允许更复杂的分析。

    • 星型模型不支持业务实体之间的多对多关系 - 至少不是很自然。 通常,这些关系在星型模型中被简化以符合简单的维度模型。

    驱动Wikipedia

    展开全文
  • 星型模型与雪花模型比对(区别)

    千次阅读 2019-02-12 16:15:25
    星型模型与雪花模型比对(区别) 区别项 星型模型 雪花模型 事实表 一个或多个 集中式 维度表 一级维度表 多级维度表(子维度表) 存储空间 多 少 数据冗余度 大 小 表宽度 宽 窄 扩展性 差 好 ...
  • 星型模型和雪花型模型比较定义说明优缺点对比 定义说明 根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型 星型是维表和事实表可通过字段直接相连,结构如下图 雪花型是有一个或多个维表没有...
  • 当今数据仓库建模主要分为两类:范式建模和维度建模 ...实际应用中一般是范式建模和维度建模相结合,这里讲下维度模型下的两个主要分类:雪花模型和星型模型 星型模型:由一个事实表和一组维表直接组...
  • 星型模型和雪花模型星型模型星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他...
  • 1.1 星型模型和雪花模型 1.1.1 星型模型 星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余。 1.1.2 雪花模型 当有一个或多个维表没有直接连接...
  • 优缺点: 雪花模型可以精确表示层次化的数据,但还是应该避免使用雪花模式,因为对商业用户来说,理解雪花模式并在其中查询是非常困难的,雪花模式还会影响查询性能 从查询性能角度来看,在OLTP-DW环节,由于...
  • 通过上面的对比,我们可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表,通过大量的冗余来提升查询效率,星型模型对OLAP的分析引擎支持比较友好,这一点在Kylin中比较能体现。而雪花模型在关系...
  • 最后总结一下雪花模型有哪些优缺点。 雪花模型优点 提供了规范化的数据,数据完整性高。 由于数据时高度规范化的,因此占用的存储空间较小。 雪花模型缺点 高度结构化的数据,在另一方面也增加了模型的复杂度。 ...
  • 软件生命周期模型:是从一个特定角度提出的对软件过程的简化描述,是对软件开发实际过程的抽象,它包括构成...瀑布模型缺点: (1)开发过程一般不能逆转,否则代价太大; (2)实际的项目开发很难严格按该模型进行
  • 瀑布模型缺点:开发过程一般不能逆转,否则代价太大;很难严格按该模型进行;(很难清楚地给出所有的需求。( 瀑布模型的使用范围:用户的需求非常清楚全面,且在开发过程中没有或很少变化,对软件的应用领域很熟悉...
  • 一、星型模式、 二、星型模式 缺点、 三、雪片模型、 四、星型模型 雪片模型 折衷方案、 五、事实群模型 ( 仅做了解 )、 六、度量、
  • 维度建模的优缺点

    2021-05-04 18:21:58
    缺点: 1、数据预处理开销和数据冗余 由于在构建星型模式之前需要进行大量的数据预处理,因此会导致大量的数据处理工作。而且,当业务发生变化,需要重新进行维度的定义时,往往需要重新进行维度数据的预处理。而在...
  • 这种方法的最被人广泛知晓的名字就是星型模式(Star-schema)、雪花模型(Snow-schema)。 优点: a) 维度建模是可预测的标准框架。允许数据库系统和最终用户查询工具在数据方面生成强大的假设条件,这些数据主要...
  • Drawbacks of ROLAP model: ROLAP模型缺点: Demand for higher resources: ROLAP needs a high utilization of manpower, software, and hardware resources. 对更高资源的需求 :ROLAP需要人力,软件和硬件资源...
  • 范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主要解决关系型数据库得数据存储,利用的一种技术层面上的方法。目前,我们在关系型数据库中的建模方法,大部分采用的是三范式...
  • 数据仓库之星型结构和雪花型结构

    万次阅读 2011-03-24 13:32:00
    星型结构 雪花型结构 星型模型 雪花型模型
  • 星型模式和雪花模式

    千次阅读 2013-05-08 16:22:35
    星型模式和雪花模式(雪花的层次增多) 多维数据--由多个多维数据模式--每个多维数据模式都由一个事实表和一组维表组成 1 星型模式--最常见--事实表为中心--多个维表(属性表)分布四周 2 雪花模式--由星型模式...
  • 一、数据仓库 与 传统数据库 区别、 二、数据仓库系统体系结构、 三、多维数据模型、 1、星型模式、 2、雪片模式、 3、事实星座、 四、在线分析处理、 五、多维数据分析操作
  • 摘要: 随着大数据技术的广泛使用,汇聚到大数据...本文针对这两种模型的优缺点,设计了一种新型的数据模型。 关键词: 数据仓库,大数据,数据模型,星型模型,雪花模型,状态机 [中图分类号] TP3-0 [文献标识码] A ..
  • 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接...
  • 分析了维度模型星型模式和雪花模式的优缺点,并针对金融业数据仓库特点,以证券业务为例,提出了星型衍生子维度模式概念,阐述了此结构的生成条件、算法和优点,即在典型的星型模式中,对大维度表中基数较小的相对...
  • 星型模型:所有的维度都能直接跟事实表关联,存在冗余数据,一般来说性能会更好。 雪花模型:一个或则多个维度表没有直接跟事实表关联,需要通过其他维度表才能关联到事实表,祛除了冗余数据,因为要跟维度表关联多...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,091
精华内容 436
关键字:

星型模型的优缺点