精华内容
下载资源
问答
  • 2.1 维度模型 2.1.1 星型模型 2.1.2 雪花模型 2.1.3星座模型 2.2 范式模型 2.3 Data Vault模型 2.4 Anchor模型

    目录

    写在前面

    一、为什么要进行数据仓库建模?

    二、四种常见模型

    2.1 维度模型

    2.1.1 星型模型

    2.1.2 雪花模型

    2.1.3 星座模型

    2.2 范式模型

    2.3 Data Vault模型

    2.4 Anchor模型

    三 数据模型的评价标准

    小编有话


     

    写在前面

    大数据时代,维度建模已成为各大厂的主流方式。

    维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。

    系列文章详见「数仓系列文章- 传送门

    一、为什么要进行数据仓库建模?

    • 性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐
    • 成本:减少数据冗余、计算结果复用、从而降低存储和计算成本
    • 效率:改善用户使用数据的体验,提高使用数据的效率
    • 改善统计口径的不一致性,减少数据计算错误的可能性

    二、四种常见模型

    2.1 维度模型

    维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

    Kimball老爷爷维度建模四个步骤:

    选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

    2.1.1 星型模型

    星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。

     

    2.1.2 雪花模型

    雪花模型,在星型模型的基础上,维度表上又关联了其他维度表。这种模型维护成本高,性能方面也较差,所以一般不建议使用。尤其是基于hadoop体系构建数仓,减少join就是减少shuffle,性能差距会很大。

    星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。

    2.1.3 星座模型

    星座模型,是对星型模型的扩展延伸,多张事实表共享维度表。

    星座模型是很多数据仓库的常态,因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表,他们之间是否共享一些维度表。

    2.2 范式模型

    即实体关系(ER)模型,数据仓库之父Immon提出的,从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF。此建模方法,对建模人员的能力要求非常高。

    特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长,维护成本高。

    详见:https://blog.csdn.net/weixin_39032019/article/details/89379482

    2.3 Data Vault模型

    DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性) 三部分组成 ,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。

    2.4 Anchor模型

    高度可扩展的模型,所有的扩展只是添加而不是修改,因此它将模型规范到6NF,基本变成了K-V结构模型。企业很少使用。

     

    三 数据模型的评价标准

    数据模型建设的怎么样,极度依赖规范设计,如果代码风格是千人千面,那么恐怕半年下来,业务系统就没法看了。没有什么比数据系统更看重法制,规范体系不仅能保障数据建设的一致性,也能够应对业务交接的情况,更能够为自动化奠定基础。

    1. 业务过程清晰:ODS就是原始信息,不修改;DWD面向基础业务过程;DIM描述维度信息;DWS针对最小场景做指标计算;ADS也要分层,面向跨域的建设,和面向应用的建设;
    2. 指标可理解:按照一定业务事务过程进行业务划分,明细层粒度明确、历史数据可获取,汇总层维度和指标同名同义,能客观反映业务不同角度下的量化程度;
    3. 核心模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型;
    4. 高内聚低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务的指标,造成该模型主题不清晰和性价比低。

    小编有话

    • 在传统企业数仓中,业务相对稳定,以范式建模为主。 如电信、金融行业等
    • 在互联网公司,业务变化快,需求来来回回的改,计算和存储也不是问题,我们更关心快速便捷的响应业务需求,所以以维度建模为主流。

     

    数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html

    展开全文
  • 三种数据模型

    千次阅读 2014-02-20 15:29:27
    数据库的类型是根据数据模型来划分的,而任何一个DBMS也是根据数据模型有针对性地设计出来的,这就意味着必须把数据库组织成符合DBMS规定的数据模型。目前成熟地应用在数据库系统中的数据模型有:层次模型、网状模型...

    数据库的类型是根据数据模型来划分的,而任何一个DBMS也是根据数据模型有针对性地设计出来的,这就意味着必须把数据库组织成符合DBMS规定的数据模型。目前成熟地应用在数据库系统中的数据模型有:层次模型、网状模型和关系模型。它们之间的根本区别在于数据之间联系的表示方式不同(即记录型之间的联系方式不同)。层次模型以“树结构”表示数据之间的联系。网状模型是以“图结构”来表示数据之间的联系。关系模型是用“二维表”(或称为关系)来表示数据之间的联系的。

      1.层次模型(Hierchical)

      层次模型是数据库系统最早使用的一种模型,它的数据结构是一棵“有向树”。根结点在最上端,层次最高,子结点在下,逐层排列。层次模型的特征是:

    • 有且仅有一个结点没有父结点,它就是根结点;
    • 其他结点有且仅有一个父结点。图所示为一个系教务管理层次数据模型,图(a)所示的是实体之间的联系,图(b)所示的是实体型之间的联系。

      Image:数据模型.jpg

      最有影响的层次模型的DBS是20世纪60年代末,IBM公司推出的IMS层次模型数据库系统。

      2.网状模型(Network)

      网状模型以网状结构表示实体与实体之间的联系。网中的每一个结点代表一个记录类型,联系用链接指针来实现。网状模型可以表示多个从属关系的联系,也可以表示数据间的交叉关系,即数据间的横向关系与纵向关系,它是层次模型的扩展。网状模型可以方便地表示各种类型的联系,但结构复杂,实现的算法难以规范化。其特征是:

    • 允许结点有多于一个父结点;
    • 可以有一个以上的结点没有父结点。

      下图所示为一个系教务管理网状数据模型。

      Image:系教务管理层次数据模型.jpg

      3.关系模型(Relation)

      关系模型以二维表结构来表示实体与实体之间的联系,它是以关系数学理论为基础的。关系模型的数据结构是一个“二维表框架”组成的集合。每个二维表又可称为关系。在关系模型中,操作的对象和结果都是二维表。关系模型是目前最流行的数据库模型。支持关系模型的数据库管理系统称为关系数据库管理系统,Access就是一种关系数据库管理系统。图所示为一个简单的关系模型,其中图(a)所示为关系模式,图(b)所示为这两个关系模型的关系,关系名称分别为教师关系和课程关系,每个关系均含3个元组,其主码均为“教师编号”。

      Image:图关系模型.jpg

    • 描述的一致性,不仅用关系描述实体本身,而且也用关系描述实体之间的联系;
    • 可直接表示多对多的联系;
    • 关系必须是规范化的关系,即每个属性是不可分的数据项,不许表中有表;
    • 关系模型是建立在数学概念基础上的,有较强的理论依据。

      在关系模型中基本数据结构就是二维表,不用像层次或网状那样的链接指针。记录之间的联系是通过不同关系中同名属性来体现的。例如,要查找“刘晋”老师所上的课程,可以先在教师关系中根据姓名找到教师编号“1984030”,然后在课程关系中找到“1984030”任课教师编号对应的课程名即可。通过上述查询过程,同名属性教师编号起到了连接两个关系的纽带作用。由此可见,关系模型中的各个关系模式不应当是孤立的,也不是随意拼凑的一堆二维表,它必须满足相应的要求。

      关系是一个二维表,即元组的集合。关系框架是一个关系的属性名表。形式化表示为:

      R(A_1,A_2,\cdot,A_n)

      其中,R为关系名,Ai(i=1,2,…,n)为关系的属性名。

      关系之间通过公共属性实现联系。例如,图所示为两个关系,通过“教师编号”公共属性实现两个关系之间的联系。

      关系数据库是指对应于一个关系模型的所有关系的集合。例如,在一个教务管理关系数据库中,包含教师关系、课程关系、学生关系、任课关系、成绩关系等。

    展开全文
  • 常见数据模型

    千次阅读 2019-05-21 22:09:32
    今年2月,自然资源部全国国土测绘工作座谈会上提出,自然资源部将于今年启动...那么我们来了解下最基本几常见数据模型。 灰模 将建筑物小区轮廓shp数据,增加高程属性,将shp拉伸,构成建筑轮廓立面体(...

            今年2月,自然资源部全国国土测绘工作座谈会上提出,自然资源部将于今年启动“十四五”基础测绘规划编制工作,推动实景三维中国建设。在三维数据采集、处理、应用等方面将会释放大量机会,使地理信息消费成为产业发展新引擎,地理信息产业有望迎来新一轮的快速增长。那么我们来了解下最基本几种常常见的三维数据模型。

    灰模

    将建筑物小区轮廓shp数据,增加高程属性,将shp拉伸,构成建筑轮廓立面体(见超图的例子或三维团队例子)。

     

     

    倾斜摄影数据模型

    倾斜摄影是近年来航测领域逐渐发展起来的新技术,相对于传统航测采集的垂直摄影数据,通过新增多个不同角度镜头,获取具有一定倾斜角度的倾斜影像。应用倾斜摄影技术,可同时获得同一位置多个不同角度的、具有高分辨率的影像,采集丰富的地物侧面纹理及位置信息。基于详尽的航测数据,进行影像预处理、区域联合平差、多视影响匹配等一系列操作,批量建立高质量、高精度的三维GIS模型。倾斜摄影数特点,远看是美女,近看是丑女。

     

     

    3DMAX模型

    3D Studio Max,常简称为3d Max 或3ds MAX,是Discreet公司开发的(后被Autodesk公司合并)基于PC系统的三维动画渲染和制作软件。在应用范围方面,广泛应用于工业设计、建筑设计、工程可视化、三维动画、多媒体制作、游戏、辅助教学以及广告、影视等领域。3DMax模型为建筑物外表真实展现,可以理解为一套皮囊,不能查看建筑物内部具体细节。

     

     

     

    BIM模型

    后续更多内容请关注,我的微信公众号

    一个更懂GIS的IT,一位更懂IT的GISER

    展开全文
  • 数据库系统的三种数据模型

    千次阅读 2019-04-26 20:01:28
    数据模型数据模型(Data Model)是数据特征的抽象。数据(Data)是描述事物的...数据模型所描述的内容有部分:数据结构、数据操作和数据约束。 数据结构:数据结构描述数据库的组成对象以及对象之间的联...

    数据模型:

            数据模型(Data Model)是数据特征的抽象。数据(Data)是描述事物的符号记录,模型(Model)是现实世界的抽象。数据模型从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供了一个抽象的框架。数据模型所描述的内容有三部分:数据结构数据操作和数据约束。

            数据结构:数据结构描述数据库的组成对象以及对象之间的联系。例如(表与表之间的关系),数据结构是刻画一个数据模型性质最重要的方面,是对系统静态特性的描述。人们通常按照数据结构的类型来命名数据模型,如层次结构、网状结构、关系结构的数据模型分别命名为层次模型、网状模型、关系模型。

            数据操作:是指对数据库里的各种对象的实例、型的值,允许执行的操作的集合,包括操作及有关的操作规则。

            数据的完整性约束条件:数据的完整性约束条件是一种完整性规则。

     

            数据模型按不同的应用层次分成三种类型:分别是概念数据模型、逻辑数据模型、物理数据模型。

            概念模型(Conceptual Data Model),是一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,它是数据库的设计人员在设计的初始阶段,摆脱计算机系统及DBMS的具体技术问题,集中精力分析数据以及数据之间的联系等,与具体的数据管理系统(Database Management System,简称DBMS)无关。

            概念模型用于信息世界的建模,一方面应该具有较强的语义表达能力,能够方便直接表达应用中的各种语义知识,另一方面它还应该简单、清晰、易于用户理解。

    信息世界的基本概念:

    • 实体:客观存在并且可以相互区别的事物称为实体。
    • 属性:实体所具有的某一特性称为属性。一个实体可以有多个属性来描述。
    • 码(key):能唯一标识实体的属性值称为码。例如学号这个属性集就是学生实体的码。
    • 实体型:用实体名及其属性名集合来抽象和刻画同类实体,称为实体型。例如java中的动物类Animal可以刻画其他动物。
    • 实体集:同一类型实体的集合成为实体集。
    • 联系:实体之间的联系通常是指不同实体集之间的联系。实体之间的联系有一对一、一对多和多对多等多种类型。

    实体-联系方法:

            在概念数据模型中最常用的是E-R模型

    常用的逻辑数据模型:

    • 层次模型
    • 网状模型
    • 关系模型

     

     

    展开全文
  • 一、层次数据模型  定义:层次数据模型是用树状<层次>结构来组织数据的数据模型。  其实层次数据模型就是的图形表示就是一个倒立生长的树,由基本数据结构中的树(或者二叉树)的定义可知,每棵树都有且仅有...
  • 8种常见的大数据分析模型

    千次阅读 2020-10-10 12:23:01
    这篇文章给大家简单介绍一下八个模型,具体如下:1.留存分析模型留存分析模型是一用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多少人会进行后续行为。这是用来衡量产...
  • 朴素贝叶斯理论推导与三种常见模型

    万次阅读 多人点赞 2015-09-09 21:41:03
    很多教材都从这些案例出发,本文就不重复这些内容了,而把重点放在理论推导(其实很浅显,别被“理论”吓到),三种常用模型及其编码实现(Python)。如果你对理论推导过程不感兴趣,可以直接逃到三种常用模型及编码...
  • 数据建模的目的就是获得从自变量映射到因变量的函数,在建模的探索过程中,不同的方式总会得出不同的函数模型,而这些函数大多是由一些参数构成的,比如 y = f( x; w0, w1, w2, w3, ...)。   平方损失函数 ...
  • 数据模型三种类型:概念模型、逻辑模型、物理模型 逻辑模型包括:层次数据模型、网状数据模型、关系数据模型 关系数据模型的四个特点: 数据结构单一 2)采用集合运算 3)数据完全独立 4)有数学理论支持 ...
  • 数据仓库中的几种数据模型

    千次阅读 2017-09-17 10:46:16
    数据仓库中的几种数据模型 数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接...
  • 数据分析常见方法及模型分类

    千次阅读 2020-08-05 10:33:26
    今天跟大家分享一下比较常见数据分析方法以及模型分类。...一般来说,我们可以将数据分析方法分为对比分析、相关分析、分类分析以及综合分析四类,其中前类主要是以定性的数据分析方法和模型为主,而对于...
  • 数据仓库的几 数据模型

    千次阅读 2018-09-19 09:30:24
    数据仓库中常见模型有:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型...
  • 数据的四常用的数据模型以及实体之间的联系个世界现实世界信息世界两个实体型间的联系数据模型层次模型 个世界 现实世界 现实世界,客观存在的世界。 信息世界 概念:信息世界是现实在人们头脑中的反映,...
  • 数据集划分的三种常见方式!

    千次阅读 2021-01-15 08:18:00
    公众号后台回复“图书“,了解更多号主新书内容作者:xiaoyi来源:小一的学习笔记今天分享一个比较简单的问题:数据集划分的三种方法。数据集划分算是在数据分析建模中比较重要的,模型的好坏不...
  • 转载于:https://blog.csdn.net/weixin_41725746/article/details/80545142。仅用于学习之用,如有侵权,请联系我。
  • 本文详细讲述传统大数据模型和空间数据模型。 一、数据模型概述 数据模型是指数据库的组织形式,它决定了数据库中数据之间联系的表达方式,即把在计算机中表示客观事物及其联系的数据及结构称为数据模型。 按组织...
  • 数据模型有层次模型,网状模型,关系模型,面向对性模型,一般常见的是关系数据库,也就是主要是关系模型。数据模型是描述数据、数据之间的关系的图形化视图,具体指用实体,属性及其关系,表达企业运营和管理过程中...
  • 1.2数据模型

    千次阅读 2018-03-27 21:07:11
    3.数据模型应满足方面要求:①能比较真实地模拟现实世界②容易为人所理解③便于在计算机上实现4.根据模型应用目的不同,可以分为两大类:①概念模型 ②逻辑模型和物理模型5.概念模型(conc...
  • 数据仓库多维数据模型设计

    万次阅读 2017-11-09 18:14:59
    建设数据模型既然是整个数据仓库建设中一个非常重要的关键部分,那么,怎么建设我们的数据仓库模型就是我们需要解决的一个问题。这里我们将要详细介绍如何创建适合自己的数据模型。 数据仓库建模方法 大千世界,...
  • 理论篇~第数据模型设计

    千次阅读 2017-09-24 10:07:02
    常见数据模型介绍  1 ER模型  数据仓库之父Bill Inmon提出的建模方法,是从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务。其具有以下几个特点:  需要全面了解企业...
  • 基于SuperMapiDesktop模型数据处理

    千次阅读 2019-08-30 10:04:08
    常见的CAD、3DMAX模型,创建好模型以后需要和地理空间进行匹配,才能真正达到维场景的展示,因此需要将设计软件生成的模型转化成地图桌面软件可用的数据集,今天我们以超图的使用为例。 准备工作 下载超图3dmax...
  • 时空数据模型

    千次阅读 2007-09-30 09:52:00
    目前研究比较有影响的时空数据模型有以下几:① 时空复合模型 将每一次独立的叠加操作转换为一次性的合成叠加,变化的累积形成最小变化单元,由这些最小变化单元构成的图形文件和记录变化历史的属性文件联系在...
  • 模型(又称决策树或者树结构模型):基本思想和方差分析中的变异分解极为相似。 目的(基本原则):将总研究样本通过某些牲(自变量取值)分成数个相对同质的子样本。每一子样本因变量的取值高度一致,相应的变异...
  • 数据库-数据模型(分类、要素、概念)

    万次阅读 多人点赞 2015-08-28 15:43:47
    (1)数据模型的分类: 最常用的数据模型是概念数据模型和结构数据模型:  ①概念数据模型(信息模型):面向用户...(2)数据模型要素:  数据结构、数据操作、数据约束。 (3)E-R图(实体-联系图方法):
  • 常见维点云数据下载链接,自己整理+网上收集

    万次阅读 多人点赞 2017-05-26 12:01:08
    最近需要用到维点云数据,但是网上大部分的数据资源的数据格式都是杂乱无章而且没有清晰的数据说明,为了方便,自己整理了常用的维点云数据,格式都是按照X坐标空格Y坐标空格Z坐标这种数据格式排列,方便数据...
  • 机器学习几种常见模型的介绍

    千次阅读 2015-08-05 16:03:47
    这里我主要介绍以下几种模型: k近邻法 朴素贝叶斯法 决策树 逻辑斯蒂回归 支持向量机 adaBoost方法 K近邻法原理输入:实例的特征向量 输出:实例的类别 算法描述: (1)在训练集中找出与实例最近邻的k个点,涵盖...
  • ArcGIS矢量数据模型

    千次阅读 2017-12-01 14:41:33
    在过去20年中,矢量数据模型是GIS中变化最大的方面,例如,ESRI公司所开发每新软件包都对应一新的矢量数据模型,ArcView对应Shapefile,Arc/Info对应Coverage,ArcGIS对应Geodatabase。Shapefile和Coverage是...
  • 常见的预测模型及算法

    万次阅读 多人点赞 2020-05-01 13:22:18
    如果得到一份数据集,任务是要预测出一系列的值,而在预测任务中,我们大多数都采用的是拟合的方法,这篇文字主要介绍三种预测方法时间序列分析,灰色预测模型,神经网络。 时间序列分析 时间序列也叫动态序列,数据...
  • Navicat 数据模型

    千次阅读 2013-10-24 15:11:49
    Navicat 数据模型工具让你轻易以图形化方式创建一个关联式数据库。有了逆向工程,你可从现有的数据库创建概念模型,并图形化查看和编辑数据库的结构。 除了从数据库创建概念模型,Navicat 数据模型工具也让你在模型...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 361,351
精华内容 144,540
关键字:

三种常见的数据模型