精华内容
下载资源
问答
  • 转摘:https://www.zhihu.com/question/36360374

    转摘:

    https://www.zhihu.com/question/36360374

    展开全文
  • 2.1 维度模型 2.1.1 星型模型 2.1.2 雪花模型 2.1.3星座模型 2.2 范式模型 2.3 Data Vault模型 2.4 Anchor模型

    目录

    写在前面

    一、为什么要进行数据仓库建模?

    二、四种常见模型

    2.1 维度模型

    2.1.1 星型模型

    2.1.2 雪花模型

    2.1.3 星座模型

    2.2 范式模型

    2.3 Data Vault模型

    2.4 Anchor模型

    三 数据模型的评价标准

    小编有话


     

    写在前面

    大数据时代,维度建模已成为各大厂的主流方式。

    维度建模从分析决策的需求出发构建模型,为分析需求服务。重点关注用户如何快速的完成数据分析,可以直观的反应业务模型中的业务问题,需要大量的数据预处理、数据冗余,有较好的大规模复杂查询的响应性能。

    系列文章详见「数仓系列文章- 传送门

    一、为什么要进行数据仓库建模?

    • 性能:良好的模型能帮我们快速查询需要的数据,减少数据的IO吞吐
    • 成本:减少数据冗余、计算结果复用、从而降低存储和计算成本
    • 效率:改善用户使用数据的体验,提高使用数据的效率
    • 改善统计口径的不一致性,减少数据计算错误的可能性

    二、四种常见模型

    2.1 维度模型

    维度建模按数据组织类型划分可分为星型模型、雪花模型、星座模型。

    Kimball老爷爷维度建模四个步骤:

    选择业务处理过程 > 定义粒度 > 选择维度 > 确定事实

    2.1.1 星型模型

    星型模型主要是维表和事实表,以事实表为中心,所有维度直接关联在事实表上,呈星型分布。

     

    2.1.2 雪花模型

    雪花模型,在星型模型的基础上,维度表上又关联了其他维度表。这种模型维护成本高,性能方面也较差,所以一般不建议使用。尤其是基于hadoop体系构建数仓,减少join就是减少shuffle,性能差距会很大。

    星型模型可以理解为,一个事实表关联多个维度表,雪花模型可以理解为一个事实表关联多个维度表,维度表再关联维度表。

    2.1.3 星座模型

    星座模型,是对星型模型的扩展延伸,多张事实表共享维度表。

    星座模型是很多数据仓库的常态,因为很多数据仓库都是多个事实表的。所以星座模型只反映是否有多个事实表,他们之间是否共享一些维度表。

    2.2 范式模型

    即实体关系(ER)模型,数据仓库之父Immon提出的,从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF。此建模方法,对建模人员的能力要求非常高。

    特点:设计思路自上而下,适合上游基础数据存储,同一份数据只存储一份,没有数据冗余,方便解耦,易维护,缺点是开发周期一般比较长,维护成本高。

    详见:https://blog.csdn.net/weixin_39032019/article/details/89379482

    2.3 Data Vault模型

    DataVault由Hub(关键核心业务实体)、Link(关系)、Satellite(实体属性) 三部分组成 ,是Dan Linstedt发起创建的一种模型方法论,它是在ER关系模型上的衍生,同时设计的出发点也是为了实现数据的整合,并非为数据决策分析直接使用。

    2.4 Anchor模型

    高度可扩展的模型,所有的扩展只是添加而不是修改,因此它将模型规范到6NF,基本变成了K-V结构模型。企业很少使用。

     

    三 数据模型的评价标准

    数据模型建设的怎么样,极度依赖规范设计,如果代码风格是千人千面,那么恐怕半年下来,业务系统就没法看了。没有什么比数据系统更看重法制,规范体系不仅能保障数据建设的一致性,也能够应对业务交接的情况,更能够为自动化奠定基础。

    1. 业务过程清晰:ODS就是原始信息,不修改;DWD面向基础业务过程;DIM描述维度信息;DWS针对最小场景做指标计算;ADS也要分层,面向跨域的建设,和面向应用的建设;
    2. 指标可理解:按照一定业务事务过程进行业务划分,明细层粒度明确、历史数据可获取,汇总层维度和指标同名同义,能客观反映业务不同角度下的量化程度;
    3. 核心模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型;
    4. 高内聚低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务的指标,造成该模型主题不清晰和性价比低。

    小编有话

    • 在传统企业数仓中,业务相对稳定,以范式建模为主。 如电信、金融行业等
    • 在互联网公司,业务变化快,需求来来回回的改,计算和存储也不是问题,我们更关心快速便捷的响应业务需求,所以以维度建模为主流。

     

    数仓系列传送门:https://blog.csdn.net/weixin_39032019/category_8871528.html

    展开全文
  • 计算机不能直接处理现实世界中的具体事物,所以需要先将具体事物转换成计算机所能处理的数据,这就是数据库的数据模型。 一张图了解数据模型分类! 信息的三种世界: 现实世界——客观存在 信息世界(概念...

    计算机不能直接处理现实世界中的具体事物,所以需要先将具体事物转换成计算机所能处理的数据,这就是数据库的数据模型。
    一张图了解数据模型分类!

    数据模型
    信息的三种世界:

    1. 现实世界——客观存在
    2. 信息世界(概念世界)——客观事物->实体;反映事物间联系的是实体模型/概念模型
    3. 数据世界(机器世界)——客观事物及其联系,在数据世界中以层次模型:树;网状模型:图;关系模型:二维表格描述
    展开全文
  • 数据分析中常见数据模型

    千次阅读 2018-03-20 22:16:58
    1.行为事件分析法 行为事件分析法来研究某行为事件的发生为企业组织价值的影响以及影响程度...漏斗分析模型是一套流程分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析。 例如在一款

    1.行为事件分析法

    行为事件分析法来研究某行为事件的发生为企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程。,如用户注册、浏览产品详情页、成功投资、提现

    等,通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。

    2.漏斗分析模型

    漏斗分析模型是一套流程分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析。

    例如在一款产品服务平台中,直播用户从激活APP开始到花费,一般的用户购物路径为激活APP、注册账号、进入直播间、互动行为、礼物花费五大阶段,漏斗能够展现出各个

    阶段的转化率。通过漏斗各环节相关数据的比较,能够直观地发现和说明问题所在,从而找到优化方向。

    3.留存分析模型

    留存分析是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,有多大人会进行后续行为。

    4.分布分析模型

    分布分析是用户在持续指标下的频次、总额等的归类展现。它可以展现出单用户对产品的依赖程度,分析客户在不同地区、不同时段所购买的不同类型的产品数量、购买频次

    等,帮助运营人员了解当前的客户状态,以及客户的运转情况。如订单金额(100以下区间、100-200元区间、200元以上区间)、购买次数(5次以下、5-10次、10次以上)

    等用户的分布情况。

    5.点击分析模型

    即应用一种特殊高亮的颜色形式,显示页面或页面组(结构相同的页面,如商品详页、官网博客等)区域中不同元素点击密度的图示。包括元素被点击的次数、占比、发生点击

    的用户列表、按钮的当前与历史内容等因素。

    6.用户行为路径分析模型

    用户路径分析,即用户在APP或网站中的访问行为路径。为了衡量网站优化的效果或营销推广的效果,以及了解用户行为偏好,时常要对访问路径的转换数据进行分析。

    以电商为例,买家从登陆网站/APP到支付成功,要经过首页浏览、搜索商品、加入购物车、提交订单、支付订单等过程。而在用户真实的选购过程是一个交缠反复的过程,例

    如提交订单后,用户可能会返回首页继续搜索商品,也可能区取消订单,每一个路径背后都有不同的动机。与其他分析模型配合进行深入分析后,能够找到快速用户动机,从而

    引领用户走向最优路径或期望中的路径。

    7.用户分群分析模型

    用户分群即用户信息标签化,通过用户的历史行为路径、行为特征、偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。我们通过漏斗分析可以看到用户在

    不同阶段所表现出的行为是不同的,譬如新用户的关注点在哪?已购用户什么情况下会再次付费?因为群体特征不同,行为会有很大差别。因此可以根据历史数据将用户继续划

    分,进而再次观察该群体的具体行为。这就是用户分群的原理。

    8.属性分析模型

    根据用户自身属性对用户进行分类与统计分析,比如查看用户数量在注册时间上的变化趋势、查看用户按省份的分布情况。用户属性会涉及到用户信息,如姓名、年龄、家庭、

    婚姻情况、性别、最高教育程度等自然信息;也有产品相关属性,如用户常驻省市、用户等级、用户首次访问渠道等。

    展开全文
  • 几种常见数据分析模型

    千次阅读 2019-08-15 09:31:23
    建立一座高楼大厦时,除了需要坚实的地基之外,也需要一个基本的模型框架,按照模型进行风险预测,做到万无一失。在数据分析领域,同样也需要建立数据分析模型。根据模型进行分析,这样在数据分析时,明确数据分析...
  • 数据分析常见方法及模型分类

    千次阅读 2020-08-05 10:33:26
    在工作中,很多的数据分析方法和模型,但是对于新入门的人来说,可能不能够一下子就找到合适的数据分析方法以及模型,进而影响到工作的进度。所以今天小白就来给大家介绍一些比较常见数据分析方法以及模型的分类...
  • 常见的三维数据模型

    千次阅读 2019-05-21 22:09:32
    今年2月,自然资源部全国国土测绘工作座谈会上提出,自然资源部将于今年启动...那么我们来了解下最基本几种常常见的三维数据模型。 灰模 将建筑物小区轮廓shp数据,增加高程属性,将shp拉伸,构成建筑轮廓立面体(...
  • 层次数据模型     定义:层次数据模型是用树状<...其实层次数据模型就是的图形表示就是一个倒立生长的树,由基本数据结构中的树(或者二叉树)的定义可知,每棵树都且仅一个根节点,其余的...
  • 概念模型和数据模型 数据模型的定义 关系数据模型
  • 数据模型是指数据库的组织形式,它决定了数据库中数据之间联系的表达方式,即把在计算机中表示客观事物及其联系的数据及结构称为数据模型。本文详细讲述传统三大数据模型和空间数据模型。 一、数据模型概述 数据模型...
  • 1.2数据模型

    千次阅读 2018-03-27 21:07:11
    1.数据库技术的发展是沿着数据模型的主线推进的。2.数据模型(data model)是对现实世界数据特征的抽象,也就是说数据模型是用来描述数据、组织数据和对数据进行操作的。数据模型是数据库系统的核心和基础。3.数据...
  • 就是人们常说的分类,通过已的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出...
  • 数据仓库多维数据模型设计

    万次阅读 多人点赞 2017-11-09 18:14:59
    建设数据模型既然是整个数据仓库建设中一个非常重要的关键部分,那么,怎么建设我们的数据仓库模型就是我们需要解决的一个问题。这里我们将要详细介绍如何创建适合自己的数据模型。 数据仓库建模方法 大千世界,...
  • 数据分析方法与模型有哪些

    千次阅读 2018-12-06 13:53:50
    现在的大数据的流行程度不用说大家都知道,大数据离不开数据分析,而数据分析的方法和数据分析模型多种多样,按照数据分析将这些数据分析方法与模型分为对比分析、分类分析、相关分析和综合分析四种方式,这四种方式...
  • 数据模型是数据库中用来对现实世界进行抽象的工具,是数据库中用于提供信息表示和操作手段的形式架构。一般地讲,数据模型是严格定义的概念的集合。这些概念精确描述了系统的静态特性,动态特性和完整性约束条件。...
  • 8种常见的大数据分析模型

    千次阅读 2020-10-10 12:23:01
    这篇文章给大家简单介绍一下八个模型,具体如下:1.留存分析模型留存分析模型是一种用来分析用户参与情况/活跃程度的分析模型,考察进行初始行为的用户中,多少人会进行后续行为。这是用来衡量产...
  • 数据管理系统之数据模型

    千次阅读 2018-11-21 09:17:32
    数据模型 好系统的标准 ○ 功能通用、完善 § 满足尽量多应用的需求 ○ 实现细节对应用透明 § 应用开发独立于系统实现 数据模型定义 定义:数据的逻辑组织方式(数据的基本结构和结构的语义) a. 文档模型...
  • MongoDB数据模型

    千次阅读 热门讨论 2015-01-24 09:54:07
    MongoDB中的数据一个灵活的模式。不像SQL数据库,你必须确定在插入数据之前和声明一个表的模式, ...在设计数据模型时,总是考虑应用程序使用的数据(如查询、更新和处 理的数据)以及数据本身固有的结构。
  • 数据仓库中的几种数据模型

    千次阅读 2017-09-17 10:46:16
    数据仓库中的几种数据模型 数据仓库中常见的模型:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接...
  • 并行计算模型有哪些

    万次阅读 热门讨论 2021-04-22 00:31:44
    写在前面 本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和文献引用请见100个问题搞定大数据理论体系 ...常见的并
  •  其实层次数据模型就是的图形表示就是一个倒立生长的树,由基本数据结构中的树(或者二叉树)的定义可知,每棵树都且仅一个根节点,其余的节点都是非根节点。每个节点表示一个记录类型对应与实体的概念,记录...
  • 数据仓库的几种 数据模型

    千次阅读 2018-09-19 09:30:24
    数据仓库中常见模型有:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型...
  • SQL Server 数据模型和数据规范

    千次阅读 2017-09-07 22:55:27
    常见数据模型: 常用的数据模型主要层次模型、网状模型和关系模型。 (1)层次模型:用树形结构表示实体类型与实体间的联系。 特点: 每棵树仅一个无双亲节点,成为根。 树中除根外,所有节点且仅一...
  • Navicat 数据模型

    千次阅读 2013-10-24 15:11:49
    Navicat 数据模型工具让你轻易以图形化方式创建一个关联式数据库。了逆向工程,你可从现有的数据库创建概念模型,并图形化查看和编辑数据库的结构。 除了从数据库创建概念模型,Navicat 数据模型工具也让你在模型...
  • 数据库领域中主要的逻辑数据模型有:层次模型、网状模型、关系模型、面向对象数据模型等,我们重点讲解了**层次模型、网状模型、关系模型**。 1.1 层次模型 层次数据库系统的典型代表是IBM公司的Information ...
  • 常见聚类模型

    千次阅读 2020-03-26 21:17:36
    今天来写写数学建模中的聚类模型,还是分为几个版块来写 1.聚类模型简介 俗话说:“物以类聚,...聚类算法常见K-means聚类算法,系统聚类算法,DBSCAN算法 2.K-means聚类算法 a.算法流程: 指定需要划分...
  • ArcGIS矢量数据模型

    千次阅读 2017-12-01 14:41:33
    在过去20年中,矢量数据模型是GIS中变化最大的方面,例如,ESRI公司所开发每种新软件包都对应一种新的矢量数据模型,ArcView对应Shapefile,Arc/Info对应Coverage,ArcGIS对应Geodatabase。Shapefile和Coverage是...
  • 生成模型,就是生成(数据的分布)的模型; 判别模型,就是判别(数据输出量)的模型。 生成式模型: 朴素贝叶斯! 混合高斯模型! 隐马尔科夫模型(HMM)! 贝叶斯网络 Sigmoid Belief Networks 马尔科夫随机场...
  • NLP常见语言模型总结

    千次阅读 2019-01-19 10:35:19
    2、Bag of Words(BOW,词袋模型) 3、N-gram语言模型 二、词的分布式表示(Distributed Representation) 1、共现矩阵(Co-currence Matrix) 2、神经网络语言模型(Neural Network Language Model,NNLM) 3...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 470,786
精华内容 188,314
关键字:

常见的数据模型有哪些