精华内容
下载资源
问答
  • 数据仓库层次

    千次阅读 2019-06-13 14:15:59
    业务数据与数据仓库的一个隔离,该层数据结构与原始日志中的结构一致,存放的是原始日志数据。源头数据不能收到污染,必须保持和原始日志数据一致。因为数据可能存在冲突,所以最好加上时间版本用于区别相同数据。 ...

    1.数仓整体架构
    在这里插入图片描述
    2.数仓分层
    在我实习公司中,数仓大概分为三层,为ods、dw、ads。

    概念理解
    ODS业务数据与数据仓库的一个隔离,该层数据结构与原始日志中的结构一致,存放的是原始日志数据。源头数据不能收到污染,必须保持和原始日志数据一致。因为数据可能存在冲突,所以最好加上时间版本用于区别相同数据。
    DWDW层为数据公共层,由ods层数据关联得到,之后也无需求直接从dw层拉取,管理所有数据。
    1.dwd:明细事实表:组合相关数据,解决一些数据质量问题和数据的完全度问题,采用明细宽表减少扫描,例如订单表,dwd中每个订单都只会取订单的最新状态,当出现退款订单时,因为退款日期上限位3天,故该表需要三天回准。
    2.dws:数据宽表:通过dwd、ods层数据整理出来的基于某一个主题或者活动的详细数据宽表,为上层数据产品、服务提供公共指标。
    3.dim:维表,例如国家代码+国家名,城市代码+城市名 之类的维表
    ADS是ADS是数据集市,DW层只有某一维度的明细数据,通过需求文档关联各维度的DW数据,求出最终的业务数据,提供给需求方。

    3.数仓分层作用
    (1)空间换时间 : 当一个需求来临时,若不使用数仓分层的话要进行原始数据清洗、各个清洗后的数据的关联,最终得到需求数据,过程复杂。使用数仓可以将大量清洗过后的表和维度明细表进行持久化,直接关联减少开发复杂度。
    (2)复杂问题简单化:每个层次都是单一的处理方式,容易理解,便于数据维护,各种表的父子节点清洗明显,当数据异常时寻找问题简单便捷。
    (3)便于处理变化的业务:业务会随着公司不同的战略方向调整重心,调整数据时只需调整底层数据便可以清楚地观察到各个业务数据的变化。

    展开全文
  • 数据仓库层次划分

    千次阅读 2019-09-15 23:01:41
    构建数据仓库时,至少应具备以下物理层:

    构建数据仓库时,至少应具备以下物理层:
    在这里插入图片描述

    展开全文
  • Hive开发要知道数据仓库的四个层次设计

    万次阅读 多人点赞 2018-02-12 18:11:09
    数据仓库数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。 1.数据仓库的四个操作  ETL...

            数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。

    1.数据仓库的四个操作

           ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心和灵魂,ETL规则的设计和实施约占整个数据仓库搭建工作量的 60%~80%.
          1.数据抽取(extraction)包括初始化数据装载和数据刷新:初始化数据装载主要关注的是如何建立维表、事实表,并把相应的数据放到这些数据表中;而数据刷新关注的是当源数据发生变化时如何对数据仓库中的相应数据进行追加和更新等维护(比如可以创建定时任务,或者触发器的形式进行数据的定时刷新)。

          2. 数据清洗主要是针对源数据库中出现的二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行统一的处理。即清洗掉不符合业务或者没用的的数据。比如通过编写hive或者MR清洗字段中长度不符合要求的数据。

          3.数据转换(transformation)主要是为了将数据清洗后的数据转换成数据仓库所需要的数据:来源于不同源系统的同一数据字段的数据字典或者数据格式可能不一样(比如A表中叫id,B表中叫ids),在数据仓库中需要给它们提供统一的数据字典和格式,对数据内容进行归一化;另一方面,数据仓库所需要的某些字段的内容可能是源系统所不具备的,而是需要根据源系统中多个字段的内容共同确定。

        4. 数据加载(loading)是将最后上面处理完的数据导入到对应的存储空间里(mysql等)以方便给数据集市提供,进而可视化。

         一般大公司为了数据安全和操作方便,都是自己封装的数据平台和任务调度平台,底层封装了大数据集群比如hadoop集群,spark集群,sqoop,hive,zookeepr,hbase等只提供web界面,并且对于不同员工加以不同权限,然后对集群进行不同的操作和调用。以数据仓库为例,将数据仓库分为逻辑上的几个层次。这样对于不同层次的数据操作,创建不同层次的任务,可以放到不同层次的任务流中进行执行(大公司一个集群通常每天的定时任务有几千个等待执行,甚至上万个,所以划分不同层次的任务流,不同层次的任务放到对应的任务流中进行执行,会更加方便管理和维护)。

    2.数据仓库的四个逻辑架构层次

           数据仓库标准上可以分为四层。但是注意这种划分和命名不是唯一的,一般数仓都是四层,但是不同公司可能叫法不同。比如这里的临时层叫复制层SSA,京东则叫BDM。同样阿里巴巴却是五层数仓结构,更加详细,但是核心的理念都是从四层数据模型而来。如下分别展示京东和阿里巴巴数仓的架构层次和命名。

    1. 复制层(SSA,system-of-records-staging-area)

          SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。

    2. 原子层(SOR,system-of-record)

         SOR 是基于模型开发的一套符合 3NF 范式规则的表结构,它存储了数据仓库内最细层次的数据,并按照不同的主题域对数据分类存储;比如高校数据统计服务平台根据目前部分需求将全校数据在 SOR 层中按人事、学生、教学、科研四大主题存储;SOR 是整个数据仓库的核心和基础,在设计过程中应具有足够的灵活性,以能应对添加更多的数据源、支持更多的分析需求,同时能够支持进一步的升级和更新.

    3 .汇总层(SMA,summary-area)

        SMA 是 SOR和DM(集市层) 的中间过渡,由于 SOR 是高度规范化数据,此要完成一个查询需要大量的关联工作,同时DM 中的数据粒度往往要比 SOR 高很多,对要生DM 中的汇总数据需要进行大量的汇总工作,此,SMA 根据需求把 SOR 数据进行适度的反范(例如,设计宽表结构将人员信息、干部信息等多表的数据合并起来)和汇总(例如,一些常用的头汇总、机构汇总等);从而提高数据仓库查询性能。

    4.集市层/展现层(DM, data mart)

        DM 保存的数据供用户直接访问的:可以将 DM 理解成最终用户接最终想要看的数据;DM 主要是各类粒度的事数据,通过提供不同粒度的数据,适应不同的数访问需求;高校数据统计服务平台 DM 中的数据

        

     

     

    展开全文
  • 阿里支付宝数据仓库层次设计、逻辑数据模型设计方法、设计规范。
  • 数据仓库的四个层次设计

    万次阅读 2019-06-04 16:05:03
    数据仓库数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。 1.数据仓库的四个操作    ...

            数据仓库:数据仓库全面接收源系统数据,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据集市,通过数据集市支持系统进行数据查询、分析,整个数据仓库包含四大层次。

    1.数据仓库的四个操作

           ETL(extractiontransformation loading)负责将分散的、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中。ETL 是实施数据仓库的核心和灵魂,ETL规则的设计和实施约占整个数据仓库搭建工作量的 60%~80%.
          1.数据抽取(extraction)包括初始化数据装载和数据刷新:初始化数据装载主要关注的是如何建立维表、事实表,并把相应的数据放到这些数据表中;而数据刷新关注的是当源数据发生变化时如何对数据仓库中的相应数据进行追加和更新等维护(比如可以创建定时任务,或者触发器的形式进行数据的定时刷新)。

          2. 数据清洗主要是针对源数据库中出现的二义性、重复、不完整、违反业务或逻辑规则等问题的数据进行统一的处理。即清洗掉不符合业务或者没用的的数据。比如通过编写hive或者MR清洗字段中长度不符合要求的数据。

          3.数据转换(transformation)主要是为了将数据清洗后的数据转换成数据仓库所需要的数据:来源于不同源系统的同一数据字段的数据字典或者数据格式可能不一样(比如A表中叫id,B表中叫ids),在数据仓库中需要给它们提供统一的数据字典和格式,对数据内容进行归一化;另一方面,数据仓库所需要的某些字段的内容可能是源系统所不具备的,而是需要根据源系统中多个字段的内容共同确定。

        4. 数据加载(loading)是将最后上面处理完的数据导入到对应的存储空间里(mysql等)以方便给数据集市提供,进而可视化。

         一般大公司为了数据安全和操作方便,都是自己封装的数据平台和任务调度平台,底层封装了大数据集群比如hadoop集群,spark集群,sqoop,hive,zookeepr,hbase等只提供web界面,并且对于不同员工加以不同权限,然后对集群进行不同的操作和调用。以数据仓库为例,将数据仓库分为逻辑上的几个层次。这样对于不同层次的数据操作,创建不同层次的任务,可以放到不同层次的任务流中进行执行(大公司一个集群通常每天的定时任务有几千个等待执行,甚至上万个,所以划分不同层次的任务流,不同层次的任务放到对应的任务流中进行执行,会更加方便管理和维护)。

    2.数据仓库的四个逻辑架构层次

           数据仓库标准上可以分为四层。但是注意这种划分和命名不是唯一的,一般数仓都是四层,但是不同公司可能叫法不同。比如这里的临时层叫复制层SSA,京东则叫BDM。同样阿里巴巴却是五层数仓结构,更加详细,但是核心的理念都是从四层数据模型而来。如下分别展示京东和阿里巴巴数仓的架构层次和命名。

    1. 复制层(SSA,system-of-records-staging-area)

          SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。

    2. 原子层(SOR,system-of-record)

         SOR 是基于模型开发的一套符合 3NF 范式规则的表结构,它存储了数据仓库内最细层次的数据,并按照不同的主题域对数据分类存储;比如高校数据统计服务平台根据目前部分需求将全校数据在 SOR 层中按人事、学生、教学、科研四大主题存储;SOR 是整个数据仓库的核心和基础,在设计过程中应具有足够的灵活性,以能应对添加更多的数据源、支持更多的分析需求,同时能够支持进一步的升级和更新.

    3 .汇总层(SMA,summary-area)

        SMA 是 SOR和DM(集市层) 的中间过渡,由于 SOR 是高度规范化数据,此要完成一个查询需要大量的关联工作,同时DM 中的数据粒度往往要比 SOR 高很多,对要生DM 中的汇总数据需要进行大量的汇总工作,此,SMA 根据需求把 SOR 数据进行适度的反范(例如,设计宽表结构将人员信息、干部信息等多表的数据合并起来)和汇总(例如,一些常用的头汇总、机构汇总等);从而提高数据仓库查询性能。

    4.集市层/展现层(DM, data mart)

        DM 保存的数据供用户直接访问的:可以将 DM 理解成最终用户接最终想要看的数据;DM 主要是各类粒度的事数据,通过提供不同粒度的数据,适应不同的数访问需求;高校数据统计服务平台 DM 中的数据

        

     

    展开全文
  • 数据仓库层次整体划分为三层:近源数据层、整合数据层和应用数据层,如下图:近源层是数据仓库拷贝源数据提供整合的数据存储区域,粒度、结构和源系统保持相同缓冲区:保存源系统每天的增量数据,可根据应用需要保留...
  • 数据仓库规范

    千次阅读 2018-06-21 09:41:25
    数据仓库层次结构规范1.1 基本分层结构系统的信息模型从存储的内容方面可以分为,STAGE接口信息模型、ODS/DWD信息模型,MID信息模型、DM信息模型、元数据信息模型。在各个信息模型中存储的内容如下描述: 1) SRC...
  • 数据仓库的四个层次

    2018-07-08 11:14:51
    数据仓库的四个层次 复制层(SSA,system-of-records-staging-area):SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的...
  • 6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 第7章 高级...
  • 数据仓库技术-2.ppt

    2020-08-19 08:56:27
    数据仓库设计目的和意义 企业数据仓库 实现全省范围基础和业务数据的集中存储和管理 ...数据仓库设计数据仓库层次结构 2020-8-19 Inspur group 数据源 Source Model包括信息资源标准库 DataWareHouse Model StarSche
  • 蜘蛛网数据,数据库监视,数据筛选,数据设计,数据导入与导出。
  • 6.11 在多种层次上建造数据仓库 134 6.12 多个小组建立当前细节级 136 6.12.1 不同层不同需求 138 6.12.2 其他类型的细节数据 140 6.12.3 元数据 142 6.13 公用细节数据采用多种平台 142 6.14 小结 143 第7章 高级...
  • 数据仓库

    千次阅读 2019-05-15 20:19:36
    数据仓库的基本概念什么是数据仓库数据仓库的特点面向主题的集成的不可更新的随时间不断变化的数据仓库与数据库的区别 什么是数据仓库   在企业所有级别的决策制定过程,数据仓库(Data Warehouse)可以提供所有...
  • 数据仓库-数据仓库主要特征

    千次阅读 2020-04-04 15:06:04
    数据仓库的主要特征2.1 数据仓库的主要特征2.1 面向主题2.2 集成性2.3 非易失性(不可更新性)2.4 时变性 2. 数据仓库的主要特征 2.1 数据仓库的主要特征 数据仓库是面向主题的(Subject-Oriented)、集成的...
  • Hive开发要知道数据仓库的四个层次设计.pdf
  • 维度是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。...因此数据仓库对于维度数据的处理通常的
  • 数据仓库结构图

    2018-08-27 08:30:02
    一个明确的数据仓库分层结构图,针对数据仓库层次介绍和内容简明。
  • 数据仓库建模技术

    2021-03-02 03:46:22
    因此金融行业数据仓库建模必须注意以下几个方面,——满足不同用户的需求金融行业的业务流程十分复杂,数据仓库系统涉及的业务用户众多,在进行数据模型设计的时候必须兼顾不同业务产品、不同业务部门、不同层次、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 46,253
精华内容 18,501
关键字:

数据仓库层次