精华内容
下载资源
问答
  • 数仓建设步骤

    2020-10-09 21:01:46
    数仓建设步骤 – 1、系统分析,确立主题 – 操作频率 – 存储时长 – 查询方式 – 响应时长 – 2、技术选型 – 对整个系统的认知 – 根据流程选择合适的工具 – 整体的方案性的设计 – 3、逻辑模型 ER图 – 4、...

    – 数仓建设步骤
    – 1、系统分析,确立主题
    – 操作频率
    – 存储时长
    – 查询方式
    – 响应时长
    – 2、技术选型
    – 对整个系统的认知
    – 根据流程选择合适的工具
    – 整体的方案性的设计

    – 3、逻辑模型 ER图
    – 4、物理模型
    – 派生字段、时间主键、汇总数据
    – 5、模型优化
    – 合并不同的表
    – 增加汇总表、宽表 dws
    – 通过冗余字段减少表的连接数量 join的表不超过5张
    – 主键:Id
    – 对数据表进行分区、分桶 – 抽样、join
    – 6、ETL过程 重点
    – 分析数据,发现问题数据,给出解决方案
    – 邮件交互
    – 数据映射关系表:表的关系、字段的关系、转换关系
    – 业务数据源 – ods
    – ods – dwd
    – dwd – dws(业务实现的复杂度)
    – dwd/dws – dm
    – 数据清洗规则
    – 预处理
    – 标准化处理
    – 去重处理
    – 错误值处理
    – 缺失值处理
    – 格式内容清洗
    – 逻辑错误处理
    – 矛盾数据处理
    – 非需求数据
    – 关联性验证

    – 一定要跟业务方进行确认

    – 转换规则
    – 根据业务数据派生的内容
    – 清洗数据的方案
    – 7、开发流程
    – 按层加载数据
    – 8、元数据管理
    – 数据质量管理

    – 数仓分层
    – ods
    – dwd
    – dws –
    – dm
    – dim – 维度设计(事先收集、自定义:时间维度、年龄段维度、地区)
    – 维度:公共维度
    – 私有维度

    – dwd
    – 维度模型 – 分析 – 冗余,减少join操作
    – 星型模型
    – 雪花模型

    – 建模步骤
    – 确定业务流程
    – 确定粒度
    – 确定维度
    – 确定事实

    – 范式模型 – 存储

    展开全文
  • 数仓建设流程

    千次阅读 2020-09-10 15:26:35
    数仓建设流程一、数仓概览二、流程详解1.梳理业务流程2.垂直切分,划分主题域3.梳理指标体系4.表实体关系调研5.维度梳理4.数仓分层7.物理模型建立三、tipis 注:本文转至 如何搭建一个数据仓库,仅用于个人学习,...


    注:本文转至 如何搭建一个数据仓库,仅用于个人学习,侵权删。

    一、数仓概览

    • 整体建设
      在这里插入图片描述
    • 建设过程
      在这里插入图片描述
      数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这 些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程垂直切分(划分主题域)指标体系梳理表实体关系调研维度梳理数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。

    二、流程详解

    1.梳理业务流程

    • ① 找到核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。如图:
      在这里插入图片描述

    • ②梳理每个业务节点的客户及关注重点,找到数据在哪。

    在这里插入图片描述

    2.垂直切分,划分主题域

    • ①数仓的建设方式: 自下而上自顶而下。自下而上,简单快捷,快速交活。要全面支撑,就顶层规划,分步实施,交活稍微慢点。
      在这里插入图片描述
    • ② 同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。
      在这里插入图片描述

    3.梳理指标体系

    • ① 指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。
    • ② 指标可分为原子指标派生指标衍生指标,其含义及命名规则举例如下:
      在这里插入图片描述

    在这里插入图片描述

    • 依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 好坏的量化结果。
      在这里插入图片描述
    • ④ 请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。

    4.表实体关系调研

    • ① 每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。
      在这里插入图片描述

    • ② 同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。
      在这里插入图片描述

    5.维度梳理

    • 维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。

    在这里插入图片描述

    • 维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度

    4.数仓分层

    • 数据仓库一般分为4层,名字可能会不一样,但是其目的和建设方法基本一致:

    在这里插入图片描述

    • 每一层采用的建模方法都不一样,其核心是逐层解耦,减少重复计算,降低烟囱式开发。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。

    • 依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。

    在这里插入图片描述

    7.物理模型建立

    • 此时才真正进入纯代码阶段。数仓、ETL工具选型;ETL流程开发;cube的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控etl执行情况等等。

    在这里插入图片描述

    三、需要注意

    1、数仓建设必须从业务中来,到业务中去;

    2、数仓分层的目的是业务解耦;

    3、无论哪种建模方式,其核心是业务实体;

    4、按领域建设能快速交活,后遗症将会在2年之后爆发,且难以解决;

    5、数仓建设应该把75%的时间投入到设计阶段,如果不是,那你就惨了;

    6、数仓本身也可以迭代。

    7、传统数仓并没有一种叫做“宽表模型”的模型,大数据时代新诞生的名词,因为很多大数据组件join代价极高。实际上是范式退化。

    五、数据仓库工具箱

    《数据仓库工具箱——维度建模指南》中,第二章总结了 维度设计的四个主要过程:

    1.选择业务过程

    • 业务过程是公司完成的操作型的活动,例如,获取订单,处理保险索赔、学生课程注册等等。

    2.声明粒度

    • 粒度用于确认某一事实事实表中的一行表示什么。粒度声明是设计必须履行的合同。每个候选维度或事实必须与定义的粒度保持一致。在同一个事实表中不要混入多种不同的粒度。

    3.确认维度

    • 维度提供围绕某一业务过程事件所涉及的“谁、什么、何处、何时、为什么、如何?”等等背景。

    4.确认事实

    • 事实涉及来自业务过程时间的度量,基本上都是以数值量表示的。
    展开全文
  • 数仓构建步骤

    千次阅读 2019-03-23 15:26:47
    选择第一个主题域所要考虑的是它要足够大,以便 使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的 子集来进行...

    数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。
    数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求, 更不能较准确地预见到以后的需求。因此,采用原型法来进行数据仓库的开发是比较合适的,因为原型法的思想是从构建系统的简单的基本框架着手,不断丰富与完 善整个系统。但是,数据仓库的设计开发又不同于一般意义上的原型法,数据仓库的设计是数据驱动的。这是因为数据仓库是在现存数据库系统基础上进行开发,它 着眼于有效地抽取、综合、集成和挖掘已有数据库的数据资源,服务于企业高层领导管理决策分析的需要。但需要说明的是,数据仓库系统开发是一个经过不断循 环、反馈而使系统不断增长与完善的过程,这也是原型法区别于系统生命周期法的主要特点。因此,在数据仓库的开发的整个过程中,自始至终要求决策人员和开发 者的共同参与和密切协作,要求保持灵活的头脑,不做或尽量少做无效工作或重复工作。
    数据仓库的设计大体上可以分为以下几个步骤:

    1. 概念模型设计;
    2. 技术准备工作;
    3. 逻辑模型设计;
    4. 物理模型设计;
    5. 数据仓库生成;
    6. 数据仓库运行与维护。

    下面我们六个主要设计步骤为主线,介绍在各个设计步骤中设计的基本内容。

    第一节 概念模型设计
    进行概念模型设计所要完成的工作是:

    <1>界定系统边界

    <2>确定主要的主题域及其内容
    概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合, 所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑 应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整 而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。

    概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。

    1. 界定系统的边界

      数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前:

    要做的决策类型有哪些?

    决策者感兴趣的是什么问题?

    这些问题需要什么样的信息?

    要得到这些信息需要包含原有数据库系统的哪些部分的数据?
    这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。

    1. 确定主要的主题域

      在这一步中,要确定系统所包含的主题域,然后对每个主题域的内容进行较明确的描述,描述的内容包括:

    l 主题域的公共码键;

    l 主题域之间的联系;

    l 充分代表主题的属性组。

    第二节 技术准备工作
    这一阶段的工作包括:技术评估,技术环境准备。
    这一阶段的成果是:技术评估报告、软硬件配置方案、系统(软、硬件)总体设计方案。管理数据仓库的技术要求与管理操作型环境中的数据与处理的技术要求区别 很大,两者所考虑的方面也不同。我们之所以在一般情况下总是将分析型数据与操作型数据分离开来,将分析型数据单独集中存放,也就是用数据仓库来存放,技术 要求上的差异是一个重要原因。

    1. 技术评估

      进行技术评估,就是确定数据仓库的各项性能指标。一般情况下,需要在这一步里确定的性能指标包括:

    管理大数据量数据的能力;
    进行灵活数据存取的能力;
    根据数据模型重组数据的能力;
    透明的数据发送和接收能力;
    周期性成批装载数据的能力;
    可设定完成时间的作业管理能力。

    1. 技术环境准备

      一旦数据仓库的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的要求;我们主要考虑相关的问题:

    预期在数据仓库上分析处理的数据量有多大?

    如何减少或减轻竞争性存取程序的冲突?

    数据仓库的数据量有多大?

    进出数据仓库的数据通信量有多大?等等。
    根据这些考虑,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了。这些配备有:

    l 直接存取设备(DASD);

    l 网络;

    l 管理直接存取设备(DASD)的操作系统;

    l 进出数据仓库的界面(主要是数据查询和分析工具);

    管理数据仓库的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓库需要的,还应考虑自己或软件集成商开发有关模块等等。

    第三节 逻辑模型设计
    在这一步里进行的工作主要有:

    • 分析主题域,确定当前要装载的主题;
    • 确定粒度层次划分;
    • 确定数据分割策略;
    • 关系模式定义;
    • 记录系统定义

    逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:

    • 适当的粒度划分;

    • 合理的数据分割策略;

    • 适当的表划分;

    • 定义合适的数据来源等。

    • 分析主题域

      在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库的设计方法是一个逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐 步完成的。所以,我们必须对概念模型设计步骤中确定的几个基本主题域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是它要足够大,以便 使得该主题域能建设成为一个可应用的系统;它还要足够小,以便于开发和较快地实施。如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的 子集来进行开发。在每一次的反馈过程中,都要进行主题域的分析。

    • 粒度层次划分

      数据仓库逻辑设计中要解决的一个重要问题是决定数据仓库的粒度划分层次,粒度层次划分适当与否直接影响到数据仓库中的数据量和所适合的查询类型。确定数据 仓库的粒度划分,可以使用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用单一粒度还是多重粒度,以及粒度划分的层次。

    • 确定数据分割策略

      在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等。数 据量的大小是决定是否进行数据分割和如何分割的主要因素;数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密 联系的;我们还要考虑到所选择的数据分割标准应是自然的、易于实施的:同时也要考虑数据分割的标准与粒度划分层次是适应的。

    • 关系模式定义

      数据仓库的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。在概念模型设计时,我们就确定了数据仓库的基本 主题,并对每个主题的公共码键、基本内容等做了描述在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式。

    第四节 物理模型设计
    这一步所做的工作是确定数据的存储结构,确定索引策略,确定数据存放位置,确定存储分配。

    确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:

    要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。

    了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。

    了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/O特性等。

    1. 确定数据的存储结构

      一个数据库管理系统往往都提供多种存储结构供设计人员选用,不同的存储结构有不同的实现方式,各有各的适用范围和优缺点,设计人员在选择合适的存储结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率和维护代价。

    2. 确定索引策略

      数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。

    在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。

    1. 确定数据存放位置

      我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类 的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的 数据则可以放在低速存储设备上,如磁盘或磁带。

    数据存放位置的确定还要考虑到其它一些方法,如:决定是否进行合并表;是否对一些经常性的应用建立数据序列;对常用的、不常修改的表或属性是否冗余存储。如果采用了这些技术,就要记入元数据。

    1. 确定存储分配

      许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理,如:块的尺寸、缓冲区的大小和个数等等,它们都要在物理设计时确定。这同创建数据库系统时的考虑是一样的。

    第五节 数据仓库的生成
    在这一步里所要做的工作是接口编程,数据装入。

    这一步工作的成果是,数据已经装入到数据仓库中,可以在其上建立数据仓库的应用,即DSS应用。

    1. 设计接口

      将操作型环境下的数据装载进入数据仓库环境,需要在两个不同环境的记录系统之间建立一个接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取程序就可 以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的工作,这一接口还应具有以下的功能:

    l 从面向应用和操作的环境生成完整的数据;

    l 数据的基于时间的转换;

    l 数据的凝聚;

    l 对现有记录系统的有效扫描,以便以后进行追加。

    当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程。从操作型 环境到数据仓库环境的数据接口编程的过程和一般的编程过程并无区别,它也包括伪码开发、编码、编译、检错、测试等步骤。

    在接口编程中,要注意:

    l 保持高效性,这也是一般的编程所要求的;

    l 要保存完整的文档记录;

    l 要灵活,易于改动;

    l 要能完整、准确地完成从操作型环境到数据仓库环境的数据抽取、转换与集成。

    1. 数据装入

    在这一步里所进行的就是运行接口程序,将数据装入到数据仓库中。主要的工作是:

    l 确定数据装入的次序;

    l 清除无效或错误数据;

    l 数据“老化” ;

    l 数据粒度管理;

    l 数据刷新等。

    最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库的使用和维护。这 样既可以在经济上最快地得到回报,又能够通过最终用户的使用、尽早发现一些问题并提出新的需求,然后反馈给设计人员,设计人员继续对系统改进、扩展。

    第六节 数据仓库的使用和维护
    在这一步中所要做的工作有建立DSS应用,即使用数据仓库理解需求,调整和完善系统,维护数据仓库。

    建立企业的体系化环境,不仅包括建立起操作型和分析型的数据环境,还应包括在这一数据环境中建立起企业的各种应用。数据仓库装入数据之后,下一步工作是: 一方面,使用数据仓库中的数据服务于决策分析的目的,也就是在数据仓库中建立起DSS应用;另一方面,根据用户使用情况和反馈来的新的需求,开发人员进一 步完善系统,并管理数据仓库的一些日常活动,如刷新数据仓库的当前详细数据、将过时的数据转化成历史数据、清除不再使用的数据、调整粒度级别等。我们把这 一步骤称为数据仓库的使用与维护。

    1. 建立DSS应用

      使用数据仓库,即开发DSS应用,与在操作型环境中的应用开发有着本质区别,开发DSS应用不同于联机事务处理应用开发的显著特点在于:

    l DSS应用开发是从数据出发的;

    l DSS应用的需求不能在开发初期明确了解;

    l DSS应用开发是一个不断循环的过程,是启发式的开发。

    DSS应用主要可分为两类:例行分析处理和启发式分析处理。例行分析处理是指那些重复进行的分析处理,它通常是属于部门级的应用,如部门统计分析,报表分 析等等;而个人级的分析应用经常是随机性很大的,企业经营者受到某种信息启发而进行的一些即席的分析处理,所以我们称之为启发式的分析处理。

    DSS应用开发的大致步骤如下:

    步骤l——确定所需的数据。为满足DSS应用的要求,我们必须从数据仓库中确定一个可能用到的数据范围。这是一个试探的过程。
    步骤2——编程抽取数据。根据上面得到的数据范围,编写一个抽取程序来获得这些数据。为适应分析需求多变的特点,要求所编写的抽取程序应该通用,易于修改。
    步骤3——合并数据。如果有多个数据抽取源,要将抽取来的数据进行合并、提炼,使数据符合分析处理的要求。
    步骤4——分析数据。在上步准备好的数据基础上进行分析处理,并看所得的结果是否满足了原始的要求,如果不能满足,则返回步骤1,开始新的一次循环,否则就准备最终分析结果报告。
    步骤5——回答问题。生成最终分析结果报告。—般情况下,最终的分析结果报告是在许多次的循环后得到的,因为一次分析处理很少是在一次循环后就完成的。
    步骤6——例行化、一次分析处理的最后、我们要决定是否将在上面已经建立的分析处理例行化。如果建立的分析处理是重复进行的部门级的DSS应用,那么最好 是将它例行化,这样在进行下一次同样的分析处理时,不必再重复上述六步的循环过程。而且,不断地积累这种例行处理,形成一个集合,我们就可以通过组合这些 已有的处理来生成新的一个较大的复杂处理,或完成一个复杂处理的一部分。

    1. 理解需求,改善和完善系统,维护数据仓库

      数据仓库的开发是逐步完善的原型法的开发方法,它要求:要尽快地让系统运行起来,尽早产生效益;要在系统运行或使用中,不断地理解需求,改善系统;不断地考虑新的需求,完善系统。

    维护数据仓库的工作主要是管理日常数据装入的工作,包括刷新数据仓库的当前详细数据,将过时的数据转化成历史数据.清除不再使用的数据,管理元数据,等等;另外,如何利用接口定期从操作型环境向数据仓库追加数据,确定数据仓库的数据刷新频率,等等。

    展开全文
  • 基本数仓建设(含最详细步骤)

    千次阅读 2019-08-09 11:27:14
    最简单数仓建设,原理:将所有源数据抽取到同一个地方,建模,加工处理。 需求:将不同mysql库数据,抽取到同一个pg库,对抽取数据进行加工,生成报表。如:在B机器上抽取A机器上数据到C机器上。 使用工具:DataX ...

    最简单数仓建设,原理:将所有源数据抽取到同一个地方,建模,加工处理。

    需求:将不同mysql库数据,抽取到同一个pg库,对抽取数据进行加工,生成报表。如:在B机器上抽取A机器上数据到C机器上。

    使用工具:DataX

    步骤:

    1. B机器上安装java,python,安装DataX
      详细步骤参考:DataX使用
    2. 获取源数据相关参数
      生成固定格式文件:schema|table|target_table|pk_column|columns|add_column
      参考mysql参数获取:查询Mysql表名、主键、列名
      参考postgresql参数获取:查看Postgresql表名、主键、列名
    3. 批量生成json文件
      写一个简单的java文件,读取步骤2生成的文件,并按DataX要求生成对应格式的json文件。
      详细参考:DataX批量生成json文件(简单java代码)
    4. 通用执行sh脚本
      参考:
    5. 批量生成目标库建表语句
      结合excel用起来比较方便,这事本该dba去做的,因为涉及表太多,dba不肯搞,只能自己搞个工具生成建表语句了。
      参考详细步骤:Mysql表结构迁移到Postgresql
    6. 调度系统部署
      B机器上安装airflow,并装上对应的调度资料库
    7. 配置调度任务
      参考网上
    8. 数据加工处理
      参考:阿里OneData体系
    9. 生成报表目标表
    10. 接入报表系统

     

     
    展开全文
  • 数仓建设规范指南

    2021-11-23 00:47:28
    本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!目录:一、数据模型架构原则数仓分层原则主题域划分原则数据模型设...
  • 如何建设数据仓库?

    2020-09-30 15:13:22
    于是数仓工具显得尤为重要。 数据仓库概述 数据仓库,顾名思义,就是存储数据的仓库。 现实中的仓库会有不同的分区和归类,分区下有多个货架,货架上堆放着各种各样的商品。对于数据仓库来说,分区归类就类似于...
  • 实时数仓建设规范

    2021-09-22 17:27:06
    1、实时数仓与离线数仓的区别 1、架构上:实时数仓在离线数仓的基础上,数据集成改为实时的数据集成,例如采用canal、dts和消息中间件(kafka)来及时采集和更新数据。 2、数据处理上:增加了流式ETL和流式汇总。...
  • 最强最全面的数仓建设规范指南

    千次阅读 多人点赞 2021-11-11 12:03:15
    1. 数仓分层原则 2. 主题域划分原则 3. 数据模型设计原则 二、数仓公共开发规范 1. 层次调用规范 2. 数据类型规范 3. 数据冗余规范 4. NULL字段处理规范 5. 指标口径规范 6. 数据表处理规范 7. 表的生命...
  • 数仓建设

    2020-10-03 19:29:43
    数仓建设 简介 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为...
  • 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读!在谈数仓之前,先来看下面几个问题:数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(...
  • 数据仓库维度建模建设步骤

    千次阅读 2020-08-04 22:22:45
    在ETL的流程搭建好后,要定期对其运行,所以调度是执行ETL流程的关键步骤。每一次调度除了写入Log日志表的数据处理信息外,还要使用发送Email或报警服务等,这样也方便的技术人员对ETL流程的把握,增强了安全性和...
  • 文档大纲:一、数仓基本概念1. 数据仓库架构我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种...
  • (3)数仓建设-数据仓库设计方案

    千次阅读 2020-08-18 17:56:17
    数仓分层的主要原因: 清晰数据结构  每一个数据分层都有它的作用域,这样在使用表的时候能更方便的定位和理解。 数据血缘追踪  由于最终给业务呈现的是一个能直接使用的业务表,但是表的数据来源有很多,如果...
  • 阿里云PB级实时数仓建设 数据收集 在数据收集阶段,第一点需要考虑的是用户可能具有不同类型的数据,如事务数据、日志数据、流数据和物联网 (IoT) 数据。AnalyticDB针对上述每种数据提供了数据收集解决方案...
  • 累积快照事实表用来表述过程开始和结束之间的关键步骤事件,覆盖过程的整个生命周期,通常具有多个日期字段来记录关键时间点,当过程随着生命周期不断变化时,记录也会随着过程的变化而被修改。以事务事实表中提到...
  • 搭建数据仓库的基本步骤

    千次阅读 2019-10-21 10:14:00
    一、主要步骤 1、确定主题 确定数据分析的主题.eg:分析某年某月某地区的各种啤酒销售情况. 主题要体现出某一方面的各个分析维度和统计量度之间的关系.2、确定度量 度量是分析的技术指标,一般为数值型数据.eg:某...
  • 企业大数据平台下数仓建设思路

    千次阅读 2017-03-15 11:06:40
    介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。 与阿里云大数据...
  • 大数据数仓概念 学术上:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、...
  • 实时数仓在设计中不同于离线数仓在各层级使用同种储存方案,比如都存储在 Hive 、DB 中的策略。首先对中间过程的表,采用将结构化的数据通过消息队列存储和高速 KV 存储混合的方案。实时计算引擎可以通过监听消息...
  • 基本概念 在正式学习本教程之前,您需要首先理解以下基本概念: 业务板块:比数据域更高维度的业务划分方法,适用于庞大的业务系统。 维度:维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建...
  • 作者 | 汪磊(网易云音乐 / 数据平台开发专家)整理 | 杨涛(Flink 社区志愿者)如何基于 Flink 的新 API 升级实时数仓架构?背景介绍网易云音乐从 2018 年开始搭建...
  • 2、数仓分层好处 (1)清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解 (2)减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算
  • 点击上方 "大数据肌肉猿"关注,星标一起成长后台回复【加群】,进入高质量学习交流群2021年大数据肌肉猿公众号奖励制度本文分为两大节介绍,第一节是数仓建设,第二节是数据治...
  • ????近期准备系统地学习一下数据仓库...ps:其实主要是因为实习这里的数仓建设很成熟,自己就边学习,边实践,记录一下。前对数据仓库感兴趣的同学可以查看:???? 第一篇: Hadoop之数据仓库概述. <><> ...
  • 数据仓库建设步骤

    千次阅读 2018-06-19 15:58:09
    管理贯穿于整个系统的建设过程中, 元数据 是描述数据的数据。在数据采集阶段, 元数据 主要包括下列信息:  ·源数据的描述定义:类型、位置、结构。  ·数据转换规则:编码规则、行业标准。  ·目标 数据仓库 ...
  • 建设数据仓库7个步骤

    2020-12-21 20:45:22
    成功实施数据仓库项目的七个步骤建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其...
  • 数仓建设-架构&建模

    千次阅读 2021-04-03 09:13:06
    第五层是操作步骤,可以对应到具体步骤。 数据架构需要更为详细的一张图来说明。‘ 这里企业架构中的数据架构,分为面向业务需要和面向数据应用的数据架构设计。其中数据对象是对数据自身的建模,例如业务中使用的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,433
精华内容 573
关键字:

数仓建设步骤