精华内容
下载资源
问答
  • 2018国家标准-数据治理规范
  • 信息技术服务 治理通用要求、实施指南、绩效评价、实施导则、数据治理规范
  • 为了促进组织有效、高效、合理地利用数据,有必要在数据获取、存储、整合、分析、应用呈现、归档和销毁过程中,提出数据治理的相关规范,从而实现运营合规、风险可控和价值实现的目标。 一、术语 1.数据治理:数据...

    2018-06-07发布,2019-01-01实施

    为了促进组织有效、高效、合理地利用数据,有必要在数据获取、存储、整合、分析、应用呈现、归档和销毁过程中,提出数据治理的相关规范,从而实现运营合规、风险可控和价值实现的目标。
    

    一、术语
    1.数据治理:数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。
    2.数据管理:数据资源获取、控制、价值提升等活动的集合。
    3.数据资产:组织拥有和控制的、能够产生效益的数据资源。
    4.数据战略:组织开展数据工作的愿景和高阶指引。
    5.数据架构:数据要素、结构和接口等抽象及其相互关系的框架。

    二、总则
    1.目标:运营合规、风险可控、价值实现。
    2.任务:评估现状及需求、环节、资源管理和资产运营能力;指导体系构建、治理域的建立和实施落地;制定评价体系和审计规范,监督数据治理内控、合规和绩效。

    三、框架
    1.顶层设计
    2.环境
    3.治理域
    4,治理过程

    四、顶层设计
    1.战略规划:与业务、信息技术规划协调一致;制定数据战略规划;指导方案建立;明确各项要求。
    2.组织构建:建立组织机构和机制;明确决策和实施机构;建立授权、决策和沟通机制;实现各项功能。
    3.架构设计:建立数据架构,明确技术方向、管理策略和支撑体系;评估。

    五、数据治理环境
    1.内外部环境:分析业务、市场和利益相关方需求,适应内外部环境变化。
    2.促成因素:获得支持;提升人员能力;开展技术研发和创新;制定制度;营造文化;评估能力。

    六、数据治理域
    1.数据管理体系:围绕数据标准、数据质量、数据安全、元数据管理和数据生存周期等,开展治理。评估、指导、监督。
    2.数据价值体系:围绕数据流通、数据服务和数据洞察等,开展治理。评估、指导、监督。

    七、数据治理过程
    1.统筹和规划
    2.构建和运行
    3.监控和评价
    4.改进和优化

    八、数据管理体系的治理规范
    1.数据标准:明确数据标准的内涵和范围,建立数据标准体系及其管理机制,以支撑数据的标准化建设,保障数据在应用过程中的一致性。
    1)明确数据标准的内涵和范围,制定通用的数据规范,包括数据分类、数据类型、数据格式、编码规则等,保证数据应用过程的一致性。
    2)方案计划
    3)机构和机制
    4)制定管理制度
    5)评估更新
    2.数据质量:指定数据质量管理目标,建立管理体系和实施机制,优化并持续改进。
    1)分类管理,制定目标。
    2)定义角色和职责,建立管理办法。
    3)识别数据生存周期各个阶段的数据质量关键因素,构建数据质量评估框架,包括准确性、完整性、一致性、可访问性、及时性、相关性和可信度等。
    4)采用定性评估、定量评估、综合评估等方法,评估和持续优化数据质量。
    3.数据安全
    1)目标、方针、策略
    2)机构、角色、能力
    3)规范、机制
    4)视图、识别
    5)审计、评估、监督、优化
    4.元数据管理:明确范围和优先级、建立策略和流程,开展元数据创建、存储、整合和控制等。
    1)明确元数据的管理范围,构建元数据库。
    2)建立完整的数据字典、模型、架构及其管理体系。
    3)建立管理机制
    4)建立创建、维护、整合、存储、分发、查询、报告和分析机制。
    5)建立质量标准和评估指标,开展绩效评估并持续改进。
    5,数据生存周期
    1)识别现状
    2)识别各个阶段
    3)确保各阶段数据保密性、完整性和可用性。
    4)确保合法合规

    九、数据价值体系的治理规范
    1.数据流通
    1)识别数据资产
    2)明确可流通数据及方式
    3)确保准确性、可用性、安全性和保密性
    4)保证安全
    5)保证可追溯
    6)确保合法合规
    2.数据服务
    1)明确数据服务内涵、范围、类型、团队和服务方式
    2)制定目录、协议、方法
    3)建立管控流程,对实施过程进行审核和控制
    4)建立支持流程
    5)构建服务管理机制
    6)开展服务能力评价
    3.数据洞察
    1)建模
    2)开展规律性、交互性、关联性分析
    3)挖掘规律
    4)持续改进和优化流程、提高能力和价值
    5)确保合法合规

    展开全文
  • 数据治理之数据规范

    千次阅读 2019-10-31 09:50:17
    数据域:对于业务过程和维度的抽象。如:交易域、用户域 业务过程:不可拆分的行为事件。如:下单、支付 时间周期:如最近30天、截至当前 修饰类型:对修饰词的抽象。如支付方式、访问终端类型 修饰词:访问终端类型...

    系统架构体系:
    在这里插入图片描述
    数据域:对于业务过程和维度的抽象。如:交易域、用户域

    业务过程:不可拆分的行为事件。如:下单、支付

    时间周期:如最近30天、截至当前

    修饰类型:对修饰词的抽象。如支付方式、访问终端类型

    修饰词:访问终端类型下的pc、安卓、苹果

    度量/原子指标:具有明确含义的业务名词。如:支付金额

    维度:如:地理维度、时间维度

    维度属性:对维度的描述。如:地理纬度下国家、省份

    派生指标:原子指标+修饰词+时间周期

    指标体系:
    1)基本原则:

    ① 修饰词继承修饰类型的数据域

    ② 派生指标可以有多个修饰词,继承原子指标的数据域

    2)指标分类“

    ① 新增事务型指标:支付金额、新增商品数等非动态指标

    ② 存量型指标:商品总数、用户总数等截至当前的增量数据

    ③ 复合型指标:衍生指标

    ④ 统计类标签:在这里插入图片描述

    展开全文
  • 企业级省大数据平台技术规范数据治理子系统分册
  • 美团数据治理参考

    2021-02-24 16:51:55
    数据治理项目目标:通过建设一...为了达成数据治理的目标,起源数据治理平台就必须记录下业务发展过程,并映射到数据加工和数据提取,规范约束这些过程。因此起源数据治理平台归纳到数据治理层,该层就位于数据仓库层
  • 企业高层必须制定一个基于价值的数据治理计划,确保董事会和股东可以方便、安全、快速、可靠地利用数据进行决策支持和业务运行。 数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会...
  • 我们目前所积累的数据治理经验,大多数是在互联网场景下的,且与自己工作高度相关。如果想更进一步的搞好数据治理,就应该看一下业界相关的一些权威机构的理论。以国际数据管理协会,也就是DAMA,协会提供了一种...

    治理理论概述

    我们目前所积累的数据治理经验,大多数是在互联网场景下的,且与自己工作高度相关。如果想更进一步的搞好数据治理,就应该看一下业界相关的一些权威机构的理论。以国际数据管理协会,也就是DAMA,协会提供了一种DMBOK方式,覆盖了企业数据管理领域的十个方面,十分适合阿里腾讯这种大型企业。可以说,这是一个很不错的参考框架,用来对比我们目前的数据管理工作,寻找不足之处。

    下图为数据管理十方面理论:
    在这里插入图片描述

    下图为十方面理论每个方面的内容详情:
    在这里插入图片描述

    这里对10个职能翻译一下,内容如下:

    • 数据治理
    • 数据架构管理
    • 数据开发
    • 数据操作管理
    • 数据安全管理
    • 数据质量管理
    • 参考数据和主数据管理
    • 数据仓库和商务智能管理
    • 文档和内容管理
    • 元数据管理

    治理思路概述

    我们将上一章节的内容作总结,数据治理大概可以从两条路来进行考量,一种是全局出发制定完善的流程,一种是从局部出发先解决闭环问题。

    • 全局出发:要遵循完整的10个治理内容,就需要领导者有推进的能力,将数据治理放在数据职能之上,通过完整的规范来落地执行措施。这种方式实行成本较大,执行周期很长,但落地效果一般都很不错,适合中层管理者来推动执行。

    • 局部出发:假如数据职能的要求非常高,数据治理优先级要低一些,也可以通过启动治理事项的方式,先解决局部的小问题,例如文档撰写,通过项目的形式来实现目标。

    治理流程实践

    在笔者的实际工作场景中,数据质量与数据职能的要求同样高,因而不能简单的只进行局部优化,也没有足够的精力进行全局优化。因此,笔者将数据治理的流程进行简化,挑选最终的部分予以保障,舍弃掉一些提升不大的项目。在实际的工作中,有四点是最重要的:质量、资产、操作和文档。

    • 日常操作:明确数据开发的规范,例如表名、分层、代码规范、注释、上线流程等。
    • 数据质量:重点关注四个方面,第一个是基线延迟,也就是监控我们的任务是否能按时产出;第二个是数据量波动,如果波动较大,意味着业务过程多少出现了问题;第三个是业务指标异常,例如PV、UV等出现了大范围波动,通常意味着业务出现了问题;第四个是相同指标统计结果不一致,这个问题需要有完善的OneData体系建设,能够避免因为口径问题被业务方质疑。
    • 文档撰写:文档要及时补充三点内容,第一个是数据模型,要及时更新业务系统的相关逻辑,可沉淀指标加入到公共库中,并且建设好对应的中间层,避免后续重复开发工作;第二个是开发规范,及时做好CodeReview,加好代码注释,对脚本参数进行相应的规范;第三个是及时更新需求模块,该补充评审的内容加上,可以简化的部分去掉。
    • 资产管理:从实际消耗的计算和存储资源出发,当集群资源达到一定的限制,例如存储达到80%,就开始启动治理专项。

    我们组成一个环形:
    日常操作 -> 数据质量 -> 文档撰写 ->资产管理。
    也就是,日常操作遵循一定的规范,任务上线后遵循一定的数据质量配置流程,项目结束后及时撰写文档,定时对资产进行盘点。有了这个环路治理,基本上绝大多数的问题都能被覆盖掉。

    展开全文
  • 数据治理怎么做

    2019-01-18 13:47:22
    数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合呢?这些问题都是数据治理过程中最实际的问题,也是最...
  • 数据治理的概述 4 1.1 数据治理概念 4 1.2 数据治理目标 4 数据治理体系 5 数据治理核心领域 5 1.3 数据模型 6 1.4 数据生命周期 6 1.5 数据标准 8 1.6 主数据 9 1.7 数据质量 10 1.8 数据服务 12 1.9 数据安全 12 2...
  • 数仓建模—数据治理

    万次阅读 2020-12-05 19:51:19
    文章目录数据治理统一流程参考模型为什么要治理数据质量层次不齐数据交换和共享困难缺乏有效的管理机制存在数据安全隐患发现问题严重滞后影响不清晰DMBOK的数据治理框架数仓治理治理的分类粗治理细治理数据源治理...

    数据治理

    • 元数据管理
    • 数据质量
    • 数据模型
    • 安全管理
    • 主数据管理
    • 数据生命周期

    数据治理(Data Governance),是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核流程等内容。

    统一流程参考模型

    image-20201205183104040

    为什么要治理

    image-20201205183119801

    • 不论是金融行业、通讯行业、地产行业、传统制造业以及农业,其信息化的发展基本都遵循了“诺兰模型”。笔者认为企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大的阶段,可以说是一个先建设后治理的过程

    数据质量层次不齐

    • “数据资产化”的概念已经被大多数人理解和接受。不论是企业、政府还是其他组织机构,对于的数据资产的管理越来越重视。然而,数据并不等于资产,也就是说不是所有数据都是数据资产,数据中也有垃圾数据。我们需要治理的是能够为企业创造价值的数据资产,而不是全部数据。

    数据交换和共享困难

    • 企业信息化建设初期缺乏整体的信息化规划,系统建设大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,甚至还有大量的数据存放在员工的个人电脑中,导致在企业内部形成了一个个的“信息孤岛”。
    • 这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,数据的价值不能充分发挥。只有联通数据,消除这些“信息孤岛”,才能实现数据驱动业务、数据驱动管理,才能真正释放数据价值

    打通各个业务线之间的数据建设,很多公司都是统一建设

    缺乏有效的管理机制

    • 许多企业都认识到了数据的重要性,并尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,在数据流转过程中,存在数据维护错误、数据重复、数据不一致、数据不完整的情况,导致了产生了大量的垃圾数据。数据产权不明确,管理职责混乱,管理和使用流程不清晰,是造成数据质量问题的重要因素。

    存在数据安全隐患

    • 近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。

    发现问题严重滞后

    影响不清晰

    • 数据变更对下游的影响不清晰,无法确认影响范围

    DMBOK的数据治理框架

    • DMBOK是由数据管理协会(DAMA)编撰的关于数据管理的专业书籍,一本DAMA 数据管理辞典。对于企业数据治理体系的建设有一定的指导性

    注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。

    image-20201205183235954

    数据控制:在数据管理和使用层面之上进行规划、监督和控制。

    数据架构管理:定义数据资产管理蓝图。

    数据开发:数据的分析、设计、实施、测试、部署、维护等工作。

    数据操作管理:提供从数据获取到清除的技术支持。

    数据安全管理:确保隐私、保密性和适当的访问权限等。

    数据质量管理:定义、监测和提高数据质量。

    参考数据和主数据管理:管理数据的黄金版本和副本。

    数据仓库和商务智能管理:实现报告和分析。

    文件和内容管理:管理数据库以外的数据

    元数据管理:元数据的整合、控制以及提供元数据。

    数仓治理

    • 节约机器资源(存在很多废弃的逻辑和表,占用了大量的存储资源和计算资源)
    • 节约人力资源(降低了开发和维护的成本)
    • 数据资产沉淀

    这个是一个长期的工作,类似于代码重构

    治理的分类

    粗治理

    • 临时表的处理
    • 无访问信息的表(统一管理元数据和adhoc 以及调度)
    • 无下游依赖的表(得有调度系统)

    细治理

    专项性质的治理方案,主要针对有人负责的项目

    • 运行时间长的任务
    • 存储空间空间过大的表

    数据源治理

    • 据源,顾名思义就是数据的来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报等。

    数据源管理

    • 配置了大量的重复数据源

    数据源监控

    • 可以监控数据量和数据质量

    数据同步

    • 数据同步是指不同数据存储系统之间要进行数据迁移,比如在hdfs上,大多业务和应用因为效率的原因不可以直接从HDFS上获取数据,因此需要将hdfs上汇总后的数据同步至其他的存储系统,比如mysql
    • sqoop可以做到这一点,但是Sqoop太过繁重,而且不管数据量大小,都需要启动MapReduce来执行,而且需要Hadoop集群的每台机器都能访问业务数据库;阿里开源的dataX是一个很好的解决方案。

    数仓模型治理

    数据划分及命名空间约定

    表的命名就涉及到数据域的划分,因为表的命名需要将数据域囊括进去

    • 根据业务划分数据并约定命名,建议针对业务名称结合数据层次约定相关命名的英文缩写,这样可以给后续数据开发过程中,对项目空间、表、字段等命名做为重要参照。
    • 按业务划分:命名时按主要的业务划分,以指导物理模型的划分原则、命名原则及使用的ODS project。例如,按业务定义英文缩写,阿里的“淘宝”英文缩写可以定义为“tb”。
    • 按数据域划分:命名时按照CDM层的数据进行数据域划分,以便有效地对数据进行管理,以及指导数据表的命名。例如,“交易”数据的英文缩写可定义为“trd”。
      -** 按业务过程划分**:当一个数据域由多个业务过程组成时,命名时可以按业务流程划分。业务过程是从数据分析角度看客观存在的或者抽象的业务行为动作。例如,交易数据域中的“退款”这个业务过程的英文缩写可约定命名为“rfd_ent”。
    • 表命名规范需清晰、一致,表命名需易于下游的理解和使用
    • 下线表的统一命名
    常规表的命名
    • 分层前缀[dwd|dws|ads|bi]_业务域_主题域_XXX_粒度
    • 业务域、主题域我们都可以用词根的方式枚举清楚,不断完善,粒度也是同样的,主要的是时间粒度、日、月、年、周等,使用词根定义好简称。
    中间表
    • 中间表一般出现在Job中,是Job中临时存储的中间数据的表,中间表的作用域只限于当前Job执行过程中,Job一旦执行完成,该中间表的使命就完成了,是可以删除的(按照自己公司的场景自由选择,以前公司会保留几天的中间表数据,用来排查问题)。

    统一指标和字段命名

    • 相同的字段在不同表中的字段名必须相同。
    • 核心指标要进行逻辑收口以及在元数据上进行维护

    公共处理逻辑下沉及单一

    • 底层公用的处理逻辑应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑在多处同时存在。

    核心模型与扩展模型分离

    • 建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要。在必须让核心模型与扩展模型做关联时,不能让扩展字段过度侵入核心模型,以免破坏了核心模型的架构简洁性与可维护性

    层次调用约定

    • 应用层应优先调用公共层数据,必须存在中间层数据,不允许应用层跨过中间层从ODS层重复加工数据。
    • 一方面,中间层团队应该积极了解应用层数据的建设需求,将公用的数据沉淀到公共层,为其他团队提供数据服务
    • 另一方面,应用层团队也应积极配合中间层团队进行持续的数据公共建设的改造。必须避免出现过度的引用ODS层、不合理的数据复制以及子集合冗余。

    垃圾的数仓就会出现大量的跨层调用,所以可以通过跨层调用ods 表率来衡量数仓的建设

    组合原则

    • 将维度所描述业务相关性强的字段在一个物理维表实现

    相关性强是指经常需要一起查询或进行报表展现、两个维度属性间是否存在天然的关系等。例如,商品基本属性和所属品牌。

    数据拆分

    • 对于维度属性过多,涉及源较多的维度表(例如会员表),可以做适当拆分

    数据的水平和垂直拆分是按照访问热度分布和数据表非空数据值、零数据值在行列二维空间上分布情况进行划分的。

    核心表
    • 拆分为核心表和扩展表。核心表相对字段较少,刷新产出时间较早,优先使用。扩展表字段较多,且可以冗余核心表部分字段,刷新产出时间较晚,适合数据分析人员使用。

    数据冗余

    • 数据记录数较大的维度表(例如商品表),可以适当冗余一些子集合,以减少下游扫描数据量

    sql 规范

    任务注释
    • name: 任务名和表名保持一致
    • description:任务描述,该任务的主要内容
    • target:目标表名,一般一个任务只输出一个目标表
    • author:创建者,和创建日期,
    • modify:内容变更记录,变更人,变更日期,变更原因 ,这个从版本控制中也可以找到,但是这些这里更直观一些。
    sql 模板
    • sql 的写法,sql 结构

    数据服务治理

    报表治理

    接口治理

    上下游约定

    • 由于数仓的特性和定位,它就需要强依赖上游的业务系统,当然也会有一些下游系统,所以定好上下游的规范,变更的通知机制是非常有必要的。

    上游约定

    • 对于数仓来说,最重要的就是数据了,数仓中的数据,主要来源是业务系统,就是公司各种业务数据,所以数仓需要不断的将业务系统数据同步到自身平台来,所以一旦上游业务系统发生变化,数仓也要同步变化,不然,这种同步操作很可能失败。
    表结构变更
    • 上游的表结构经常会发生变化,新增字段、修改字段、删除字段(除非真的不用这个字段了,通常会选择标识为弃用)。
    • 表结构最好要维护清楚,表名、字段名、字段类型、字段描述,都整理清楚,不使用的字段要么删除,要么备注好,当业务频繁发生变化或者迭代优化的时候,很容易出现,我写了半天的代码,最后发现表用的不对,字段用的不对,这就尴尬了。
    • 对于这种变化,人工处理的话,就是手动在数仓对应的表中增加、修改字段,然后修改同步任务;这个最好可以搞成自动化的,比如,自动监控上游表结构的变更,变化后,自动去修改数仓中的表结构,自动修改同步任务。
    枚举值
    • 业务系统中会有很多的常量,用来标识一些状态或者类型,这种值经常会新增,数仓中会对这些值做些处理,比如转换成维度,会翻译成对应的中文,而实际上这种映射关系,我们是不知道的,只有业务开发才知道,所以最好可以让他们维护一张枚举值表,我们去同步这张表。
    create_time & update_time
    • 正常来说,create_time,当这条记录插入后,就不会再变了,但是某种情况下,哈哈,开发同学会去更新它;update_time,当这条记录变化后,这个时间也要变,有的开发同学不去更新它
    • 所以在做增量操作的时候,一定和开发说好这两个字段的定义和使用场景。
    is_delete & is_valid
    • 有些场景下,我们需要删除某些数据,一般不会物理删除,会通过一个字段来做逻辑删除,请和开发同学沟通好,使用固定的一个字段,并确认该字段双方的理解是一致的,不然后面又很多坑

    下游约定

    • 对于数仓来说,一般的邮件、报表、可视化平台都是下游,所以当我们在数仓中进行某些重构、优化操作的时候,也需要通知他们。
    • 主要就是对数仓模型做好维护,表的使用场景、字段描述等。对上游的要求,自己也要做好,因为自己也是上游。

    数仓评价(如何评价一个数据仓库的好坏)

    image-20201205183202242

    • 数据准确性、时效性、健壮性。

    面试官说这些都是一些原则,比较虚,有没有可衡量的指标?就是一个数据仓库建好了,用这些指标评价它好不好,有不好的要指出来,指导它改进。

    数据准确性

    • 对外的报表提供反馈机制,对数据准确性进行跟踪
    • 数检平台的整个平台的数据准确性进行监控(到后期能不能利用机器学习去监控,否则你要定制大量的规则)

    时效性

    • 针对数仓的对外提供的数据能否满足失效性的需求
    • 监控数仓任务的运行时长进行优化
    • 能否快速响应业务的数据需求

    覆盖全域数据

    建构层次清晰

    • 纵向的数据分层,横向的主题划分,业务过程划分,让整个层次结构清晰易理解

    数据准确一致

    • 定义一致性指标、统一命名规范、统一业务含义、统一计算口径,专业的建模团队

    性能指标

    • 通过统一的规划设计,选用合理的数据模型,清晰统一的规范,并且考虑数据的使用场景,使得整体性能更好

    需要持续不断的业务逻辑重构,是整体的sql 水平上升,提倡优化精神

    成本指标

    • 避免烟囱式的重复建设,节约计算、存储、人力成本。

    易用性指标

    • 复杂逻辑前置,降低业务方的使用门槛

    通过冗余维度和事实表,进行公共计算逻辑下沉,明细与汇总共存等为业务提供灵活性

    需求响速度

    表的种类和特征

    事实表

    事务事实表(明细事实表->聚合事实表)

    • 可以看做是保存某一事务的日志数据,事务一旦被提交就成为历史数据,只能以增量的方式维护。
    • 事务型事实表主要用于分析行为与追踪事件。事务事实表获取业务过程中的事件或者行为细节,然后通过事实与维度之间关联,可以非常方便地统计各种事件相关的度量,例如浏览UV,搜索次数等等。
    • 记录的是事务层面的事实,保存的是最原子的数据,也叫做“原子事实表”。事务事实表中的数据在事务事件发生后产生,数据的粒度通常是每个事务一条记录。一旦事务被提交,事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。

    事务型事实表一般选用事件发生日期或时间作为分区字段,这种分区方式可以方便下游的作业数据扫描执行分区裁剪

    明细事实表
    • 一般位于DWD层,该层事实表设计不进行聚合,汇总等动作,仅做数据规范化,数据降维动作,同时数据保持业务事务粒度,确保数据信息无丢失。
    聚合事实表
    • 相对于明细事实表,聚合事实表通常是在明细事实表的基础上,按照一定的粒度粗细进行的汇总、聚合操作,它的粒度较明细数据粒度粗,同时伴随着细节信息的丢失。
    • 聚合事实表一般位于DWS层,聚合事实表的数据来源可以是两种明细事实表中的任一种。
      • 通用汇总层:封装底层计算逻辑,做通用汇总,避免上层直接访问下层明细数据,应用广泛
      • 日粒度:数据范围一般为T-1天的数据
      • 周期性积累:用于周期性分析,数据来源于通用汇总层,或者日粒度
      • 历史积累:历史数据积累的大表,用于用户画像,特征提取,经营分析等场景,计算比较耗时。

    周期快照事实表

    • 以一定的周期间隔来记录事实,每行代表某个时间周期的一条记录,它是在事务事实表之上建立的聚集表,记录的事实是这一段时间的聚集事实值,一般只有周期结束后才会产生,产生之后不再更新。
    • eg:销售日快照表(销售额),库存日快照表(库存量)

    积累快照事实表

    • 覆盖的实一个事务从开始到结束的之间所有的关键事件,覆盖整个事务的生命周期,通常具有多个日期来记录关键事件的时间点。是基于多个业务过程联合分析从而构建的事实表,如采购单的流转环节等。
    • 一般用于追踪某个业务全生命周期及状态转换,比如交易业务涉及下单、支付、发货、确认收货、这些不同的相关事件在不同的事务事实表中。

    维度表

    • 从某个角度观察事实数据的窗口,存储的数据用来从某个角度描述事实。

    全量表

    • 保存每天所有的最新状态的数据

    增量表

    • 当数据改变时,将这个改变和改变后的结果记录下来,就是增量表。(a账户分两次存了100块,增量表显示为a账户金额100,200,并分别记录变化时间)

    拉链表

    • 用特定字段维护缓慢变化维度的表

    流水表

    • 记录表中所有改变的表。

    周期快照表

    • 按固定周期对事实表进行统计生成的表,按时间段保存记录,增量更新。

    累积快照表

    • 按过程对事实表进行统计生成的表,将每个事务切分成多个小事务,明确开始和结束的状态,每个小事务只保存一条结果。
    展开全文
  • 数据治理实践

    2019-10-10 14:15:18
    对银行数据治理来说,统一指标数据标准,可以规范业务统计分析语言,帮助银行提升分析应用和监管报送的数据质量,进而提高全行数据质量和数据资产价值。 监管要求 在《银行业金融机构数据治理指引》(下称“指引.....
  • DGI数据治理框架解读

    2019-05-02 10:39:17
    提出企业在操作层面进行数据治理的框架体系,包括数据治理的概念、内容、流程和方法等,促进数据管理活动更加规范有序、高效权威。DGI认为数据治理主要涉及政策、标准、策略”、数据质量、“隐私、遵从性、安全”、...
  • 数据治理是回答企业决策的相关问题并制定数据规范,数据管理是实现数据治理提出的决策并给予反馈,因此数据治理和数据管理的责任主体也是不同的,前者是董事会,后者是管理层。国际标准化组织 ISO 指出,数据治理...
  • 数据治理专注于将数据作为企事业单位数据资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高数据质量,实现数据内外部共享,并能够将数据作为组织的宝贵资产应
  • 数据治理概念解读

    2021-01-25 09:50:13
    一、数据治理概述 二、元数据、数据元、数据源、源数据 1、数据元 2、元数据(MateData) 2、数据源(Data Source) 3、源数据(Source Data) 三、主数据、基础数据、静态数据 1、主数据 2、基础数据 3、...
  • 数据治理架构、数据管理、数据质量控制、数据价值实现、监督管理等方面规范银行业金融机构的数据管理活动。将数据治理提高到银行常规管理的战略高度,明确要将银行数据治理工作常态化、持久化,标志着我国银行业...
  • 数据治理之数据质量管理

    千次阅读 2020-04-02 16:56:33
    数据质量管理不是一时的数据治理手段,而是循环的管理过程。 数据质量管理不仅包含了对数据质量的改善,同时还包含了对组织的改善。 为什么有这么多人强调改善数据质量管理的重要性,用一种很抽象的比喻描述,如果....
  • 序号 数据项名称 数据项类型 数据项长度 是否必填 相关条文和标准 -- 综治机构 包括 机构名称 机构类型 机构层级 --- 综治队伍 包括 机构名称 姓名 性别 民族 政治面貌 公民身份号码 出生日期 级别 ...
  • 数据规范

    2020-10-15 10:21:57
    数据治理的处理对象是海量分布在各个系统中的数据,这些不同系统的数据往往存在一定的差异:数据代码标准、数据格式、数据标识都不一样,甚至可能存在错误的数据.这就需要建立一套标准化的体系,对这些存在差异的数据...
  • 什么是数据治理

    2018-03-12 20:29:00
    信息系统建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数[1]据资产形成的必要条件。 虽然以规范的方式来管理数据资产的理念已经被广泛接受和认可,但是光有理念是不够的,还需要组织架构、原则...
  • 因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,难以保障的数据安全等等,源源不断的基础性数据问题会进一步产生,进而导致数据建设难以真正发挥其...
  • 睿治数据治理平台提供了一套完整的数据标准管理流程及办法,通过一系列的活动,统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性...
  • 如何做数据治理

    2021-01-30 20:54:46
    authorId=416839&spm=smbd.content.share.0.1611981658907AqS7X7r&_trans_=010005_wxhy_shw&...数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范...
  •  所谓“无规矩不成方圆”,因历史原因企业在发展过程中已经形成了系统林立的情况,汇集到数据平台的数据都各具特色,缺乏标准、规范治理数据已经失去了使用的价值。为了规范数据处理过程,凸显数据业务价值,需...
  • 数据治理应该采用最简单的手段管理最有价值的数据,但在实际情况中,我们遇到过在很多数据治理开展过程中,常见的“两不三难”的情况:  1)后向型治理,不一致:因历史原因,很多企业采用“先建后治”的方式...
  • 推荐阅读:干货 | 携程数据治理落地实践数仓治理一场仗|0x00 老大难的数仓治理“年年数据要治理,数据年年治不好”。数仓治理的老大难,通常是跟着业务需求快跑,要不是数据零散在各个团队,或者是大家的研发规范有...

空空如也

空空如也

1 2 3 4 5 ... 14
收藏数 275
精华内容 110
关键字:

数据治理规范