精华内容
下载资源
问答
  • 2018国家标准-数据治理规范
  • 数据治理之数据规范

    千次阅读 2019-10-31 09:50:17
    数据域:对于业务过程和维度的抽象。如:交易域、用户域 业务过程:不可拆分的行为事件。如:下单、支付 时间周期:如最近30天、截至当前 修饰类型:对修饰词的抽象。如支付方式、访问终端类型 修饰词:访问终端类型...

    系统架构体系:
    在这里插入图片描述
    数据域:对于业务过程和维度的抽象。如:交易域、用户域

    业务过程:不可拆分的行为事件。如:下单、支付

    时间周期:如最近30天、截至当前

    修饰类型:对修饰词的抽象。如支付方式、访问终端类型

    修饰词:访问终端类型下的pc、安卓、苹果

    度量/原子指标:具有明确含义的业务名词。如:支付金额

    维度:如:地理维度、时间维度

    维度属性:对维度的描述。如:地理纬度下国家、省份

    派生指标:原子指标+修饰词+时间周期

    指标体系:
    1)基本原则:

    ① 修饰词继承修饰类型的数据域

    ② 派生指标可以有多个修饰词,继承原子指标的数据域

    2)指标分类“

    ① 新增事务型指标:支付金额、新增商品数等非动态指标

    ② 存量型指标:商品总数、用户总数等截至当前的增量数据

    ③ 复合型指标:衍生指标

    ④ 统计类标签:在这里插入图片描述

    展开全文
  • 数据治理解决方案.pdf

    2020-09-17 09:54:28
    为实现大数据平台数据治理子系统的建设和管理,为大数据平台上的各类基础技术和应用提供支撑,加强大数据平台上数据的管控力度,增强数据治理子系统自身管理能力。主要包括以下几方面的内容:总体说明、数据治理体系...
  • 文档数据治理建设方案。详细阐述了数据治理核心领域、保障机制及相关管理规范。对于在银行业、通信业、保险业从事数据分析和数据治理的人有不错的借鉴及参考价值
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范...

    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。

    数据标准是什么?

    数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。——维基百科。

    笔者理解:数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

    企业数据标准管理的内容

    1、数据模型标准,即元数据的标准化。自己从事IT行业10多年,一路走来,曾经做开发的时候一度认为数据模型没什么,只不过就是表结构、存储过程的设计,后来接触了数据集成ETL、ESB,虽然也知道ETL脚本本身也是元模型的一部分,但对其重要程度也没放在心上。

    后来慢慢发现之前的想法还过于简单,如果把企业信息化比作是人体的话,数据模型就是其骨架,数据之间的关系和流向是其血管和脉络,数据是其血液,数据模型的标准化是其数据血液能够正常流动和运行的根本。数据模型标准是元数据管理的主要内容,是企业数据治理的基础。请参考《数据治理系列2:元数据管理—企业数据治理的基础

    2、主数据和参照数据标准。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。参照数据一般是有国标可以参照的,固定不变的,或者是用于企业内部数据分类的,基本固定不变的数据。个人认为主数据与参照数据的标准化是企业数据标准化的核心。请参考《主数据管理实施四部曲概论

     

     

    3、指标数据标准。指标数据是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。指标数据标准是对企业业务指标所涉及的指标项的统一定义和管理。企业的财务、销售、采购、生产、质量、售后等各业务域均分布都有其相应的业务指标。这些指标不仅需要在业务系统中统计和展现还需要在数据分析系统中展现,有的指标数据需要多个从不同的业务系统中进行获取。

     

    没有指标数据标准化,你可以想象在每次数据平台有新分析主题构建或旧的分析主题变革,都需要从所涉及的各个系统、库表中进行分析和定义,需要耗费的成本巨大。同时,目前大数据分析都提倡业务人员的自助化分析,没有指标数据标准,业务人员要从不同系统中拿到自己想要的数据进行分析几乎是不可能的。

     

    企业数据标准的梳理

    企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。对于数据梳理的方法主要用到IRP(企业信息资源规划)和数据仓库的数据梳理法。这两种方式我在《主数据管理实施四部曲概论》的文章进行过分享,有兴趣可以关注。

     

    企业数据标准梳理一般需要以下步骤:

     

     

    首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,梳理每个单据和用户视图的数据对象。

     

    其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。

     

    第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。数据关系也是数据标准管理的内容。

     

    第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。

     

    数据标准梳理和建设的方法并不难掌握,关键是建设过程中需要收集并整理大量的业务规范、制度章程、法律法规、监管规定、国家标准,并将这些规定具象到数据标准定义的信息项中。对于一个从未做过数据标准的实施团队而言,这将意味着巨大的工作量。

     

    数据标准管理组织

    数据标准管理是企业数据治理的一部分,数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,制定企业数据战略和实施路线图,明确各阶段数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

     

    数据标准管理组织或数据治理组织从职能划分上可以分为三层,如下图所示:

     

    1、数据标准管理委员会,即数据治理的决策层,主要负责制定企业数据战略、把控数据治理的总体策略,审查数据标准的贯彻执行情况。

    2、数据标准管理办公室,是数据治理的经营管理层,主要负责企业数据标准的制定、审查数据质量,贯彻数据标准落地。

    3、数据标准执行层或业务操作层,主要负责数据标准的贯彻执行,并为数据标准的编制和优化提供数据和意见。

     

    数据标准设计流程

    数据标准的设计从需求发起到落地执行,一般需要经过标准编制、标准审查、标准发布、标准贯彻四个阶段:

     

     

    1. 数据标准编制:数据标准管理办公室根据数据需求开展数据标准的编制工作,确定数据数据项,数据标准管理执行组根据所需数据项提供数据属性信息,例如:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准管理办公室参照国际、国家或行业标准对这些数据项进行标准化定义并提交审核。注:如没有参考标准,则数据标准管理办公室可根据企业情况制定相应的企业级数据标准。

     

    2. 数据标准审查:数据标准管理委员会对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。如数据标准审查不通过,则有数据标准管理办公室进行修订,直到满足企业数据标准的发布要求。

     

    3. 数据标准发布:数据标准审查通过后,由数据标准管理办公室面向全公司进行数据标准的发布。该过程数据标准管理执行组需要配合进行数据标准发布对现有应用系统、数据模型的影响评估,并做好相应的应对策略。

     

    4. 数据标准贯彻:把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。

     

    企业进行数据标准化时,除了对数据本身标准化规则构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会涉及到新旧系统、不同部门、不同业务的冲突,这些冲突如果解决不好将会直接导致标准化的失败。所以,数据标准落地过程要充分做好影响评估和各干系方的沟通。

     

    数据标准管理价值总结:

    一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

     

    数据标准目标是为业务、技术和管理提供服务和支持。

    业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。

    技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。

    管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

     

    数据标准与主数据、元数据、数据质量的关系

     

    数据治理项目的根本诉求在于提升数据质量

     

    数据标准与主数据的关系

    从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

     

    数据标准与元数据的关系

    元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

    数据标准与数据质量的关系

    没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

    (文:石秀峰 2019年5月)

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    展开全文
  • 有效的数据治理可以确保企业数据全面、一致、可信,从而全面释放数据的价值,提高业务流程效率、提升业务增长的机会,驱动企业数字化转型。 这听起来很简单,但事实上数据治理对每个企业都是一项很大的挑战。据...

    0、前言

    数字化时代,数据作为新的生产要素受到了各界前所未有的重视。随着数据越来越多,怎么管好、用好数据,让数据发挥价值,成为了很多企业的一个难题,而且还是一个必选题!

    这就引出了数据治理。

    有效的数据治理可以确保企业数据全面、一致、可信,从而全面释放数据的价值,提高业务流程效率、提升业务增长的机会,驱动企业数字化转型。

    这听起来很简单,但事实上数据治理对每个企业都是一项很大的挑战。据Gartner 的一项调查显示,超过90%的数据治理项目都失败了!

    为什么会有这么多数据治理项目失败?看到这个数字,对于刚入行数据治理的人可能觉得有些夸张?甚至不少人会打退堂鼓。

    但这就是现实!对于混迹数字化江湖多年的我来说,已经是习以为常、见怪不怪了!下面我们来盘点一下搞垮数据治理项目的那些骚操作!

    一、缺乏明确的目标

    1、没有明确目标。不能说没有目标,而是目标定的很大、很泛、不聚焦,不考虑目标可实现性和可衡量性,例如:目标就是解决企业的所有数据质量问题。

    2、数据治理的目标太过短视,导致数据治理的返工。例如:相关人员对数据质量目标的定义和理解没有达成共识,存在分歧的情况下就开始实施治理。

    3、数据治理目标不与业务目标挂钩,只从技术角度考虑怎么治,不考虑为什么治?为了治理而治理!

    小贴士:没有明确的目标或者专注于短视的治理目标,没有形成一套持续治理的机制,导致资源浪费,进而导致数据治理在产生效果之前被搁置一旁。有效的数据治理首先要有明确的治理目标,而这一目标一定要与业务价值绑定。

    二、分工混乱、权责不明 

    4、谁有数据的拥有权,谁有数据的使用权,谁有数据的管理权等职责没有清晰的定义,号称人人都对数据质量负责,但实际上数据管理十分混乱、大量重复,真正出现问题后相互推诿,没有人愿意负责。

    5、没有建立明确的数据确权和问责机制,出现数据问题不知道该找谁,多方协调,导致项目实施速度变慢,并导致许多质量问题没有得到解决。

    6、让IT人员去关注数据质量的定义和趋势,分析并确定数据质量问题的根本原因。不懂业务?没关系,赶紧去学啊!

    7、让业务人员去剖析数据结构,搞数据血缘和数据使用。不懂技术?没关系,赶紧去学啊!

    小贴士:有效的数据治理必须做好数据的确权认责,处理好IT部门和业务部门的协作关系。IT部门应专注于技术交付,业务部门需要关注数据质量规则的定义和数据质量的持续改进。两个团队必须共同努力并保持开放的沟通渠道,以便监控和改进数据质量。

    三、高层管理者关注不足

    8、高层管理者对数据治理认知程度不高,将数据治理和数据管理混为一谈,认为数据治理就是IT部门或者是DBA的事,IT团队就能搞定了,不需要高层领导过多的参与和关注。

    9、高层管理者天天高喊“数据是资产、治理很重要,要大力支持”等口号,雷声大,雨点小,口号喊的响,没有实质的行动。数据部门不能被完全赋权,或者安排一个毫无影响力的小部门去负责,这都不太可行。

    10、高层管理者权威和影响力不足,不能推动数据治理目标与业务绩效进行绑定,遇到跨部门协调,各部门嘴上答应一定好好配合,实际执行中还是我行我素,什么数据标准、数据规则,遇到强势的业务就得给业务让路、开绿灯,导致数据治理策略形同虚设。

    小贴士:有效的数据治理项目需要高级领导层承担责任,牵头的高级管理者不仅需要对数据治理有一定的认知,还需要具备相当的权威和影响力,能够做到跨部门的协调,并在项目中能够给予数据部门充分的授权和大力的支持。

     四、缺乏数据治理专家

    11、将数据治理和系统管理混为一谈,让IT系统管理员对数据的质量负责。这就好比让修自来水管道的对自来水的水质负责一样不靠谱。

    12、认为数据质量管理都是IT人员的事,懂算法、懂模型、懂编程就够了。殊不知,数据质量团队必须具有业务分析思维、对业务流程足够了解才能做出正确决策,如果不能理解业务也可能无法理解错误数据的影响。

    13、认为数据质量都是业务人员的事,由业务人员负责就够了。殊不知,数据质量不仅仅与识别业务规则和纠正错误有关,它还涉及持续监控数据并设计将错误风险降至最低的流程。更何况在很多企业业务人员能够把业务规则说清楚的其实也并不多。

    小贴士:数据治理是跨职能的,不是某一个部门的事情或者某一个人的事情,单纯的业务人员和孤立的技术人员都不具备交付数据治理的完整能力。企业需要培养一批既懂数据治理技术,也懂企业业务的数据治理专家。

    五、不透明规则和系统 

    14、制定的数据管理制度、数据管理流程不进行发布和公开,定义的数据标准也不进行宣贯,相关干系人清不清楚这些规则也不知道,反正我们工作做完了。

    15、数据治理的进度、成果不及时汇报,不让相关领导和部门看到成果。我们可是实实在在的“数据工匠”,天天都忙着处理数据,调试程序呢,哪有时间搞那些虚的。啥,领导看不见价值?难道没看见我们天天加班吗?

    16、 “财不能外漏”,数据就是资产,可得好好把它“藏”起来,别的部门想用不能给,有“信息孤岛”才能保持与其他部门的“信息差”,确保我们的“神秘感”!

    小贴士:有效的数据治理需要保持充分的透明度。项目的进展、工作成果、存在问题都需要及时让老板看见,让业务部门看见,以增强他们对数据治理的信心。有问题不能藏着掖着,应及时暴露出来,及时解决。在数据层面,也需要更加透明,主数据和参考数据要做到公司范围内共享,数据资产、数据血缘要尽量可视化,要让数据看得见、找得到、用得好。

    六、被动式数据治理 

    17、只关注业务流程、不关注数据质量,数据质量只有在导致决策失误、老板发飙时,才会成为问题。

    18、不考虑主动建立数据治理的策略,没有统一的数据标准,各系统数据各自维护,数据质量只有在系统无法有效集成时,才会成为问题。

    19、平时不关注数据治理,不重视数据质量问题的及时处理,数据质量只有在监管部门开出罚单时,才会成为问题。

    小贴士:有效的数据治理需要从事前、事中、事后三个层面构建数据治理策略。

    事前:定义和建立数据标准,进行数据标准的宣贯和培训,培养企业数据文化。

    事中:基于数据标准的数据校验、基于既定流程和制度的数据维护和使用。

    事后:连续的数据质量测量,持续的数据问题和业务流程改进等。

    七、项目型数据治理 

    20、将数据治理视为一次性项目,一开始期望很高,认为通过一个项目的实施,数据质量会在一夜之间得到改善。

    21、数据治理就是将当前的发现的数据问题处理了就可以了,还定义啥规则、写啥文档,那多费事,有那时间处理几个数据问题它不香吗?

    22、数据质量和数据治理流程都是单一的一次性活动,做完就完事了,哪儿还需要建立持续的机制?

    23、数据治理策略和数据质量处理措施不需要和相关部门达成一致,考虑那么多干嘛,加快速度赶紧干,先完成项目任务再说。 

    小贴士:数据治理的最终目标是提升数据价值,是一个持续漫长的运营过程,需要逐步完善、分步迭代,指望一步到位完成数据治理是不现实的。项目型的数据治理,是不全面的,无延续性,能够解决一时的数据问题,但很难获得持续的数据价值,效果也注定是差强人意。

     八、孤立式数据治理

    24、建立了数据标准但不进行数据贯标,遗留系统不做数据改造和映射,新建系统也不参考数据标准,数据标准被束之高阁,成为一纸空文。

    25、将数据治理视为一项单独的、额外的任务,不与业务流程挂钩。业务部门只配合进行数据质量问题的清理,但不接受将数据规则内置到业务流程里。

    26、业务部门认为数据治理只会增加他们额外的工作量,并对业务造成了一定的约束,对其业务绩效没有产生帮助和价值。

    小贴士:有效的数据治理应被视为帮助业务人员实现业务目标的工具,它不是一项额外的任务,应嵌入到企业的业务流程中,在业务的日常中规范数据的维护和使用。

     九、唯工具论

    27、还要建数据标准?我们不是已经购买了数据治理平台了吗,怎么这个平台没有数据标准?

    28、采集并修正元数据?我记得咱们的数据治理平台能适配几十种数据库类型,不是想采啥数据就采啥数据吗?

    29、数据质量还有问题?是不是我们这个数据治理平台功能不行呀,要不要重新采购一个?

     小贴士:唯工具论,过于重视工具和技术,忽视了数据治理组织、文化、制度、流程、标准等体系的建设。本来数据治理的本质是管理数据,走入误区变成管理程序、脚本、任务,造成了管理失焦。

    十、总结

    数据治理关注的是“如何管好数据”的问题,他涉及一系列的策略,例如:战略、文化、制度、流程、标准等,是数据管理最核心的内容。每个数据治理策略的制定和执行过程,都有很多影响的因素,会导致数据治理的失败。

    这篇文章,我们分享了数据治理项目失败的各种原因,虽然有的条目有些夸张的成分,但在实际项目中确实有过相似的、甚至真实的案例,单个的因素或许不能分分钟将数据治理项目搞垮,但某些因素一旦组合就会注定项目的失败。

    展开全文
  • 公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,最近企业都开始着手数字化转型了,数据治理作为数字化转型的重要保...

    公众号推文规则变了,点击上方 "数据社", 设为星

    后台回复【加群】,申请加入数据学习交流群

    大家好,我是一哥,最近企业都开始着手数字化转型了,数据治理作为数字化转型的重要保障,又重新被重视起来,今天分享一下华为是如何做好数据治理的,文末也给大家提供了一份数据治理国标规范!

    00

    背景

    导读:2017 年华为提出了企业的新愿景:"把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界"。同时,华为公司董事、CIO陶景文提出了"实现全联接的智能华为,成为行业标杆"的数字化转型目标。

    图 1 数字化转型目标

    随后,华为基于愿景确定了数字化转型的蓝图和框架, 统一规划、分层次开展,最终实现客户交互方式的转变,实现内部运营效率和效益的提升。华为数字化转型蓝图包括 5 项举措。

    图 2 华为数字化转型蓝图

    其中,举措 4 涉及数据治理和数字化运营,是华为数字化转型的关键,承接了打破数据孤岛、确保源头数据准确、促进数据共享、保障数据隐私与安全等目标。华为从 2007 年开始启动数据治理,历经两个阶段的持续变革,系统地建立了华为数据管理体系。

    第一阶段:2007 ~ 2016 年

    在这一阶段,华为设立数据管理专业组织,建立数据管理框架,发布数据管理政策,任命数据 Owner,通过统一信息架构与标准、唯一可信的数据源、有效的数据质量度量改进机制,实现了以下目标。

    • 持续提升数据质量,减少纠错成本:通过数据质量度量与持续改进,确保数据真实反映业务,降低运营风险。

    • 数据全流程贯通,提升业务运作效率:通过业务数字化、标准化,借助 IT 技术,实现业务上下游信息快速传递、共享。

    第二阶段:2017 年至今

    在这一阶段,华为建设数据底座,汇聚企业全域数据并对数据进行联接,通过数据服务、数据地图、数据安全防护与隐私保护,实现了数据随需共享、敏捷自助、安全透明的目标,支撑着华为数字化转型,实现了如下的数据价值。

    • 业务可视,能够快速、准确决策:通过数据汇聚,实现业务状态透明可视,提供基于“事实”的决策支持依据。

    • 人工智能,实现业务自动化:通过业务规则数字化、算法化,嵌入业务流,逐步替代人工判断。

    • 数据创新,成为差异化竞争优势:基于数据的用户洞察, 发现新的市场机会点。

    图 3 华为数据治理的发展历程

    01

    华为数据分类管理框架(基于特征分类)

    华为根据数据特性及治理方法的不同对数据进行了分类定义:内部数据和外部数据、结构化数据和非结构化数据、元数据。其中,结构化数据又进一步划分为基础数据、主数据、事务数据、报告数据、观测数据和规则数据。华为数据分类管理框架如图 4 所示。

    图 4 华为数据分类管理框架

    不同分类的数据,其治理方法有所不同。如基础数据内容的变更通常会对现有流程、IT 系统产生影响,因此基础数据的管理重点在于变更管理和统一标准管控。主数据的错误可能会导致成百上千的事务数据错误,因此主数据的管理重点是确保同源多用、重点进行数据内容的校验等。

    02

    结构化数据管理(以统一语言为核心)

    结构化数据包括基础数据、主数据、事务数据、报告数据、观测数据、规则数据。结构化数据的共同特点是以信息架构为基础,建立统一的数据资产目录、数据标准与模型。下面将重点介绍六类结构化数据的治理方法。

    1. 基础数据治理

    基础数据用于对其他数据进行分类,在业界也称作参考数据。基础数据通常是静态的(如国家、币种),一般在业务事件发生之前就已经预先定义。它的可选值数量有限,可以用作业务或 IT 的开关和判断条件。当基础数据的取值发生变化的时候,通常需要对流程和 IT 系统进行分析和修改,以满足业务需求。因此, 基础数据的管理重点在于变更管理和统一标准管控。

    基础数据在支撑场景分流、流程自动化、提升分析质量方面起着关键作用,治理基础数据的价值如图 5 所示。

    图 5 基础数据治理的价值

    因此,有效地管理基础数据对企业来说可以产生巨大的收益。华为建立了一个完整的基础数据管理框架(如图 6 所示), 通过明确各方的管理责任、发布相关的流程和规范以及建立基础数据管理平台等来确保基础数据的有效管理。

    图 6 基础数据治理框架

    2. 主数据治理

    主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性,都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和 IT 系统的变化。但是, 主数据的错误可能导致成百上千的事务数据错误,因此主数据最重要的管理要求是确保同源多用和重点进行数据内容的校验。华为的主数据管理策略如图 7 所示。

    图 7 主数据治理策略

    华为的主数据范围包括客户、产品、供应商、组织、人员主题,每个主数据都有相应的架构、流程及管控组织来负责管理。

    鉴于主数据管理的重要性,对于每个重要的主数据,都会发布相应的管理规范,数据管家依据数据质量标准定期进行数据质量的度量与改进。

    同时,对于主数据的集成消费按照如下管理框架进行管理。

    • 数据消费层:数据消费层包括所有消费数据的 IT 产品团队,负责提出数据集成需求和集成接口实施。

    图 8 主数据治理框架

    • 主数据服务实施层:负责主数据集成解决方案的落地, 包括数据服务的 IT 实施和数据服务的配置管理。

    • 主数据服务设计层:为需要集成主数据的 IT 产品团队提供咨询和方案服务,负责受理主数据集成需求,制定主数据集成解决方案,维护主数据的通用数据模型。

    • 管控层:管控层由信息架构专家组担任,负责主数据规则的制定与发布,以及主数据集成争议或例外的决策。

    3. 事务数据治理

    事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分。事务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新。

    事务数据会调用主数据和基础数据。以客户框架合同为例, 核心属性有 32 个,其中调用基础数据和主数据 24 个,占 75% ;客户框架合同本身特有的属性 8 个,占 25%。同时,框架合同也引用了机会点的编码和投标项目的编码等事务数据的信息。

    因此,事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基础数据和主数据,要尽可能调用而不是重新创建。

    4. 报告数据治理

    报告数据是指对数据进行处理加工后,用作业务决策依据的数据。它用于支持报告和报表的生成。

    用于报告和报表的数据可以分为如下几种:

    • 用于报表项数据生成的事实表、指标数据、维度。

    • 用于报表项统计和计算的统计函数、趋势函数及报告规则。

    • 用于报表和报告展示的序列关系数据。

    • 用于报表项描述的主数据、基础数据、事务数据、观测数据。

    • 用于对报告进行补充说明的非结构化数据。

    报告数据涵盖的范围较广,如主数据、基础数据等,这些数据类别本身已经有相应的管理机制和规范,这里我们重点对部分新的细分数据类型进行说明。

    事实表:从业务活动或者事件中提炼出来的性能度量。其特点为:

    • 每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成;

    • 事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。

    维度:用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。其特点为:

    • 维度的数据一般来源于基础数据和主数据;

    • 维度的数据一般用于分析视角的分类;

    • 维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。

    统计型函数:与指标高度相关,是对指标数量特征进一步的数学统计,例如均值、中位数、总和、方差等。其特点为:

    • 通常反映某一维度下指标的聚合情况、离散情况等特征;

    • 其计算数值在报告中通常呈现为图表中的参考线。

    趋势型函数:反映指标在时间维度上变化情况的统计方式,例如同比、环比、定基比等。其特点为:

    • 通常将当期值与历史某时点值进行比较;

    • 调用时,需要收集指标的历史表现数据;

    • 其计算数值在报告中通常呈现为图表中的趋势线。

    报告规则数据:一种描述业务决策或过程的陈述,通常是基于某些约束下产生的结论或需要采取的某种措施。其特点为:

    • 将业务逻辑通过函数运算体现,通常一个规则包含多个运算和判断条件;

    • 规则的计算结果一般不直接输出,需要基于计算结果翻译成业务语言后输出;

    • 规则通常与参数表密切相关。

    • 序列关系数据:反映报告中指标及其他数据序列关系的数据。

    5. 观测数据治理

    观测数据是通过观测工具获取的数据,观测对象一般为人、事、物、环境。

    相比传统数据,观测数据通常数据量较大且是过程性的,由机器自动采集生成。不同感知方式获取的观测数据,其数据资产管理要素不同。

    观测数据的感知方式可分为软感知和硬感知。软感知是使用软件或者各种技术进行数据收集,收集的对象存在于数字世界, 通常不依赖于物理设备,一般是自动运行的程序或脚本;硬感知是利用设备或装置进行数据收集,收集的对象为物理世界中的物理实体,或者是以物理实体为载体的信息,其数据的感知过程是数据从物理世界向数字世界的转化过程。

    观测数据的特征有如下几点:观测数据通常数据量较大且是过程性的,主要用作监控分析。例如,视频监控器产生的视频数据、操作系统产生的日志记录数据等。

    图 9  观测数据管理模型

    观测工具的元数据可以作为数据资产管理:软感知(埋点、日志收集、爬虫)观测工具抽象成业务对象,由 IT 部门担任数据 Owner 进行统一管理;硬感知观测工具作为资源类数据,也建议作为业务对象由相应的领域担任数据 Owner 进行管理。

    原则上,观测对象要定义成业务对象进行管理,这是观测数据管理的前提条件。

    观测数据需要记录观测工具、观测对象。针对不同感知方式获取的观测数据,其资产管理方案也不尽相同。例如,以用户界面浏览记录为例,如果是对销售机会点的查询访问观测,应当归属到相应业务领域;如果是对页面性能、页面 UV、PV 的观测, 应当归属到 IT 部门。

    6. 规则数据治理

    在业务规则管理方面,华为经常面对“各种业务场景业务规则不同,记不住,找不到”“大量规则在政策、流程等文件中承载,难以遵守”“各国规则均不同,IT 能否一国一策、快速上线”等问题。

    规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据, 如业务中普遍存在的基线数据。

    规则数据主要有以下特征:

    • 规则数据不可实例化;

    • 规则数据包含判断条件和决策结果两部分信息,区别于描述事物分类信息的基础数据;

    • 规则数据的结构在纵向(列)、横向(行)两个维度上相对稳定,变化形式多为内容刷新;

    • 规则数据的变更对业务活动的影响是大范围的。

    其基本原则为:

    • 规则数据的管理是为了支撑业务规则的结构化、信息化、数字化,目标是实现规则的可配置、可视化、可追溯。

    • 不同于标准化的信息架构管理,规则数据的管理具有轻量化、分级的特点。重要的、调用量大、变动频繁的业务规则需要通过规则数据管理,使其从代码中解耦,进行资产注册;使用广泛的、有分析需求的规则数据需要通过注册入湖,实现共享和复用。

    • 业务规则在架构层次上与流程中的业务活动相关联,是业务活动的指导和依据,业务活动的结果通过该业务活动的相关业务对象的属性来记录。业务规则通过业务活动对业务事实、业务行为进行限制,业务人员可以根据业务规则判断业务情况,采取具体行动。

    • 业务规则包含规则变量和变量之间的关系,规则数据主要描述规则的变量部分,是支撑业务规则的核心数据(如图 10 所示)。

    图 10 业务规则与规则数据之间的关系

    此外,运行规则所需要的输入数据、输出数据,包括动态数据库访问对象、内存表缓存、Excel、XML 处理类等,主要起支撑作用,不在规则数据的范畴。

    规则数据必须有唯一的数据 Owner,其负责开展规则数据的信息架构建设与维护、数据质量的监控与保障、数据服务建设、数据安全授权与定密等工作。相应的数据管家支持数据 Owner 对所管辖的业务中的规则数据进行治理,包括建设和维护信息架构、确保架构落地遵从、例行监控数据质量等。

    规则数据的元数据要记录与业务规则的关系(规则数据定义前应先完成业务规则的识别和定义)。一个业务规则可以包含零个、一个或多个规则数据,一个规则数据在信息架构上对应一个逻辑数据实体,在物理实现上一般对应一个物理表。规则数据要遵从信息架构资产管理要求(包括明确规则数据的 Owner、制定数据标准、明确数据源等),按照信息安全要求定密,以方便规则数据的管理、共享和分析。

    03

    非结构化数据管理(以特征提取为核心)

    随着业务对大数据分析的需求日益增长,非结构化数据的管理逐渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件, 较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的 IT 技术与之匹配。华为的非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。

    相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner 等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等, 以便于用户搜索和消费使用。因此,非结构化数据的治理核心是对其基本特征与内容进行提取,并通过元数据落地来开展的。非结构化数据的管理模型如图 11 所示。

    图 11 非结构化数据管理模型

    非结构化数据的元数据可以分为基本特征类(客观)和内容增强类(主观)两类。

    • 基本特征类:参考都柏林十五个核心元数据,实现对非结构化数据对象的规范化定义,如标题、格式、来源等。

    • 内容增强类:基于非结构化数据内容的上下文语境,解析目标文件对象的数据内容,加深对目标对象的客观理解,如标签、相似性检索、相似性连接等。

    非结构化数据的元数据管理采用统分统管的原则,即基本特征类属性由公司进行统一管理,内容增强类属性由相关承担数据分析工作的项目组自行设计,但其分析结果都应由公司元数据管理平台自动采集后进行统一存储。

    元数据管理平台通过“基本特征类元数据流”和“内容增强类元数据流”两条线来实现对非结构化数据的元数据管理和消费使用。

    1. 基本特征类元数据流

    元数据管理平台基于收集到的各类非结构化数据源信息,自动完成基础特征类元数据的采集工作,按照管理规范和要求通过标准化、整合后存储在元数据管理平台中,并在完成元数据过滤、排序后将结果在元数据报告中进行可视化展示,以供用户消费使用。

    2. 内容增强类元数据流

    基于元数据管理平台中基本特征类元数据的信息,各数据分析项目组解析目标非结构化对象的数据内容,并将分析结果通过元数据采集、元数据标准化 & 整合后统一存放在元数据管理平台中,以供用户一并消费使用,增强用户体验。

    04

    外部数据管理(以确保合规遵从为核心)

    外部数据是指华为公司引入的外部组织或者个人拥有处置权利的数据,如供应商资质证明、消费者洞察报告等。外部数据治理的出发点是合规遵从优先,与内部数据治理的目的不同。

    外部数据的治理主要遵循以下原则。

    • 合规优先原则:遵从法律法规、采购合同、客户授权、公司信息安全与公司隐私保护政策等相关规定。

    • 责任明确原则:所有引入的外部数据都要有明确的管理责任主体,承担数据引入方式、数据安全要求、数据隐私要求、数据共享范围、数据使用授权、数据质量监管、数据退出销毁等责任。

    • 有效流动原则:使用方优先使用公司已有数据资产,避免重复采购、重复建设。

    • 可审计、可追溯原则:控制访问权限,留存访问日志, 做到外部数据使用有记录、可审计、可追溯。

    • 受控审批原则:在授权范围内,外部数据管理责任主体应合理审批使用方的数据获取要求。

    在以上原则指导下,我们要求所有采购的外部数据要注册, 在合规的前提下鼓励数据共享,避免重复采购。其他方式引入的外部数据,由管理责任主体决定登记方式。根据法律条款和授权范围,外部数据管理责任主体有权决定外部数据是否入数据湖, 如果需要入数据湖,必须遵从数据湖建设相应的流程和规范。同时,外部数据管理责任主体有义务告知使用方合规使用外部数据, 对于不合规的使用场景,不予授权;数据使用方要遵从外部数据管理责任主体的要求,对不遵从要求所引起的后果承担责任。

    05

    元数据管理(作用于数据价值流)

    无论结构化数据,还是非结构化数据,或者外部数据,最终都会通过元数据治理落地。华为将元数据治理贯穿整个数据价值流,覆盖从数据产生、汇聚、加工到消费的全生命周期。

    1. 元数据治理的痛点与挑战

    华为在进行元数据治理以前,遇到的元数据问题主要表现为数据找不到、读不懂、不可信,数据分析师们往往会陷入数据沼泽中。元数据管理的痛点如图 12 所示。

    图 12 元数据管理痛点

    为解决以上痛点,华为建立了公司级的元数据管理机制。制定了统一的元数据管理方法、机制和平台,拉通业务语言和机器语言。确保数据“入湖有依据,出湖可检索”成为华为元数据管理的使命与目标。基于高质量的元数据,通过数据地图就能在企业内部实现方便的数据搜索。

    元数据是描述数据的数据,用于打破业务和 IT 之间的语言障碍,帮助业务更好地理解数据。元数据通常分为业务、技术和操作三类。

    • 业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。

    • 技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL 规则、集成关系等。

    • 操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。

    在企业的数字化运营中,元数据作用于整个价值流,在从数据源到数据消费的五个环节中都能充分体现元数据管理的价值。

    • 数据消费侧:元数据能支持企业指标、报表的动态构建。

    • 数据服务侧:元数据支持数据服务的统一管理和运营, 并实现利用元数据驱动 IT 敏捷开发。

    • 数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。

    • 数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与 IT 落地脱节的问题。

    • 数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。

    2. 元数据管理架构及策略

    元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据。

    • 产生元数据:制定元数据管理相关流程与规范的落地方案,在 IT 产品开发过程中实现业务元数据与技术元数据的连接。

    • 采集元数据:通过统一的元模型从各类 IT 系统中自动采集元数据。

    • 注册元数据:基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作。

    • 运维元数据:打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维。

    • 元数据管理方案:通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营。

    图 13 华为元数据管理整体方案

    华为经过多年实践,已经建立了相对完整的数据分类管理框架,为数据治理奠定了基础。随着数字化转型的深入开展,尤其是面向未来海量的非结构化数据、IoT 场景的观测数据、外部合规日趋严格的外部数据等,华为将不断丰富每一类数据的治理实践。

    06

    数据治理国标

    数据治理已经有相关规范参考了,公众号回复【数据治理规范】即可下载~

    历史好文推荐

    1. 数据治理的挑战和最佳实践(附PPT)

    2. 【数据文化】Uber的数据治理

    3. 数据治理的挑战和最佳实践(附PPT)

    4. 数据湖比数据仓库香在哪?

    展开全文
  • 数据治理小总结

    2021-04-08 10:55:36
      元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和...
  • 数据治理实践数据安全管理 来源德勤公众号2019-11-27 前言 上期文章我们分享了数据目录的重要价值和管理实践本期我 们将围绕数据安全从概念规范和技术等进行深入介绍众所周知 随着数字化时代到来数据驱动业务正成为...
  • 数据治理问题

    2021-08-23 10:17:49
    笔者认为,数据产品可以分为工具类数据产品、业务分析类数据产品和管控治理数据产品三类,而工具类数据产品和业务分析数据产品市面上也开始趋近饱和,但管控治理数据产品其实是更高能力要求的一个细分工种,既...
  • 数据采集 为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次。 第一层次,业务电子化。为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并...
  • 数据治理体系 目 录 TOC \o "1-3" \h \z \u 1. 范围 1 2. 规范性引用文件 1 3. 术语定义和缩略语 5 4. 总体说明 8 4.1. 概述 8 4.2. 目标 9 4.3. 标准 9 5. 数据治理体系 10 5.1. 总体框架 10 5.2. 组织架构 11 ...
  • 导读:数据治理:说起来容易,做起来难。作者:石秀峰来源:谈数据(ID:learning-bigdata)“数据治理”这个10多年前就已经出现的名称,在最近这几年时间一下子火了起来。不知何时...
  • 11月1日,Informatica举办了网络会议《Informatica数据交换平台主要特性及...随着大数据技术的不断普及应用,以及数据资产概念的深入人心,很多企业已经启动或准备着手开展数据治理项目。 数据治理的渊源可以往上...
  • 数据治理之——数据标准体系建设示例

    万次阅读 多人点赞 2019-04-29 14:11:31
    数据标准是企业级的业务规范,用于指导各业务系统及数据仓库的建设依据,元数据是系统级的描述手段,更多的反映系统建设情况;数据标准指导系统建设的成果可以通过元数据来反映,系统的建设反过来可促进数据标准的...
  • 01 前言股份制改革对银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外...
  • 点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源 节选自《华为数据之道》 作为一家巨型跨国企业,华为在 170 多个国家同时开展各种业态的业务,华为的数据底座...
  • 当今信息化建设程度不断深入,企业在优化整合各种IT能力,使IT成为企业的前进驱动力与核心竞争力的同时,将视角关注于更深层次的数据治理与分析,预示着以数据、流量、知识为主的数字经济时代到来,此背景下,数字化...
  • 随着企业的不断发展进步,业务部门的需求...近期在进行某制造业的主数据治理项目工作,现以该企业为例,总结梳理在调研阶段对该企业的应用系统整体架构、核心业务流程以及主数据治理范围进行的整理调研。 1前期准备
  • 为什么想开这个话题,一是因为目前业内数据产品也基本完成了从0-1的建设工作,但主要集中在数据生产加工和数据应用分析两侧,对于数据管治方向的建设多分散在了包括安全、指标元数据、SLA等在内的各个环节,缺乏统一...
  • 来源/CIO之家,整理/Mars全文共1865个字,阅读需6分钟当前很多传统企业的数据中台还处于初步建设阶段,但伴随着移动互联网的逐步发展、线上和线下的融合,数据服务的形式、场景越来越多,...
  • 关于快手从模型规范开始的数据治理实践的介绍说明.zip
  • 批量数据的整合         传统的数据整合一般采用ETL方式,即抽取(Elect)、转换(Transfer)、加载(Load),随着数据量的加大,以及数据平台自身数据处理技术的发展,目前较为...
  • 当一个数据系统越来越复杂,参与方越来越多,其需要管理的数据量越来越庞大时,数据治理尤其是针对数据质量的治理就变得越来越重要且紧迫了。 本篇文章主要是对我过去一段时间针对O2所做的数据质量治理工作做一总结...
  • 导读:图谱全景图是在GB/T 36073-2018《数据管理能力成熟度评估模型》、GB/T 36344-2018《信息技术数据质量评价指标》、GB/T 34960.5- 2018《信息技术...
  • 数据治理误区一:必须得有工具平台,才能开展数据治理 我常常听到一些朋友在开展数据治理的时候会说,先整套工具吧,再搞数据治理,这是一个极端。还有另外一个极端就是,完全不需要数据治理平台工具,直接把数据...
  • 数据治理-从理论到实践(一)

    千次阅读 2019-04-01 16:48:13
    大数据治理范围 一、背景概述 1.数据治理 由于切入点和侧重点,业内给予... 数据治理遵循过程和规范 数据治理的本质: 数据治理不是一门技术,而是逻辑性很强的理论型学科。 1.1大数据治理 Sunil Soares ...
  • 一文搞懂数据治理方法论

    千次阅读 2020-05-09 18:52:19
    1、什么是数据治理 数据治理是对数据资产的管理行使权力和控制的活劢集合(规划、监控和执行)。数据治理职能指导其他数据管理职能如何执行。 2、开展数据治理的背景和价值 2.1 背景 –企业数据仓库/BI建设 –数据...
  • 数据治理概念解读

    2021-01-25 09:50:13
    一、数据治理概述 二、元数据、数据元、数据源、源数据 1、数据元 2、元数据(MateData) 2、数据源(Data Source) 3、源数据(Source Data) 三、主数据、基础数据、静态数据 1、主数据 2、基础数据 3、...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 7,929
精华内容 3,171
关键字:

数据治理规范文档