精华内容
参与话题
问答
  • 数据治理系列2:元数据管理—企业数据治理的基础

    千次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元...元数据管理是企业数据治理的基础。 认识元数据 元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据...

     

    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理是企业数据治理的基础。

    认识元数据

    元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。这么说对于没有技术背景的人来说还是比较抽象的,我给大家举几个例子。

     

     

    在我之前写的一篇文章《关于“数据”的一些概念的整理和总结》中,有一个关于元数据的例子,歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良” 这首耳熟能详的歌,我们分析一下,姓名:小芳、性别:姑娘(女)、长相:好看、性格:善良,住址:村里。这里面,小芳是被描述的对象也就是我们所谓的实体数据,而姓名、性别、长相、性格、住址就是描述“小芳”的元数据。

    再举个栗子:元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。

    再举个栗子:元数据好比“字典”,针对每个字都注音、含义、组词、举例等信息,同时也有关于字体结构、相关引用、出处等。另外,我们可以通过拼音、偏旁部首都能查到这个字。所有的这些信息都是对这个字的详细描述,那这些信息就是描述这个字的元数据。

    再举个栗子:元数据就如“地图”,通过这张“地图”能够找到你所处的地点,以及你从哪来来,到哪里去,途中都需要路过哪些地方……

    这下大家理解了吧,元数据是对数据的结构化描述,使得数据更容易理解、查找、管理和使用。

    元数据的分类

    根据数据的性质特点,业内一般将元数据划分为三类:业务元数据、技术元数据和管理元数据。

     

     

    业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。

    技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。

    管理元数据描述了数据的管理属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。

     

    表:元数据分类实例

    元数据类型

    元数据描述

    元数据实例

     业务定义

     数据的含义

     客户的完整名称,并具有法律效力

     业务规则

    数据录入规则

     企业的营业执照、组织机构代码证书,统一社会信用代码证书等具有法律效力的证明文件中的中文名称全称

     

     识别规则

    企业的组织机构代码或者统一社会信用代码或者统一纳税号必须完全匹配,则认为是同一客户。

     

     质量规则

     客户名称为非空,并且与营业执照的中文名称一致

    存储位置

    数据的存储什么地方

    ERP系统

    数据库表

    存储数据的库表名称和路径

    ERP/Customers

    字段类型

    数据的技术类型

    字符型

    字段长度

    数据存储的最大长度

    [200]

    更新频率

    数据的更新频率

    每年更新一次

    管理部门

    数据责任部门

    客户管理部

    管理责任人

    数据责任部门

    客户管理部业务员

     

    元数据管理成熟度

    在实施元数据管理的过程中,可以参照元数据管理的成熟度模型确定企业当前元数据管理所在层次,并根据业务需要制定路线图实现元数据管理水平的提升。下图是元数据管理成熟度模型:

     

     

    元数据管理成熟度评估模型

    • L0: 初始状态

    元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。这些元数据会永远保存在某个人那儿,一旦这个人调离,这些元数据将永远消失。

    • L1: 从属于业务系统

    在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来。业务元数据可能分散在各种业务规章、流程规定、需求、需求分析和概要设计等文档以及业务系统中,技术元数据可能分散在详细设计、模型设计和部署方案等各种文档和各种中间件以及业务系统中。由于各个业务系统处于一个个竖井之中,元数据之间互通互联困难,如果需要获取其他系统的元数据,除了调阅各种文档外,对分散在各种中间件和业务系统中的技术元数据需要一定的集成方式实现互通互联。

    • L2:元数据统一存储

    元数据依然在局部产生和获取,但会集中到中央存储库进行存储,业务元数据会手工录入到中央存储库中,技术元数据分散在文档中的部分也通过手工录入到中央存储库中,而散落在各个中间件和业务系统中的技术元数据则通过数据集成的方式被读取到中央存储库中。业务元数据和技术元数据之间全部或部分通过手工方式做了关联。中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。缺点是,元数据仍然在各业务系统上维护,然后更新到中央存储库,各业务竖井之间仍然使用不同的命名法,经常会造成相同的名字代表不同意义的事情,而同一件事情则使用了多个不同的名字,有些没有纳入业务系统管理的元数据则容易缺失。元数据没有有效的权限管理,局部元数据更改后也不自动通知其他人。

    • L3: 元数据集中管理

    在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。局部元数据的修改完成后将被广播给其他人。和其他中间件和应用系统的交互,仍然通过桥集成的方式进行,中央存储库中的业务元数据和技术元数据之间还是通过手工方式进行映射。

    • L4:元模型驱动管理

    在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。业务词汇表(业务元数据)包含与企业相关的词汇、词汇业务含义以及词汇与信息资产(技术元数据)的关系,可以有效帮助企业用户了解其业务元数据和技术元数据对应的业务含义。分类是基于主题领域的层次结构,用以对业务术语归类。和其他中间件和应用系统的交换,通过基于 CWM 的适配器方式进行连接。

    • L5: 元数据管理自动化

    在 L5 元数据管理是高度自动化的,当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。元数据中的任何变化将触发业务工作流,以便其他业务系统进行相应的修改。由于各个业务系统遵照相同的业务词汇表和分类系统(元模型),他们之间的关系可以通过知识本体进行推断,因此各个应用系统之间的数据格式的映射自动产生。

     

    元数据管理平台架构

    元数据管理平台从应用层面,可以分类:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务。

     

     

    元数据采集服务

    在数据治理项目中,通常涉及到的元数据还包括:数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据等等。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。目前市场上的主流元数据产品还没有哪一家能做到“万能适配”,都需要在实际应用过程中做或多或少的定制化开发。

    元模型驱动的设计与开发

    通过元数据管理平台实现对应用的逻辑模型、物理模型、UI模型等各类元模型管理,支撑应用的设计和开发。应用开发的元模型有三个状态,分别是:设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。测试态的元数据模型,通常是关系型数据:Oracle、DB2、Mysql、Teradata等,或非关系型数据库:MongDB、HBase、Hive、Hadoop等。生产态的元模型,本质上与测试态元数据差异不大。通过元数据平台对应用开发三种状态的统一管理和对比分析,能够有效降低元数据变更带来的风险,为下游ODS、DW的数据应用提供支撑。另外,基于元数据的MDD(代码生成服务),可以通过模型(元数据)完成业务对象元数据到UI元数据的关联和转换,自动生成相关代码,表单界面,减少了开发人员的设计和编码量,提升应用和服务的开发效率。

     

    元数据管理服务

    市场上主流的元数据管理产品,基本都包括:元数据查询、元模型管理、元数据维护、元数据版本管理、元数据对比分析、元数据适配器、元数据同步管理、元数据生命周期管理等功能。此类功能,各家产品大同小异,此处不再赘述。

    元数据访问服务

    元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

     

    元数据分析服务

     

    血缘分析:是告诉你数据来自哪里,都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时,快速定位和找到数据问题的原因。

     

    影响分析:是告诉你数据都去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系,向下追踪,快速找到都哪些应用或数据库使用了这个数据,从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析。

     

    冷热度分析:是告诉你哪些数据是企业常用数据,哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。

     

    关联度分析:是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度,如:表与ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。

     

    数据资产地图:是告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的数据查询和辅助分析需要。

     

    元数据管理价值

     

    一图在手,天下我有

    通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置或个人电脑的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息,数据和人之间的关系信息,数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。

     

    追根溯源,发现数据问题本质

    企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。

     

    模型驱动,敏捷开发

    基于元数据模型的数据应用规划、设计和开发是企业数据应用的一个高级阶段。当企业元数据管理达到一定水平(实现自动化管理的时候),企业中各类数据实体模型、数据关系模型、数据服务模型、数据应用模型的元数据统一在元数据平台进行管理,并自动更新数据间的关联关系。基于元数据、可扩展的MDA,才是快速满足企业数据应用个性化定制需求的最好解决方案。通过将大量的业务进行模型抽象,使用元数据进行业务描述,并通过相应的模型驱动引擎在运行时驱动,使用高度抽象的领域业务模型作为构件,完成代码转换,动态生成相关代码,降低开发成本,应对复杂需求变更。

     

     

    总结:

    元数据是企业数据资源的应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据战略规划、数据模型设计、数据标准管理、主数据管理、数据质量管理、数据安全管理以及数据的全生命周期管理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

     

    展开全文
  • Python数据分析实战-Pandas

    千人学习 2019-12-02 10:54:20
    Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,掌握其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。  本课程通过讲解Pandas基础...
  • 数据治理之元数据管理实践

    万次阅读 2019-03-02 16:04:44
    然而,所有的解释都有一个共同的主线,数据和数据治理的重要性。近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产...

    引言

    数字转型对不同的人意味着不同的东西,这取决于你的行业和你的业务性质。然而,所有的解释都有一个共同的主线,数据和数据治理的重要性。近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企业在进行全面数字化转型需要考虑的一个重要事情。

    关于元数据概念的文章网上有不少,本文主要探讨一般的企业如何开展元数据管理工作。这里分享两个主题,元数据是什么、如何实现元数据管理。

    元数据是什么

    元数据最简单的定义是描述数据的数据。这里有两个关键点,一个是数据,一个是描述数据。企业中一般的可进行管理的数据如下表:

    描述数据的数据 数据
    业务元数据(描述数据定义的数据) 1. 企业数据标准;2. 企业数据质量标准;3. 企业数据指标;4. 企业数据字典;5.企业数据代码;6. 企业数据安全;
    技术元数据(描述数据物理华的数据) 物理模型(关系型数据库物理模型,NoSQL类数据库存储模型,MPP类数据库物理模型)
    操作元数据(描述数据处理过程的数据) 1. 数据ETL信息; 2. 数据加工处理策略数据信息; 3. 数据处理调度信息; 4. 数据处理异常信息;
    管理元数据(描述数据管理归属的数据) 数据归属信息(业务归属、系统归属、运维归属、数据权限归属)

    和元数据管理相关的另一个重要概念是元模型,要实现企业元数据管理,需要定义一个符合存储企业数据现状的元数据模型,且这个模型有不同粒度和层次的元模型,有了层次和粒度的划分,未来元数据进行批量管理后就可以灵活的从不同维度进行元数据分析,如企业的数据地图、数据血统都是基于此实现的。

    我们试着把企业找中的技术元数据、业务元数据、操作元数据、管理元数据进行元模型的梳理,如下图所示:

    将以上梳理出的信息通过UML建模处理就得到了元模型,在元模型中有包、类、属性、继承、关系。创建元模型的时候也可以参考CWM,CWM定义了一套完整的元模型体系结构,但它是用于数据仓库构建和应用的元数据建模。

    如何实现元数据管理

    下面分析下企业的元数据如何管理,从元数据管理什么、元数据怎么管理、元数据管理的难点、元数据管理的实践这四个方面描述。

    一、元数据管理什么

    从多年的实施经验看,国内企业进行元数据管理的方向有三个,

    一个是基于数据平台进行元数据管理,由于大数据平台的兴起,目前逐步开始针对Hadoop环境进行元数据管理;

    二是基于企业数据整体管理规划开展对元数据的管理,也是企业数据资产管理的基础;

    三是元数据作为某个平台的组件进行此平台特有的元数据管理,它作为一个中介或中转互通平台各组件间的数据。

    基于数据平台的元数据管理相对成熟,也是业界最早进行元数据管理的切入点或者说是数据平台建设的必备。

    在此业务场景下,从技术维度讲:元数据管理围绕着数据平台内的源系统、数据平台、数据集市、数据应用中,数据模型,数据库、表、字段、报表(指标存储字段)、字段和字段间的数据关系进行管理。从业务维度讲:管理指标的定义包括指标的业务维度,技术维度和管理维度三方面的数据、字段的中文描述、表的加工策略、表的生命周期信息、表或字段的安全等级。从应用维度讲:实现数据平台模型变更管理、变更影响分析、数据血统分析、高阶数据地图、调度作业异常影响范围。

    企业级数据管理,在企业整体数据管理背景下的元数据管理是数据管理的基础,除了要管理在数据平台元数据管理场景下的所有元数据外,核心是要解决元数据管理和数据标准、数据质量、数据安全、数据生命周期、数据服务的贯通问题,进行数据描述层面的信息融合。在此场景下,元数据管理的着力点是字段或信息项,其他的管理维度或信息都可以基于字段或信息项进行扩展或外延。企业级的数据管理涉及的内容很多,但基于字段或信息项的扩展其结构是稳定的,它是一个支点。否则在纷繁复杂的数据管理业务中会迷茫和痛苦。下图是基于信息项的各管理对象间数据关系,示例的说明了基于字段或信息项为管理核心和外延的定位。

    最后是基于某个大型的平台的元数据管理,这种场景出现在应用型的产品架构中,一般企业数据管理中不会涉及这个问题,这里就不展开介绍了。

    二、元数据怎么管理

    元数据管理要符合企业数据现状,要能支撑企业数据人员分析数据的需要,元数据是企业数据资产的最原始词典,我们需要从这本词典中获取到准确的数据信息,准确、便捷、深度、广度是元数据管理努力的方向。

    要实现企业元数据管理需从两个方面考虑,一是盘点企业数据情况,搞清楚要管理哪些元数据以及这些元数据在什么地方,以何种形态存储,他们之间有有着怎样的联系。二是建模,这里的建模是建立元数据的模型及元模型,要抽象出企业的元模型,建立个元模型之间的逻辑关系。总结的讲盘点企业数据资产和建立企业元模型是元数据管理的两个基本步骤。下面我们展开的讲一下这两点:

    企业数据资产盘点,首先要把元数据建设的定位定义清楚,短期解决什么问题,长期达到什么目的,基于短期目标要重点细化。举个例子要实现企业物理模型的全面管理,实现数据结构变更一体化管理这个短期目标,那么就需要盘点企业有多少应用系统,每个应用系统有多少个数据库,数据库的种类有什么,哪些是业务数据表,哪些是垃圾数据表,每个数据字段的含义是否完整,每个系统那个业务部门使用,哪些管理员进行运维,企业的数据变更是否有流程驱动等。将以上信息分为两大类,一类是数据模型本身的元数据信息,一类是支撑数据模型管理的元数据信息,这两类信息都是需要盘点的内容。

    元数据建模,元数据建模是对企业要管理的元数据进行结构化、模型化。元模型的构建要一般要参考公共仓库元模型CWM,但也不能照搬CWM,否则构建的元模型太过臃肿,不够灵活。在构建元模型过程中不但要关心模型的结构更要关系模型间的关系,每个模型在元数据的世界里是一个独立的个体,个体和个体之间的关系赋予了模型间错综复杂的关系圈,这些关系的创建往后衍生会支撑数据图谱或知识图谱的构建。再拿数据资产盘点的例子来讲,我们要建立数据库元模型、表元模型、字段元模型、管理员元模型,其中库-表-字段是通过组合关系来构建的,而表-表、字段-字段是通过依赖关系来构建的。通过这样的关系构建就能将企业中的所有有交互的数据形成一个错综复杂庞大的数据关系网络,数据分析人员就可以基于这张网络进行各种信息的挖掘。

    三、元数据管理中的难点

    元数据管理是大数据平台建设的重要组成部分,是企业实现数据资产,资产服务化的重要基础,在数据管理大环境下和数据安全、数据质量、数据架构、数据模型等有着千丝万缕的关系。也是是业务和技术互通的桥梁。因此元数据建设的好坏会对企业整体数据以及管理带来重要的影响。

    元数据管理的难点,个人认为有三个点。

    首先是元数据识别,要确定要管理哪些元数据,按元数据的定义来看只要能描述数据的数据都能作为元数据进行管理,但从价值角度讲一定要找到对数据业务、数据运维、数据运营、数据创新带来帮助的元数据进行管理,避免眉毛鼻子一把抓。一般企业元数据建设都是围绕数据集中的数据平台进行全链路的源、数据平台、分析系统的元数据数据管理,围绕这条主线,进一步管理业务元数据和操作元数据。在建设过程中要围绕本企业数据管理问题域进行虚实结合的建设。

    其次是元模型的构建,元模型其核心结构要稳定,因为元数据的建设不是一蹴而就的,需要慢慢的积累和演变,因此存储元数据的元模型结构一定要进行抽象出稳定的结构,比如:针对关系抽象出组合关系和依赖关系、针对模型要抽象出每一类型元数据父类或基类以方便其灵活扩展。

    最后是元数据间的关系,从元数据应用的角度来看,光分析元数据的结构对数据分析人员和数据应用的价值还不是那么的突出。元数据管理的价值主要在其关系的丰富程度,举个不恰当的例子,犹如一个人如果其社会关系足够的丰富,那么其处理各种事情就游刃有余,元数据也类似数据分析和应用一定是从其关系中探寻出数据的价值进而指导业务或进行数据创新。从长期的实践中发现,基于信息项或字段的元数据关系构建是最稳定的。

    四、元数据管理最佳实践

    下面从多年的实践角度谈一谈元数据管理:

    谋定而后动,元数据管理是一盘棋,需要进行管理设计,如基于规范和制度的设计,元模型的设计、实施的设计,推广的设计,每一环节想一想再动。

    选好价值点,元数据管理是纷繁复杂的,它是对企业数据现状的一种抽象、整合和展现,其管理是复杂和不容易的,其价值有可能是隐形的、不容易察觉的,它是一项承上启下,贯通业务和技术的基础性管理工作,因此选好不同时期其管理的价值点,逐步影响企业的方方面面。

    选好工具,元数据管理可借助管理工具使管理工作变的相对快速和简单一些,如元数据的采集、元数据存储、数据血统、数据地图、元数据整合等都可以通过元数据工具来实现。


    名词解释

    MPP: 大规模并行计算

    ETL: (Extract-Transform-Load)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程

    CWM: CommonWarehouseMetamodel公共仓库元模型


    原文:https://www.toutiao.com/a6662222107138589187/

    展开全文
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范...

    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。

    数据标准是什么?

    数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。——维基百科。

    笔者理解:数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

    企业数据标准管理的内容

    1、数据模型标准,即元数据的标准化。自己从事IT行业10多年,一路走来,曾经做开发的时候一度认为数据模型没什么,只不过就是表结构、存储过程的设计,后来接触了数据集成ETL、ESB,虽然也知道ETL脚本本身也是元模型的一部分,但对其重要程度也没放在心上。

    后来慢慢发现之前的想法还过于简单,如果把企业信息化比作是人体的话,数据模型就是其骨架,数据之间的关系和流向是其血管和脉络,数据是其血液,数据模型的标准化是其数据血液能够正常流动和运行的根本。数据模型标准是元数据管理的主要内容,是企业数据治理的基础。请参考《数据治理系列2:元数据管理—企业数据治理的基础

    2、主数据和参照数据标准。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。参照数据一般是有国标可以参照的,固定不变的,或者是用于企业内部数据分类的,基本固定不变的数据。个人认为主数据与参照数据的标准化是企业数据标准化的核心。请参考《主数据管理实施四部曲概论

     

     

    3、指标数据标准。指标数据是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。指标数据标准是对企业业务指标所涉及的指标项的统一定义和管理。企业的财务、销售、采购、生产、质量、售后等各业务域均分布都有其相应的业务指标。这些指标不仅需要在业务系统中统计和展现还需要在数据分析系统中展现,有的指标数据需要多个从不同的业务系统中进行获取。

     

    没有指标数据标准化,你可以想象在每次数据平台有新分析主题构建或旧的分析主题变革,都需要从所涉及的各个系统、库表中进行分析和定义,需要耗费的成本巨大。同时,目前大数据分析都提倡业务人员的自助化分析,没有指标数据标准,业务人员要从不同系统中拿到自己想要的数据进行分析几乎是不可能的。

     

    企业数据标准的梳理

    企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。对于数据梳理的方法主要用到IRP(企业信息资源规划)和数据仓库的数据梳理法。这两种方式我在《主数据管理实施四部曲概论》的文章进行过分享,有兴趣可以关注。

     

    企业数据标准梳理一般需要以下步骤:

     

     

    首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,梳理每个单据和用户视图的数据对象。

     

    其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。

     

    第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。数据关系也是数据标准管理的内容。

     

    第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。

     

    数据标准梳理和建设的方法并不难掌握,关键是建设过程中需要收集并整理大量的业务规范、制度章程、法律法规、监管规定、国家标准,并将这些规定具象到数据标准定义的信息项中。对于一个从未做过数据标准的实施团队而言,这将意味着巨大的工作量。

     

    数据标准管理组织

    数据标准管理是企业数据治理的一部分,数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,制定企业数据战略和实施路线图,明确各阶段数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

     

    数据标准管理组织或数据治理组织从职能划分上可以分为三层,如下图所示:

     

    1、数据标准管理委员会,即数据治理的决策层,主要负责制定企业数据战略、把控数据治理的总体策略,审查数据标准的贯彻执行情况。

    2、数据标准管理办公室,是数据治理的经营管理层,主要负责企业数据标准的制定、审查数据质量,贯彻数据标准落地。

    3、数据标准执行层或业务操作层,主要负责数据标准的贯彻执行,并为数据标准的编制和优化提供数据和意见。

     

    数据标准设计流程

    数据标准的设计从需求发起到落地执行,一般需要经过标准编制、标准审查、标准发布、标准贯彻四个阶段:

     

     

    1. 数据标准编制:数据标准管理办公室根据数据需求开展数据标准的编制工作,确定数据数据项,数据标准管理执行组根据所需数据项提供数据属性信息,例如:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准管理办公室参照国际、国家或行业标准对这些数据项进行标准化定义并提交审核。注:如没有参考标准,则数据标准管理办公室可根据企业情况制定相应的企业级数据标准。

     

    2. 数据标准审查:数据标准管理委员会对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。如数据标准审查不通过,则有数据标准管理办公室进行修订,直到满足企业数据标准的发布要求。

     

    3. 数据标准发布:数据标准审查通过后,由数据标准管理办公室面向全公司进行数据标准的发布。该过程数据标准管理执行组需要配合进行数据标准发布对现有应用系统、数据模型的影响评估,并做好相应的应对策略。

     

    4. 数据标准贯彻:把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。

     

    企业进行数据标准化时,除了对数据本身标准化规则构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会涉及到新旧系统、不同部门、不同业务的冲突,这些冲突如果解决不好将会直接导致标准化的失败。所以,数据标准落地过程要充分做好影响评估和各干系方的沟通。

     

    数据标准管理价值总结:

    一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

     

    数据标准目标是为业务、技术和管理提供服务和支持。

    业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。

    技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。

    管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

     

    数据标准与主数据、元数据、数据质量的关系

     

    数据治理项目的根本诉求在于提升数据质量

     

    数据标准与主数据的关系

    从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

     

    数据标准与元数据的关系

    元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

    数据标准与数据质量的关系

    没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

    (文:石秀峰 2019年5月)

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    展开全文
  • 数据仓库

    万次阅读 2019-04-15 11:57:54
    数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。 主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作...

    数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。

    主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

    数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

    数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据
    进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,
    但修改和删除操作很少,通常只需要定期地加载、刷新。

    数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息。

    数据仓库反映历史变化的属性主要表现在:
        数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限,数据仓库中的数据时间期限往往为数年甚至几十年。
        数据仓库中的数据仅仅是一系列某一时刻(可能是传统操作型数据系统)生成的复杂的快照;
        数据仓库中一定会包含时间元素。

    数据库与数据仓库的差异
       从数据存储的内容看,数据库只存放当前值,而数据仓库则存放历史值;数据库数据的目标是面向业务操作人员的,为业务处理人员提供数据处理的支持,而数据仓库则是面向中高层管理
    人员的,为其提供决策支持等。

    数据仓库的结构
    从数据仓库的概念结构看,一般来说,数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及各种管理工具和应用工具,如图 3-10 所示。数据仓库建立之后,首先要从数据源中抽取相关的数据到数据准备区,在数据准备区中经过净化处理后再加载到数据仓库数据库,最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时,可以利用包括 OLAP(On-Line Analysis Processing,联机分析处理)在内的多种数据仓库应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

    数据仓库框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。

     

    数据仓库基本功能层。

           数据仓库的基本功能层部分包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库,以及存取和使用部分。

    数据仓库管理层。

         数据仓库管理层由数据仓库的数据管理和数据仓库的元数据管理组成。
        数据仓库的数据管理层包含数据抽取、新数据需求与查询管理,数据加载、存储、刷新和更新系统,安全性与用户授权管理系统及数据归档、恢复及净化系统等四部分。

    数据仓库的环境支持层。

          数据仓库的环境支持层由数据仓库数据传输层和数据仓库基础层组成。
     

    数据仓库架构图:

    展开全文
  • 数据管理数据治理的区别

    千次阅读 2019-05-12 16:25:41
    数据管理数据治理的区别 (来源:DAMS,原作者:Jelani Harper,翻译:新炬网络-梁铭图, 整理:DAMS) 数据管理数据治理有很多地方是互相重叠的,它们都围绕数据 这个领域展开,因此这两个术语经常被混为一谈。...
  • 数据治理工具-元数据管理

    千次阅读 2020-04-07 18:40:33
    数据治理里面最关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义...
  • 数据管理 Data Management 是规划、控制和提供...数据治理 Data Governance 作为数据管理的其中一个核心职能,是对数据资产管理行驶权力和控制的活动集合(规划、执行和监控),指导和其它数据管理职能如何执行,...
  • 随着技术的发展,IT逐渐面临越来越多的挑战,尤其是数据治理方面。而九州通医药集团在IT建设方面不畏艰险,自主研发ERP系统、物流系统,在解决企业自身问题的同时还创新投入商业化,为同行业提供服务,树立标杆形象...
  • 韩亚飞_yue31313_韩梦飞沙 QQ:313134555 目录 数据治理概念: ...对业务的数据管理和利用,为用户创造价值。 Data Governance 数据治理架构: 大数据架构: 大数据基础设施硬件 基于普通商用服...
  • 数据治理系列5:浅谈数据质量管理

    万次阅读 2019-08-10 16:31:51
    本文原创地址:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA,请手机扫描文章末尾的二维码,关注我们。 题外话:看过之前的文章的小伙伴不难发现,文章开篇几乎都是定义、概念,这已成了笔者写文章的一个...
  • 作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理、数据治理,欢迎关注。 导读:我们知道主数据项目的建设是一个循序渐进、持续优化的过程,不可一蹴而就。个人认为主数据管理项目从咨询规划到落地...
  • 二、要打仗,你手里先得有张地图:数据治理之元数据管理 这一篇讲讲元数据的概念和具体应用场景。 三、不忘初心方得始终:数据治理之数据质量管理 提升数据质量,始终是数据治理工作中最重要的目标之一。本篇讲述...
  • 凌云时刻 · 极鲜速递导读:第六届 DAMS 中国数据智能管理峰会蓄势待发!来源| DBAplus社群前言5 年前,大数据浪潮的来袭唤起了国内企业对数据作为核心资产的新认知,为了推动...
  • 小进阶:数据指标体系和数据治理管理关于作者:小姬,某知名互联网公司产品专家,对数据采集、生产、加工有所了解,期望多和大家交流数据知识,以数据作为提出好问题的基础,发掘商...
  • 二、要打仗,你手里先得有张地图:数据治理之元数据管理 这一篇讲讲元数据的概念和具体应用场景。 三、不忘初心方得始终:数据治理之数据质量管理 提升数据质量,始终是数据治理工作中最重要的目标之一。本篇讲述...
  • 二、要打仗,你手里先得有张地图:数据治理之元数据管理 这一篇讲讲元数据的概念和具体应用场景。 三、不忘初心方得始终:数据治理之数据质量管理 提升数据质量,始终是数据治理工作中最重要的目标之一。本篇讲述...
  • 前言随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理数据管理、数据资源管理、数据资产管理等名词的定义很多,概念容易混淆,...
  • 数据治理系列1:数据治理框架【解读分析】

    万次阅读 多人点赞 2019-05-08 14:58:56
    作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理数据治理,欢迎关注。 一、什么是数据治理? 维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会...
  • 魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容。 首先,他们整理了一个治理流程,架构图 ...流程图上面,其中,“主数据管...
  • 普林斯顿Stata教程 - Stata数据处理

    千次阅读 2018-06-04 11:46:41
    译者:谢作翰 | 连玉君 | (知乎 | 简书 | 码云)   原文链接:Princeton Stata 在线课程 (Princeton University - Stata Tutorial ) ...普林斯顿Stata教程 - Stata数据管理 普林斯顿Stata教程 ...
  • 元数据与数据治理|学习汇总

    千次阅读 2019-01-08 15:23:02
    以下是学习元数据与 数据治理的整个过程:包含技术总结和心里变化情况   以日志的形式进行汇总 2019.1.4 (第一天:接触需求) 需求定义 第一天 讲解需求( 数据仓库、元数据处理建设) 内心变化  片面...
  • 当模式改变时(例如增加新的关系,新的属性,改变属性的数据类型等),由数据库管理员对各个外模式/模式的映像做相应的改变,可以使外模式保持不变。应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证...
  • 数据库管理系统

    千次阅读 2018-10-24 00:14:00
    数据库管理系统主要是实现对共享数据有效的组织、存储、管理和存取。围绕数据,数据库管理系统的功能为: 1、数据库定义和创建 创建数据库主要是用数据定义语言定义和创建数据库模式、外模式、内模式等数据库对象。...
  • 今天记个知识点。...数据库:存放数据的仓库; 数据库管理系统:对数据库进行统一地管理和控制,以保证数据库地安全性和完整性; 数据库系统:包括了数据库、数据库管理系统、应用系统、数据库管理员。 ...
  • MySQL数据库从入门到实战课

    万人学习 2019-12-31 14:09:39
    限时福利1:购课进答疑群专享柳峰(刘运强)老师答疑服务。 ... 本篇可以帮助学员更加高效的管理线上的MySQL数据库;具备MySQL的日常运维能力,语句调优、备份恢复等思路。  

空空如也

1 2 3 4 5 ... 20
收藏数 300,732
精华内容 120,292
关键字:

数据管理