精华内容
下载资源
问答
  • 数据治理系列2:元数据管理—企业数据治理的基础

    万次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统...

     

    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理是企业数据治理的基础。

    认识元数据

    元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。这么说对于没有技术背景的人来说还是比较抽象的,我给大家举几个例子。

     

     

    在我之前写的一篇文章《关于“数据”的一些概念的整理和总结》中,有一个关于元数据的例子,歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良” 这首耳熟能详的歌,我们分析一下,姓名:小芳、性别:姑娘(女)、长相:好看、性格:善良,住址:村里。这里面,小芳是被描述的对象也就是我们所谓的实体数据,而姓名、性别、长相、性格、住址就是描述“小芳”的元数据。

    再举个栗子:元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。

    再举个栗子:元数据好比“字典”,针对每个字都注音、含义、组词、举例等信息,同时也有关于字体结构、相关引用、出处等。另外,我们可以通过拼音、偏旁部首都能查到这个字。所有的这些信息都是对这个字的详细描述,那这些信息就是描述这个字的元数据。

    再举个栗子:元数据就如“地图”,通过这张“地图”能够找到你所处的地点,以及你从哪来来,到哪里去,途中都需要路过哪些地方……

    这下大家理解了吧,元数据是对数据的结构化描述,使得数据更容易理解、查找、管理和使用。

    元数据的分类

    根据数据的性质特点,业内一般将元数据划分为三类:业务元数据、技术元数据和管理元数据。

     

     

    业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。

    技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。

    管理元数据描述了数据的管理属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。

     

    表:元数据分类实例

    元数据类型

    元数据描述

    元数据实例

     业务定义

     数据的含义

     客户的完整名称,并具有法律效力

     业务规则

    数据录入规则

     企业的营业执照、组织机构代码证书,统一社会信用代码证书等具有法律效力的证明文件中的中文名称全称

     

     识别规则

    企业的组织机构代码或者统一社会信用代码或者统一纳税号必须完全匹配,则认为是同一客户。

     

     质量规则

     客户名称为非空,并且与营业执照的中文名称一致

    存储位置

    数据的存储什么地方

    ERP系统

    数据库表

    存储数据的库表名称和路径

    ERP/Customers

    字段类型

    数据的技术类型

    字符型

    字段长度

    数据存储的最大长度

    [200]

    更新频率

    数据的更新频率

    每年更新一次

    管理部门

    数据责任部门

    客户管理部

    管理责任人

    数据责任部门

    客户管理部业务员

     

    元数据管理成熟度

    在实施元数据管理的过程中,可以参照元数据管理的成熟度模型确定企业当前元数据管理所在层次,并根据业务需要制定路线图实现元数据管理水平的提升。下图是元数据管理成熟度模型:

     

     

    元数据管理成熟度评估模型

    • L0: 初始状态

    元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。这些元数据会永远保存在某个人那儿,一旦这个人调离,这些元数据将永远消失。

    • L1: 从属于业务系统

    在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来。业务元数据可能分散在各种业务规章、流程规定、需求、需求分析和概要设计等文档以及业务系统中,技术元数据可能分散在详细设计、模型设计和部署方案等各种文档和各种中间件以及业务系统中。由于各个业务系统处于一个个竖井之中,元数据之间互通互联困难,如果需要获取其他系统的元数据,除了调阅各种文档外,对分散在各种中间件和业务系统中的技术元数据需要一定的集成方式实现互通互联。

    • L2:元数据统一存储

    元数据依然在局部产生和获取,但会集中到中央存储库进行存储,业务元数据会手工录入到中央存储库中,技术元数据分散在文档中的部分也通过手工录入到中央存储库中,而散落在各个中间件和业务系统中的技术元数据则通过数据集成的方式被读取到中央存储库中。业务元数据和技术元数据之间全部或部分通过手工方式做了关联。中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。缺点是,元数据仍然在各业务系统上维护,然后更新到中央存储库,各业务竖井之间仍然使用不同的命名法,经常会造成相同的名字代表不同意义的事情,而同一件事情则使用了多个不同的名字,有些没有纳入业务系统管理的元数据则容易缺失。元数据没有有效的权限管理,局部元数据更改后也不自动通知其他人。

    • L3: 元数据集中管理

    在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。局部元数据的修改完成后将被广播给其他人。和其他中间件和应用系统的交互,仍然通过桥集成的方式进行,中央存储库中的业务元数据和技术元数据之间还是通过手工方式进行映射。

    • L4:元模型驱动管理

    在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。业务词汇表(业务元数据)包含与企业相关的词汇、词汇业务含义以及词汇与信息资产(技术元数据)的关系,可以有效帮助企业用户了解其业务元数据和技术元数据对应的业务含义。分类是基于主题领域的层次结构,用以对业务术语归类。和其他中间件和应用系统的交换,通过基于 CWM 的适配器方式进行连接。

    • L5: 元数据管理自动化

    在 L5 元数据管理是高度自动化的,当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。元数据中的任何变化将触发业务工作流,以便其他业务系统进行相应的修改。由于各个业务系统遵照相同的业务词汇表和分类系统(元模型),他们之间的关系可以通过知识本体进行推断,因此各个应用系统之间的数据格式的映射自动产生。

     

    元数据管理平台架构

    元数据管理平台从应用层面,可以分类:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务。

     

     

    元数据采集服务

    在数据治理项目中,通常涉及到的元数据还包括:数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据等等。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。目前市场上的主流元数据产品还没有哪一家能做到“万能适配”,都需要在实际应用过程中做或多或少的定制化开发。

    元模型驱动的设计与开发

    通过元数据管理平台实现对应用的逻辑模型、物理模型、UI模型等各类元模型管理,支撑应用的设计和开发。应用开发的元模型有三个状态,分别是:设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。测试态的元数据模型,通常是关系型数据:Oracle、DB2、Mysql、Teradata等,或非关系型数据库:MongDB、HBase、Hive、Hadoop等。生产态的元模型,本质上与测试态元数据差异不大。通过元数据平台对应用开发三种状态的统一管理和对比分析,能够有效降低元数据变更带来的风险,为下游ODS、DW的数据应用提供支撑。另外,基于元数据的MDD(代码生成服务),可以通过模型(元数据)完成业务对象元数据到UI元数据的关联和转换,自动生成相关代码,表单界面,减少了开发人员的设计和编码量,提升应用和服务的开发效率。

     

    元数据管理服务

    市场上主流的元数据管理产品,基本都包括:元数据查询、元模型管理、元数据维护、元数据版本管理、元数据对比分析、元数据适配器、元数据同步管理、元数据生命周期管理等功能。此类功能,各家产品大同小异,此处不再赘述。

    元数据访问服务

    元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

     

    元数据分析服务

     

    血缘分析:是告诉你数据来自哪里,都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时,快速定位和找到数据问题的原因。

     

    影响分析:是告诉你数据都去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系,向下追踪,快速找到都哪些应用或数据库使用了这个数据,从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析。

     

    冷热度分析:是告诉你哪些数据是企业常用数据,哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。

     

    关联度分析:是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度,如:表与ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。

     

    数据资产地图:是告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的数据查询和辅助分析需要。

     

    元数据管理价值

     

    一图在手,天下我有

    通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置或个人电脑的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息,数据和人之间的关系信息,数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。

     

    追根溯源,发现数据问题本质

    企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。

     

    模型驱动,敏捷开发

    基于元数据模型的数据应用规划、设计和开发是企业数据应用的一个高级阶段。当企业元数据管理达到一定水平(实现自动化管理的时候),企业中各类数据实体模型、数据关系模型、数据服务模型、数据应用模型的元数据统一在元数据平台进行管理,并自动更新数据间的关联关系。基于元数据、可扩展的MDA,才是快速满足企业数据应用个性化定制需求的最好解决方案。通过将大量的业务进行模型抽象,使用元数据进行业务描述,并通过相应的模型驱动引擎在运行时驱动,使用高度抽象的领域业务模型作为构件,完成代码转换,动态生成相关代码,降低开发成本,应对复杂需求变更。

     

     

    总结:

    元数据是企业数据资源的应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据战略规划、数据模型设计、数据标准管理、主数据管理、数据质量管理、数据安全管理以及数据的全生命周期管理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

     

    展开全文
  • 数据仓库之元数据管理

    万次阅读 2020-08-21 16:29:27
    元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。 构建数据仓库的主要步骤之一是 ...

    元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。

    构建数据仓库的主要步骤之一是 ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

    在这里插入图片描述

    用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制

    报表。数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移

    除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。

    一、元数据类型

    ​元数据可分为技术元数据业务元数据管理过程元数据

    1、 技术元数据为开发和管理数据仓库的 IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

    2、 业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

    3、 管理过程元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。

    二、元数据功能

    1、血缘分析:向上追溯元数据对象的数据来源。血缘分析可以帮助您轻松回答:'我正在查看的报告数据来源是什么?'以及’对当前分析的数据应用了哪些转换处理?'等问题。这样的机制及对这些问题的回答确保了对所分析的数据更高的信任水平,并有助于实现许多行业(包括医疗、金融、银行和制造业等)对所呈现数据的特殊监管及合规性要求。

    2、影响分析:向下追溯元数据对象对下游的影响。影响分析可以让您轻松应对变更可能产生的影响,自动识别与其相关的依赖项和潜在的影响还可以跟踪所有对象及其依赖关系,最后我们还提供数据全生命周期的可视化显示。例如,如果您的某一信息系统中准备将“销售额”从包含税费更改为不包括税费,则SE-DWA将自动显示所有使用了“销售金额”字段,以便您可以确定有哪些工作需要完成,并且建议您在更改前完成该工作。

    3、同步检查:检查源表到目标表的数据结构是否发生变更。

    4、指标一致性分析:定期分析指标定义是否和实际情况一致。

    5、实体关联查询:事实表与维度表的代理键自动关联。

    三、元数据应用

    1、ETL自动化管理:使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。

    2、数据质量管理:使用数据质量规则元数据进行数据质量测量。数据质量根据设定的规则帮助您过滤出有问题的数据,并智能分析数据质量缺陷。

    3、数据安全管理:使用元数据信息进行报表权限控制。可以方便查看用户和访问权限,并启用对象级和行级安全管理。对象级安全性确保通过身份验证的用户只能访问他们被授权查看的数据、表或列,其它数据则不可见。基于行的安全性会更进一步,可以限制特定的组成员只可以访问表中特定的数据。

    4、数据标准管理:使用元数据信息生成标准的维度模型。

    5、数据接口管理:使用元数据信息进行接口统一管理。多种数据源接入,并提供多种插件对接最流行的源系统。应该可以简单方便获取数据。

    6、项目文档管理:使用元数据可以自动、方便的生成的健壮全面的项目文档,其以帮助您应对各种对于数据合规性要求。读取元数据模型,并生成pdf格式的描述文件。生成文档您查看每个对象的名称、设置、描述和代码。

    7、数据语义管理:业务用户在自助服务分析中面临的挑战他们不了解数据仓库从而无法正确解释数据,使用元数据可以语义层建模,使用易于业务用户理解的描述来转换数据。

    四、总结

    ​ 由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个整体数据仓库解决方案。

    展开全文
  • 数据治理之元数据管理实践

    万次阅读 2019-03-02 16:04:44
    近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企业在进行全面数字化转型需要考虑的一个...

    引言

    数字转型对不同的人意味着不同的东西,这取决于你的行业和你的业务性质。然而,所有的解释都有一个共同的主线,数据和数据治理的重要性。近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企业在进行全面数字化转型需要考虑的一个重要事情。

    关于元数据概念的文章网上有不少,本文主要探讨一般的企业如何开展元数据管理工作。这里分享两个主题,元数据是什么、如何实现元数据管理。

    元数据是什么

    元数据最简单的定义是描述数据的数据。这里有两个关键点,一个是数据,一个是描述数据。企业中一般的可进行管理的数据如下表:

    描述数据的数据数据
    业务元数据(描述数据定义的数据)1. 企业数据标准;2. 企业数据质量标准;3. 企业数据指标;4. 企业数据字典;5.企业数据代码;6. 企业数据安全;
    技术元数据(描述数据物理华的数据)物理模型(关系型数据库物理模型,NoSQL类数据库存储模型,MPP类数据库物理模型)
    操作元数据(描述数据处理过程的数据)1. 数据ETL信息; 2. 数据加工处理策略数据信息; 3. 数据处理调度信息; 4. 数据处理异常信息;
    管理元数据(描述数据管理归属的数据)数据归属信息(业务归属、系统归属、运维归属、数据权限归属)

    和元数据管理相关的另一个重要概念是元模型,要实现企业元数据管理,需要定义一个符合存储企业数据现状的元数据模型,且这个模型有不同粒度和层次的元模型,有了层次和粒度的划分,未来元数据进行批量管理后就可以灵活的从不同维度进行元数据分析,如企业的数据地图、数据血统都是基于此实现的。

    我们试着把企业找中的技术元数据、业务元数据、操作元数据、管理元数据进行元模型的梳理,如下图所示:

    将以上梳理出的信息通过UML建模处理就得到了元模型,在元模型中有包、类、属性、继承、关系。创建元模型的时候也可以参考CWM,CWM定义了一套完整的元模型体系结构,但它是用于数据仓库构建和应用的元数据建模。

    如何实现元数据管理

    下面分析下企业的元数据如何管理,从元数据管理什么、元数据怎么管理、元数据管理的难点、元数据管理的实践这四个方面描述。

    一、元数据管理什么

    从多年的实施经验看,国内企业进行元数据管理的方向有三个,

    一个是基于数据平台进行元数据管理,由于大数据平台的兴起,目前逐步开始针对Hadoop环境进行元数据管理;

    二是基于企业数据整体管理规划开展对元数据的管理,也是企业数据资产管理的基础;

    三是元数据作为某个平台的组件进行此平台特有的元数据管理,它作为一个中介或中转互通平台各组件间的数据。

    基于数据平台的元数据管理相对成熟,也是业界最早进行元数据管理的切入点或者说是数据平台建设的必备。

    在此业务场景下,从技术维度讲:元数据管理围绕着数据平台内的源系统、数据平台、数据集市、数据应用中,数据模型,数据库、表、字段、报表(指标存储字段)、字段和字段间的数据关系进行管理。从业务维度讲:管理指标的定义包括指标的业务维度,技术维度和管理维度三方面的数据、字段的中文描述、表的加工策略、表的生命周期信息、表或字段的安全等级。从应用维度讲:实现数据平台模型变更管理、变更影响分析、数据血统分析、高阶数据地图、调度作业异常影响范围。

    企业级数据管理,在企业整体数据管理背景下的元数据管理是数据管理的基础,除了要管理在数据平台元数据管理场景下的所有元数据外,核心是要解决元数据管理和数据标准、数据质量、数据安全、数据生命周期、数据服务的贯通问题,进行数据描述层面的信息融合。在此场景下,元数据管理的着力点是字段或信息项,其他的管理维度或信息都可以基于字段或信息项进行扩展或外延。企业级的数据管理涉及的内容很多,但基于字段或信息项的扩展其结构是稳定的,它是一个支点。否则在纷繁复杂的数据管理业务中会迷茫和痛苦。下图是基于信息项的各管理对象间数据关系,示例的说明了基于字段或信息项为管理核心和外延的定位。

    最后是基于某个大型的平台的元数据管理,这种场景出现在应用型的产品架构中,一般企业数据管理中不会涉及这个问题,这里就不展开介绍了。

    二、元数据怎么管理

    元数据管理要符合企业数据现状,要能支撑企业数据人员分析数据的需要,元数据是企业数据资产的最原始词典,我们需要从这本词典中获取到准确的数据信息,准确、便捷、深度、广度是元数据管理努力的方向。

    要实现企业元数据管理需从两个方面考虑,一是盘点企业数据情况,搞清楚要管理哪些元数据以及这些元数据在什么地方,以何种形态存储,他们之间有有着怎样的联系。二是建模,这里的建模是建立元数据的模型及元模型,要抽象出企业的元模型,建立个元模型之间的逻辑关系。总结的讲盘点企业数据资产和建立企业元模型是元数据管理的两个基本步骤。下面我们展开的讲一下这两点:

    企业数据资产盘点,首先要把元数据建设的定位定义清楚,短期解决什么问题,长期达到什么目的,基于短期目标要重点细化。举个例子要实现企业物理模型的全面管理,实现数据结构变更一体化管理这个短期目标,那么就需要盘点企业有多少应用系统,每个应用系统有多少个数据库,数据库的种类有什么,哪些是业务数据表,哪些是垃圾数据表,每个数据字段的含义是否完整,每个系统那个业务部门使用,哪些管理员进行运维,企业的数据变更是否有流程驱动等。将以上信息分为两大类,一类是数据模型本身的元数据信息,一类是支撑数据模型管理的元数据信息,这两类信息都是需要盘点的内容。

    元数据建模,元数据建模是对企业要管理的元数据进行结构化、模型化。元模型的构建要一般要参考公共仓库元模型CWM,但也不能照搬CWM,否则构建的元模型太过臃肿,不够灵活。在构建元模型过程中不但要关心模型的结构更要关系模型间的关系,每个模型在元数据的世界里是一个独立的个体,个体和个体之间的关系赋予了模型间错综复杂的关系圈,这些关系的创建往后衍生会支撑数据图谱或知识图谱的构建。再拿数据资产盘点的例子来讲,我们要建立数据库元模型、表元模型、字段元模型、管理员元模型,其中库-表-字段是通过组合关系来构建的,而表-表、字段-字段是通过依赖关系来构建的。通过这样的关系构建就能将企业中的所有有交互的数据形成一个错综复杂庞大的数据关系网络,数据分析人员就可以基于这张网络进行各种信息的挖掘。

    三、元数据管理中的难点

    元数据管理是大数据平台建设的重要组成部分,是企业实现数据资产,资产服务化的重要基础,在数据管理大环境下和数据安全、数据质量、数据架构、数据模型等有着千丝万缕的关系。也是是业务和技术互通的桥梁。因此元数据建设的好坏会对企业整体数据以及管理带来重要的影响。

    元数据管理的难点,个人认为有三个点。

    首先是元数据识别,要确定要管理哪些元数据,按元数据的定义来看只要能描述数据的数据都能作为元数据进行管理,但从价值角度讲一定要找到对数据业务、数据运维、数据运营、数据创新带来帮助的元数据进行管理,避免眉毛鼻子一把抓。一般企业元数据建设都是围绕数据集中的数据平台进行全链路的源、数据平台、分析系统的元数据数据管理,围绕这条主线,进一步管理业务元数据和操作元数据。在建设过程中要围绕本企业数据管理问题域进行虚实结合的建设。

    其次是元模型的构建,元模型其核心结构要稳定,因为元数据的建设不是一蹴而就的,需要慢慢的积累和演变,因此存储元数据的元模型结构一定要进行抽象出稳定的结构,比如:针对关系抽象出组合关系和依赖关系、针对模型要抽象出每一类型元数据父类或基类以方便其灵活扩展。

    最后是元数据间的关系,从元数据应用的角度来看,光分析元数据的结构对数据分析人员和数据应用的价值还不是那么的突出。元数据管理的价值主要在其关系的丰富程度,举个不恰当的例子,犹如一个人如果其社会关系足够的丰富,那么其处理各种事情就游刃有余,元数据也类似数据分析和应用一定是从其关系中探寻出数据的价值进而指导业务或进行数据创新。从长期的实践中发现,基于信息项或字段的元数据关系构建是最稳定的。

    四、元数据管理最佳实践

    下面从多年的实践角度谈一谈元数据管理:

    谋定而后动,元数据管理是一盘棋,需要进行管理设计,如基于规范和制度的设计,元模型的设计、实施的设计,推广的设计,每一环节想一想再动。

    选好价值点,元数据管理是纷繁复杂的,它是对企业数据现状的一种抽象、整合和展现,其管理是复杂和不容易的,其价值有可能是隐形的、不容易察觉的,它是一项承上启下,贯通业务和技术的基础性管理工作,因此选好不同时期其管理的价值点,逐步影响企业的方方面面。

    选好工具,元数据管理可借助管理工具使管理工作变的相对快速和简单一些,如元数据的采集、元数据存储、数据血统、数据地图、元数据整合等都可以通过元数据工具来实现。


    名词解释

    MPP: 大规模并行计算

    ETL: (Extract-Transform-Load)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程

    CWM: CommonWarehouseMetamodel公共仓库元模型


    原文:https://www.toutiao.com/a6662222107138589187/

    展开全文
  • DCMM数据管理能力成熟度评估模型

    千次阅读 2021-01-12 19:45:18
    Hi,大家好! ...企业亟需一套符合中国国情,符合中国企业文化,并且能够指导企业开展数字化“基础设施”建设的参考框架,而DCMM(数据管理能力成熟度评估模型)或许就是一个合适的参考框架。 .

    Hi,大家好!

    今天想再次跟大家聊一聊关于数据治理能力成熟度评估模型的事,这次要聊的这个模型是DCMM。

    根据国务院国资委印发的《关于加快推进国有企业数字化转型工作的通知》要求,明确指出了数据治理是国企数字化转型的必经之路。国企数字化转型方兴未艾,数据治理也被推向了“风口浪尖”。

    数字化转型,是当今时代企业的机遇,也是挑战。

    企业亟需一套符合中国国情,符合中国企业文化,并且能够指导企业开展数字化“基础设施”建设的参考框架,而DCMM(数据管理能力成熟度评估模型)或许就是一个合适的参考框架。

     

    01

    有关数据治理,

    业界有哪些成熟度评估模型?

     

    对于能力成熟度模型最早起源于CMM,现在发展成大家熟知的CMMI模型(软件能力成熟度模型),它是一种对组织在软件定义、实施、度量、控制和改善其软件过程的实践中各个发展阶段的描述形成的标准。CMMI模型是由卡耐基-梅隆大学旗下的CMMI协会开发的,2014年,CMMI协会在CMMI模型基础之上,开发并发布了数据管理领域的能力成熟度评估模型:CMMI-DMM。

    CMMI-DMM模型是业界比较权威的数据管理能力成熟度评估模型,我们今天分享DCMM模型在一定程度上也参考了DMM模型的一些内容,包括整体模型框架,过程域以及能力等级的划分等。

    在数据治理/数据管理领域,其实有很多能力成熟度模型可供参考,如下:

    CMMI-DMM数据管理能力成熟度评估模型。DMM模型用25个过程域(20个数据管理过程域和5个支持过程域),描述了企业数据管理应建立的各项能力,帮助组织开展数据管理过程实践,提升其数据管理的成熟度。

    图片

     ©CMMI协会

     

    Gartner企业信息管理成熟度模型。将企业信息管理分为了0-5个阶段,分别是:0无意识阶段,1意识阶段,2被动式阶段,3主动式阶段,4托管管理阶段,5有效管理阶段,帮助企业找到信息管理能力所处的位置。

    图片

    ©Gartner

     

    EDM-DCAM 数据管理能力成熟度模型。DCAM模型由企业数据管理协会(EDM Council--北美的一家研究金融行业数据管理的公益性组织)开发,目前已经发布了两个版本(这两个版本的模型在本公众号之前的文章中都有分享)。DCAM2.0模型包含了7大组件,分别是数据管理战略与业务案例,数据管理流程与资金,数据架构,技术架构,数据质量管理,数据治理,数据操作。

    图片

    ©EDM Council

     

    另外,除了Gartner、CMMI-DMM、EDM-DCAM,你可能还听过:

    • MD3M 主数据管理成熟度模型——源自荷兰乌得勒支大学的一篇硕士论文。

    • DataFlux 主数据管理成熟度模型——由BI软件SAS公司旗下的DataFlux公司提出。

    • Oracle MDM主数据管理能力成熟度模型——由甲骨文(Oracle )公司提出。

    • IBM 数据治理能力成熟度模型——由IBM公司提出。

    以上模型,在笔者之前的文章中也做过相关的解读和分享,有兴趣的可以在本公众号的历史文章中查找。

    而我们今天要分享的DCMM模型——这个我国首个数据管理领域的国家标准,在之前的文章中也有过介绍,距离上次的分享已经有1年半的时间了,过去了这么久,我又有了一些新的思考,迫不及待的想分享给大家。

     

    02

    DCMM简介,

    结构组成和能力等级划分

     

    DCMM简介

    DCMM(Data Management Capability Maturity Assessment Model,数据管理能力成熟度评估模型)是由全国信标委大数据标准工作组(国家工信部信软司主导,多家企业和研究机构共同组成)研发,并于2018年3月15日正式发布,是我国数据管理领域最佳实践的总结和提升。

    DCMM模型是一个整合了标准规范、管理方法论、评估模型等多方面内容的综合框架,他将组织内部数据能力划分为八个重要组成部分,描述了每个组成部分的定义、功能、目标和标准。该标准适用于组织在进行数据管理时候的规划,设计和评估,也可以作为针对信息系统建设状况的指导、监督和检查的依据。

    DCMM结构组成

    DCMM模型,按照组织、制度、流程、技术对数据管理能力进行了分析、总结,提炼出组织数据管理的八大过程域,即:数据战略、数据治理、数据架构、数据应用、数据安全、数据质量管理、数据标准、数据生命周期。这八个过程域共包含28个过程项,441项评价指标。

    图片

    ©dcmm.org.cn

    数据战略:数据战略规划、数据战略实施、数据战略评估

    数据治理:数据治理组织、数据制度建设、数据治理沟通

    数据架构:数据模型、数据分布、数据集成与共享、元数据管理

    数据应用:数据分析、数据开放共享、数据服务

    数据安全:数据安全策略、数据安全管理、数据安全审计

    数据质量:数据质量需求、数据质量检查、数据质量分析、数据质量提升

    数据标准:业务数据、参考数据和主数据、数据元、指标数据

    数据生存周期:数据需求、数据设计和开放、数据运维、数据退役

     

    DCMM的能力等级划分

    与CMMI类似,DCMM模型将组织的数据能力成熟度划分为初始级、受管理级、稳健级、量化管理级和优化级共5个发展等级,帮助组织进行数据管理能力成熟度的评价。

    图片

    03

    与其他模型相比,

    DCMM有什么不同?

     

    DCMM与国外的数据管理能力成熟度模型相比,DCMM是具有中国特色的数据管理模型。

    图片

    DCMM建设概念图

     

    首先,从研制单位来讲,国外的数据管理成熟度模型要么是数据管理研究的相关协会,要么是咨询公司,要么是数据产品的供应商,都属于民间组织,而DCMM是由国家工信部信软司主导,数据管理领域的国家级标准。

    有个问题大家共同思考下:为什么国外的模型框架来自民间,而我国的模型框架出自官方?

    笔者理解:直接原因是只有官方(国家标准化管理委员会)才能发布国家标准。深层次上来讲,与中国传统文化有关,“官方”自古以来代表的都是权威,官方发布的内容具有公信度。

    第二,DCMM强调数据战略和数据标准,这是与DAMA-DMBOK中的数据管理框架以及CMMI-DMM模型是有所不同的。我们中国人做人做事讲求“无规矩不成方圆”,“规矩”就是做事的总则,规范和标准。在DCMM模型中,数据战略就是组织数据管理的最高总则,为组织的数据管理提供方向指引;数据标准是具体数据管理实践的执行规范,为组织的数据管理提供操作指导。

    第三,DCMM模型的数据治理过程域中的二级过程项“数据治理沟通”,这个是DCMM的一个亮点。个人认为:从数据治理战略的制定到落地执行都离不开沟通,沟通连接着数据治理各个环节,放在数据治理中可能更合适些。首先,启动数据治理项目,就必须说服高层领导,获得领导的支持,这需要沟通;其次,数据治理不是一个人或一个部门的事情,需要企业各部门的协调和配合,这需要沟通;第三,数据治理需要IT与业务的融合,让业务认可、让领导重视,这需要沟通;第四,落地数据标准、执行数据规范、培养数据思维,建立数据文化,这都需要沟通。因此,沟通应该是贯穿整个数据治理全周期、全过程的一项重要活动。

    最后,DCMM模型还重点强调数据应用,他将数据应用独立是其八大过程域之一,数据应用过程域包含了数据分析、数据开放共享、数据服务。所以严格意义上讲,DCMM模型评估的不单纯是组织的数据管理能力,还包括组织的数据应用能力。这在其他的数据管理成熟度模型中是看不到的。当然,也有人认为数据管理、数据应用是两个维度,甚至是两个专业领域的事情,放在一起评估不合适。我倒是认为,这没什么不妥的,数据治理的本质是为数据应用服务的,核心目标是为了让数据产生价值,离开这个目标搞数据治理,那就是典型的“为了治理而治理了”。

    但这里,我也有个小的疑问:为什么不把“数据集成共享”这个子项放在“数据应用”过程域中,而是放在了“数据架构”过程中?

    “数据集成共享”,我理解就是企业内部各系统或部门之间的数据交换共享,解决的是业务协同问题,应该放在“数据应用”似乎更合适吧?

     

    04

    DCMM模型使用,

    评估实施的四个阶段

     

    为促进标准落地应用,2018年成立中国电子工业标准化技术协会数据管理应用推进分会,在工信部信软司的指导下,不断丰富完善并建立了 DCMM 评估体系。

    DCMM的评估是在工信部信软司的指导下,由中国电子信息行业联合会统一组织,包括:评估机构选取、评估项目实施、优秀标杆评选、DCMM证书发放等。评估机构需要通过官方认证,才具有为企事业单位进行DCMM评估的资格。

    根据中国电子信息行业联合会的公开资料,DCMM评估分为以下四个阶段:

    图片

     

    ©dcmm.org.cn

     

    准备阶段:收集及分析评估材料,确定评估的范围,成立评估小组并明确项目团队的各方职责。

    实施阶段:召开DCMM评估启动会,DCMM模型宣贯,开展现场评估。

    制定报告:形成DCMM评估结果,明确各过程域存在的问题和不足,指明改进方向。

    评审发布:提交报告及发放证书等。

     

    05

    DCMM的价值,

    为企业数字化转型赋能!

     

    与欧美国家相比,在数据管理领域我国一直缺乏完善的数据管理成熟度体系的研究,DCMM填补了这一空白,为国内组织的数据管理的能力的建设和发展提供了方向性指导。

    DCMM国家标准的发布对促进我国数据产业的发展有着重要的意义。

    • 通过DCMM评估,有利于帮助企业更加熟练地管理数据资产,增强数据管理和应用的能力,并提供一致和可比较的基准,以衡量一段时间内的进展。

    • 通过DCMM评估,有利于帮助企业理清数据管理能力的长处和不足在哪里,帮助企业确定选择治理的优先顺序、治理范围和内容,更有效地管理和使用数据。

    • 通过DCMM评估,有利于帮助企业建立与企业发展战略相匹配的数据管理能力体系,包含组织体系、制度体系、标准体系以及工具和技术体系等。

    • 通过DCMM评估,有利于帮助企业建立数据管理和应用的队伍,培养数字化人才,有利于推动数据思维和数据意识的建立。

    可能有人要问:DCMM真的这么好吗?

    个人认为:DCMM可以作为企业数据管理能力建设的指导性工具,也仅是一个工具,能否有助于实现上文描述的“四个有利于”,关键要看怎么用。DCMM评估,你是用它来获取高级别的认证,还是真正的寻找和改进企业数据管理和应用方面不足,这是两个层面的出发点,出发点不同结果是显而易见的。

     

    写在最后的话

    笔者经常讲企业做数据治理一定要想好数据治理的目标,不要“为了治理而治理”。

    DCMM评估也一样,一定要想清楚:Why——为什么评估。评估是为了找到数据管理中的实际问题、不足,或优势,是为了更好的管理和应用好数据,从而为企业的数字化提供更好的支撑。

    数据管理能力成熟度的评估不是为了更“别人”争长短、较高低,不要为了获得更高的评价等级,将其作为一场“政治”竞赛。要通过数据管理成熟度的评估,真正发现问题、找到差距、提出改进方案和最佳路径,帮助企业实现数字化转型。

    本文章的首发平台是微信公众号,请用微信扫描以下二维码关注谈数据,第一时间获得谈数据的最新文章

    图片

    展开全文
  • 【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702为好友后入群。新开招聘交流群,请关注【与数据同行】公众号,后台回...
  • 个人认为主数据管理项目从咨询规划到落地实施再到初步见效需要经历四个阶段,而每个阶段都是必经阶段,每个阶段均可独立成章,所以这里是四部曲,不是四步曲。 主数据项目建设从方法上,分为以下四部,简单归结为12...
  • 前言随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多,概念容易混淆,...
  • 大数据平台-元数据管理系统解析

    万次阅读 多人点赞 2018-03-14 09:25:24
    什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据数据,广义的来看,...管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和使用...
  • Atlas(1):前言-从元数据到元数据管理

    万次阅读 2021-01-08 20:07:37
    数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。 “元数据管理是企业数据治理的基础”,在...
  • 数据管理系统设计

    千次阅读 2019-08-15 10:55:43
    文章目录元数据管理系统设计1. 数据表管理模块2. 模型管理模块2.1 数据表模型管理2.2 SQL模型3. 维度管理模块4. 指标管理模块 元数据管理系统设计 1. 数据表管理模块 数据表信息维护需要如下信息: 表的元数据...
  •     数据库技术是应数据管理任务的需要而产生的。数据管理是指对数据进行分类、组织、编码、存储、检索和维护,它是数据处理的中心问题。而数据的处理是指对各种数据进行收集、存储、加工和传播的一系列活动的...
  • 一篇文章搞懂数据仓库:元数据分类、元数据管理

    千次阅读 多人点赞 2020-12-31 15:41:39
    业务元数据 描述 ”数据”背后的业务含义 主题定义:每段 ETL、表背后的归属业务主题。 业务描述:每段代码实现的具体业务逻辑。 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化...
  • 数据管理系统产品选型分析 1 概述 需要给目前数据仓库适用一套元数据管理系统,目的 减少人为的维护工作量、web页面协同工作(多人统一入口使用)、元数据权限管理等 1.1 应用背景 目前数据仓库没有专业的元...
  • 数据管理系统

    千次阅读 2019-01-10 16:53:00
    数据标准是元数据管理中很重要的内容,但是建立有效的数据标准并落地,是有一定难度的,传统的元数据管理的模式需要建立一套规范元数据模型,即使企业实际元数据模型中有上万个字段,也需要将每个字段于规范元数据...
  • 数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical ...
  • 数据仓库(五)元数据管理

    万次阅读 多人点赞 2018-09-20 21:47:03
    概述 元数据通常定义为”关于数据的...元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。  元数据类型   1.业务元数据  业务元数据指从业务角度描述业务...
  •   数据库技术是应数据管理任务的需求而产生的,在应用需求的驱动下,在计算机硬件,软件发展的基础上,数据管理技术经历了人工管理,文件系统,数据库系统三个阶段。  接下来我们一起来看看这三个阶段     一....
  • 企业主数据管理简介

    千次阅读 2018-08-07 16:47:24
    它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中,如统一账户系统、客户关系管理系统、ERP系统等。 企业主数据可以包括很多方面,除了常见的客户主数据之外...
  • DAMA数据治理知识体系解读

    千人学习 2020-10-07 09:36:13
    DAMA做为全球知名的数据管理、数据治理知识体系的贡献者,获得DAMA CDMP认证成为职业晋级的核心能力和标志。 本课程以《DAMA 数据管理知识体系指南》(DAMA-DMBOK2)为蓝本,本教材也是DAMA CDMP认证指定核心教材。...
  • 而飞行数据本身基本采用文件夹的方式手动管理,这样不利于原始数据管理和资源共享。 本文通过分析无人机飞行数据类型及特征,建立飞行项目关系数据库,基于POS数据恢复飞行照片的地理位置,基于项目管理的方式对...
  • 数据管理 做它的出发点 它是一个简单工具类微信小程序 用于企业数据管理能力成熟度的初步评估 做它的理论依据 通过收集企业数据管理能力相关现状数据 结合业界现有评估模型, 给出结果模型展示图 评估模型, ...
  • 数据治理的内涵逐步泛化是业界共识 企业数据治理,涵盖数据发现可用、数据及时稳定产出、数据质量保障、...数据管理管理中,要保证一个组织已经将数据转换成有用的信息,这项工作所需要的流程和工具就是数据治理的工作
  • 数据管理技术的发展历程

    千次阅读 2018-02-28 15:11:36
    没有专用软件对数据进行管理 只有程序的概念,没有文件的概念 数据面向程序 由于在这一阶段,计算机主要用于计算,并不存储数据。重要的原因是没有存储设备,软件工程也不成熟。数据和程序并不是相互独立的,即...
  • Apache Atlas元数据管理从入门到实战

    千人学习 2019-04-13 10:48:48
    课程概述: 本课程是大数据全栈工程师实战课程之一,有具有十几年一线技术研发经验的资深数据专家讲师录制,通过一个完整开源框架Apache Atlas元数据管理平台的系统介绍,带领大家体验元数据管理的系统架构、功能...
  • 数据管理工具atlas初探

    万次阅读 2018-05-31 16:49:42
    数据管理工具atlas初探 安装: Ambari添加服务(略) Hive配置: 将atlas主节点/usr/hdp/2.6.3.0-235/atlas/hook拷贝到其他节点。 自定义hive-env,HIVE_AUX_JARS_PATH =/usr/hdp/2.6.3.0-235/atlas/hook...
  • 信息技术研究和顾问公司Gartner发布的数据管理技术成熟度曲线将帮助首席信息官、首席数据官及其它数据与分析高级管理人员了解他们正在评估的数据管理技术的成熟度,以便在企业机构的内部构建内聚性数据管理生态系统...
  • 数据管理(MDM)的一些概念

    万次阅读 2017-02-23 18:05:26
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范...
  • Python数据分析实战-Pandas

    千人学习 2019-12-02 10:54:20
    Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,掌握其使用方法,是使用Python进行数据分析和数据挖掘的必备条件。        ...
  • 熟练掌握主流数据库管理系统(DBMS)中的数据定义、数据控制与数据操作方法,提升就业竞争力。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,684,885
精华内容 1,473,954
关键字:

数据管理