元数据 订阅
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。 [1] 展开全文
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元数据的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员、电脑专家,共同制定规格,创建一套描述网络上电子文件之特征。元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。 [1]
信息
优    点
自描述,设计
外文名
Metadata
拼    音
yuánshùjù
本    质
描述数据属性的信息
中文名
元数据
目    的
识别、评价、追踪资源达有效管理
解    释
关于数据的数据
元数据定义
元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有:a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。软件构造领域的定义在软件构造领域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。在图书馆与信息界,元数据被定义为:提供关于信息资源 或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。元数据这一术语实际用于各种类型信息资源的描述记录。此外,元数据在地理界,生命科学界等领域也有其相应的定义和应用。
收起全文
精华内容
下载资源
问答
  • 数据治理系列2:元数据管理—企业数据治理的基础

    万次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统...

     

    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。元数据管理是企业数据治理的基础。

    认识元数据

    元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据的数据。这么说对于没有技术背景的人来说还是比较抽象的,我给大家举几个例子。

     

     

    在我之前写的一篇文章《关于“数据”的一些概念的整理和总结》中,有一个关于元数据的例子,歌曲《小芳》中有一段台词:“村里有个姑娘叫小芳,长得好看又善良” 这首耳熟能详的歌,我们分析一下,姓名:小芳、性别:姑娘(女)、长相:好看、性格:善良,住址:村里。这里面,小芳是被描述的对象也就是我们所谓的实体数据,而姓名、性别、长相、性格、住址就是描述“小芳”的元数据。

    再举个栗子:元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。

    再举个栗子:元数据好比“字典”,针对每个字都注音、含义、组词、举例等信息,同时也有关于字体结构、相关引用、出处等。另外,我们可以通过拼音、偏旁部首都能查到这个字。所有的这些信息都是对这个字的详细描述,那这些信息就是描述这个字的元数据。

    再举个栗子:元数据就如“地图”,通过这张“地图”能够找到你所处的地点,以及你从哪来来,到哪里去,途中都需要路过哪些地方……

    这下大家理解了吧,元数据是对数据的结构化描述,使得数据更容易理解、查找、管理和使用。

    元数据的分类

    根据数据的性质特点,业内一般将元数据划分为三类:业务元数据、技术元数据和管理元数据。

     

     

    业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等。

    技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等。

    管理元数据描述了数据的管理属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。

     

    表:元数据分类实例

    元数据类型

    元数据描述

    元数据实例

     业务定义

     数据的含义

     客户的完整名称,并具有法律效力

     业务规则

    数据录入规则

     企业的营业执照、组织机构代码证书,统一社会信用代码证书等具有法律效力的证明文件中的中文名称全称

     

     识别规则

    企业的组织机构代码或者统一社会信用代码或者统一纳税号必须完全匹配,则认为是同一客户。

     

     质量规则

     客户名称为非空,并且与营业执照的中文名称一致

    存储位置

    数据的存储什么地方

    ERP系统

    数据库表

    存储数据的库表名称和路径

    ERP/Customers

    字段类型

    数据的技术类型

    字符型

    字段长度

    数据存储的最大长度

    [200]

    更新频率

    数据的更新频率

    每年更新一次

    管理部门

    数据责任部门

    客户管理部

    管理责任人

    数据责任部门

    客户管理部业务员

     

    元数据管理成熟度

    在实施元数据管理的过程中,可以参照元数据管理的成熟度模型确定企业当前元数据管理所在层次,并根据业务需要制定路线图实现元数据管理水平的提升。下图是元数据管理成熟度模型:

     

     

    元数据管理成熟度评估模型

    • L0: 初始状态

    元数据分散于日常的业务和职能管理中,由某个人或某一组人员在局部产生或获取,并在局部使用。在局部环境工作数月或数年后,人们使这些元数据以及对它的理解内在化,使对这种信息有习惯性的理解。这些元数据会永远保存在某个人那儿,一旦这个人调离,这些元数据将永远消失。

    • L1: 从属于业务系统

    在这个阶段,随着各个业务系统自动化构建完成,相应的元数据也随着需求整理、设计、开发、实施和维护等过程被各个业务系统孤立的全部或部分管理起来。业务元数据可能分散在各种业务规章、流程规定、需求、需求分析和概要设计等文档以及业务系统中,技术元数据可能分散在详细设计、模型设计和部署方案等各种文档和各种中间件以及业务系统中。由于各个业务系统处于一个个竖井之中,元数据之间互通互联困难,如果需要获取其他系统的元数据,除了调阅各种文档外,对分散在各种中间件和业务系统中的技术元数据需要一定的集成方式实现互通互联。

    • L2:元数据统一存储

    元数据依然在局部产生和获取,但会集中到中央存储库进行存储,业务元数据会手工录入到中央存储库中,技术元数据分散在文档中的部分也通过手工录入到中央存储库中,而散落在各个中间件和业务系统中的技术元数据则通过数据集成的方式被读取到中央存储库中。业务元数据和技术元数据之间全部或部分通过手工方式做了关联。中央存储库的构建,使得元数据在整个企业层面可被感知和搜索,极大地方便了企业获取和查找元数据。缺点是,元数据仍然在各业务系统上维护,然后更新到中央存储库,各业务竖井之间仍然使用不同的命名法,经常会造成相同的名字代表不同意义的事情,而同一件事情则使用了多个不同的名字,有些没有纳入业务系统管理的元数据则容易缺失。元数据没有有效的权限管理,局部元数据更改后也不自动通知其他人。

    • L3: 元数据集中管理

    在 L2 的基础上做了改进,增强了元数据的集中控制,局部业务单元或开发小组如不事先通知其他人,将无法对元数据进行修改。局部元数据的修改完成后将被广播给其他人。和其他中间件和应用系统的交互,仍然通过桥集成的方式进行,中央存储库中的业务元数据和技术元数据之间还是通过手工方式进行映射。

    • L4:元模型驱动管理

    在 L3 的基础上,通过构建元模型以及元元模型,优化各业务单元之间的各种冲突和各种副本,创建、管理和共享业务词汇表和分类系统(基于主题领域的层次结构)。业务词汇表(业务元数据)包含与企业相关的词汇、词汇业务含义以及词汇与信息资产(技术元数据)的关系,可以有效帮助企业用户了解其业务元数据和技术元数据对应的业务含义。分类是基于主题领域的层次结构,用以对业务术语归类。和其他中间件和应用系统的交换,通过基于 CWM 的适配器方式进行连接。

    • L5: 元数据管理自动化

    在 L5 元数据管理是高度自动化的,当逻辑层次元数据变更时,会被传播到物理层次,同样物理层次变更时逻辑层次将被更新。元数据中的任何变化将触发业务工作流,以便其他业务系统进行相应的修改。由于各个业务系统遵照相同的业务词汇表和分类系统(元模型),他们之间的关系可以通过知识本体进行推断,因此各个应用系统之间的数据格式的映射自动产生。

     

    元数据管理平台架构

    元数据管理平台从应用层面,可以分类:元数据采集服务,应用开发支持服务,元数据访问服务、元数据管理服务和元数据分析服务。

     

     

    元数据采集服务

    在数据治理项目中,通常涉及到的元数据还包括:数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据等等。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。目前市场上的主流元数据产品还没有哪一家能做到“万能适配”,都需要在实际应用过程中做或多或少的定制化开发。

    元模型驱动的设计与开发

    通过元数据管理平台实现对应用的逻辑模型、物理模型、UI模型等各类元模型管理,支撑应用的设计和开发。应用开发的元模型有三个状态,分别是:设计态的元数据模型,通常由ERWin、PowerDesigner的等设计工具产生。测试态的元数据模型,通常是关系型数据:Oracle、DB2、Mysql、Teradata等,或非关系型数据库:MongDB、HBase、Hive、Hadoop等。生产态的元模型,本质上与测试态元数据差异不大。通过元数据平台对应用开发三种状态的统一管理和对比分析,能够有效降低元数据变更带来的风险,为下游ODS、DW的数据应用提供支撑。另外,基于元数据的MDD(代码生成服务),可以通过模型(元数据)完成业务对象元数据到UI元数据的关联和转换,自动生成相关代码,表单界面,减少了开发人员的设计和编码量,提升应用和服务的开发效率。

     

    元数据管理服务

    市场上主流的元数据管理产品,基本都包括:元数据查询、元模型管理、元数据维护、元数据版本管理、元数据对比分析、元数据适配器、元数据同步管理、元数据生命周期管理等功能。此类功能,各家产品大同小异,此处不再赘述。

    元数据访问服务

    元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持REST或Webservice等接口协议。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

     

    元数据分析服务

     

    血缘分析:是告诉你数据来自哪里,都经过了哪些加工。其价值在于当发现数据问题时可以通过数据的血缘关系,追根溯源,快速地定位到问题数据的来源和加工过程,减少数据问题排查分析的时间和难度。这个功能常用于数据分析发现数据问题时,快速定位和找到数据问题的原因。

     

    影响分析:是告诉你数据都去了哪里,经过了哪些加工。其价值在于当发现数据问题时可以通过数据的关联关系,向下追踪,快速找到都哪些应用或数据库使用了这个数据,从而避免或降低数据问题带来的更大的影响。这个功能常用于数据源的元数据变更对下游ETL、ODS、DW等应用应用的影响分析。

     

    冷热度分析:是告诉你哪些数据是企业常用数据,哪些数据属于“僵死数据”。其价值在于让数据活跃程度可视化,让企业中的业务人员、管理人员都能够清晰的看到数据的活跃程度,以便更好的驾驭数据,激活或处置“僵死数据”,从而为实现数据的自助式分析提供支撑。

     

    关联度分析:是告诉你数据和其他数据的关系以及它们的关系是怎样建立的。关联度分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度,如:表与ETL 程序、表与分析应用、表与其他表的关联情况等。本功能可以用来支撑需求变更的影响评估。

     

    数据资产地图:是告诉你有哪些数据,在哪里可以找到这些数据,能用这些数据干什么。通过元数据可以对企业数据进行完整的梳理、采集和整合,从而形成企业完整的数据资产地图。数据资产地图支持以拓扑图的形式进行可视化展示各类元数据和数据处理过程,通过不同层次的图形展现粒度控制,满足业务上不同应用场景的数据查询和辅助分析需要。

     

    元数据管理价值

     

    一图在手,天下我有

    通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置或个人电脑的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息,数据和人之间的关系信息,数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。

     

    追根溯源,发现数据问题本质

    企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。

     

    模型驱动,敏捷开发

    基于元数据模型的数据应用规划、设计和开发是企业数据应用的一个高级阶段。当企业元数据管理达到一定水平(实现自动化管理的时候),企业中各类数据实体模型、数据关系模型、数据服务模型、数据应用模型的元数据统一在元数据平台进行管理,并自动更新数据间的关联关系。基于元数据、可扩展的MDA,才是快速满足企业数据应用个性化定制需求的最好解决方案。通过将大量的业务进行模型抽象,使用元数据进行业务描述,并通过相应的模型驱动引擎在运行时驱动,使用高度抽象的领域业务模型作为构件,完成代码转换,动态生成相关代码,降低开发成本,应对复杂需求变更。

     

     

    总结:

    元数据是企业数据资源的应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据战略规划、数据模型设计、数据标准管理、主数据管理、数据质量管理、数据安全管理以及数据的全生命周期管理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。企业以元数据为抓手进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

     

    展开全文
  • 数据元与元数据

    万次阅读 多人点赞 2019-06-05 17:35:22
    元数据:描述其它数据的数据(data about other data) 元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映...

    元数据:描述其它数据的数据(data about other data)

    元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。

    元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。

    在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。

    举个例子:在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影:

    Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot & Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Literature(书面内容)、Other Data(其他信息)。

    元数据最大的好处是,它使信息的描述和分类可以实现结构化,从而为机器处理创造了可能。

    数据元:可理解为数据的基本单元

    卫生信息基本数据元规范和定义了医药卫生领域所有相关信息的唯一中文名称与代码,并且代码以字母、汉字、数字式的字符串形式表示。

    数据元列举并定义了特定语义环境中的一种信息资源。

    完整的数据元名称=对象类术语+特征类术语+表示类术语+(限定类术语)

    其中:

    一个数据元有且仅有一个对象类术语(object class):是现实世界或抽象概念中事物的集合,有清楚的边界和含义,因其特性和行为遵循同样的规则而能加以标识。

    一个数据元有且仅有一个特征类术语(property):是对象类的所有个体所共有的某种性质,也是对象有别于其他成员的依据,是用来区分和识别事物的一种手段。特征类术语是任何一个数据元名称所必须的成分,在数据元概念可完整、准确、无歧义表达的情况下,其他术语可以酌情简略。

    一个数据元有且仅有一个表示类术语(representation):是值域、数据类型和表示方式的组合,也包括计量单位和字符集等信息。当表示类术语与特征类术语有重复或部分重复时,可从名称中将冗余词删除。

    限定类术语由专业领域给定,限定类术语是可选的。

    数据元基本模型

    数据元与元数据的区别和联系

    1. 元数据不可能涵盖理解数据元所要表示的数据所必需的所有信息。

    2. 数据元的相关信息是任何一个(组织的)元数据的一个完整的组成部分。

    3. 元数据的每一个元素都是一个数据元,用符合数据元标准的元数据属性和描述方法来说明元数据。

    4. 将元数据存储于一个库中,并使之条理化就需要建模,建模就需要从数据元的注册系统中或库中获取元数据。

    5. 元数据,它是以一种一致、标准的方式来表达的数据元。

    6. 元数据与数据元字典格式均由行号、中文名称、英文名称、标识符(短语)、定义、约束/条件、最大出现次数、数据类型、数据的值域等属性组成。不同之处是数据元字典格式中另有语境和同义词名称等属性。

    总而言之,元数据和数据元的定义是从不同角度论述的。由于描述的侧重面不同,元数据和数据元的描述属性也有些区别,但是元数据和数据元的字典格式是基本一致的。

    ------------------------------------------------------------------------------------------------

    1元数据Metadata

    1.1元数据概念

    1、主要是描述数据属性(property)的信息;

    2、描述数据的数据;

    3、关于数据的结构化数据;

    4、描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等信息,是数据和数据用户之间的桥梁。

    举例:

    学生信息表包括:姓名、性别、学号等。

    姓名、性别、学号都是数据元,但是这些数据元有自己的元数据,即描述数据,分别是长度、类型、值域等。

    对于学生信息表而言,姓名、性别、学号是描述学生信息的数据,是它的元数据。

    数据是手提箱,而元数据是它上面的标牌。

    数据是文件夹,而元数据是文件夹上面的标签。

    1.2元数据的作用

    1、数据描述:对信息对象的内容属性等的描述能力是元数据最基本的功能。

    2、数据检索:支持用户发现资源的能力,即利用元数据来更好地组织信息对象建立他们之间的关系为用户提供多层次多途径的检索体系,从而有利于用户便捷快速的发现其真正需要的信息资源。

    3、数据选择:支持用户在不必浏览信息对象本身的情况下能够对信息对象有基础的了解和认识从而决定对检出信息的取舍。

    4、数据定位:提供信息资源本身的位置方面的信息,如DOI、URL、URN等信息,由此可准确获知信息对象之所在,便于信息的获取。

    5、数据管理:保存信息资源的加工存档结构使用管理等方面的相关信息权限管理版权、所有权、使用权、防伪措施、电子水印、电子签名等。

    6、数据评估:保存资源被使用和被评价的相关信息,通过对这些信息的使用分析,方便资源的建立与管理者更好的组织资源并在一定程度上帮助用户确定该信息资源在同类资源中的重要性。

    2数据元(Data element)

    2.1数据元概念

    1、用一组属性描述定义、标识、表示和允许值的数据单元。

    2、又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。

    3、数据元一般由三部分组成:对象、特性、表示

    举例:

    “执业类别代码”为数据元,“01”为数据元的值。

    “执业类别代码”中,“执业”为对象词,“类别”是该数据元的特性词,“代码”是该数据元的表示词。

    2.2数据元的作用

    1、数据元本身也是数据单元,即也是数据。

    2、它是一个用来对各行业的数据进行自身规范化的一个方法或一套指导的理论。

    3、用这一套方法对行业数据进行统一的名、型、值规范及分类。

    4、规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础,同时它也为数据交换奠定基础。

    3元数据管理

    3.1元数据管理的建设目标

    3.2元数据管理的范围

    4资源目录

    4.1资源目录要解决的问题

    4.2业务流程示意图

    4.3资源目录功能特点

    5参考资料

    https://baike.baidu.com/item/%E5%85%83%E6%95%B0%E6%8D%AE/1946090?fr=aladdin

    https://wenku.baidu.com/view/9789bb30f68a6529647d27284b73f242336c31ff.html

    https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%85%83/7681154?fr=aladdin

    展开全文
  • 一篇文章搞懂数据仓库:元数据分类、元数据管理

    千次阅读 多人点赞 2020-12-31 15:41:39
    业务元数据 描述 ”数据”背后的业务含义 主题定义:每段 ETL、表背后的归属业务主题。 业务描述:每段代码实现的具体业务逻辑。 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化...

    目录

    1、业务元数据

    2、技术元数据

    3、管理元数据

    4、小编有话


    1、业务元数据

    1. 描述数据背后的业务含义

    2. 主题定义:每段 ETL、表背后的归属业务主题。

    3. 业务描述:每段代码实现的具体业务逻辑。

    4. 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。

    5. 标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。

    6. 不断的进行维护且与业务方进行沟通确认。

    2、技术元数据

    • 数据源元数据
      • 例如:数据源的 IP、端口、数据库类型;数据获取的方式;数据存储的结构;原数据各列的定义及 key 指对应的值。
    • ETL 元数据
      • 根据 ETL 目的的不同,可以分为两类:数据清洗元数据数据处理元数据
      • 数据清洗,主要目的是为了解决掉脏数据及规范数据格式;因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。
      • 数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。
    • 数据仓库元数据
      • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式等。
    • BI 元数据
      • 汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、聚集、汇总、预定义的查询与报告。

    3、管理元数据

    管理领域相关,包括管理流程、人员组织、角色职责等。

     

    4、小编有话

    在日常工作中,元数据的管理主要体现在元数据的采集、存储、查询、应用几个方面。原则上应从规范化,到脚本化,到工具化的方向进行建设。

    • 采集:元数据采集时尽可能详细,真实,可通过工具生成或者勾选,避免手动录入带来不规范等问题
    • 存储:存储元数据要做到不失真,元数据变更时及时同步
    • 查询:通过网页或库表等方式,方便快捷的看到元数据,辅助进行开发
    • 应用:数据血缘、优化调度依赖、数据治理等

     

    展开全文
  • 浅谈元数据管理之Atlas和Metacat

    千次阅读 2020-05-27 15:51:30
    元数据管理、血统采集、血统生命周期、数据地图、图数据库

    关键字:元数据管理、血统采集、血统生命周期、图数据库、数据地图

    元数据管理概述

    元数据是描述数据的数据(data about data),是指从信息资源中抽取出来用于描述其特征与内容的数据,从一般意义上来讲,元数据是指数据的类型、名称、和值等;在关系型数据库中,常常指数据表的属性、取值范围、数据来源,以及数据之间的关系等。
    元数据的管理有着十分重要的作用,它能够为数据用户提供完整的数据定义信息,减少数据冗余,有利于识别与查找数据。同时,能够追踪数据在数据库中发生的任何变化,帮助用户理解数据在整个血统生命周期的来龙去脉,实现简单高效地管理大数据系统中的海量数据,并且通过数据资源的有效追踪、发现、查找来挖掘大数据系统中数据的价值。
    在大数据治理活动中,元数据与元数据管理有以下要点。
    (1)数据管理
    数据管理要求能够追踪数据的整个生命周期,包括数据的来源、数据的修改与删除,并能够支持快速的检索。
    (2)元数据建模
    元数据建模通过结合标签与数据属性的方式来更好地理解数据及生命周期,从而实现对元数据的快速建模。
    (3)易于交互的解决方案
    通过建立统一的、贯穿Hadoop生态系统的元数据库,定义统一的元数据标准,为系统中不同组件的元数据信息进行交互提供基础。

    元数据管理工具Apache Atlas

    Apache Atlas是一个可伸缩和可扩展的元数据管理工具与大数据治理服务,其设计的目的是为了与其他大数据系统组件交换元数据,改变以往标准各异、各自为战的元数据管理方式,构建统一的元数据库与元数据定义标准,并且与Hadoop生态系统中各类组件相集成,建立统一、高效且可扩展的元数据管理平台。
    对于需要元数据驱动的企业级Hadoop系统来说,Apache Atlas提供了可扩展的管理方式,并且能够十分方便的支持对新的商业流程和数据资产进行建模。其内置的系统类型(Type System)允许Atlas与Hadoop大数据生态系统之内或之外的各种大数据组件进行元数据交换,这使得建立与平台无关的大数据管理系统成为可能。同时,面对不同系统之间的差异以及需求的一致性问题,Atlas都提供了十分有效的解决方案。
    Atlas能够在满足企业对Hadoop生态系统的预设要求的条件下,高效地与企业的平台的所有生态系统组件进行集成。同时,Atlas可以应用预先设定的模型在Hadoop中实现数据的可视化,提供易于操作的审计功能,并通过数据血统查询来丰富企业的各类商业元数据。它也能够让任何元数据消费者与其相互协作而不需要在两者之间构建分离的接口。另外,Atlas中的元数据的准确性和安全性由Apache Ranger来保证,Ranger能够在运行时阻止那些不具备权限的数据访问请求。

    Apache Atlas提供的大数据治理的核心治理服务

    1、元数据交换:允许从当前的组件导入已存在的元数据或模型到Atlas中,也允许导出元数据到下游系统中。
    2、数据血统采集:Atlas在平台层次上,针对Hadoop组件抓取数据血统信息,并根据数据血统间的关系构建数据的血统生命周期。
    3、数据血统生命周期可视化:通过Web服务将数据血统生命周期以可视化的方式展现给客户。
    4、快速数据建模:Atlas内置的类型系统允许通过继承已有类型的方式来自定义元数据结构,以满足新的商业场景的需求。
    5、丰富的API:提供了目前比较流行且灵活的方式,能够对Atlas服务、HDP组件、UI及外部组件及外部组件进行访问。

    Apache Atlas的主要特性

    1、数据分类
    (1)Atlas提供了导入或定义数据注释的功能,这些数据注释可以根据具体的商业业务分类来定义。通过这些分类后的数据注释,可以实现数据分类的功能。
    (2)Atlas提供了定义、添加注释以及自动获取数据集与基础元素之间关系的功能,这些基础元素包括数据源、数据目标及其衍生的过程。
    (3)向第三方系统导出元数据。
    2、集中审计
    (1)对于每一个访问数据的应用以及交互过程,Atlas会抓取其安全访问信息。
    (2)对于每一个执行的操作活动及其具体步骤,Atlas能够将这些操作信息抓取下来。
    3、搜索与数据血统
    (1)在Atlas中,用户可以预先定义访问路径,并通过这些路径来浏览数据分类与数据审计的信息。
    (2)用户利用Atlas全文搜索这一特性,可以快速与准确地定位相关数据及审计事件。
    (3)可视化的数据血统允许用户深入挖掘数据具体的来源、操作方式以及安全策略等整个数据血统生命周期中的各类信息。
    4、安全与策略引擎
    (1)基于数据分类的计划、属性和角色,Atlas使得数据管理策略间的关系更加合理化。
    (2)通过数据分类,Atlas也支持自定义策略以防止数据不适当的衍生
    (3)通过数据表项中的值或者属性,Atlas支持对数据表中的列或者行添加标签。

    Apache Atlas 架构

    Apache Atlas的各组成部分的架构图如下图所示。
    Atlas 架构图
    1、元数据源(Metadata Sources)
    Atlas支持与多种数据源相互整合,在未来会有更多的数据源被整合到Atlas之中。目前,导入与管理的数据源有Hive、Sqoop、Falcon、Storm和Hbase。
    这意味着:在Atlas中定义了原生的元数据模型来表示这些组件的各种对象;Atlas 中提供了相应的模块从这些组件中导入元数据对象,包括实时导入(HOOK)和批处理 (Batch)导入两种方式。
    2、应用简介(Apps)
    在Atlas的元数据库中存储着各种组件的元数据,这些元数据将被各式各样的应用所使用,以满足各种现实业务与大数据治理的需要。
    (1) Atlas管理界面:作为其中的一个应用是基于Web UI方式的,它允许管理员与数据科学家发现元数据信息和添加元数据注解。在诸多主要的功能中,Atlas提供了搜索接口与类SQL语言,这些特性在Atlas的架构中扮演着十分重要的角色,它们能够被用于查询Atlas中的元数据类型和对象。另外,该管理界面使用Atlas的REST API来构建它的功能。
    (2)基于各种策略的标签验证:对于整合了诸多Hadoop组件的Hadoop生态系统, Apache Ranger是一个高级安全解决方案。通过与Atlas整合,Ranger允许管理员自定义元数据的安全驱动策略来对大数据进行高效的治理。当元数据库中的元数据发生改变时,Atlas会以发送事件的方式通知Ranger。
    (3)商业业务分类:从各类元数据源中导入Atlas的元数据以最原始的形式存储在元数据库中,这些元数据还保留了许多技术特征。为了加强挖掘与治理大数据的能力,Atlas提供了一个商业业务分类接口,允许用户对其商业领域内的各种术语建立一个具有层次结构的术语集合,并将它们整合成能够被Atlas管理的元数据实体。商业业务分类这一应用,目前是作为Atlas管理界面的一部分而存在的,它通过REST API来与Atlas 集成。
    3、集成交互模块(Integration)
    Atlas提供了两种方式供用户管理元数据。
    (1)API : Atlas的所有功能都可以通过REST API的方式暴露给用户,以便用户可以对 Atlas中的类型和实体进行创建、更新和删除等操作。同时REST API也是Atlas中查询类型和实体的主要机制。
    (2)消息(Messaging)系统:除了 REST API,用户可以选择基于Kafka的消息接口来与Atlas集成。这种方式有利于与Atlas进行元数据对象的交换,也有利于其他应用对Atlas中的元数据事件进行获取和消费。当用户需要以一种松耦合的方式来集成Atlas时,消息系统接口变得尤为重要,因为它能提供更好的可扩展性和稳定性。在Atlas中,使用Kafka作为消息通知的服务器,从而使得上游不同组件的钩子(HOOK)能够与元数据事件的下游消费者进行交互。这些事件被Atlas的钩子所创建,并冠以不同的Kafka主题。
    4、核心(Core)模块
    在Atlas的架构中,其核心组成部分为其核心功能提供了最为重要的支持。
    (1)类型系统(Type System) : Apache Atlas允许用户根据自身需求来对元数据对象进行建模。这样的模型由被称为“类型”(Type)的概念组成,类型的实例被称为“实体” (Entity),实体能够呈现出元数据管理系统中实际元数据对象的具体内容。同时,Atlas中的这一建模特点允许系统管理员定义具有技术性质的元数据和具有商业性质的元数据,这也使得在Atlas的两个特性之间定义丰富的关系成为可能。
    (2)导入/导出(Ingest/Export) : Atlas中的导入模块允许将元数据添加到Atlas中,而导出模块将元数据的状态暴露出来,当状态发生改变时,便会生成相应的事件。下游的消费者组件会获取并消费这一事件,从而实时地对元数据的改变做出响应。
    (3)图引擎(Graph Engine):在Atlas内部,Atlas使用图模型(一种数据结构)来表示 元数据对象,这一表示方法的优势在于可以获得更好的灵活性,同时有利于在不同元数据 对象之间建立丰富的关系。图引擎负责对类型系统中的类型和实体进行转换,并与底层图 模型进行交互。除了管理图对象,图引擎也负责为元数据对象创建合适的索引,使得搜索 元数据变得更为高效。
    (4)Graph Engine:在内部,Atlas保留使用Graph模型管理的元数据对象。这种方法提供了极大的灵活性,并可以有效处理元数据对象之间的丰富关系。图引擎组件负责在Atlas类型系统的类型和实体以及基础图持久性模型之间进行转换。除了管理图形对象外,图形引擎还为元数据对象创建适当的索引,以便可以有效地搜索它们。Atlas使用JanusGraph(图数据库)存储元数据对象。默认情况下,Atlas使用独立的HBase实例作为JanusGraph(图数据库)的后备存储。为了为元数据存储提供HA,我们建议将Atlas配置为使用分布式HBase作为JanusGraph(图数据库)的后备存储。这样做意味着您可以从HBase提供的HA保证中受益。Atlas通过JanusGraph(图数据库)索引元数据以支持全文本搜索查询,为了为索引存储提供HA,官方建议将Atlas配置为使用Solr或Elasticsearch作为JanusGraph(图数据库)的后备索引存储,从而提高搜索的效率。

    Apache Altas的技术优势

    1、定义统一的元数据标准
    元数据的标准大致可以分为两类:一类是指元数据建模,即对将来的元数据的建模规范进行定义,使得元数据建模的标准在制定之后,所产生的元数据都以统一的方式建模和组织,从而保证了元数据管理的一致性。另一类是指元数据的交互,是对已有的元数据组织方式以及相互交互的格式加以规范定义,从而实现不同组件、不同系统之间的元数据交互。
    Apache Atlas核心中的Type System (类型系统)为定义统一的元数据标准提供了最重 要的支持。在Atlas的类型系统中定义了 3个概念,分别是类型、实体和属性。若将其与面向对象语言中的类、对象和属性类比,这3个概念就变得十分易于理解了。
    在类型系统中,类型是对某一类元数据的描述,定义了某一类元数据由哪些属性组成, 属性的属性值也需要定义为某一类型。在元数据管理的实际应用中,Atlas从数据源获取某一个元数据对象时,会根据其隶属的类型建立相应的实体,这个实体就是该元数据对象在 Atlas中的表示。
    在Atlas的类型系统中,元型可分为基本元型、集合元型、复合元型,所有的类型都 是基于这些元型来定义的。同时,Atlas中也提供了若干预置的类型,用户可以直接使用这些类型,或者通过继承的方式来复用这些类型。正是由于所有类型的背后都是统一的元型, 并且所有类型都是继承自某些预置的类型,这实际上就给元数据对象的建模定义了标准。 这样统一的规范和标准使得高效且可靠的元数据交换成为可能。
    2、高效的元数据获取与交换体系
    为了建立可扩展、松耦合的元数据管理体系,Apache Atlas支持多种元数据获取方式,并且针对大数据生态系统中的不同组件,其元数据的获取方式是相互独立的,这就满足了大数据系统高内聚和低耦合的要求。另外,Apache Atlas的元数据库是唯一的,统一的元数据库保证了元数据的一致性,减少了元数据交换过程中不必要的转换,使不同组件之间的元数据交换高效而稳定。
    Apache Atlas获取元数据包括Batch批处理和HOOK两种方式。对于通过Batch批处理的方式获取元数据。在该方式中,Atlas允许用户执行某一脚本获取相应组件的元数据信息,将该组件的元数据信息更新到元数据库中。即,当用户不执行获取元数据的脚本时,相应组件的数据变更不会导致Atlas元数据库中的信息变更;当用户执行获取元数据的脚本时,相应组件中若存在数据的变更,Atlas就会将其所有新增的元数据信息存入元数据库中。
    对于通过HOOK的方式获取元数据,针对每一种组件,都有相应的HOOK,用户可以根据自身需要针对不同组件对HOOK进行配置。当配置完成后,相应组件的HOOK会监听该组件的各种操作,一旦该组件的状态发生变化,HOOK会自动创建相应的元数据对象,并发送给Atlas 处理。
    使用Kafka作为消息通知系统(Notification)。即不同组件只需要与Kafka进行交互,再由Kafka将元数据对象封装成消息传递给Atlas。当向Atlas元数据管理系统中添加新的大数据组件时,只需要将遵循Kafka规范的HOOK添加到系统之中,即可让Atlas对这一新的组件进行管理,从而满足了元数据管理系统的高扩展性要求。
    3、允许针对不同商业对象进行元数据建模
    以往的元数据管理组件考虑了用户的诸多需求,为用户设计了诸多的元数据类型,但这种设计思想往往也限制了元数据管理组件的应用。因为不管元数据管理组件的设计者如何高明,也难以概括实际商业场景中涉及的所有元数据对象,因此在使用以往的元数据管理组件时,用户常常会遇到实际商业场景中的元数据对象与组件提供的建模模型不匹配的情况,只能选择近似的类型对实际场景中的元数据对象进行建模,这使得元数据的管理极为不便。
    但Apache Atlas有所不同,它提供了若干的预置类型,这些类型的背后也定义了统一且易于复用的元数据对象的元型,并且允许用户通过继承的方式来创建符合实际需求的元数据类型,这就极大地满足了用户对于不同商业对象进行建模的需求,解决了其他元数据管理组件难以匹配所有商业场景中元数据对象的难题。
    4、可视化的血统采集与血统生命周期
    Apache Atlas能够通过批处理或者HOOK的方式从元数据源获取元数据信息,前者需要用户手动运行脚本来执行,后者则会自动监听相应组件的各类操作。无论采取怎样的方 式,从各类组件获取的元数据对象是十分丰富与多样的,包括血统采集的数据源和采集方式,被采集血统的结构,血统的状态变化及其相应操作,以及数据最后被删除等各种元数据对象信息。这些信息都会被包装成相应的元数据类型,并生成对应的元数据实体,通过消息通知系统发送给Atlas并存储到元数据库中。
    但Atlas并不是简单地将这一系列的元数据信息直接存入元数据库中,而是将它们之间的关系也存入元数据库中(图数据库)。同时,为了更好地表示元数据之间的关系,Atlas在其Web UI 中提供了对于数据血统的可视化显示,能够为用户提供直观且明晰的数据地图及血统生命周期, 使得用户从一幅数据血统图中就能够了解数据从进入大数据系统开始,到中间经历的各种变化,到最后从大数据系统中消亡的整个数据血统生命周期(见下图)。
    数据血统图

    元数据管理工具Netflix Metadata

    Netflix公司的数据存储在Amazon S3、Druid、Elasticsearch、Redshift、Snowflake和 MySql 中。并且需要使用Spark、Presto、Pig和Hive消费、处理和生成数据集。因为数据源的多样性,为了确保数据平台能够横跨这些数据集成为一个“单一”的数据仓库,应用而生了Metacat。Metacat是一种元数据服务,方便发现、处理和管理数据。

    Metacat的目标

    1、元数据系统的联合视图(所有数据存储的元数据访问层)
    2、用于数据集元数据的统一API(各种计算引擎可以用来访问不同数据集的集中式服务)
    3、数据集的任意业务和用户元数据存储

    Metadata应用架构

    Metacat应用架构图
    1、数据源(Data Source):支持RDS、AMAZON REDSHIFT、HIVE、Druid、Snowflke
    2、计算引擎(Compute):支持Pig、HIVE、Spark、presto

    Metacat的架构图

    Metacat架构图
    Metacat是一种联合服务,提供统一的REST/Thrift接口来访问各种数据存储的元数据。元数据存储仍然是模式元数据的事实来源,所以Metacat没有保存这部分元数据。Metacat只保存业务相关和用户定义的元数据。它还将所有关于数据集的信息发布到Elasticsearch,以便进行全文搜索和发现。
    Metacat的功能可以分为以下几类:
    1、数据抽象和互操作性
    2、业务和用户定义的元数据存储
    3、数据发现
    4、数据变更审计和通知
    5、Hive Metastore优化

    数据抽象和互操作性

    Netflix使用多种查询引擎(如Pig、Spark、Presto和Hive)来处理和使用数据。通过引入通用的抽象层,不同的引擎可以交互访问这些数据集。例如:从Hive读取数据的Pig脚本能够从Hive列类型的表中读取数据,并转成Pig类型。在将数据从一个数据存储移动到另一个数据存储时,Metacat通过在目标数据存储中创建具有目标类型的表来简化这一过程。Metacat提供了一组预定义的数据类型,可将这些类型映射到各个数据存储中的数据类型。例如,我们的数据移动工具使用上述功能将数据从Hive移动到Redshift或Snowflake。
    Metacat的Thrift服务支持Hive的Thrift接口,便于与Spark和Presto集成。我们因此能够通过一个系统汇集所有的元数据变更,并发布有关这些变更的通知,实现基于数据驱动的ETL。当新数据到达时,Metacat可以通知相关作业开始工作。

    业务和用户定义的元数据

    Metacat也会保存数据集的业务和用户定义元数据。我们目前使用业务元数据来存储连接信息(例如RDS数据源)、配置信息、度量指标(Hive/S3分区和表)以及数据表的TTL(生存时间)等。顾名思义,用户定义的元数据是一种自由格式的元数据,可由用户根据自己的用途进行定义。
    业务元数据也可以大致分为逻辑元数据和物理元数据。有关逻辑结构(如表)的业务元数据被视为逻辑元数据。我们使用元数据进行数据分类和标准化我们的ETL处理流程。数据表的所有者可在业务元数据中提供数据表的审计信息。他们还可以为列提供默认值和验证规则,在写入数据时会用到这些。
    存储在表中或分区中的实际数据的元数据被视为物理元数据。我们的ETL处理在完成作业时会保存数据的度量标准,在稍后用于验证。相同的度量可用来分析数据的成本和空间。因为两个表可以指向相同的位置(如Hive),所以要能够区分逻辑元数据与物理元数据。两个表可以具有相同的物理元数据,但应该具有不同的逻辑元数据。

    数据发现

    作为数据的消费者,我们应该能够轻松发现和浏览各种数据集。Metacat将模式元数据和业务及用户定义的元数据发布到Elasticsearch,以便进行全文搜索。我们的Big Data Portal SQL编辑器因此能够实现SQL语句的自动建设和自动完成功能。将数据集组织为目录有助于消费者浏览信息,根据不同的主题使用标签对数据进行分类。我们还使用标签来识别表格,进行数据生命周期管理。

    数据变更通知和审计

    作为数据存储的中央网关,Metacat将捕获所有元数据变更和数据更新。我们还围绕数据表和分区变更开发了通知推送系统。目前,我们正在使用此机制将事件发布到我们自己的数据管道(Keystone),以更好地了解数据的使用情况和趋势。我们也将事件发布到Amazon SNS。我们正在将我们的数据平台架构发展为基于事件驱动的架构。将事件发布到SNS可以让我们数据平台中的其他系统对这些元数据或数据变更做出“反应”。例如,在删除数据表时,我们的S3数据仓库管理员服务可以订阅这些事件,并适当地清理S3上的数据。

    Hive Metastore优化

    由RDS支持的Hive Metastore在高负载下表现不佳。我们已经注意到,在使用元数据存储API写入和读取分区方面存在很多问题。为此,我们不再使用这些API。我们对Hive连接器(在读写分区时,该连接器直接与RDS通信)进行了改进。之前,添加数千个分区的Hive Metastore调用通常会超时,在重新实现后,这不再是个问题。

    Metacat 待增强的特性

    1、模式和元数据的版本控制,用于提供数据表的历史记录。例如,跟踪特定列的元数据变更,或查看表的大小随时间变化的趋势。能够查看过去某个时刻元数据的信息对于审计、调试以及重新处理和回滚来说都非常有用。
    2、为数据lineage服务提供数据表的上下文信息。例如,在Metacat中汇总数据表访问频率等元数据,并发布到数据lineage服务中,用于对数据表的关键性程度进行排序。
    3、增加对Elasticsearch和Kafka等数据存储的支持。
    4、可插拔的元数据验证。由于业务和用户定义的元数据是自由形式的,为了保持元数据的完整性,我们需要对其进行验证。Metacat应该有一个可插拔的架构,可在存储元数据之前执行验证策略

    Atlas和Metacat的主要区别

    1、血统采集(数据源):Atlas支持数据源有Hive、Sqoop、Falcon、Storm和Hbase。Metacat支持的数据源RDS、AMAZON REDSHIFT、HIVE、Druid、Snowflke。
    Atlas血统采集是从所支持的数据源进行导入元数据,而Metacat是直接获取相对应的所支持数据库的元数据。
    2、元数据管理的模式:Atlas需要按照统一元数据规则,对元数据进行配置导入。而Metacat是直接从所支持的数据源中获取各自的元数据,对源数据库的元数据进行相应的转换,以形成元数据系统的联合视图,从而达到查询引擎交互查询不同数据系统的目的。
    Atlas的Type System满足所支持的所有数据系统元数据标准,而且它允许我们通过继承它的预定义类型来实现符合我们自己需求的元数据类型。Metacat也可以根据业务需求定义自己的元数据,但它是直接在数据源的数据库中进行定义。
    3、血统的生命周期:Altas利用图数据库提供了UI界面,可直观的看到血统的生命周期。Metacat没有相应的UI界面,它将数据集组织为目录帮助消费者浏览信息,它使用标签来识别表格,进行血统的生命周期管理。
    4、图数据库:Atlas应用了JanusGraph作为源数据的图数据库,并用Hbase作为图数据库的后备存储,同时Atlas为实现通过图数据库索引元数据以支持全文本搜索查询,官网建议将Solr或Elasticsearch作为JanusGraph(图数据库)的后备索引存储,从而提高搜索的效率。Metacat将关于元数据的所有信息存储到Elasticsearch中。
    5、数据地图:Atlas所提供的UI界面不仅可以看到血统的生命周期,而且还可以确定目标数据是由那些来源数据所形成,同时也可以定位到各个来源数据所属的数据系统甚至可以定位到那个库的那个表。Altas同时支持数据字段的来源追踪。这对数据异常的追踪和定位提供了极大的方便。Metacat可以通过Elasticsearch查询元数据的相关信息,进行相应数据管理。
    6、数据状态的检测:Atlas中的导出模块,将元数据的状态暴露出来,一旦状态发生改变,将会生成相应的事件,下游的消费者会获取到相应的事件,并实时的作出元数据状态的响应。Metacat可以对所有元数据和数据的变更进行捕获,通过消息推送系统将事件推送到外部的数据管道,来了解数据的使用情况及趋势。
    7、组件的可扩展性:Atlas扩展新的大数据组件时,只需要将组件的HOOK按照kafka的规范添加到系统中即可,这样Atlas就可以对这一新的组件进行管理。Metacat扩展新的数据源时需要进行相应的开发,这也是Metacat未来待增强的特性之一。
    8、Hive Metastore:Atlas和Metacat支持的数据源都有Hive,但Atlas使用的是传统的Hive Metastore,而Metacat对传统的Hive Metastore进行了相应的改进,避免了添加数千个分区的Hive Metastore调用时会发生超时的问题。
    9、元数据的验证:Atlas通过集成Apache Ranger来保证元数据的准确性及安全性,并能够在运行时阻止那些没有权限的数据访问请求。Metacat对于可拔插的元数据验证架构还是其将来待增强的特性之一。

    如有不当之处,请不吝赐教。

    参考文献:《大数据治理与安全:从理论到开源实践》–刘驰等编著 2017.8
    参考博客:https://www.codercto.com/a/19908.html

    展开全文
  • Java中的元数据

    千次阅读 2019-09-02 14:39:22
    元数据 也可能刚听到元数据你会有点陌生,其实任何一个使用过struts,ejb或者hibernate的开发人员都在不知不觉中使用元数据。所谓的元数据是指用来描述数据的数据,更通俗一点就是描述代码间关系,或者代码与其它...
  • Curve技术解析之MDS元数据管理

    万次阅读 2020-11-18 20:52:03
    curve简介 curve是今年7月份开源的一个⾼性能、⾼可⽤、⾼可靠的分布式存储系统,...k8s上主要是想作为计算节点的数据⽬录,这个场景⽬前在灰度环境中测试验证中。 当前curve的整个项目已经完全开源到github,感兴
  • Atlas(1):前言-从元数据元数据管理

    万次阅读 2021-01-08 20:07:37
    而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。 “元数据管理是企业数据治理的基础”,在数据治理战略实施的时候,这是我们经常会听到看到的一句话。但是...
  • 数据治理里面最关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义...
  • 元数据,一个简单的定义是描述数据的数据。在企业中,无论哪里有数据,都有相应的元数据。只有存在完整而准确的元数据,我们才能更好地理解数据并充分利用数据的价值。为了让大家更好地了解什么是元数据,亿信华辰小...
  • 数据仓库元数据介绍

    千次阅读 2018-12-04 20:56:56
    元数据(Metadata)类似于这样的电话黄页。 元数据的定义 数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据...
  • 注:本文于2019年1月31日发表于微信公众号 谈数据(learning-bigdata) ...1、数据元 1.1 标准定义 [GB/T 18391.1-2002,定义3.14] ,用一组属性描述定义、标识、表示和允许值的数据单元,数...
  • 主数据与元数据

    万次阅读 2018-07-10 12:39:51
    企业数据管理的内容和范畴通常包含交易数据、主数据以及元数据。以下主要讨论主数据、元数据的概念及应用。主数据和主数据管理的概念企业主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、...
  • 数据治理--元数据--元数据的作用

    千次阅读 2019-01-12 23:25:10
    元数据的主要作用 相信看到这个博客,您已经对什么是元数据有了一定的了解,如果还不够了解可以网上搜一下,也可以参见我的另一篇博客“数据治理--元数据--定义”,URL: ...
  • Hive元数据存储和表数据存储

    千次阅读 2020-03-19 09:53:25
    一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。 元数据包括表的属性、表的名称、表的列、分区及其属性以及表数据所....
  • 数据仓库元数据管理

    千次阅读 2018-09-21 16:11:56
    数据仓库元数据管理元数据元数据分类技术元数据业务元数据系统管理功能 元数据 元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过...
  • 今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容: •Apache Atlas简介 •Apache Atlas架构 •Titan图数据库介绍 •ApachAtlas配置 •Apache ...
  • 大数据平台-元数据管理系统解析

    万次阅读 多人点赞 2018-03-14 09:25:24
    什么是元数据?在前面的集成开发环境建设相关文章中,我们也提到过,元数据MetaData狭义的解释是用来描述数据的数据,广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息...
  • Hive元数据表结构详解

    万次阅读 2018-06-14 21:59:37
    概述 我们知道Apache Hive 是构建在Apache Hadoop之上的数据仓库。有助于对大型的数据集进行读、写和管理。这也是官网介绍的第一句话,虽然简短但是却能提炼出很多东西,大家可以...Hive元数据表结构 hive-...
  • 元数据管理系统产品选型分析 1 概述 需要给目前数据仓库适用一套元数据管理系统,目的 减少人为的维护工作量、web页面协同工作(多人统一入口使用)、元数据权限管理等 1.1 应用背景 目前数据仓库没有专业的...
  • 小B是一名数据分析师,他问小A XXX的所有指标项给我一下,小A“鄙视的”给了我一份文档……...
  • 关于元数据与主数据

    万次阅读 多人点赞 2016-01-19 15:40:19
    企业数据管理的内容和范畴通常包含交易数据、主数据以及元数据。企业主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;元数据(Meta Data)是关于数据的数据,是数据管控...
  • 数据源、元数据、数据元

    千次阅读 2020-01-10 15:14:57
    ##数据源(data source) 顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。...##元数据(metadata) 描述其他数据的数据(data about other data)。 1、主要是描述数据属性(property)的信息; 2...
  • 元数据管理系统设计

    千次阅读 2019-08-15 10:55:43
    文章目录元数据管理系统设计1. 数据表管理模块2. 模型管理模块2.1 数据表模型管理2.2 SQL模型3. 维度管理模块4. 指标管理模块 元数据管理系统设计 1. 数据表管理模块 数据表信息维护需要如下信息: 表的元数据...
  • 魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容。 首先,他们整理了一个治理流程,架构图 ...流程图上面,其中,“主数据管...
  • 一、元数据 1、数据库的元数据 *元数据:数据库、或者数据库表,表中的字段的一些信息,比如数据库名称,驱动,表中的主键的名称。 *作用:主要完成一些通用型比较高得代码,一般都是使用在框架里面 *在数据库...
  • 目前,很多企业已经意识到,由于业务人员看不懂系统中存储的数据,所以难以通过大数据来提升业务创新能力,本文就来谈谈解决这个问题的方法——业务元数据管理。(同系列文章请点击王轩的文章《面向业务的企业元数据...
  • 大数据平台的元数据管理

    千次阅读 2019-03-23 00:27:17
    2,大数据平台涉及的元数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是元数据,除此之外的数据都是元数据。例如数据表的schema信息、任务之间的血缘关系、任务的权限映射关系、数据的业务属性、数据...
  • 数据仓库主题设计及元数据设计

    万次阅读 2016-04-15 15:06:29
    数据仓库主题设计及元数据设计
  • 后来我看到组长通过元数据来获取表结构和值。之后我自学了一下,感觉十分方便,分享给大家。 jdbc的元数据有两类。一个是DatabaseMetaData,一个是ResultSetMetaData。 DatabaseMetaData是描述数据库的元数据对象...
  • 元数据管理系统

    千次阅读 2019-01-10 16:53:00
    数据标准是元数据管理中很重要的内容,但是建立有效的数据标准并落地,是有一定难度的,传统的元数据管理的模式需要建立一套规范元数据模型,即使企业实际元数据模型中有上万个字段,也需要将每个字段于规范元数据...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,119,971
精华内容 447,988
关键字:

元数据