精华内容
下载资源
问答
  • 信息的元数据
    千次阅读
    2020-12-07 20:16:26

    图像元数据(Metadata)

    元数据

    元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描叙数据属性(property)的信息。用来支持如指示存储位置、历史数据、文件记录等功能。元数据就是关于数据的组织、数据域及其关系的信息,简而言之元数据就是关于数据的数据。

    图片元信息

    图片元信息(Metadata) 是嵌入到图片文件中的一些标签,可以类比为图片的属性,但是种类繁多。但是对于数码图像目前最常见的元数据类型有:EXIF、IPTC、XMP 这三种格式。

    • EXIF:通常被数码相机在拍摄照片时自动添加,比如相机型号、镜头、曝光、图片尺寸等信息
    • IPTC:比如图片的标题、关键字、说明、作者、版权等信息。主要由人工在后期通过软件写入的数据。
    • XMP:XMP 实际上是一种元数据存储和管理的标准,可以将 EXIF、IPTC 或其他的数据都按照 XMP 统一格式存放在图像文件中

    元数据的嵌入方式因图像的格式不同而不同,不同格式图像文件(eg: JPG, TIF, JPEG等)有不同的嵌入方式。

    图像 EXIF 信息

    EXIF(exchangeable image file format, 简称Exif),是一种可交换图像文件的缩写,是专门为数码相机照片设定的可以记录数码照片的属性信息和拍摄数据。Exif 可以附加于 JPEG、TIFF等文件中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件的版本信息。

    EXIF 最初是由图本电子工业发展协会在 1996 年制定版本为1.0。1988年升级到2.1,增加了对音频文件的支持。2002年3月发布 2.2 版。

    Window7 操作系统具备对 Exif 的原生支持,通过鼠标右键点击图片 => 属性=> 详细信息标签即可查看 Exif 信息,注意 Exif 信息是可以被任意编辑因此 Exif 信息只能作为参考。

    Exif 记录的元信息非常丰富,主要包含一下几类信息:

    • 拍摄信息
    • 拍摄器材(机身、镜头、闪关灯等)
    • 拍摄参数(快门速度、光圈F值、ISO速度、焦距、测光模式等)
    • 图像处理参数(锐化、对比度、饱和度、白平衡等)
    • 图像描述以及版权信息
    • GPS 定位数据
    • 缩略图

    Exif 工具介绍

    pyexiv2(推荐)

    Pyexiv2 能够读写照片中携带的元信息包括 exif、iptc、xmp

    Pyexiv2 安装

    pip install pyexiv2

    注意⚠️:该库支持小于 2G 图片读取,修改照片元信息支持小于 1G

    • pyexiv2 提供开放 API
    class Image:
    	def __init__(self, filename, encoding='utf-8')
      def read_exif(self, encoding='utf-8') -> dict
    

    类 Image 基于图片途径打开一张图片,如下所示:

    import pyexiv2
    
    # 方式一:
    img = pyexiv2.Image(r'./test/1.jpg')
    data = img.read_exif()
    # 注意当你获取图片信息后记得调用 close(),去关闭这个实例否则可能导致内存泄漏
    img.close()
    
    # 方式二:使用 with 打开图片会 image 实例会自动关闭
    with pyexiv2.Image(r'./test/1.jpg') as img:
      data = img.read_exif()
    
    • image.read_*()

    read_exif (获取图片 exif 信息)

    img.read_exif()

    read_iptc(获取图片 iptc 信息)

    img.read_iptc

    read_xmp(获取图片 xmp 信息以字典格式返回)

    img.read_xmp

    read_row_xmp(获取图片 xmp 信息以字符串形式返回)

    img.read_row_xmp

    from pyexiv2 import Image
    
    def read_img_info(path):
        img = Image(path)
        exif_info = img.read_exif()
        iptc_info = img.read_iptc()
        xmp_info = img.read_xmp()
        raw_xmp_info = img.read_raw_xmp()
        print(raw_xmp_info)
        img.close()
    
    • Image.modify_*()
      • 修改照片携带元信息,修改照片相关方法无返回值
    def modify_img_info(path):
        img = Image(path)
        origin_info = img(path).read_exif().get('Exif.Image.ImageDescription')
        print(origin_info)
        update_info = {'Exif.Image.ImageDescription': 'DCIM\\100MEDIA\\01.JPG'}
        img.modify_exif(update_info)
        result_data = img(path).read_exif().get('Exif.Image.ImageDescription')
        print(result_data)
    
    path = '/user/image/DJI_0835.jpg'
    modify_img_info(path)
    
    • Image.clear_*()
      • 删除照片携带的信息,信息被删除后无法恢复
    def clear_info(path):
        img = Image(path)
        img.clear_exif()
        data = img.read_exif()
        print(data)
    
    • Class ImageData

    Class ImageData 继承 class Image,该类通常被用做 bytes 类型获取照片信息

    from pyexiv2 import Image
    
    with open('/user/image/DJI_0835.jpg'm 'rb') as f:
      with Image(f.read()) as img:
        img.read_exif()
    

    exif 使用

    • exif 的安装

    pip install exif

    • exif 使用
    from exif import Image
    
    with open('/user/image/DJI_0835.jpg', 'rb') as f:
      img = Image(f)
    
    • has_exif 判断改照片是否携带 exif 信息

      img.has_exif()

    可以通过 dir(img) 查看 img 中携带的所有 tags

    dir(img)

    ‘<unknown EXIF tag 59932>’, ‘<unknown EXIF tag 59933>’, ‘exif_ifd_pointer’, ‘gps_ifd_pointer’, ‘segments’, ‘aperture
    value’, ‘brightness_value’, ‘color_space’, ‘components_configuration’, ‘compression’, ‘datetime’, ‘datetime_digitized’,
    ‘datetime_original’, ‘exif_version’, ‘exposure_bias_value’, ‘exposure_mode’, ‘exposure_program’, ‘exposure_time’, 'f

    number’, ‘flash’, ‘flashpix_version’, ‘focal_length’, ‘focal_length_in_35mm_film’, ‘get’, ‘get_file’, ‘get_thumbnail’,
    ‘gps_altitude’, ‘gps_altitude_ref’, ‘gps_datestamp’, ‘gps_dest_bearing’, ‘gps_dest_bearing_ref’, 'gps_horizontal

    positioning_error’, ‘gps_img_direction’, ‘gps_img_direction_ref’, ‘gps_latitude’, ‘gps_latitude_ref’, ‘gps_longitude’,
    ‘gps_longitude_ref’, ‘gps_speed’, ‘gps_speed_ref’, ‘gps_timestamp’, ‘has_exif’, ‘jpeg_interchange_format’, 'jpeg

    interchange_format_length’, ‘lens_make’, ‘lens_model’, ‘lens_specification’, ‘make’, ‘maker_note’, ‘metering_mode’,
    ‘model’, ‘orientation’, ‘photographic_sensitivity’, ‘pixel_x_dimension’, ‘pixel_y_dimension’, ‘resolution_unit’,
    ‘scene_capture_type’, ‘scene_type’, ‘sensing_method’, ‘shutter_speed_value’, ‘software’, ‘subject_area’, 'subsec_time

    digitized’, ‘subsec_time_original’, ‘white_balance’, ‘x_resolution’, ‘y_and_c_positioning’, ‘y_resolution’]

    • 获取照片中 exif 信息

      from exif import Image
      
      with open('/user/image/DJI_0835.jpg', 'rb') as f:
        img = Image(f)
        latitude = img.gps_latitude
        longitude = image.longitude
      
    • 修改 exif 中某部分信息

      img.gps_latitude = (36.0, 3.0, 11.08)
      
    • 删除照片中某个信息

      del.img.gps_latitude
      del.img.gps_longitude
      
    更多相关内容
  • 【数据治理】数据元、元数据、主数据、参考数据概述 数据元 什么是数据元: 《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》 里是这样定义的: 数据元(Data element):又称数据类型,通过定义、标识、...

    【数据治理】数据元、元数据、主数据、参考数据概述

    数据元

    什么是数据元:

    《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》 里是这样定义的:

    数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。

    举例说明:

    语义环境:描述员工年龄的大小 age为数据元,“18“为数据元的值。

    数据元一般来说由三部分组成:

    • 对象类:思想、概念或真实世界中的事物的集合,它们具有清晰的边界和含义,其特征和行为遵循同样的规则。
    • 特性:对象类中的所有成员共同具有的一个有别于其它的、显著的特征。
    • 表示:它描述了数据被表达的方式。

    还是以前面的例子:

    语义环境:描述员工年龄的大小 age为数据元,“18“为数据元的值。

    对象是员工 ,特性是 年龄 age ,表示是 数值

    语义环境:描述员工所属部门的编码 deptcode为数据元,“1001“为数据元的值。

    对象是员工所属部门,特性是 编码 deptcode ,表示是 文本

    元数据

    什么是元数据

    百度百科是这样定义的:

    元数据(Metadata),又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

    《DAMA数据管理知识体系指南》是这样定义的:

    元数据最常见的定义是“关于数据的数据”。这个定义非常简单,但也容易引起误解。可以归类为元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。元数据可以帮助组织理解其自身的数据、系统和流程,同时帮助用户评估数据质量,对数据库与其他应用程序的管理来说是不可或缺的。它有助于处理、维护、集成、保护和治理其他数据。

    怎么理解呢?《DAMA数据管理知识体系指南》举了一个比较好理解的例子:

    为了理解元数据在数据管理中的重要作用,试想一个大型图书馆中有成千上万的书籍和杂志,但是没有目录卡片。没有目录卡片,读者将不知道如何寻找一本特定的书籍甚至一个特定的主题。目录卡片不仅提供了必要的信息(图书馆拥有哪些书籍和资料以及它们被存放在哪里),还帮助读者可以使用不同的方式(主题领域、作者或者书名)来查找资料。如果没有目录,寻找一本特定的书将是一件十分困难的事情。一个组织没有元数据,就如同一个图书馆没有目录卡片。

    面对数据总是会有以下的一些疑问:

    • **这个数据怎么来的?**谁创建的,谁更新的,从哪个系统来的…

    • **这个数据是什么?**数据的语义环境是什么,数据怎么存储的,数据的定位是什么…

    • **这个数据怎么用?**数据的应用场景是什么,有没有和其他系统共享,如果丢失会造成什么影响…

    • **这个数据怎么管理?**谁负责这个数据,这个数据怎么评定质量,谁有权访问这个数据…

    为了更好的解决这些问题,从而使用元数据来记录数据相关的信息。

    元数据的分类

    元数据管理的范围将涵括数据产生、数据存储、数据加工和展现等各个环节的数据描述信息,帮助用户理解数据来龙去脉、关系及相关属性。按其描述对象的不同可以划分为三类元数据:业务元数据、技术元数据、和操作元数据

    业务元数据

    业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。业务元数据的示例包括:

    1)数据集、表和字段的定义和描述。
    2)业务规则、转换规则、计算公式和推导公式。
    3)数据模型。
    4)数据质量规则和检核结果。
    5)数据的更新计划。
    6)数据标准。
    7)有效值约束。
    8)数据的安全/隐私级别。

    技术元数据

    技术元数据(Technical Metadata)又可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的示例包括:

    1)物理数据库表名和字段名。
    2)字段属性(数据类型)。
    4)访问权限。
    5)数据CRUD(增、删、改、查)规则。
    6)物理数据模型,包括数据表名、键和索引。
    7)记录数据模型与实物资产之间的关系。
    8)ETL作业详细信息。
    9)文件格式模式定义。
    10)源到目标的映射文档。
    11)数据血缘文档,包括上游和下游变更影响的信息。
    12)程序和应用的名称和描述。
    13)周期作业(内容更新)的调度计划和依赖。
    14)恢复和备份规则。
    15)数据访问的权限、组、角色。

    操作元数据

    操作元数据(Operational Metadata)主要是指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行产生的操作记录,如运行记录、应用程序、运行作业。

    1)批处理程序的作业执行日志。
    2)抽取历史和结果。
    3)调度异常处理。
    4)错误日志。
    5)报表和查询的访问模式、频率和执行时间。
    6)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
    7)备份、保留、创建日期、灾备恢复预案。
    8)数据归档、保留规则和相关归档文件。
    9)清洗标准。
    10)数据共享规则和协议。
    11)技术人员的角色、职责和联系信息。

    元数据应用

    经过前面的介绍,大概对元数据有个初步的印象,可能接下来就要问了:元数据有什么用?

    先引入一个场景:

    假设有一天,我们需要对某一些业务信息指标做一个报表统计,用于前端的数据展示,这些业务信息可能来自于不同的表,通过不同的ETL过程到目标数据仓库,最后展示在一个报表中,如下图所示:

    在这里插入图片描述

    血缘分析

    举例:

    假设你在管理报表,有一天你发现有报表数据中 指标3 的数据异常,你需要找出错误的数据并提交流程修正,那么这个错误数据从何而来?一个个核对数据显然不够高效,那你就得知道这个报表的的指标来源,元数据的血缘分析能帮助你分析这个错误数据的上游路径。

    查看元数据可以发现:

    ​ 指标3 是由数据集市的 B主题数据 经过ETL过程生成的 ,

    ​ B主题数据 又是 由 数据仓库中的table1 和 table 4经过ETL过程生成的

    血缘分析是一种技术手段,用于对数据处理过程的全面追踪,从而找到某个数据对象为起点的所有相关元数据对象以及这些元数据对象之间的关系。元数据对象之间的关系特指表示这些元数据对象的数据流输入输出关系 。

    由元数据构建的血缘分析,可以快速定位数据链路,明确ETL细节,缩小数据问题的范围。

    影响分析

    举例:

    还接上面的例子,有一天你发现数据仓库的table2 数据错了,等你将table2数据更正后,此时你需要及时提醒大家这个数据的更正信息,只需要通知这个数据影响到的实体就可以了,然而整个报表流程的数据传递这么复杂,怎么判断哪些实体会受到这个数据的影响呢。

    如果没有元数据,那我们可能需要遍历所有的脚本、数据。才能得到想要的答案;而如果有成熟的元数据管理,那我们就可以直接得到答案,节省大量时间。

    数据地图

    数据地图是一种图形化的数据资产管理工具,它提供了多层次的图形化展示,并具备各种力度控制能力,满足业务使用、数据管理、开发运维不同应用场景的图形查询和辅助分析需求。

    为什么有数据地图:

    如果公司的数据库里只有百十来张表,那基本上不需要啥数据地图,因为靠脑子就能全记住了。

    但是,如果有好几个系统、几百张表,而且在数仓里还分了好多层,之间的关系错综复杂,谁能全部记得住啊?

    这个数据地图主要解决这些问题:

    ​ 平台由多少数据资源?

    ​ 每个数据源由多少表、字段?

    ​ 这些表、字段里面都是什么内容?

    ​ 怎么获取这些数据?

    为啥叫“数据地图”,其实就是借用了地图“找信息”的功能,意思是在“数据地图”功能中,能找到所有的数据。

    数据地图不是跟百度地图、高德地图一样,而是跟ETL流程DAG一样的,或者直接是表格展示。 更简单的表格基本上就是库名、表名、元数据代码、字段名、数仓位置、上游 、下游、管辖单位、负责人等。

    主数据

    什么是主数据

    《 主数据管理实践白皮书(1.0 版)》是这样定义的:

    主数据(MDM:Master Data):指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对交易数据而言,属性相对稳定,准确度要求更高,唯一识别。

    《数据管理知识体系 DMBOK1.0》 对主数据的定义:

    主数据是关于业 务实体的数据,这些实体为业务交易提供关联环境。业务规则通常规定了主数据格式和允许的取值范围。主数据是关于关键业务实体的权威的、最准确的数据,可用于建立交易数据的关联环境。

    从字面意思上可以理解成主要的数据,什么是主要的数据呢?在整个企业业务流程中起到关键作用,而且是比较常用的数据,在核心业务流程上产生的数据都是主数据,这么一解释可以发现主数据是可以检测企业发展是否健康的一种方式,但这么理解是有些偏差的。稍微严谨一点的定义就是主数据是整个企业中使用的核心、非交易性数据。请注意:这里指的是非交易性数据。举个例子,比如你在ERP系统中能够看到一些交易数据,比如订单产生的日期和编号、地点、金额、商品、用户、供货商、店铺之类的信息。那么这些信息中的产品、供货商、用户、地点这些都是主数据,也就是说参与到核心流程中的主体数据都是主数据,这些实体为业务交易和分析提供了上下文信息

    那订单交易记录又算什么呢?这里其实又扩展出来了另外一种数据类型:交易数据,也就是这些实体数据结合在一起产生了事件活动记录,那么这个记录就属于交易数据。例如通话记录、销售记录等等事件。这样看起来好像主数据是嵌入到了交易数据中了,但是主数据相对交易数据来说的话,属性是相对稳定的,而且可信度要求高,需要做到唯一识别 。

    主数据的特点

    根据主数据的定义,可以总结出以下的特点:

    **(1)共享性:**主数据满足跨部门、跨系统、业务协调需要的共享数据

    **(2)高价值:**因为主数据是跨部门、跨系统、多业务需要的,所以比一般的数据,价值更高

    **(3)变化慢:**由于主数据是跨部门、跨系统的共享数据,反映核心业务实体的基本信息,其属性是相对稳定的

    **(4)高质量:**主数据的重要性要求其必须保障数据质量、准确性和一致性

    **(5)可集成:**主数据将各个系统共享的核心实体数据进行集中管理,制定统一标准规范

    主数据的价值

    主数据主要有以下三点价值:

    1. 消除数据冗余:不同部门按照自身需求获取数据,容易造成数据重复 存储,形成数据冗余。而主数据打通各业务链条,统一数据语言,统一数 据标准,实现数据共享,最大化消除了数据冗余。
    2. 提升数据处理效率:各部门对于数据定义不一样,不同版本的数据不 一致,一个核心也为主体有多个版本的信息,需要大量人力成本、时间成 本去整理和统一。通过主数据管理可以实现数据动态自动整理、复制,减 少人工整理数据的时间和工作量。
    3. 提高公司战略协同力:通过主数据的一次录入、多次引用,避免一个 主数据在多个部门和线条重复录入。数据作为公司内部经营分析、决策支撑的“通行语音”,实现多个部门统一后,有助于打通部门、系统壁垒,实现 信息集成与共享,提高公司整体的战略协同力。

    参考数据

    什么是参考数据

    《DAMA数据管理知识体系指南(第2版)》是这样描述的:

    参考数据是指可用于描述或分类其他数据,或者将数据与组织外部的信息联系起来的任何数据(Chisholm,2001)。最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,还包含映射和层次结构。

    怎么理解呢?参考的中文解释就是 查阅、利用有关资料帮助学习、研究或了解情况 。参照数据类比考卷对应的参考答案,是对数据内容的解释说明,也包括对数据的范围限定。

    参考数据可用于描述其他数据,列举了一个服务单状态代码示例。

    代码描述定义
    1新建表示一个新的服务单已经创建,但还未分配人员
    2已分配表示一个新的服务单已经分配了服务人员
    3施工中表示分配的服务人员已经开始处理
    4已解决表示服务人员已经处理完成
    5已取消表示该服务单根据交互情况已经取消
    6待定表示服务暂时无法处理
    7已完成表示请求已经处理完成

    通过上面的参考数据,可以明确知道 代码值1-7表示什么状态,这些状态又代表什么业务含义。

    参考数据可用于分类其他数据,列举一个通用标准产品与服务分类示例。

    代码值描述上一级分类
    10161600花卉植物10160000
    10161601玫瑰10161600
    10161602猩猩木10161600
    10161603兰花10161600
    10161700切花10160000
    10161705月季切花10161700

    通过上面的参考数据,可以知道 通用标准产品与服务分类,当查找玫瑰的时候,能找到它是属于花卉植物的。

    参考数据可以将数据与组织外部的信息联系起来,列举中国省市区编码对照表;

    国家名称省份名称城市名称区域名称区域编码
    中国北京110000
    中国北京北京市110100
    中国北京北京市东城区110101
    中国北京北京市西城区110102
    中国北京北京市崇文取110103
    中国北京北京市宣武区110104
    中国北京北京市朝阳区110105
    中国北京北京市丰台区110106
    中国北京北京市石景山区110107
    中国北京北京市海淀区110108

    根据这个对照表可以和外部的地理信息或者定位信息联系起来。

    参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。

    可能会觉得这所谓参考数据不就是数据字典吗?对,在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

    参考资料

    【数据治理知识】详解元数据、主数据、参考数据和数据字典

    解析数据仓库里的"元数据管理"

    元数据和数据元

    换个角度认识大数据(下)——元数据管理应用

    主数据的3大特征、4个超越和3个二八原则

    一文理解主数据和参考数据

    解析数据仓库里的"元数据管理"

    元数据和数据元

    换个角度认识大数据(下)——元数据管理应用

    主数据的3大特征、4个超越和3个二八原则

    一文理解主数据和参考数据

    【数据治理知识】详解元数据、主数据、参考数据和数据字典

    展开全文
  • 元数据管理与数据质量保障

    千次阅读 2021-11-29 11:35:51
    元数据分为业务元数据、技术元数据和操作元数据及管理元数据,业务元数据知道技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。元数据与数据的对应关系如下表所示: 元数据...

    元数据管理

    元数据分为业务元数据、技术元数据和操作元数据及管理元数据,业务元数据知道技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。元数据与数据的对应关系如下表所示:

    元数据

    数据

    业务元数据

    (定义和业务相关数据的信息)

    数据指标、数据字典、数据代码、数据安全、数据质量等

    技术元数据

    物理模型(关系型数据库物理模型、NoSQL数据库存储模型等)

    操作元数据

    数据ETL信息、处理策略数据信息、调度信息、异常处理信息

    管理元数据

    数据归属信息(业务归属、系统归属、运维归属、数据权限归属)

    元数据管理的难点

    元数据是业务和科技互通的桥梁,是数据治理的重要组成部分。因此元数据建设的好坏对金融企业整体数据以及管理带来重要的影响。我们认为元数据管理有三个难点:

    数据识别:要确定要管理哪些元数据,按元数据的定义来看,只要能描述数据的数据都能作为元数据进行管理,但从价值角度讲一定要找到对数据业务、数据运维、数据运营、数据创新带来帮助的元数据进行管理,避免眉毛胡子一把抓。一般企业元数据建设都是围绕着源系统、数据平台、数据集市、数据应用中的数据模型、数据库、表、字段、报表(指标存储字段)、字段和字段间的数据关系进行管理。围绕这条主线,进一步胡管理业务元数据和操作元数据。在建设过程中要围绕本企业数据管理问题域进行虚实结合的建设。

    元模型的构建:元模型其核心结构要稳定,因为元数据的建设不是一蹴而就的,需要慢慢地积累和演变,因此存储元数据的元模型结构一定要抽象出稳定的结构,比如:针对关系抽象出组合关系和依赖关系,针对模型要抽象出每一类型元数据父类或基类以方便其灵活扩展。

    元数据间的关系:从元数据应用的角度来看,光分析元数据的结构对数据分析人员和数据应用的价值还不是那么突出。元数据管理的价值主要在其关系的丰富程度,举个不恰当的例子,犹如一个人,如果其社会关系足够丰富,那么其处理各种事情就游刃有余,元数据也类似数据分析和应用,一定是从其关系中探寻出数据的价值,进而知道业务或进行数据创新,从长期的实践中发现,基于信息项或字段的元数据关系构建是最稳定的。

    元数据管理最佳实践

    结合我们多年数据治理的经验,我们认为需要从以下三个方面进行元数据管理。

    谋定而后动:元数据管理是一盘棋,需要进行管理设计,如基于规范和制度的设计、元模型的设计、实施的设计、推广的设计,每一环节都要想一想再动。

    选好价值点:元数据管理是纷繁复杂的,它是对企业数据现状的一种抽象、整合和展现,其管理是复杂和不容易的,其价值有可能是隐形的、不容易察觉的,它是一项承上启下,贯通业务和技术的基础性管理工作,因此需要选好不同时期其管理的价值点,以逐步影响企业的方方面面,

    选好工具:元数据管理可借助管理工具使管理工作变得相对快速和简单一些,如元数据的采集、元数据存储、数据血统、数据地图、元数据整合等都可以通过元数据工具来实现。

    数据价值的保障:数据质量

    数据质量管理是金融企业数据治理的有机组成部分。高质量的数据是金融企业进行分析决策和规划业务发展的重要基础,只有简历完整的数据质量体系,才能有效提升银行数据的整体质量,从而更好地为客户服务,提供更为精准的决策分析数据。数据质量体系如下图:

     

    从技术层面上,应该完整全面地定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。数据质量的评估维度如下表所示:

    维度

    描述

    衡量标准

    自动检查

    完整性

    业务必须的数据项被记录

    业务必须的数据项是否完整、空字符;数据源是否完整、数据取值是否完整。

    及时性

    数据及时更新、获取,体现当前实时

    当需要使用时,数据能否反映当前事实,能够满足系统对数据的时间要求,如:位置信息等。

    唯一性

    该数据在特定数据集中不存在重复值。

    在制定的数据集中是否存在重复数据

    参照完整性

    数据项在被饮用的父表中有定义

    数据项是否在父表中有定义

    依赖一致性

    数据项与数据项之间的依赖关系

    数据项取值是否满足与其他数据项之间的依赖关系

    基数一致性

    数据项在子表中出现的次数符合标准

    如:一个账户一年计息次数为4次,就要符合账户和计息次数为1:4的标准

    准确性

    数据必须体现真实情况

    数据内容与定义必须一致

    精确性

    数据精度必须满足业务要求

    数据精度是否达到业务要求

    可信度

    数据的可信依赖度

    根据客户调查或客户主动提供获得

    ……

    ……

    ……

    展开全文
  • 漫谈数据仓库中的元数据管理

    千次阅读 2022-06-01 00:54:08
    来源:网络编辑:数据社全文共5253个字,建议10分钟阅读简介:相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然...

    6b01fe62f9f336108a0034bb2e1b3f9b.png

    来源:网络 编辑:数据社

    全文共5253个字,建议10分阅读

    简介: 相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然对它不是很了解,那么今天我来聊一聊元数据管理系统。本文大部分观点与图片汇总字网络,如有不同观点,欢迎留言交流~~ 

    01

    元数据的定义

    按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)

    技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:

    • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;

    • 业务系统、数据仓库和数据集市的体系结构和模式

    • 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;

    • 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

    业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:

    • 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

    • 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

    • 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

    02

    元数据的作用

    与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。如下图所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。

    其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:

    1.元数据是进行数据集成所必需的

    数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。

    2.元数据定义的语义层可以帮助用户理解数据仓库中的数据

    最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。

    3.元数据是保证数据质量的关键

    数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。

    4.元数据可以支持需求变化

    随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性 

    03

    元数据管理现状

    由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。与元数据相关的数据仓库工具大致可分为四类:

    1. 数据抽取工具:

    把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。

    2. 前端展现工具:

    包括OLAP分析、报表和商业智能工具等,如Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。

    3. 建模工具:

    为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。

    4. 元数据存储工具:

    元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,Ardent的MetaStage和Sybase的WCC等。

    5.元数据管理工具:

    目前国内的元数据管理工具大概有三类。一是像IBM、CA等公司都提供的专门工具,比如IBM收购Ascential得到的MetaStage,CA的DecisionBase都是如此;二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据管理工具;三是像普元、石竹这样的集成商也有自己的元数据管理工具:普元MetaCube、新炬网络元数据管理系统、石竹MetaOne等。
    专门的元数据管理工具,对自家产品兼容较好,一旦涉及跨系统管理,就不尽如人意了。从国内的实际应用来看,DAG的MetaCenter这一工具使用最多,目前所看到的在电信、金融领域建设的元数据管理项目基本上都是应用了这一产品。
    我从互联网上搜索了几乎所有的元数据厂家:Pentaho开源的MetaData产品,支持源码下载试用,可以进行集成开发;普元MetaCube下载后,配置麻烦,目前为止还没有调通;其他公司产品均不提供下载试用。 

    04

    元数据管理标准

    没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。

    从元数据的发展历史不难看出,元数据管理主要有两种方法:

    • 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。

    • 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。

    目前OMG家的CWM(Common Warehouse MetaModel)标准已成为元数据管理界的统一标准:
    OMG是一个拥有500多会员的国际标准化组织,著名的CORBA标准即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年3月,OMG颁布了CWM 1.0标准。CWM模型既包括元数据存储,也包括元数据交换,它是基于以下三个工业标准制定的:

    • UML:它对CWM模型进行建模。

    • MOF(元对象设施):它是OMG元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口。

    • XMI(XML元数据交换):它可以使元数据以XML文件流的方式进行交换。

    OMG元数据知识库体系结构如下图所示。

       
    CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:

    • CWM元模型(Metamodel):描述数据仓库系统的模型;

    • CWM XML:CWM元模型的XML表示;

    • CWM DTD:DW/BI共享元数据的交换格式

    • CWM IDL:DW/BI共享元数据的应用程序访问接口(API)

    05

    元数据管理功能

    1. 数据地图

    数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。之前我写过一篇数据地图的文章,可以参考:数仓治理:数据地图长什么样?

    2. 元数据分析

    血缘分析
    血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成的处理过程。数据源接口实体由源系统提供,作为数据系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血缘分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生什么样的输出。

    影响分析
    影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围。

    实体关联分析
    实体关联分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。本功能可以用来支撑需求变更影响评估的应用。

    实体差异分析
    实体差异分析是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影响的差异等,在数据系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种原因,这些微小的差异直接影响了数据统计结果,数据系统需要清楚了解这些差异。本功能有助于进一步统一统计口径,评估近似实体的差异

    指标一致性分析
    指标一致性分析是指用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。指标一致性分析可以帮助用户清楚地了解到将要比较的两个指标在经营分析数据流图中各阶段所涉及的数据对象和转换关系是否一致,帮助用户更好地了解指标的来龙去脉,清楚理解分布在不同部门且名称相同的指标之间的差异,从而提高用户对指标值的信任。

    3. 辅助应用优化

    元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化.

    4. 辅助安全管理

    企业数据平台所存储的数据和提供的各类分析应用,涉及到公司经营方面的各类敏感信息。因此在数据系统建设过程中,须采用全面的安全管理机制和措施来保障系统的数据安全。
    数据系统安全管理模块负责数据系统的数据敏感度、客户隐私信息和各环节审计日志记录管理,对数据系统的数据访问和功能使用进行有效监控。为实现数据系统对敏感数据和客户隐私信息的访问控制,进一步实现权限细化,安全管理模块应以元数据为依据,由元数据管理模块提供敏感数据定义和客户隐私信息定义,辅助安全管理模块完成相关安全管控操作。

    5. 基于元数据的开发管理

    数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。开发管理应用可以提供相应的功能,对以上各环节的工作流程、相关资源、规则约束、输入输出信息等提供管理和支持。

    欢迎加入 大数据 |数仓技术交流群

    进群方式:请加微信(微信号:dataclub_bigdata),回复:加群,通过审核会拉你进群。

    32a46748d0796db60c41864ff3d6ead5.png

    (备注:行业-职位-城市)

    福利时刻

    01. 后台回复「数据」,即可领取大数据经典资料。

    02. 后台回复「转型」,即可传统数据仓库转型大数据必学资料。

    03. 后台回复「加群」,或添加一哥微信IDdataclub_bigdata  拉您入群(大数据|数仓|分析)或领取资料。

    07192b19b443ad810bb1fa6a60145c89.png  

    关注不迷路~ 各种福利、资源定期分享

    你点的每个在看,我都认真当成了喜欢

    展开全文
  • 图像元数据(Metadata) ——Exif信息分析

    千次阅读 多人点赞 2019-12-27 17:54:52
    如何查看元数据2、图像Exif信息2.1 简介2.1 JPG文件结构2.2 Exif与TIFF的关系2.3 Exif元数据2.4 总结3、Exif工具3.1 Pillow库3.2 exiv23.3 exifread库3.4 piexif库4、Exif记录的信息(标签)参考文献 1、元数据 ...
  • Hive的元数据存储与元数据

    千次阅读 2022-03-30 21:46:57
    一、元数据(metadata) 元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和...
  • 史上postgres元数据表最详细信息

    千次阅读 2019-06-24 16:59:24
    最近在做元数据相关的工作,下面是postgres最全的元数据列表,使用版本9.4+ name description pg_aggregate 存储聚合函数的信息 pg_am 存储访问方法关系信息,当前只有索引有访问方法 ...
  • postgresql查询表元数据信息语句

    千次阅读 2020-11-24 11:03:05
    连接数据库服务器,切换至postgres(或其他数据库用户)下, ...查询某张表的表结构及字段信息:\d tablename--实际表名 用sql语句方式查询: SELECT a.attnum, a.attname AS field, t.typname AS type, a.attle
  • 最近在做分布式细粒度权限控制,...使用Nacos作为服务注册中心和配置中心,在服务注册时把服务的接口信息放入服务元数据里,其他需要使用这些接口信息的服务只需要监听服务注册事件并取出服务实例内的接口信息即可。
  • 数据元和元数据的概念与关系

    千次阅读 2021-01-08 00:57:08
    元数据,主要是描述数据属性(property)的信息;数据元,用一组属性描述定义、标识、表示和允许值的数据单元。
  • 本文从数据治理角度,阐述数据标准、元数据、主数据、数据模型的概念、关系。 这些都是数据治理中的重要概念,其中元数据、主数据也是数据治理的核心中的核心。只有理解了这些概念,才能更好的理解数据治理。
  • 数据元与元数据

    万次阅读 多人点赞 2019-06-05 17:35:22
    在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据元数据可以为数据...
  • 元数据的作用

    千次阅读 2020-06-28 11:01:55
    元数据是用来描述数据的数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。 下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子: (她)年纪已经不轻,三十岁上下...
  • 数据治理---Apache Atlas元数据管理

    千次阅读 2020-08-05 09:43:56
    采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分。 为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类、集中策略引擎...
  • Java中的元数据

    千次阅读 2019-09-02 14:39:22
    元数据 也可能刚听到元数据你会有点陌生,其实任何一个使用过struts,ejb或者hibernate的开发人员都在不知不觉中使用元数据。所谓的元数据是指用来描述数据的数据,更通俗一点就是描述代码间关系,或者代码与其它...
  • 元数据、数据元、资源目录

    千次阅读 2020-05-18 16:56:59
    元数据、数据元、资源目录 1元数据(Metadata) 1.1元数据概念 1、主要是描述数据属性(property)的信息; 2、描述数据的数据; 3、关于数据的结构化数据; 4、描述数据的内容、覆盖范围、质量、管理方式、...
  • Hive元数据存储和表数据存储

    千次阅读 2020-03-19 09:53:25
    一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。 元数据包括表的属性、表的名称、表的列、分区及其属性以及表数据所....
  • 1.物理元数据描述物理资源的元数据,例如:服务器,操作系统,计算机机房位置和其他信息。 2.数据源元数据描述了数据源的元数据,通常包括四种类型的信息: 数据源地址(例如IP,PORT等) 物理拓扑(例如主备,...
  • 数据元和元数据的区别

    千次阅读 2021-05-24 21:35:44
    元数据是描述数据的数据,描述数据元如果有10个属性,那么这10个属性就是这个数据元的元数据。 数据元是相对固定的,而元数据则依赖于其描述的数据实体,是相对的,当数据元用来描述它的上级组合实体时,就成为实体...
  • 01 元数据的定义元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(data about data),对数据及信息资源的描述性信息元数据是所...
  • 随着数据治理概念的不断强化,元数据和主数据管理在各类组织中受到越发的重视,本篇文章就简单地介绍一下元数据和主数据的相关概念以及技术应用范围。 元数据 数聚股份认为,数据治理中的元数据就是数据的数据,...
  • DataHub是为现代数据栈【Modern Data Stack】构建的第三代元数据平台,支持数据发现、协作、治理和端到端可观察性。DataHub采用模型优先的理念,专注于解锁不同工具和系统之间的互操作性。 本文首先针对DataHub的...
  • 来讲讲什么是元数据和主数据

    千次阅读 2021-07-06 00:01:06
    近期在和同事聊数据的时候,发现很多人对于元数据和主数据的相关概念和作用不是很清晰。 在这里我就结合自身工作经历分享一下对元数据和主数据的理解。 一、什么是元数据元数据(Metadata / MADA),为描述...
  • 数仓知识06:什么是元数据

    千次阅读 2022-05-01 16:05:02
    元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。 举几个简单例子: ...
  • Hive元数据表结构详解

    万次阅读 2018-06-14 21:59:37
    概述 我们知道Apache Hive 是构建在Apache Hadoop之上的数据仓库。有助于对大型的数据集进行读、写和管理。这也是官网介绍的第一句话,虽然简短但是却能提炼出很多东西,大家可以...Hive元数据表结构 hive-...
  • 数仓建模—元数据管理

    万次阅读 2021-09-05 10:58:44
    元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化,管理这些附加MetaData信息的目的,一方面是为了让用户能够更高效的挖掘和使用数据,另一方面是为了让平台管理人员能...
  • 来源:网络 编辑:数据一哥全文共5469个字,建议阅读14分钟大家好,我是一哥,元数据管理是企业数据治理的基础,是数据仓库建设的关键。作为一名数据人,首要任务就是理解元数据管理。本篇文章将...
  • 数据治理系列2:元数据管理—企业数据治理的基础

    万次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制...元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据...
  • 背景介绍元数据是数据平台的衍生数据,比如调度任务信息,离线hive表,实时topic,字段信息,存储信息,质量信息,热度信息等。在数据平台建设初期,这类数据主要散落于各种平台子系统的数据库中...
  • NameNode存储的元数据信息

    千次阅读 2019-01-04 18:42:02
    如图NameNode类中的信息 包含俩个内容 (1)filename ----&gt;块的个数,FSImage和edits文件加载 (2)block 块存储主机------&gt;dataNode汇报的块存储主机位置...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 791,768
精华内容 316,707
关键字:

信息的元数据