精华内容
下载资源
问答
  • 数据仓库之元数据管理

    千次阅读 2020-08-21 16:29:27
    元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。 构建数据仓库的主要步骤之一是 ...

    元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。

    构建数据仓库的主要步骤之一是 ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

    在这里插入图片描述

    用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制

    报表。数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移

    除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。

    一、元数据类型

    ​元数据可分为技术元数据业务元数据管理过程元数据

    1、 技术元数据为开发和管理数据仓库的 IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

    2、 业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

    3、 管理过程元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。

    二、元数据功能

    1、血缘分析:向上追溯元数据对象的数据来源。血缘分析可以帮助您轻松回答:'我正在查看的报告数据来源是什么?'以及’对当前分析的数据应用了哪些转换处理?'等问题。这样的机制及对这些问题的回答确保了对所分析的数据更高的信任水平,并有助于实现许多行业(包括医疗、金融、银行和制造业等)对所呈现数据的特殊监管及合规性要求。

    2、影响分析:向下追溯元数据对象对下游的影响。影响分析可以让您轻松应对变更可能产生的影响,自动识别与其相关的依赖项和潜在的影响还可以跟踪所有对象及其依赖关系,最后我们还提供数据全生命周期的可视化显示。例如,如果您的某一信息系统中准备将“销售额”从包含税费更改为不包括税费,则SE-DWA将自动显示所有使用了“销售金额”字段,以便您可以确定有哪些工作需要完成,并且建议您在更改前完成该工作。

    3、同步检查:检查源表到目标表的数据结构是否发生变更。

    4、指标一致性分析:定期分析指标定义是否和实际情况一致。

    5、实体关联查询:事实表与维度表的代理键自动关联。

    三、元数据应用

    1、ETL自动化管理:使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。

    2、数据质量管理:使用数据质量规则元数据进行数据质量测量。数据质量根据设定的规则帮助您过滤出有问题的数据,并智能分析数据质量缺陷。

    3、数据安全管理:使用元数据信息进行报表权限控制。可以方便查看用户和访问权限,并启用对象级和行级安全管理。对象级安全性确保通过身份验证的用户只能访问他们被授权查看的数据、表或列,其它数据则不可见。基于行的安全性会更进一步,可以限制特定的组成员只可以访问表中特定的数据。

    4、数据标准管理:使用元数据信息生成标准的维度模型。

    5、数据接口管理:使用元数据信息进行接口统一管理。多种数据源接入,并提供多种插件对接最流行的源系统。应该可以简单方便获取数据。

    6、项目文档管理:使用元数据可以自动、方便的生成的健壮全面的项目文档,其以帮助您应对各种对于数据合规性要求。读取元数据模型,并生成pdf格式的描述文件。生成文档您查看每个对象的名称、设置、描述和代码。

    7、数据语义管理:业务用户在自助服务分析中面临的挑战他们不了解数据仓库从而无法正确解释数据,使用元数据可以语义层建模,使用易于业务用户理解的描述来转换数据。

    四、总结

    ​ 由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个整体数据仓库解决方案。

    展开全文
  • 数据仓库元数据管理

    千次阅读 2018-09-21 16:11:56
    数据仓库元数据管理元数据元数据分类技术元数据业务元数据系统管理功能 元数据 元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元...

    元数据

    元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
    元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。
    构建数据仓库的过程中,主要步骤之一是ETL。这时元数据发挥重要的作用:它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
    用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。
    数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。
    在这里插入图片描述

    元数据分类

    元数据可分为技术元数据和业务元数据。

    技术元数据

    技术元数据为开发和管理数据仓库的IT 人员使用。
    它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

    业务元数据

    业务元数据为管理层和业务分析人员使用。
    它从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,以帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

    系统管理功能

    元数据机制主要支持以下五类系统管理功能:
    (1)描述哪些数据在数据仓库中;
    (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;
    (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;
    (4)记录并检测系统数据一致性的要求和执行情况;
    (5)衡量数据质量。

    展开全文
  • 数据管理

    千次阅读 2019-05-06 09:56:32
    数据管理 1、什么是元数据管理? 企业用户在创建了众多数据库信息时,需要一个查询功能可以及时高效地为用户查询数据库信息,如数据源、表以及视图等信息。DataPipeline(www.datapipeline.com)元数据管理功能...

    元数据管理
    1、什么是元数据管理?
    企业用户在创建了众多数据库信息时,需要一个查询功能可以及时高效地为用户查询数据库信息,如数据源、表以及视图等信息。DataPipeline(www.datapipeline.com)元数据管理功能可以为用户降低时间成本,提高查询效率。
    2、元数据管理能做到什么?
    元数据管理能带给用户的核心功能有:
    1、支持筛选查询已创建的数据源/表/视图信息。
    2、支持查看总览查询所有已创建的数据库信息。
    3、支持用户输入数据源名称/类型/负责人/创建人查询数据源信息。
    4、支持用户输入表名称、负责人、Comment查询表信息。
    5、支持用户输入视图名称、负责人、Comment查询视图信息。
    6、支持用户在搜索结果中对数据源和创建人进行筛选。
    7、支持查询数据源类型为MySQL、Oracle、SQL Server、PostgreSQL、FTP、S3数据源。
    8、支持用户在总览列表页进行搜索。
    3、如何使用元数据管理?
    元数据管理首页
    顶部显示搜索入口
    提示文案:请输入搜索关键词(如数据源、表、视图、字段、标签名称)
    搜索范围:
    数据源搜索范围:数据源名称、数据源类型、创建人、负责人、标签
    表搜索范围:表名称、负责人、Comment、标签
    视图搜索范围:视图名称、负责人、Comment、标签
    字段搜索范围:字段名称、标签、别名、描述

    展开全文
  • 数据治理工具-元数据管理

    千次阅读 2020-04-07 18:40:33
    数据治理里面最关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义...


    数据治理里面较关键的元数据管理,元数据打通数据源、数据仓库、数据应用,记录了数据从产生到消费的完整链路。它包含静态的表、列、分区信息(也就是MetaStore);动态的任务、表依赖映射关系;数据仓库的模型定义、数据生命周期;以及ETL任务调度信息、输入输出等。

    元数据是数据管理、数据内容、数据应用的基础。例如可以利用元数据构建任务、表、列、用户之间的数据图谱;构建任务DAG依赖关系,编排任务执行序列;构建任务画像,进行任务质量治理;数据分析时,使用数据图谱进行字典检索;根据表名查看表详情,以及每张表的来源、去向,每个字段的加工逻辑;提供个人或BU的资产管理、计算资源消耗概览等。

    数据治理解决方案:

    WhereHows/Datahub

    WhereHows是LinkedIn开源的元数据治理方案。Azkaban调度器抓取job执行日志,也就是Hadoop的JobHistory,Log Parser后保存DB,并提供REST查询。WhereHows太重,需要部署Azkaban等调度器,以及只支持表血缘,功能局限。

    • Wherehows是独立于源系统的,即在部署上wherehows与hive、Azkaban等源系统是无关的,wherehows仅仅是从源系统抓取元数据,这些元数据可以分为数据集类和作业类,其中作业类就是指调度任务信息(从调度系统的数据库中抓取以及从日志服务器抓取),如Azkaban、Oozie的调度信息以及相关执行日志
      • 数据集类源系统:以Hive为例,wherehows从Hive的元数据库如MySQL中抽取元数据并存储在自身的元数据仓库中,从而最终可以从wherehows中查看Hive中的元数据信息,如Hive中有哪些Database、Database下有哪些表等。Wherehows不能直接得到数据集的血缘,wherehows中数据集的血缘是从相关作业的分析中得到的。
      • 作业类源系统:以Azkaban为例,假设运行hive或pig任务,则wherehows可以从Azkaban的元数据库中获取作业信息、并从JobHistory获取实际运行的Hive或pig的日志,并对这些元数据以及日志数据解析形成血缘。

    之后Linkedin根据了痛点和新的需求,重构了wherehows,目前datahub包括了四块,metadata, gms, etl, datahub。其中medata定义模型,gms基于模型生成服务,etl进行模型数据加工,datahub提供基于gms的元数据应用展现。
    linkedin datahub:
    https://github.com/linkedin/datahub

    Atlas

    Atlas是Apache开源的元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并提供数据资产的协作功能。
    altas
    架构包括5大部分:

    1. 存储部分:
      • Metadata Hbase:采用Hbase来存储元数据
      • Index store:采用Solr来建索引
    2. 提取元数据:metadata Sources,目前,Atlas支持以下来源提取和管理元数据:Hbase,Hive,Sqoop, Storm,Kafka。
    3. 应用层:
      • Admin UI:该组件是一个基于Web的应用程序,允许使用者发现和注释元数据,这里最重要的是搜索界面和类似SQl的查询语言,可用于查询Atlas管理的元数据类型和对象。
      • Ranger Tag Policies:权限管理模块
      • Business Taxonomy:业务分类
    4. 核心层:
      • (Ingest/Export)采集/导出:采集组件允许将元数据添加到Atlas。同样,导出组件将Atlas检测到的元数据更改公开为事件。
      • Type System:用户为他们想要管理的元数据对象定义模型。Type System称为“实体”的“类型”实例,表示受管理的实际元数据对象。
      • Graph Engine图形引擎:Atlas再内部使用Graph模型持久保存它管理的元数据对象。
    5. 融合层:
      • API:Atlas的所有功能都通过REST API向最终用户暴露,该API允许创建,更新和删除类型的实体。它也是查询和发现Atlas管理的类型和实体的主要机制。
      • Messaging:除了API之外,用户还可以选择使用基于Kafka的消息传递接口与Atlas集成。

    apache atlas:
    https://github.com/apache/atlas
    http://atlas.apache.org/

    Amundsen

    Amundsen是一个元数据管理的程序,可以将数据资产(物理表,元数据,用户资源代表,仪表板)可视化,同时建立索引并根据表的使用热度来支持页面上的元数据搜索,它包括三个微服务,一个图数据库,是一个公共库:
    Amundsen1
    1. amundsen frontendlibrary:前端服务,它是带有React前端的Flask应用程序,用于服务请求并充当元数据或搜索服务请求的中介。
    2. amundsen searchlibrary:利用Elasticsearch(默认情况下,搜索服务与ElasticSearch 6.x集成在一起,但也可以与Apache Atlas集成,后者与Solr提供类似的搜索功能。)的搜索功能的搜索服务用于增强前端元数据搜索。
    - 常规搜索:返回与给定搜索词和特定资源类型最相关的结果。
    - 类别搜索:筛选主要搜索词与给定元数据类别匹配的资源(例如,搜索database:hive),然后根据相关性返回与次要搜索词匹配的结果。
    - 通配符搜索:允许用户对不同资源执行通配符搜索。
    3. amundsen metadatalibrary:元数据服务,利用Neo4j或Apache Atlas作为持久层,默认持久层是Neo4j,以提供各种元数据。
    Amundsen2
    4. amundsen databuilder:用于构建元数据图和搜索索引的数据提取框架。使用Apache Airflow作为Databuilder的编排引擎。每个数据构建器作业都是DAG(有向无环图)中的一个单独任务。每种类型的数据资源都将具有单独的DAG,因为它可能必须以不同的时间表运行。
    amundsen3
    5. amundsen common:在Amundsen的所有微服务中保存着通用代码。

    Lyft Amundsen https://github.com/lyft/amundsen

    展开全文
  • Atlas(1):前言-从元数据到元数据管理

    万次阅读 2021-01-08 20:07:37
    数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。 “元数据管理是企业数据治理的基础”,在...
  • 数据治理系列2:元数据管理—企业数据治理的基础

    万次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统...
  • 数据管理 Data Management 是规划、控制和提供数据及信息资产的一组业务职能,包括开发执行监督有关 数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据和信息资产的价值。——DMBOK ...
  • 数据管理与数据治理的区别

    千次阅读 2019-05-12 16:25:41
    数据管理与数据治理的区别 (来源:DAMS,原作者:Jelani Harper,翻译:新炬网络-梁铭图, 整理:DAMS) 数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据 这个领域展开,因此这两个术语经常被混为一谈。...
  • MapGIS二次开发,数据管理数据管理模型与数据显示模型。
  • Apache Atlas元数据管理从入门到实战

    千人学习 2019-04-13 10:48:48
    课程概述: 本课程是大数据全栈工程师实战课程之一,有具有十几年一线技术研发经验的资深数据专家讲师录制,通过一个完整开源框架Apache Atlas元数据管理平台的系统介绍,带领大家体验元数据管理的系统架构、功能...
  • 前言随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多,概念容易混淆,...
  • 数据管理系统设计

    千次阅读 2019-08-15 10:55:43
    文章目录元数据管理系统设计1. 数据表管理模块2. 模型管理模块2.1 数据表模型管理2.2 SQL模型3. 维度管理模块4. 指标管理模块 元数据管理系统设计 1. 数据表管理模块 数据表信息维护需要如下信息: 表的元数据...
  • 数据管理 做它的出发点 它是一个简单工具类微信小程序 用于企业数据管理能力成熟度的初步评估 做它的理论依据 通过收集企业数据管理能力相关现状数据 结合业界现有评估模型, 给出结果模型展示图 评估模型, ...
  • 韩亚飞_yue31313_韩梦飞沙 QQ:313134555 目录 数据治理概念: ...对业务的数据管理和利用,为用户创造价值。 Data Governance 数据治理架构: 大数据架构: 大数据基础设施硬件 基于普通商用服...
  • 经过这些年的发展,国内外厂商在元数据管理能力的建设上有了一定的经验积累,此篇文章分析了国内外市场现状,指出企业级元数据管理正吸引着越来越多的厂商关注,有望成为未来元数据管理的主流方向,提出了企业级元...
  • Atlas-元数据管理

    千次阅读 2019-05-18 18:55:42
    0. 当我们谈论数据治理/元数据管理的时候,我们究竟在讨论什么?谈到数据治理,自然离不开元数据。元数据(Metadata),用一句话定义就是:描述数据的数据。元数据打通了...
  • 数据管理(MDM)与元数据管理

    万次阅读 2010-11-24 13:31:00
    数据管理和传统数据仓库解决方案不是一个概念,数据仓库会将各个业务系统的数据集中在一起在进行业务的分析,而主数据管理系统不会把所有数据都管理起来,只是把需要在各个系统间共享的主数据进行采集和发布
  • SAP主数据管理

    千次阅读 2015-07-14 10:10:31
    强化用户主数据管理,提升系统维护保障能力 客户供应商主数据 物料主数据 项目主数据(项目、WBS、网络)--作业、采购申请 财务主数据一般会分FI主数据、CO主数据 FI主数据主要有:会计科目、固定资产主数据、...
  • 个人认为主数据管理项目从咨询规划到落地实施再到初步见效需要经历四个阶段,而每个阶段都是必经阶段,每个阶段均可独立成章,所以这里是四部曲,不是四步曲。 主数据项目建设从方法上,分为以下四部,简单归结为12...
  • HDFS元数据管理机制

    千次阅读 2018-02-20 23:43:09
    一、元数据管理概述 HDFS 元数据,按类型分,主要包括以下几个部分: 1、文件、目录自身的属性信息,例如文件名,目录名,修改信息等。 2、文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副本个数等...
  • 数据治理之元数据管理实践

    万次阅读 2019-03-02 16:04:44
    近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企业在进行全面数字化转型需要考虑的一个...
  • 今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容: •Apache Atlas简介 •Apache Atlas架构 •Titan图数据库介绍 •ApachAtlas配置 •Apache ...
  • 数据仓库与元数据管理

    万次阅读 2011-01-06 17:54:00
    数据仓库与元数据管理 1. 前言 在事务处理系统中的数据,主要用于记录和查询业务情况。随着数据仓库(DW)技术的不断成熟,企业的数据逐渐变成了决策的主要依据。数据仓库中的数据是从许多业务处理...
  •   数据库技术是应数据管理任务的需求而产生的,在应用需求的驱动下,在计算机硬件,软件发展的基础上,数据管理技术经历了人工管理,文件系统,数据库系统三个阶段。  接下来我们一起来看看这三个阶段     一....
  • Marquez,开源的元数据管理工具

    千次阅读 2020-07-06 18:56:03
    Marquez是一款开源的元数据服务,用于数据生态系统元数据的收集、汇总... 集中式元数据管理支持: 数据血缘(Data Lineage) 数据治理(Data governance) 数据健康检查(Data health) 数据发现+探索(Data...
  • 二、要打仗,你手里先得有张地图:数据治理之元数据管理 这一篇讲讲元数据的概念和具体应用场景。 三、不忘初心方得始终:数据治理之数据质量管理 提升数据质量,始终是数据治理工作中最重要的目标之一。本篇讲述...
  • 目前,很多企业已经意识到,由于业务人员看不懂系统中存储的数据,所以难以通过大数据来提升业务创新能力,本文就来谈谈解决这个问题的方法——业务元数据管理。(同系列文章请点击王轩的文章《面向业务的企业元数据...
  • 数据分析与数据管理系统实践 一、数据介绍 公司员工信息 ,Excel文件 提供 44 名员工 姓名、所在部门工作职务车的编号 公司员工的信用卡刷记录(两周) ,Excel 文件 约 1400 行信用卡刷记录,内容包括:员工...
  •     数据库技术是应数据管理任务的需要而产生的。数据管理是指对数据进行分类、组织、编码、存储、检索和维护,它是数据处理的中心问题。而数据的处理是指对各种数据进行收集、存储、加工和传播的一系列活动的...
  • 浅谈元数据管理之Atlas和Metacat

    千次阅读 2020-05-27 15:51:30
    数据管理、血统采集、血统生命周期、数据地图、图数据库

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 410,768
精华内容 164,307
关键字:

数据管理