精华内容
下载资源
问答
  • 有技术元数据存储库
    万次阅读 多人点赞
    2020-12-31 15:41:39

    目录

    1、业务元数据

    2、技术元数据

    3、管理元数据

    4、小编有话


    1、业务元数据

    1. 描述数据背后的业务含义

    2. 主题定义:每段 ETL、表背后的归属业务主题。

    3. 业务描述:每段代码实现的具体业务逻辑。

    4. 标准指标:类似于 BI 中的语义层、数仓中的一致性事实;将分析中的指标进行规范化。

    5. 标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。

    6. 不断的进行维护且与业务方进行沟通确认。

    2、技术元数据

    • 数据源元数据
      • 例如:数据源的 IP、端口、数据库类型;数据获取的方式;数据存储的结构;原数据各列的定义及 key 指对应的值。
    • ETL 元数据
      • 根据 ETL 目的的不同,可以分为两类:数据清洗元数据数据处理元数据
      • 数据清洗,主要目的是为了解决掉脏数据及规范数据格式;因此此处元数据主要为:各表各列的"正确"数据规则;默认数据类型的"正确"规则。
      • 数据处理,例如常见的表输入表输出;非结构化数据结构化;特殊字段的拆分等。源数据到数仓、数据集市层的各类规则。比如内容、清理、数据刷新规则。
    • 数据仓库元数据
      • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式等。
    • BI 元数据
      • 汇总用的算法、包括各类度量和维度定义算法。数据粒度、主题领域、聚集、汇总、预定义的查询与报告。

    3、管理元数据

    管理领域相关,包括管理流程、人员组织、角色职责等。

     

    4、小编有话

    在日常工作中,元数据的管理主要体现在元数据的采集、存储、查询、应用几个方面。原则上应从规范化,到脚本化,到工具化的方向进行建设。

    • 采集:元数据采集时尽可能详细,真实,可通过工具生成或者勾选,避免手动录入带来不规范等问题
    • 存储:存储元数据要做到不失真,元数据变更时及时同步
    • 查询:通过网页或库表等方式,方便快捷的看到元数据,辅助进行开发
    • 应用:数据血缘、优化调度依赖、数据治理等

     

    更多相关内容
  • Data-Doc是用于SQL Server数据库的简单元数据存储库应用程序。 它对于记录数据仓库特别有用。 元数据存储库 元数据存储库只是一个保存有关其他数据的元数据的数据库(通常是数据库)。 通常存储在元数据存储库中的...
  • 漫谈数据仓库中的元数据管理

    千次阅读 2022-06-01 00:54:08
    来源:网络编辑:数据社全文共5253个字,建议10分钟阅读简介:相信很多朋友都是第一次听说元数据管理系统这个...本文大部分观点与图片汇总字网络,如不同观点,欢迎留言交流~~01元数据的定义 按照...

    6b01fe62f9f336108a0034bb2e1b3f9b.png

    来源:网络 编辑:数据社

    全文共5253个字,建议10分阅读

    简介: 相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然对它不是很了解,那么今天我来聊一聊元数据管理系统。本文大部分观点与图片汇总字网络,如有不同观点,欢迎留言交流~~ 

    01

    元数据的定义

    按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)

    技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:

    • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;

    • 业务系统、数据仓库和数据集市的体系结构和模式

    • 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;

    • 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

    业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:

    • 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

    • 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

    • 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

    02

    元数据的作用

    与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。如下图所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。

    其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:

    1.元数据是进行数据集成所必需的

    数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。

    2.元数据定义的语义层可以帮助用户理解数据仓库中的数据

    最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。

    3.元数据是保证数据质量的关键

    数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。

    4.元数据可以支持需求变化

    随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性 

    03

    元数据管理现状

    由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。与元数据相关的数据仓库工具大致可分为四类:

    1. 数据抽取工具:

    把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。

    2. 前端展现工具:

    包括OLAP分析、报表和商业智能工具等,如Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。

    3. 建模工具:

    为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。

    4. 元数据存储工具:

    元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,Ardent的MetaStage和Sybase的WCC等。

    5.元数据管理工具:

    目前国内的元数据管理工具大概有三类。一是像IBM、CA等公司都提供的专门工具,比如IBM收购Ascential得到的MetaStage,CA的DecisionBase都是如此;二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据管理工具;三是像普元、石竹这样的集成商也有自己的元数据管理工具:普元MetaCube、新炬网络元数据管理系统、石竹MetaOne等。
    专门的元数据管理工具,对自家产品兼容较好,一旦涉及跨系统管理,就不尽如人意了。从国内的实际应用来看,DAG的MetaCenter这一工具使用最多,目前所看到的在电信、金融领域建设的元数据管理项目基本上都是应用了这一产品。
    我从互联网上搜索了几乎所有的元数据厂家:Pentaho开源的MetaData产品,支持源码下载试用,可以进行集成开发;普元MetaCube下载后,配置麻烦,目前为止还没有调通;其他公司产品均不提供下载试用。 

    04

    元数据管理标准

    没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。

    从元数据的发展历史不难看出,元数据管理主要有两种方法:

    • 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。

    • 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。

    目前OMG家的CWM(Common Warehouse MetaModel)标准已成为元数据管理界的统一标准:
    OMG是一个拥有500多会员的国际标准化组织,著名的CORBA标准即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年3月,OMG颁布了CWM 1.0标准。CWM模型既包括元数据存储,也包括元数据交换,它是基于以下三个工业标准制定的:

    • UML:它对CWM模型进行建模。

    • MOF(元对象设施):它是OMG元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口。

    • XMI(XML元数据交换):它可以使元数据以XML文件流的方式进行交换。

    OMG元数据知识库体系结构如下图所示。

       
    CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:

    • CWM元模型(Metamodel):描述数据仓库系统的模型;

    • CWM XML:CWM元模型的XML表示;

    • CWM DTD:DW/BI共享元数据的交换格式

    • CWM IDL:DW/BI共享元数据的应用程序访问接口(API)

    05

    元数据管理功能

    1. 数据地图

    数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。之前我写过一篇数据地图的文章,可以参考:数仓治理:数据地图长什么样?

    2. 元数据分析

    血缘分析
    血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成的处理过程。数据源接口实体由源系统提供,作为数据系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血缘分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生什么样的输出。

    影响分析
    影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围。

    实体关联分析
    实体关联分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。本功能可以用来支撑需求变更影响评估的应用。

    实体差异分析
    实体差异分析是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影响的差异等,在数据系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种原因,这些微小的差异直接影响了数据统计结果,数据系统需要清楚了解这些差异。本功能有助于进一步统一统计口径,评估近似实体的差异

    指标一致性分析
    指标一致性分析是指用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。指标一致性分析可以帮助用户清楚地了解到将要比较的两个指标在经营分析数据流图中各阶段所涉及的数据对象和转换关系是否一致,帮助用户更好地了解指标的来龙去脉,清楚理解分布在不同部门且名称相同的指标之间的差异,从而提高用户对指标值的信任。

    3. 辅助应用优化

    元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化.

    4. 辅助安全管理

    企业数据平台所存储的数据和提供的各类分析应用,涉及到公司经营方面的各类敏感信息。因此在数据系统建设过程中,须采用全面的安全管理机制和措施来保障系统的数据安全。
    数据系统安全管理模块负责数据系统的数据敏感度、客户隐私信息和各环节审计日志记录管理,对数据系统的数据访问和功能使用进行有效监控。为实现数据系统对敏感数据和客户隐私信息的访问控制,进一步实现权限细化,安全管理模块应以元数据为依据,由元数据管理模块提供敏感数据定义和客户隐私信息定义,辅助安全管理模块完成相关安全管控操作。

    5. 基于元数据的开发管理

    数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。开发管理应用可以提供相应的功能,对以上各环节的工作流程、相关资源、规则约束、输入输出信息等提供管理和支持。

    欢迎加入 大数据 |数仓技术交流群

    进群方式:请加微信(微信号:dataclub_bigdata),回复:加群,通过审核会拉你进群。

    32a46748d0796db60c41864ff3d6ead5.png

    (备注:行业-职位-城市)

    福利时刻

    01. 后台回复「数据」,即可领取大数据经典资料。

    02. 后台回复「转型」,即可传统数据仓库转型大数据必学资料。

    03. 后台回复「加群」,或添加一哥微信IDdataclub_bigdata  拉您入群(大数据|数仓|分析)或领取资料。

    07192b19b443ad810bb1fa6a60145c89.png  

    关注不迷路~ 各种福利、资源定期分享

    你点的每个在看,我都认真当成了喜欢

    展开全文
  • 免疫 代表参考元库publiccode.yml的着陆页immuni-app的组织。 源代码和技术文档在以下存储库中发布:
  • 数据仓库元数据介绍

    千次阅读 2018-12-04 20:56:56
    元数据(Metadata)类似于这样的电话黄页。 元数据的定义 数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据...

    当需要了解某地企业及其提供的服务时,电话黄页的重要性就体现出来了。元数据(Metadata)类似于这样的电话黄页。

    元数据的定义

    数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。
    元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。
    (1)构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
    (2)用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。
    (3)数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。
    元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
    由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个有机的整体,如图所示
    在这里插入图片描述

    元数据的存储方式

    元数据有两种常见存储方式:一种是以数据集为基础,每一个数据集有对应的元数据文件,每一个元数据文件包含对应数据集的元数据内容;另一种存储方式是以数据库为基础,即元数据库。其中元数据文件由若干项组成,每一项表示元数据的一个要素,每条记录为数据集的元数据内容。上述存储方式各有优缺点,第一种存储方式的优点是调用数据时相应的元数据也作为一个独立的文件被传输,相对数据库有较强的独立性,在对元数据进行检索时可以利用数据库的功能实现,也可以把元数据文件调到其他数据库系统中操作;不足是如果每一数据集都对应一个元数据文档,在规模巨大的数据库中则会有大量的元数据文件,管理不方便。第二种存储方式下,元数据库中只有一个元数据文件,管理比较方便,添加或删除数据集,只要在该文件中添加或删除相应的记录项即可。在获取某数据集的元数据时,因为实际得到的只是关系表格数据的一条记录,所以要求用户系统可以接受这种特定形式的数据。因此推荐使用元数据库的方式。
    元数据库用于存储元数据,因此元数据库最好选用主流的关系数据库管理系统。元数据库还包含用于操作和查询元数据的机制。建立元数据库的主要好处是提供统一的数据结构和业务规则,易于把企业内部的多个数据集市有机地集成起来。目前,一些企业倾向建立多个数据集市,而不是一个集中的数据仓库,这时可以考虑在建立数据仓库(或数据集市)之前,先建立一个用于描述数据、服务应用集成的元数据库,做好数据仓库实施的初期支持工作,对后续开发和维护有很大的帮助。元数据库保证了数据仓库数据的一致性和准确性,为企业进行数据质量管理提供基础。

    元数据的作用

    在数据仓库中,元数据的主要作用如下。
    (1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。
    (2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。
    (3)记录业务事件发生而随之进行的数据抽取工作时间安排。
    (4)记录并检测系统数据一致性的要求和执行情况。
    (5)评估数据质量。

    展开全文
  • 前期回顾: ⼤数据是如何产⽣的?...元数据具体的工作内容元数据分为技术元数据和业务元数据7 数据治理脏数据的种类数据治理原则知识拓展(数据集市)结束语 数据仓库(数据是如何存储的) 1 什么是数据

    大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

    感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。


    前期回顾:
    ⼤数据是如何产⽣的?大数据的特点是什么?什么是埋点?如何进行数据埋点?【超详细介绍】

    对于这么多种类,这么大体量的数据是如何存储的呢?

    所以数据仓库就应景而生了。

    数据仓库(数据是如何存储的)

    1 什么是数据仓库?

    数据仓库(Data Warehouse),简称DW。数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的分析性报告和决策⽀持⽬的⽽创建,对多样的业务数据进⾏筛选与整合。它能为企业提供⼀定的BI(商业智能:例如数据挖掘、数据分析和数据报表)能⼒。有了数据报表,还可以指导业务流程改进。
    在这里插入图片描述

    2 数据仓库解决什么问题?

    数据仓库是应景大数据而生的,解决的问题无非就是存储和快速提取, 另外还有跨部⻔应⽤的功能。
    在这里插入图片描述
    对于不同数据整合到了数据仓库之后,也就是大数据有了存储的位置;我们可以不同的部门进行不同的应用(例如数据挖掘、数据分析、报表展示和查询等等);而快速提取是我们对于数据仓库的基本需求,所以数据仓库在设计起初就要具备快速提取的功能。而技术实现呢,就是分布式。

    3 数据仓库的主要特征

    • ⾯向主题的
      传统数据库最大的特点就是面向应用进行组织数据,一个业务系统管理一部分企业数据,多个业务系统之间呢是相互分离的,而数据仓库则是面向主题的。
      我们可以通过从上图中的源数据那部分看到,它把多个业务的数据来整合,所以是面向主题的。
      在这里插入图片描述

    • 集成的
      集成是指数据仓库中数据必须是一致的,也就是我们要通过ETL进行软码编辑。数据仓库的数据是从原有的、分散多个数据仓库、数据文件、用户日志中抽取出来的,那数据来源上可能既有内部数据,又有外部数据。
      数据仓库中的数据是为分析而服务的,而分析呢又需要多种、广泛的不同数据源、数据,以便进行比较、鉴别。因此数据仓库中的数据必须从多个数据源中获取。那这些数据源就包括我们在上篇博客介绍过的内部数据、外部数据、文件系统以及网上的其他数据等。这些是通过数据集成而形成数据仓库的数据,所以它是集成的。

    • 稳定的(不易失的)
      数据仓库中的数据反映的是一段相当长时间内历史数据的内容,是不同时间点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的一个导出数据,一旦数据进入仓库以后,一般情况下会较长时间的保留。数据经加工和集成进入数据仓库后极少更新,所以是稳定的,它保留的时间长也是稳定的、不易失的。

    • 时变的(反映历史变化的)
      数据仓库中包含各种意思的历史数据。数据仓库中的数据与某个特定的日期,例如星期、月份是有关系的。虽然数据仓库不会修改数据,但并不是说数据仓库的数据啊是永远不变的,数据仓库的数据也需要更新以适应新的需求。数据仓库的数据随时间的变化主要表现在以下几个方面:
      1.数据仓库的数据时限一般来说远远长于操作类型的数据库时限;
      2.业务系统存储的是当前数据,而数据仓库中的数据是历史数据;
      3.数据仓库中的数据是按照时间顺序进行追加的,都在于时间属性,这就是反映了历史变化的数据。

    4 数据仓库与数据库区别

    在这里插入图片描述
    数据仓库与数据库的区别,实际上就是OLTP(联机事物处理过程),也称为面向交易的处理过程,和OLAP(联机分析处理)的区别。

    在看具体的差异之前,需要特别提醒的是,数据仓库的出现并不是要取代数据库,它们是各有各的用处的

    1. 先从面向来看,数据库面向的是事务,也就是OLTP(联机事务处理过程),而数据仓库呢面向的是分析,也就是OLAP(联机分析处理)。

    2. 再看一下用户,对于数据库来说,它的用户是DBA开发;对于数据仓库来说呢,它的用户就是经理、主管、分析人员,可以看出数据仓库是针对于分析的;

    3. 对于功能而言,数据库是针对于日常操作的,而数据仓库是对于长期信息需求,用来决策支持的。

    4. 再看一下数据,数据库当中存储的是当前的、最新的,而数据仓库呢存储的是历史的、跨时间维护的,所以数据库当中信息比较久远的数据可以入仓,也就是存储到数据仓库中来。

    5. 再看一下用户数,数据库是数百到数亿的,例如我们是一个电商数据库,那他的用户可能就达到了上亿,而对于数据仓库可能只达到了数百,因为是给企业内部人员来进行使用的。

    6. 再看一下设计规模,数据库呢是GB到TB的,那对于数据仓库来说呢,它存在是历史数据,所以肯定是大于TB的。

    我们以银行业务为例来具体的说明一下。数据库是事务系统的数据平台,那客户在银行做的每一笔交易都写入数据库记录下来,这里可以简单的理解为用数据库来记账。而数据仓库是分析系统的数据平台,它从事务系统获取数据,也就是从数据库中获取数据,并做汇总、加工,为决策者提供决策的依据。比如某银行某分行一个月发生多少交易,该分行当前存款余额是多少,如果存款多、消费交易多,那么该地区就有必要设立ATM。银行的交易量是巨大的,通常以百万甚至千万来计算。税务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据,这些数据就是海量的,汇总计算比较慢一些,但是只要能够提供有效的分析数据就达到了目的了。

    因此数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、决策需要而产生的,它绝不是所谓的大型数据库。

    5 数据仓库架构

    在这里插入图片描述
    数据仓库是大数据时代的必然产物,而且它还具有四个特征:面向主题的、集成的、稳定的、时变的。那么我们用它来解决的问题就是存储大数据量、快速提取、还有跨部门应用。那针对于跨部门应用和快速提取,我们就要设计好数据仓库的架构。那数据仓库的架构主要从四个方面来考虑:一个是性能,比如提取速度快;一个是成本,也就是数据仓库到底有多少个集群等等;还有效率和还有质量,这四点之间取得最佳的平衡。

    而主流的方法呢是分层架构。
    在这里插入图片描述

    • 第一层,ODS层,是数据准备区,数据来源是各个业务系统的数据,物理模型和业务系统模型是一致的。

    • 第二层,DWD层,数据来至于ODS层,数学模型与ODS层一致,那其实也是与业务系统模型一致。

    • 第三层,DW层,数据来自是第二层DWD层,是DW事实层,采用维度建模,星型架构。这一层可细分为dwb和dws。

    • 第四层,DM层,数据来自于下一层的DW层,采用了维度建模,也是星型架构,和DW层是一样的。

    • 第五层,ST层,数据来自于DW层,采用的也是维度建模和星型架构。

    上述内容是从数据来源及建模方式来说的这样五层的作用。

    接下来我们从服务领域、数据ETL来看一下这五层的作用。

    数据仓库系统的数据来源于不同的数据源,例如MySQL、ORACLE和文档等等,而且还提供不同的数据应用。数据是自下层流入到数据仓库,然后向上层开放数据应用。数据仓库只是中间的一个数据管理平台,所以我们在架构数据仓库系统的时候都采用分层架构。

    来看一下名企的数据仓库。

    华为采用的是分层架构。
    在这里插入图片描述
    星环专有采用的也是分层架构。
    在这里插入图片描述

    6 数据仓库元数据管理

    我们介绍在数据仓库进行架构的时候,从四个方面进行考量和平衡,如质量、性能、效率、还有成本。那分层架构上可以看出来,它是在效率和效能上进行考察的,质量方面就要靠元数据的管理和数据治理来实现了。

    什么是元数据?

    那我们先来介绍一下什么是元数据。

    元数据主要是记录数据仓库中模型的定义、各层级间的映射关系(例如我们架构的这五层,层与层之间的映射关系要靠元数据来保存),监控数据仓库的数据状态以及ETL任务的运行。一般会通过元数据质量库来统一地存储和管理原数据,其主要目的呢就是使数据仓库的设计、部署、操作和管理达成协同和一致,保证数据质量,这是元数据的定义。

    而我们关键要看的就是模型的定义、层级的映射关系、ETL的任务运行状态,这都是元数据来负责的。所以说元数据是数据仓库系统的一个重要的组成部分,贯穿数据仓库构建的整个过程,直接影响了数据仓库的构建、使用和维护。由于数据仓库的数据来源种类比较多,例如MySQL、日志、外部数据等等。在这些元数据进入数据仓库时,要经历ETL(抽取、转换、加载)这些操作步骤,所以元数据就是定义源数据到数据仓库的映射关系、转换规则等等。同理,在数据应用层,也就是用户在使用数据的时候,也是通过元数据来访问数据的,因为元数据记录了数据的位置。
    在这里插入图片描述

    元数据具体的工作内容

    那在数据分析的时候,我们也要知道数据清洗的规则是如何的,所以我们来看一下元数据具体的工作内容。

    在这里插入图片描述

    • 元数据针对于ETL,它存储了抽取方法、映射规则等等。

    • 对于清洗工具,它又存储了这样清洗的一些规则。

    • 对于相关人员使用,它存储了一些数据质量、数据是如何组织的。

    • 对于数据仓库的建模,它存储数据是如何定义的、数据有效值、数据仓库的模型等等。

    • 对于查询工具、前端工具、报表工具,也就是数据应用层,用户在使用的时候,元数据它包含了查询的定义、数据导出属性以及数据之间的映射关系。

    元数据分为技术元数据和业务元数据

    从我们介绍元数据保存的信息,我们可以看出,元数据分为技术性的元数据,还有业务性的元数据。

    技术元数据,它是被开发或者是管理数据仓库的这些IT人员使用的,它描述了与数据仓库的开发管理,以及维护相关的数据。例如包含数据源的信息都来自于哪一个部分的数据(比如MySQL,或者哪一个业务的)、数据转换的描述(也就是不同的数据源是如何入仓的)、数据仓库的模型、数据的清洗与更新的规则、数据映射和访问权限等等。

    对于业务元数据呢,它是对管理层和分析人员来服务的,但是从业务角度来描述数据,包括一些商务数据、数据仓库中有什么数据、数据的具体位置在什么地方和数据可用性等等。

    这就是我们元数据的作用,所以说元数据贯穿了数据仓库构建的整个过程,直接影响了数据仓库的构建(也就是IT人员使用的那部分元数据)、使用(也就是管理层和分析人员)和维护(也是IT人员)。

    所以数据仓库的元数据管理记录很重要,保证数据仓库中的数据质量,可以对元数据进行管理。那还有一点呢,就是对数据进行治理。数据治理有广义上的,还有狭义上的。在这里我们只介绍狭义的,也就是从数据分析的角度来介绍一下数据治理如何影响数据质量、影响分析的。

    7 数据治理

    都知道数据是企业的核心资产,而数据治理能成就企业的未来,特别是那种进行数据服务的公司,还有银行等。数据治理涉及到数据质量、数据管理、数据政策以及商业过程管理等。治理呢主要治理的是脏数据。那我们先来看一下脏数据的种类,以及对于不同种类的脏数据我们是如何处理的。

    脏数据的种类

    在这里插入图片描述

    1. 数据缺失。
      为了不影响分析的准确性,一般情况下我们是有两种方案来应对这种缺失数据的。
      第一种就是对于这种缺失数据,我们不把它纳入到分析范围里面,那这种情况适合于我们数据量比较多的情况下,也就是当我们数据量比较多,那对于缺失的数据我们删除可能不会影响我们最终的分析结果。但是如果我们样本量比较少,又把缺失的删除掉,那它可能会影响我们的分析。
      第二种方式,就是想办法想一些计算逻辑,或者是数据进行重新提取这样的方式来对数据进行填充。如填充中位数、众数或者均值。

    2. 数据重复。
      那在这种时候,就要进行分析去掉重复记录了。

    3. 数据错误。
      数据没有严格按照规范进行记录,这种情况下只能人工干预了,而干预的方式呢就有很多种了。那因为公司、业务、甚至数据,干预手段都是不一样的,可以做一张清洗规则表来进行错误匹配

    4. 数据不可用。
      也就是数据正确但不可用,也就是这个数据没有价值了。例如我们要收集所有的全国学生的一些基本信息,结果只收集了学生的姓名,名字是没有错,但是不知道是哪个学校的,不知道年龄、专业、班级等等,甚至所在的城市。那这样的数据是毫无价值的,即数据不可用。从源头也就是你数据收集就出错了,就只能从源头来改了。

    数据治理原则

    在这里插入图片描述

    虽然不同的脏数据种类,我们有不同的解决方案,但是真的有一些脏数据出现了,我们的代价是很大的。比如第四类数据不可用,真的是从头再来。所以说我们一定要对数据进行治理,治理的原则就是两方面。

    一方面是约束输入,比如必须添加的、数据的类型是什么,也就是规则要统一;另一方面就是规范的输出——统一语义,也就是我们口径、计算方式都一样,然后要有一个公司级别的语义字典。这样我们在用数据的时候就不会出现错误了,在收集数据的时候也不会出现数据不可用了。

    知识拓展(数据集市)

    数据仓库规模⼤、周期⻓,⼀些规模⽐较⼩的企业⽤户难以承担。因此,作为快速解决企业当前存在的实际问题的⼀种有效⽅法,独⽴型数据集市成为⼀种既成事实。

    数据集市(Data Mart) ,也叫数据市场,数据集市就是满⾜特定的部⻔或者⽤户的需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。

    数据集市主要是针对⼀组特定的某个主题域、部⻔或者特殊⽤户需求的数据集合。这些数据需要针对⽤户的快速访问和报表展示进⾏优化,优化的⽅式包括对数据进⾏轻量级汇总,在数据结构的基础上创建索引。

    数据集市的⽬标分析过程包括对数据集市的需求进⾏拆分,按照不同的业务规则进⾏组织,将与业务主题相关的实体组织成主题域,并且对各类指标进⾏维度分析,从⽽形成数据集市⽬标说明书。内容包括详细的业务主题、业务主题域和各项指标及其分析维度。

    结束语

    一直在学习路上!

    推荐关注的专栏

    👨‍👩‍👦‍👦 机器学习:分享机器学习理论基础和常用模型讲解
    👨‍👩‍👦‍👦 数据分析:分享数据分析实战项目和常用技能整理


    关注我,了解更多相关知识!

    CSDN@报告,今天也有好好学习

    展开全文
  • 数据仓库中元数据的定义、用途及元数据的分类 (1)元数据的定义: 元数据是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。 元数据主要记录数据仓库中模型的定义、各...
  • 数据仓库与元数据

    千次阅读 2019-03-19 12:21:57
    数据仓库 数据仓库的定义 ...数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能...
  • 元数据及数据仓库相关概念

    千次阅读 2018-09-28 11:48:53
    文章目录元数据(metadata)的概念Data about Data定义技术元数据业务元数据总结数据仓库ODS简单的理解为 Operational Data Store, 运营数据仓储 数据整合层(也叫做数据缓冲层)EDW简单理解为 Enterprise Data ...
  • 元数据管理-技术元数据解决方案

    千次阅读 2020-10-01 08:54:44
    元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述 元数据是数仓建设环节中不可...
  • 数仓知识06:什么是元数据

    千次阅读 2022-05-01 16:05:02
    元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。 举几个简单例子: ...
  • 来源:网络 编辑:数据一哥全文共5469个字,建议阅读14分钟大家好,我是一哥,元数据管理是企业数据治理的基础,是数据仓库建设的关键。作为一名数据人,首要任务就是理解元数据管理。本篇文章将...
  • 原文地址 一、元数据的定义 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所...技术元数据存储关于数据仓库系统...
  • 数据仓库系列--元数据

    千次阅读 2018-04-15 20:35:09
    一.元数据 一.元数据的定义 数据仓库的元数据是关于数据仓库... 元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构...
  • 数据仓库——元数据、主数据

    千次阅读 2020-06-04 17:31:29
    元数据、主数据、数据仓库、数据治理、大数据、源数据、数据元、、
  • 终于人把元数据讲明白了

    千次阅读 2022-04-20 01:15:59
    导读:元数据是数据的“说明书”,完善的元数据有利于数据使用者了解企业什么数据,它们分布在哪里,数据的业务含义是什么,数据口径及颗粒度是怎样的,需要使用数据时应该向谁提出申请,以及如何获取数据。元数据...
  • 【数据治理】数据元、元数据、主数据、参考数据概述 数据元 什么是数据元: 《GB/T 19488.1 电子政务数据元第1部分:设计和管理规范》 里是这样定义的: 数据元(Data element):又称数据类型,通过定义、标识、...
  • 数据仓库元数据管理

    千次阅读 2018-09-21 16:11:56
    数据仓库元数据管理元数据元数据分类技术元数据业务元数据系统管理功能 元数据 元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元...
  • 数据仓库及数据挖掘

    千次阅读 2022-03-25 00:05:51
    一、数据仓库概述 二、数据仓库的建设 三、数据仓库的分类 四、数据仓库的设计方法 五、数据挖掘 1、概述 2、常用技术与方法 3、应用
  • 数据仓库之元数据管理

    万次阅读 2020-08-21 16:29:27
    一般会通过元数据资料(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据...
  • 本文主要从元数据的定义、作用、元数据管理现状、管理标准和...元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)
  • 分布式数据存储技术

    千次阅读 2021-06-26 21:41:00
    前一篇文章(数据存储技术:单机篇)探究了数据在单机上是如何存储的。 当需要存储的数据量变得很大、一台机器的磁盘无法存储下时,就需要将这些数据存储到多台机器上。 数据分布 将数据分布到不同的节点上的方式...
  • 数据仓库中的元数据 数据仓库的数据ETL过程 ETL概念 数据的ETL过程描述 抽取(Capture/Extract) 清洗(Scrub/Cleanse) 转换(Transform) 集成(Data Integration) 加载和索引(Load/Index) ETL的概念:数据...
  • 大数据--数据仓库

    千次阅读 2022-04-24 15:39:49
    数据仓库概念数据仓库特点数据仓库分层数据仓库建模模型选择数仓建模流程数仓建模过程模型设计的思路模型落地实现事实表设计事实表设计原则事实表设计方法三种事实表多维体系结构维度设计六范式与反范式元数据数据...
  • 亿信华辰第二期培训,通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,助于发现分布在不同系统、位置的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本...
  • 元数据管理 开源项目技术选型

    千次阅读 2021-07-22 10:06:01
    元数据管理或者叫数据发现服务 开源项目技术选型 目录一、元数据管理简介是什么?为什么?二、开源方案介绍Linkedin DatahubApache AtlasNetflix MetacatLYFT Amundsen三、详细对比四、推荐度 一、元数据管理简介 是...
  • 元数据管理技术--Atlas

    千次阅读 2021-07-14 15:37:28
    ApacheAtlas 为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对 这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作 功能。 1)表与表之间的血缘依赖 2)字段...
  • 在GeoRaster数据存储模型的基础上,使用基于存储过程的影像入库方法,创建Import_Img_Data存储过程,利用C#语言调用该过程实现高光谱影像的存储。采用基于动态数据表转换的数据获取方法,从数据库的GeoRaster对象中...
  • 数据仓库(五)元数据管理

    万次阅读 多人点赞 2018-09-20 21:47:03
    概述 元数据通常定义为”关于数据的...元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。  元数据类型   1.业务元数据  业务元数据指从业务角度描述业务...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 124,117
精华内容 49,646
关键字:

有技术元数据存储库