精华内容
下载资源
问答
  • 仓储管理数据流程
    2021-12-17 09:29:59

    **

    数据仓库建模

    **

    数据仓库建模流程

    数据仓库建模流程:
    1、业务建模
    2、领域建模
    3、逻辑建模
    4、物理建模

    一 、业务建模
    1、要搞清要做什么业务
    2、要搞清业务得边界在哪
    3、要知道做的业务和别的系统的关系
    4、要知道怎么去做,哪个时间段做什么东西(里程碑)

    二、领域建模
    1、要知道关键业务是什么
    2、业务概念分组,找到相似的业务概念
    3、抽象出分组中的业务流程
    4、理清楚每个业务分组之间的关系

    三、逻辑建模
    1、数据层次逻辑化
    2、业务概念实体化,并考虑其具体的属性
    3、事件实体化,并考虑其属性内容
    4、说明实体化,并考虑其属性内容

    四、物理建模
    1、针对特定物理化平台,做出相应的技术调整
    2、针对模型的性能考虑,对特定平台作出相应的调整
    3、针对管理的需要,结合特定的平台,做出相应的调整
    4、生成最后的执行脚本

    菜鸟理论做笔记记录 不喜勿喷

    更多相关内容
  • RFID仓储管理系统流程

    2021-01-19 22:54:45
    我们设计的仓储管理系统主要针对××公司的洗发水仓储实施RFID管理,该系统的管理流程如下。  步是产品的下线信息采集。首先,当产品下线装箱时,按序将RFID标签贴于包装箱上。其次再将产 品箱装入带有RFID标签的...
  • 仓库管理系统 14020310090 张振宇 一、系统功能的基本要求: 产品... 三、数据流图 四、软件结构图 ----------------------- 仓库管理系统流程图全文共2页,当前为第1页。 仓库管理系统流程图全文共2页,当前为第2页。
  • 我们设计的仓储管理系统主要针对××公司的洗发水仓储实施RFID管理,该系统的管理流程如下。  第一步是产品的下线信息采集。首先,当产品下线装箱时,按序将RFID标签贴于包装箱上。其次再将产 品箱装入带有RFID...
  • ; 外部项 S;多次重复的外部项 ;数据流F ;数据流的描述 ;数据流的表达 ;... 例1试根据下述业务过程画出物质采购系统的数据流程图:仓库向物质采购系统发出缺货通知,系统查阅订货合同单,若已订货,向供货单位
  • 数据仓库之元数据管理

    万次阅读 2020-08-21 16:29:27
    数据数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。 构建数据仓库的主要步骤之一是 ...

    元数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据是数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。

    构建数据仓库的主要步骤之一是 ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

    在这里插入图片描述

    用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制

    报表。数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移

    除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。

    一、元数据类型

    ​元数据可分为技术元数据业务元数据管理过程元数据

    1、 技术元数据为开发和管理数据仓库的 IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。

    2、 业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

    3、 管理过程元数据指描述管理领域相关的概念、关系和规则的数据,主要包括管理流程、人员组织、角色职责等信息。

    二、元数据功能

    1、血缘分析:向上追溯元数据对象的数据来源。血缘分析可以帮助您轻松回答:'我正在查看的报告数据来源是什么?'以及’对当前分析的数据应用了哪些转换处理?'等问题。这样的机制及对这些问题的回答确保了对所分析的数据更高的信任水平,并有助于实现许多行业(包括医疗、金融、银行和制造业等)对所呈现数据的特殊监管及合规性要求。

    2、影响分析:向下追溯元数据对象对下游的影响。影响分析可以让您轻松应对变更可能产生的影响,自动识别与其相关的依赖项和潜在的影响还可以跟踪所有对象及其依赖关系,最后我们还提供数据全生命周期的可视化显示。例如,如果您的某一信息系统中准备将“销售额”从包含税费更改为不包括税费,则SE-DWA将自动显示所有使用了“销售金额”字段,以便您可以确定有哪些工作需要完成,并且建议您在更改前完成该工作。

    3、同步检查:检查源表到目标表的数据结构是否发生变更。

    4、指标一致性分析:定期分析指标定义是否和实际情况一致。

    5、实体关联查询:事实表与维度表的代理键自动关联。

    三、元数据应用

    1、ETL自动化管理:使用元数据信息自动生成物理模型,ETL程序脚本,任务依赖关系和调度程序。

    2、数据质量管理:使用数据质量规则元数据进行数据质量测量。数据质量根据设定的规则帮助您过滤出有问题的数据,并智能分析数据质量缺陷。

    3、数据安全管理:使用元数据信息进行报表权限控制。可以方便查看用户和访问权限,并启用对象级和行级安全管理。对象级安全性确保通过身份验证的用户只能访问他们被授权查看的数据、表或列,其它数据则不可见。基于行的安全性会更进一步,可以限制特定的组成员只可以访问表中特定的数据。

    4、数据标准管理:使用元数据信息生成标准的维度模型。

    5、数据接口管理:使用元数据信息进行接口统一管理。多种数据源接入,并提供多种插件对接最流行的源系统。应该可以简单方便获取数据。

    6、项目文档管理:使用元数据可以自动、方便的生成的健壮全面的项目文档,其以帮助您应对各种对于数据合规性要求。读取元数据模型,并生成pdf格式的描述文件。生成文档您查看每个对象的名称、设置、描述和代码。

    7、数据语义管理:业务用户在自助服务分析中面临的挑战他们不了解数据仓库从而无法正确解释数据,使用元数据可以语义层建模,使用易于业务用户理解的描述来转换数据。

    四、总结

    ​ 由上可见,元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来,组成了一个整体数据仓库解决方案。

    展开全文
  • 1、数据仓库的子集 2、经过ETL流程的一定粒度汇总数据 3、面向部门级业务 4、针对特定主题的数据集 5、星型模式(不遵循3NF结构) 6、缓解仓库访问瓶颈
  • 漫谈数据仓库中的元数据管理

    千次阅读 2022-06-01 00:54:08
    来源:网络编辑:数据社全文共5253个字,建议10分钟阅读简介:相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然...

    6b01fe62f9f336108a0034bb2e1b3f9b.png

    来源:网络 编辑:数据社

    全文共5253个字,建议10分阅读

    简介: 相信很多朋友都是第一次听说元数据管理系统这个名词,当然,从事非数据仓库工作的人,很少会接触到这个系统,即使是正在从事这方面工作的朋友,可能仍然对它不是很了解,那么今天我来聊一聊元数据管理系统。本文大部分观点与图片汇总字网络,如有不同观点,欢迎留言交流~~ 

    01

    元数据的定义

    按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)

    技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:

    • 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;

    • 业务系统、数据仓库和数据集市的体系结构和模式

    • 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;

    • 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。

    业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:

    • 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

    • 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

    • 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

    02

    元数据的作用

    与其说数据仓库是软件开发项目,还不如说是系统集成项目,因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。如下图所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。

    其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:

    1.元数据是进行数据集成所必需的

    数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。

    2.元数据定义的语义层可以帮助用户理解数据仓库中的数据

    最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。

    3.元数据是保证数据质量的关键

    数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。

    4.元数据可以支持需求变化

    随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性 

    03

    元数据管理现状

    由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能(BI)系统的“灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供的仅仅是对特定的局部元数据的管理。与元数据相关的数据仓库工具大致可分为四类:

    1. 数据抽取工具:

    把业务系统中的数据抽取、转换、集成到数据仓库中,如Ardent的DataStage、Pentaho的开源ETL产品Kettle、ETI的Extract等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。

    2. 前端展现工具:

    包括OLAP分析、报表和商业智能工具等,如Cognos的PowerPlay、Business Objects的BO,以及国内厂商帆软的FineBI/FineReport等。它们通过把关系表映射成与业务相关的事实和维来支持多维业务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据与技术元数据相对应的语义层。

    3. 建模工具:

    为非技术人员准备的业务建模工具,这些工具可以提供更高层的与特定业务相关的语义。如CA的ERwin、Sysbase的PowerDesigner以及Rational的Rose等。

    4. 元数据存储工具:

    元数据通常存储在专用的数据库中,该数据库就如同一个“黑盒子”,外部无法知道这些工具所用到和产生的元数据是如何存储的。还有一类被称为元数据知识库(Metadata Repository)的工具,它们独立于其它工具,为元数据提供一个集中的存储空间。这些工具包括微软的Repository,Ardent的MetaStage和Sybase的WCC等。

    5.元数据管理工具:

    目前国内的元数据管理工具大概有三类。一是像IBM、CA等公司都提供的专门工具,比如IBM收购Ascential得到的MetaStage,CA的DecisionBase都是如此;二是像DAG的MetaCenter,开源产品Pentaho Metadata,它们不依托于某项BI产品,是一种第三方的元数据管理工具;三是像普元、石竹这样的集成商也有自己的元数据管理工具:普元MetaCube、新炬网络元数据管理系统、石竹MetaOne等。
    专门的元数据管理工具,对自家产品兼容较好,一旦涉及跨系统管理,就不尽如人意了。从国内的实际应用来看,DAG的MetaCenter这一工具使用最多,目前所看到的在电信、金融领域建设的元数据管理项目基本上都是应用了这一产品。
    我从互联网上搜索了几乎所有的元数据厂家:Pentaho开源的MetaData产品,支持源码下载试用,可以进行集成开发;普元MetaCube下载后,配置麻烦,目前为止还没有调通;其他公司产品均不提供下载试用。 

    04

    元数据管理标准

    没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(Meta Data Coalition)的开放信息模型OIM(Open Information Model)和OMG组织的公共仓库模型CWM(Common Warehouse Model)标准的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。

    从元数据的发展历史不难看出,元数据管理主要有两种方法:

    • 对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。

    • 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。

    目前OMG家的CWM(Common Warehouse MetaModel)标准已成为元数据管理界的统一标准:
    OMG是一个拥有500多会员的国际标准化组织,著名的CORBA标准即出自该组织。公共仓库元模型(Common Warehouse Metamodel)的主要目的是在异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。2001年3月,OMG颁布了CWM 1.0标准。CWM模型既包括元数据存储,也包括元数据交换,它是基于以下三个工业标准制定的:

    • UML:它对CWM模型进行建模。

    • MOF(元对象设施):它是OMG元模型和元数据的存储标准,提供在异构环境下对元数据知识库的访问接口。

    • XMI(XML元数据交换):它可以使元数据以XML文件流的方式进行交换。

    OMG元数据知识库体系结构如下图所示。

       
    CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:

    • CWM元模型(Metamodel):描述数据仓库系统的模型;

    • CWM XML:CWM元模型的XML表示;

    • CWM DTD:DW/BI共享元数据的交换格式

    • CWM IDL:DW/BI共享元数据的应用程序访问接口(API)

    05

    元数据管理功能

    1. 数据地图

    数据地图展现是以拓扑图的形式对数据系统的各类数据实体、数据处理过程元数据进行分层次的图形化展现,并通过不同层次的图形展现粒度控制,满足开发、运维或者业务上不同应用场景的图形查询和辅助分析需要。之前我写过一篇数据地图的文章,可以参考:数仓治理:数据地图长什么样?

    2. 元数据分析

    血缘分析
    血缘分析(也称血统分析)是指从某一实体出发,往回追溯其处理过程,直到数据系统的数据源接口。对于不同类型的实体,其涉及的转换过程可能有不同类型,如:对于底层仓库实体,涉及的是ETL处理过程;而对于仓库汇总表,可能既涉及ETL处理过程,又涉及仓库汇总处理过程;而对于指标,则除了上面的处理过程,还涉及指标生成的处理过程。数据源接口实体由源系统提供,作为数据系统的数据输入,其它的数据实体都经过了一个或多个不同类型的处理过程。血缘分析正是提供了这样一种功能,可以让使用者根据需要了解不同的处理过程,每个处理过程具体做什么,需要什么样的输入,又产生什么样的输出。

    影响分析
    影响分析是指从某一实体出发,寻找依赖该实体的处理过程实体或其他实体。如果需要可以采用递归方式寻找所有的依赖过程实体或其他实体。该功能支持当某些实体发生变化或者需要修改时,评估实体影响范围。

    实体关联分析
    实体关联分析是从某一实体关联的其它实体和其参与的处理过程两个角度来查看具体数据的使用情况,形成一张实体和所参与处理过程的网络,从而进一步了解该实体的重要程度。本功能可以用来支撑需求变更影响评估的应用。

    实体差异分析
    实体差异分析是对元数据的不同实体进行检查,用图形和表格的形式展现它们之间的差异,包括名字、属性及数据血缘和对系统其他部分影响的差异等,在数据系统中存在许多类似的实体。这些实体(如数据表)可能只有名字上或者是在属性中存在微小的差异,甚至有部分属性名字都相同,但处于不同的应用中。由于各种原因,这些微小的差异直接影响了数据统计结果,数据系统需要清楚了解这些差异。本功能有助于进一步统一统计口径,评估近似实体的差异

    指标一致性分析
    指标一致性分析是指用图形化的方式来分析比较两个指标的数据流图是否一致,从而了解指标计算过程是否一致。该功能是指标血缘分析的一种具体应用。指标一致性分析可以帮助用户清楚地了解到将要比较的两个指标在经营分析数据流图中各阶段所涉及的数据对象和转换关系是否一致,帮助用户更好地了解指标的来龙去脉,清楚理解分布在不同部门且名称相同的指标之间的差异,从而提高用户对指标值的信任。

    3. 辅助应用优化

    元数据对数据系统的数据、数据加工过程以及数据间的关系提供了准确的描述,利用血缘分析、影响分析和实体关联分析等元数据分析功能,可以识别与系统应用相关的技术资源,结合应用生命周期管理过程,辅助进行数据系统的应用优化.

    4. 辅助安全管理

    企业数据平台所存储的数据和提供的各类分析应用,涉及到公司经营方面的各类敏感信息。因此在数据系统建设过程中,须采用全面的安全管理机制和措施来保障系统的数据安全。
    数据系统安全管理模块负责数据系统的数据敏感度、客户隐私信息和各环节审计日志记录管理,对数据系统的数据访问和功能使用进行有效监控。为实现数据系统对敏感数据和客户隐私信息的访问控制,进一步实现权限细化,安全管理模块应以元数据为依据,由元数据管理模块提供敏感数据定义和客户隐私信息定义,辅助安全管理模块完成相关安全管控操作。

    5. 基于元数据的开发管理

    数据系统项目开发的主要环节包括:需求分析、设计、开发、测试和上线。开发管理应用可以提供相应的功能,对以上各环节的工作流程、相关资源、规则约束、输入输出信息等提供管理和支持。

    欢迎加入 大数据 |数仓技术交流群

    进群方式:请加微信(微信号:dataclub_bigdata),回复:加群,通过审核会拉你进群。

    32a46748d0796db60c41864ff3d6ead5.png

    (备注:行业-职位-城市)

    福利时刻

    01. 后台回复「数据」,即可领取大数据经典资料。

    02. 后台回复「转型」,即可传统数据仓库转型大数据必学资料。

    03. 后台回复「加群」,或添加一哥微信IDdataclub_bigdata  拉您入群(大数据|数仓|分析)或领取资料。

    07192b19b443ad810bb1fa6a60145c89.png  

    关注不迷路~ 各种福利、资源定期分享

    你点的每个在看,我都认真当成了喜欢

    展开全文
  • 数据仓库管理着整个银行或公司的数据数据结构复杂,数据量庞大,任何一个数据字段的变化或错误都会引起数据错误,影响数据应用,同时业务的发展也带来系统不断升级,数据需求的不断增加,数据仓库需要不断的升级和...

          数据仓库管理着整个银行或公司的数据,数据结构复杂,数据量庞大,任何一个数据字段的变化或错误都会引起数据错误,影响数据应用,同时业务的发展也带来系统不断升级,数据需求的不断增加,数据仓库需要不断的升级和维护,才能保证为全行提供持续完整准确的数据服务。所以数据仓库基本上是全行或全公司版本最多的系统,如何保证在频繁的变化中保证数据的准确和系统的稳定,需要数据仓库的开发管理必须做到高效、有条不紊。

     

    1、数据仓库开发流程

            1.1、规范先行

           数据仓库从开发上看,数据加载和导入的程序相对固定,开发工作主要是数据转换的SQL脚本的分析和开发。那SQL的分析和开发最主要的还是基于业务逻辑进行编写,所以对数据字段的理解以及对业务规则的熟悉是数据仓库模型人员和开发人员都需要具备的知识,同时数据和规则又会不断变化,那如何确保快速开发,开发的代码具有可读性、模型设计具有一致性,最重要的是在数据仓库建立时就制定相应的规范,使整个团队能按规范同步进行开发、设计。那在数据仓库中主要有以下规范:

            (1)命名规范:包括ETL作业、数据库或大数据平台的对象(表、字段、存储过程、schema名或库名)、脚本名、文件名等都需要按一定的规则进行命名,以便快速定位。

            (2)ETL开发规范:包括抽取、加载作业的开发规范、调度工具的使用规范、SQL脚本或作业的开发规范、开发流程规范等:

            (3)数据模型设计和维护规范:主要对主模型区、汇总指标层、集市层的模型设计原则、方法、重要规则(如客户ID)进行统一。

            通过规范先行,能在数据仓库建设及后续维护中能快速统计数据仓库的运行情况,如系统作业的关键路径、表数量以及空间使用情况,源系统变化的影响情况等,避免产生混乱,比如许多数据仓库或系统随着不断变化和增加,连哪些表在使用,哪些数据已经不更新了、目标表使用了哪些源系统数据字段都不能马上分析出来,需要花费人力来梳理,一段时间后又回归混乱。这种情况不仅无法有效分析数据仓库的实际运行情况,更会带来生产问题的安全隐患。

            1.2、开发流程

            之前已经提到数据仓库从头建设的流程,那现在以某个数据应用对数据仓库提出需求来看整个系统维护的开发流程,主要步骤如下,

           (1)需求分析,确定数据集市和数据仓库的接口字段和内容,明确数据需求;

           (2)模型开发和维护:分析现有模型是否满足所有接口字段需求,如果不满足则需要从源系统增加入仓的表数据,并分析更新主数据区、汇总指标区和数据集市的逻辑模型、物理模型,并确定数据接口字段的映射关系,如果满足则只需确认映射规则;

           (3)ETL开发:开发数据库或大数据平台的数据脚本以及作业脚本,并根据测试和生产验证的情况修正逻辑模型;

            1.3、分工及职责

            数据仓库团队主要分为模型人员、ETL开发人员和测试人员,其中模型人员主要是进行需求分析和模型维护,ETL开发人员负责代码实现和系统维护,开发流程中各角色工作如下:

           那在许多银行实际开发中,根据公司团队规模不同模型人员的职责也会有所差别,模型人员有的属于数据仓库开发团队,只负责数据模型维护,有的属于科技规划团队即又称SA,模型人员除了模型维护可能还兼顾项目经理、系统分析的角色。那模型人员也可能分别负责主模型区、汇总指标区和数据集市。所以模型团队内部也需要定期同步数据模型的变化和更新,统一设计规则和数据分布边界;

     

    2、数据仓库开发管理系统

            通过规范、标准流程和分工协作可以保证数据仓库开发工作有条不紊,但如何高效执行整个开发流程,提高代码开发效率。则需要有数据开发管理工具的支持。

            之前在ETL开发中也介绍了一些开发实践,如标准的数据采集和加载作业、按ETL算法和数据映射自动生成数据转换脚本,那这些都可以通过工具整合并管理。通过开发管理工具对整个开发流程的模型数据、ETL数据和代码进行管理和维护,通过系统化来协助模型设计和开发,那对于一个数据仓库开发管理系统,主要有以下几方面功能:

            2.1数据模型维护功能

            模型维护的功能许多是有文档来进行,通过系统的整合可以提高效率,增加信息的可统计性。

            (1)对于源系统调研信息进行管理,可对源系统的每个表和字段调研备注信息进行存储修改,同时针对每个需求新增的表和字段都进行维护,以便沉淀经验。

            (2)逻辑模型管理,这个功能如果已经是通过ERWIN或POWERDESIGN等工具进行管理,可以只将结果和历史版本进行维护。如果自己开发,可以集成一些开源工具的逻辑模型功能,统一在开发管理系统中维护。

            (3)物理模型管理:物理模型主要是根据逻辑模型可以自动生成物理模型,模型人员和ETL开发人员在这个基础上进行物理化,增加索引、压缩、分区等信息。开发管理系统需要对物理模型进行存储和记录版本变更记录,那各个数据区的物理模型都可以在开发管理系统中维护,同时针对每次版本的变更,自动生成数据库或者大数据平台的数据库脚本。

            2.2 ETL作业信息配置及代码生成

            (1)数据映射:管理第5节介绍的数据转换作业映射文档,在配置算法等信息后,自动生成数据转化作业代码;

            (2)数据采集和加载:管理数据采集作业和加载作业的信息,具体可见第4节,并自动生成采集和加载作业的脚本;

            (3)调度作业:可以集成调度工具测试环境,根据ETL作业脚本信息,自动生成调度作业的脚本并同步作业信息到调度系统,并在调度工具中配置依赖关系后并测试后形成上线的调度作业配置版本。

            2.3 打通测试环境和版本管理工具

            数据仓库的代码主要是ETL脚本,无需编译,只需放在规范的目录下即可,由于生成代码后还需要提交到版本管理工具以及测试环境进行测试,因此可以直接调用版本管理工具的命令进行生成的代码更新,再通过版本发布工具发布到测试环境。如果没有版本发布工具,可以直接在开发管理工具中集成脚本传输的功能,在测试环境验证后再更新版本管理工具上的代码分支。

           通过打通测试环境和版本管理工具,可以提高自动化,确保从系统自动产生代码和脚本,使维护的信息和生产脚本确保一致。

            实际开发中,数据仓库可能会有多个团队进行维护,许多厂商也会有些工具,但要从数据仓库全开发流程以及结合各银行或公司的版本管理、测试管理流程来设计工具,提高开发效率这个层面,厂商一般不会考虑那么全面,需要银行数据仓库管理人员进行规划。通过统一规范及基础上通过开发管理工具可以更好的统一全行的数据开发规范,提高开发效率和代码质量,让更多的人力投入到数据应用开发和分析中。

    目前字节跳动数据团队(上海)有内推职位,主要面向字节所有产品数据仓库及大数据开发岗位,如tiktok等,包括社招,校招,实习,大家可在2021年5月23号之前私信联系,内推方式成功率更高,机会有限,先到先得!

    展开全文
  • Hive数据仓库流程开发
  • 作者l 李朋波 编辑l 李朋波本文目录CONTENTS ☞ 数据质量管理流程数据质量管理工具设计思路上篇我们主要介绍了以下三部分内容。第一部分,介绍了五种常见的数...
  • 商品信息的存储并对其进行编码,来区别各类商品
  • 本文首先结合电信企业(中国电信)实际案例,阐述了企业元数据管理的应用现状和困境,分析了元数据管理孤岛困境的成因,提出了电信企业信息系统元数据管理的功能框架,然后结合企业管理流程优化的经验,研究并提出了...
  • 个人理解的数据仓库系统架构设计流程图 整合了自己已有的知识还有网络上公开的知识做出来的两幅图 考虑不周如有问题,还请不吝赐教 涉及的主要流程 涉及的具体技术 ...
  • ; 外部项 S;多次重复的外部项 ;数据流F ;数据流的描述 ;数据流的表达 ;... 例1试根据下述业务过程画出物质采购系统的数据流程图:仓库向物质采购系统发出缺货通知,系统查阅订货合同单,若已订货,向供货单位
  • 2)划分实现仓库管理的功能模块:如主菜单、输入数据、修改、查询、输出等功能,并确定各功能模块的实现算法。 3)画出各模块的流程图或S-R图; 4)选择C语言的技术:普通数组、结构体数组、函数、指针、单链表或...
  • 建立基于数据仓库质量问题定义、发现、分析、反馈、整改的闭环流程。最后通过抓手将数据质量与kpi考核挂钩,提升每一个人的数据质量意识。 1.数据质量定义 数据质量主要是指数据满足使用需要的适用程度。这一般...
  • 数据仓库系列之元数据管理

    千次阅读 2019-09-06 21:10:20
    数据(Meta Data),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ...元数据数据仓库管理系统的重要组成部分,元数据管理是企业级数据仓库中的关键组件,贯穿了数据仓库的整个...
  • 底层数据流程图 底层数据流程图是对中层数据流程图的...* * 管理信息系统 例1试根据下述业务过程画出物质采购系统的数据流程图:仓库向物质采购系统发出缺货通知,系统查阅订货合同单,若已订货,向供货单位发出催货请求,
  • 应用程序功能 开始运行时界面如下: 仓库管理链表建立界面如下: 仓库管理链表插入界面如下: 仓库管理链表查询界面如下: 仓库管理链表删除界面如下: 仓库管理链表输出界面如下: 3. 输入数据类型、格式和内容...
  • 数据仓库流程

    千次阅读 多人点赞 2019-10-14 21:09:31
    数仓建设的思路流程: 1梳理业务流程 2梳理数据流 3数据类型、存储介质、样例数据 4需求-功能性需求、非功能性需求(性能、时效性) -------------------------------------数据来源 rdbms log nginx ...
  • 数据仓库模型设计开发流程与规范

    千次阅读 2021-03-18 00:45:34
    版本:V1.0最后修改日期:2021/03/17本文首发微信公众号:码上观世界1. 数据模型设计目标为使下游数据使用方低成本获取一致性的可靠数据服务,数据模型设计方需要达到如下目标...
  • ; 外部项 S;多次重复的外部项 ;数据流F ;数据流的描述 ;数据流的表达 ;... 例1试根据下述业务过程画出物质采购系统的数据流程图:仓库向物质采购系统发出缺货通知,系统查阅订货合同单,若已订货,向供货单位
  • ; 外部项 S;多次重复的外部项 ;数据流F ;数据流的描述 ;数据流的表达 ;... 例1试根据下述业务过程画出物质采购系统的数据流程图:仓库向物质采购系统发出缺货通知,系统查阅订货合同单,若已订货,向供货单位
  • 个推TechDay治数训练营首期课程《数据仓库与维度建模》直播回顾视频来袭!个推资深大数据研发工程师为您深入浅出介绍数据仓库的前世今生以及数据建模的常用方法。
  • 发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化。...数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理数据使用。
  • 查询结果 EX4 保管员 入库单 库存台帐 出库单 出入库处理 查询 统计 打印 库存日 报表 查询条件 例 1 试根据下述业务过程画出物质采购系统的数据流程 图 : 仓库向物质采购系统发出缺货通知 , 系统查阅订货合 同单 , ...
  • 2.4.3仓库管理信息系统数据流程图分解 14 2.4.4渔阳建业库存管理信息系统数据字典 17 第三章 系统设计 24 3.1系统总体设计描述 24 3.1.1系统总体功能模块图 25 3.2 开发环境 26 3.2.1 软件环境 26 3.2.2 硬件环境 26...
  • 数据仓库是为企业提供聚合,存储,投递,以及提供决策支持能提,数据仓库包含广泛数据并按照主题进行存储并且是在数据仓库流程过程中的一个部分。Willianm(Bill)H.Inmon提出过一个概念:”一个面向主题的,集成的,时间序列...
  • 易用仓库管理软件是一款通用性极强的仓库及货物管理软件(仓库软件,仓库管理系统,库房管理系统,仓储管理系统),易用仓库管理软件适用于食品、五金、保健品、电子、贸易、物资、化妆品、电器等工业、商业、贸易领域...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 111,349
精华内容 44,539
关键字:

仓储管理数据流程

友情链接: vbskfr2.zip