精华内容
下载资源
问答
  • 信息技术服务 治理通用要求、实施指南、绩效评价、实施导则、数据治理规范
  • 企业高层必须制定一个基于价值的数据治理计划,确保董事会和股东可以方便、安全、快速、可靠地利用数据进行决策支持和业务运行。 数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会...
  • 为了促进组织有效、高效、合理地利用数据,有必要在数据获取、存储、整合、分析、应用呈现、归档和销毁过程中,提出数据治理的相关规范,从而实现运营合规、风险可控和价值实现的目标。 一、术语 1.数据治理:数据...

    2018-06-07发布,2019-01-01实施

    为了促进组织有效、高效、合理地利用数据,有必要在数据获取、存储、整合、分析、应用呈现、归档和销毁过程中,提出数据治理的相关规范,从而实现运营合规、风险可控和价值实现的目标。
    

    一、术语
    1.数据治理:数据资源及其应用过程中相关管控活动、绩效和风险管理的集合。
    2.数据管理:数据资源获取、控制、价值提升等活动的集合。
    3.数据资产:组织拥有和控制的、能够产生效益的数据资源。
    4.数据战略:组织开展数据工作的愿景和高阶指引。
    5.数据架构:数据要素、结构和接口等抽象及其相互关系的框架。

    二、总则
    1.目标:运营合规、风险可控、价值实现。
    2.任务:评估现状及需求、环节、资源管理和资产运营能力;指导体系构建、治理域的建立和实施落地;制定评价体系和审计规范,监督数据治理内控、合规和绩效。

    三、框架
    1.顶层设计
    2.环境
    3.治理域
    4,治理过程

    四、顶层设计
    1.战略规划:与业务、信息技术规划协调一致;制定数据战略规划;指导方案建立;明确各项要求。
    2.组织构建:建立组织机构和机制;明确决策和实施机构;建立授权、决策和沟通机制;实现各项功能。
    3.架构设计:建立数据架构,明确技术方向、管理策略和支撑体系;评估。

    五、数据治理环境
    1.内外部环境:分析业务、市场和利益相关方需求,适应内外部环境变化。
    2.促成因素:获得支持;提升人员能力;开展技术研发和创新;制定制度;营造文化;评估能力。

    六、数据治理域
    1.数据管理体系:围绕数据标准、数据质量、数据安全、元数据管理和数据生存周期等,开展治理。评估、指导、监督。
    2.数据价值体系:围绕数据流通、数据服务和数据洞察等,开展治理。评估、指导、监督。

    七、数据治理过程
    1.统筹和规划
    2.构建和运行
    3.监控和评价
    4.改进和优化

    八、数据管理体系的治理规范
    1.数据标准:明确数据标准的内涵和范围,建立数据标准体系及其管理机制,以支撑数据的标准化建设,保障数据在应用过程中的一致性。
    1)明确数据标准的内涵和范围,制定通用的数据规范,包括数据分类、数据类型、数据格式、编码规则等,保证数据应用过程的一致性。
    2)方案计划
    3)机构和机制
    4)制定管理制度
    5)评估更新
    2.数据质量:指定数据质量管理目标,建立管理体系和实施机制,优化并持续改进。
    1)分类管理,制定目标。
    2)定义角色和职责,建立管理办法。
    3)识别数据生存周期各个阶段的数据质量关键因素,构建数据质量评估框架,包括准确性、完整性、一致性、可访问性、及时性、相关性和可信度等。
    4)采用定性评估、定量评估、综合评估等方法,评估和持续优化数据质量。
    3.数据安全
    1)目标、方针、策略
    2)机构、角色、能力
    3)规范、机制
    4)视图、识别
    5)审计、评估、监督、优化
    4.元数据管理:明确范围和优先级、建立策略和流程,开展元数据创建、存储、整合和控制等。
    1)明确元数据的管理范围,构建元数据库。
    2)建立完整的数据字典、模型、架构及其管理体系。
    3)建立管理机制
    4)建立创建、维护、整合、存储、分发、查询、报告和分析机制。
    5)建立质量标准和评估指标,开展绩效评估并持续改进。
    5,数据生存周期
    1)识别现状
    2)识别各个阶段
    3)确保各阶段数据保密性、完整性和可用性。
    4)确保合法合规

    九、数据价值体系的治理规范
    1.数据流通
    1)识别数据资产
    2)明确可流通数据及方式
    3)确保准确性、可用性、安全性和保密性
    4)保证安全
    5)保证可追溯
    6)确保合法合规
    2.数据服务
    1)明确数据服务内涵、范围、类型、团队和服务方式
    2)制定目录、协议、方法
    3)建立管控流程,对实施过程进行审核和控制
    4)建立支持流程
    5)构建服务管理机制
    6)开展服务能力评价
    3.数据洞察
    1)建模
    2)开展规律性、交互性、关联性分析
    3)挖掘规律
    4)持续改进和优化流程、提高能力和价值
    5)确保合法合规

    展开全文
  • 介绍了以数据拥有者和直接使用者(行业用户)为核心的数据整理的关键技术,包括数据结构化处理、数据质量评估及数据清洗、数据规范化、数据融合与摘取、数据整理的发布共享等。最后,针对加强数据整理方面的研究提出...
  • 数据治理的概述 4 1.1 数据治理概念 4 1.2 数据治理目标 4 数据治理体系 5 数据治理核心领域 5 1.3 数据模型 6 1.4 数据生命周期 6 1.5 数据标准 8 1.6 主数据 9 1.7 数据质量 10 1.8 数据服务 12 1.9 数据安全 12 2...
  • 推荐☞一键免费查询千种挥发性有机物的环境数据(戳)来源:中国环保产业协会蓄热燃烧法(RTO)治理技术是目前工业源VOCs治理的主流技术之一。该技术的研发已日臻成熟,由于节能效果显著,对于中高浓度的VOCs废气处理...

    推荐☞一键免费查询千种挥发性有机物的环境数据()

    6f2c3613fe910ae638812b787eae1be0.gif

    70a51e4f17899cdd12b152f8d0d5003e.gif

    来源:中国环保产业协会

    蓄热燃烧法(RTO)治理技术是目前工业源VOCs治理的主流技术之一。该技术的研发已日臻成熟,由于节能效果显著,对于中高浓度的VOCs废气处理效率高,近年来在石化、化工、喷涂、包装印刷、医药等领域得到了广泛的应用。为加强RTO工程应用的技术指导,原环境保护部委托中国环境保护产业协会等单位编制国家环境保护标准《工业有机废气蓄热燃烧法治理工程技术规范》(以下简称《规范》)。

    1269242981a6cb25b3e8cdbcf06c40d6.png

    2019年1月9日,《规范》审议会在京召开。邀请的审议专家有生态环境部标准所姚芝茂研究员、中科院生态环境研究中心郝郑平研究员、防化研究院栾志强研究员、华南理工大学叶代启教授、清华大学马永亮副教授,中国矿业大学(北京)解强教授、同济大学羌宁教授等,参会的还有来自中国环境保护产业协会、北京市环境保护科学研究院、江苏中电联瑞玛节能技术有限公司、恩国环保科技(上海)有限公司、扬州市恒通环保科技有限公司、科迈科(杭州)环保设备有限公司等编制单位的代表。

    6f1abf24c29ba5f6ddc040f1b4ec8f9f.png

    会议期间,专家和编制单位围绕征求意见稿的反馈意见,对标准送审稿的内容进行了深入讨论,最后一致同意通过审议,建议编制组进行部分文字内容修改后尽快履行报批手续。

    37dba850f7fa749417d80358ce6b72a0.png

    《规范》规定了RTO工业有机废气治理工程的设计、施工、验收和运行维护的技术要求,适用于工程建设与运行管理,可作为建设项目环境影响评价、环境保护设施的工程咨询、设计、施工、验收及建成后运行与管理的参考依据。

    3e8f93c29ff088ea209692a5976066a7.gif

    RTO技术简介

    RTO技术是将工业有机废气进行燃烧净化处理,并利用蓄热体对待处理废气进行换热升温、对净化后排气进行换热降温的技术。RTO装置通常由换向设备、蓄热室、燃烧室和控制系统等组成。蓄热室中填充具有高热容量的陶瓷蓄热体,采用直接换热的方法将净化后排气中的热量蓄积在蓄热体中,高温蓄热体直接加热待处理废气,换热效率可达到90%以上,远高于间接换热器50~70%的换热效率。

    RTO装置可以分为固定式和旋转式。可根据废气来源、组分、性质(温度、湿度、压力)、流量、爆炸极限等因素,综合分析后选择工艺路线。

    固定式RTO,根据蓄热体床层的数量可分为两室或多室。多室RTO(以三室为例)与两室RTO的最大区别是增加一个蓄热室用于吹扫系统。在一个蓄热室进气、一个蓄热室排气的同时,一个蓄热室处于吹扫状态,吹扫系统可以采用“吹出”方式,也可以采用“吸入”方式。使蓄热室在用于进气以后、用于排气之前得到吹扫。两室RTO,换向时存在VOCs直接排放问题,可以通过增设换向阀、吹扫装置或采取其它措施对换向阀切换过程中逸散的有机废气进行收集后处理。

    a8c12d833ada792fd9086dbe4ce21e9e.png

    固定式二室蓄热燃烧装置示意图

    ed0c66b437411ba750e2d4b4b278e608.png

    固定式三室蓄热燃烧装置示意图

    旋转式RTO的蓄热体是固定的,一般具有6个、8个或更多个蓄热室,多个蓄热室环形布置,其外形大多呈圆筒状。旋转式RTO利用旋转式气体分配器来改变进入蓄热体气流的方向,各个蓄热室分别依次处于进气状态、吹扫状态和排气状态。这种结构的RTO系统气流切换装置复杂,但结构较紧凑,占地面积小。

    377dc7ea8102ace3bb7f256e33ed19ac.png

    旋转式蓄热燃烧装置示意图

    标准“成形记”

    • 2015年初,中国环境保护产业协会组织相关单位及人员成立标准编制小组,并于11月完成标准的开题报告和编制大纲。

    • 20167月,原环境保护部科技标准司在北京主持召开了标准的开题论证会,在开题论证会上明确了标准的编制方向和原则,通过了编制大纲。

    • 20169月,完成《蓄热燃烧法工业有机废气治理工程技术规范》(初稿)及其编制说明。

    • 先后多次组织行业专家、RTO和蓄热体企业代表/专家召开咨询和研讨会。

    e451be10b1cf9658060a07be80878aea.png

    • 20186月底通过征求意见稿审查会。

    • 20189月生态环境部办公厅发文向各省、自治区、直辖市环保厅(局)、具有RTO治理工程经验的科研院所、高等院校、设计单位和工程公司及用户等73家相关单位广泛征求意见。

    • 201810-12月,编制组对收集的意见进行整理,并在北京专门组织意见处理研讨会和送审稿预审会等,对标准文本进行修改完善。

    此次会议后,编制组还将对标准文本进行一步完善,并履行报批手续。

    来源:中环协技术部

    来源:中国大气网


    c3c5cc074ef4ce021fc772eb6b6d4ad9.gif

    335b43834ec3462b26c1c1ec3cff4bcb.gif

    b40beea9570732317bea58e40d593650.png

    编辑 | VOCs前沿公众号(ID:vocs99)(转载注明)

    声明 | 本号对转载、分享、陈述、观点保持中立,目的仅在于行业交流,版权归原作者所有。如涉版权和知识产权等侵权问题,请与本号后台联系,即刻删除内容处理!

    征稿 | 投稿邮箱:vocs999@foxmail.com

    5d89ae688e8c56c24346c856fce5041f.gif

    ab35225b7ce205ef3315d85af7ad8674.png

    ▼ 点"

    b1953895d0ad80f17e78fef837f49274.gif

    展开全文
  • 广义上讲,数据治理是对数据的全生命周期进行管理,包含数据采集、清洗、转换等传统数据集成和存储环节的工作、同时还包含数据资产目录、数据...,整个数据生命期而开展开的业务、技术和管理活动都属于数据治理范畴...
  • 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,...

    大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。

    但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,难以保障的数据安全等等,源源不断的基础性数据问题会进一步产生,进而导致数据建设难以真正发挥其商业价值。

    因此,消除数据的不一致性,建立规范的数据标准,提高数据治理能力,实现数据安全共享,并能够将数据作为企业的宝贵资产应用于业务、管理、战略决策中,发挥数据资产价值变得尤为迫切和重要,数据治理呼之欲出。本文将介绍美团配送技术团队在数据治理方面的一些探索和实践,希望能够对大家有所启发和帮助。

    1. 如何理解数据治理

    数据治理,从严格的定义来讲是对组织的大数据管理并利用其进行评估、指导和监督的体系框架。企业通过制定战略方针、建立组织架构、明确职责分工等,实现数据的风险可控、安全合规、绩效提升和价值创造,并提供创新的大数据服务。从个人实践的层面来讲,数据治理是对存量数据治理和增量数据管控的一个过程,对存量数据实现由乱到治、建章立制,对增量数据实现严格把控、行不逾矩的约束。

    2. 要达成的目标

    数据治理本身并不是目的,它只是实现组织战略目标的一个手段而已。从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同,而基于目前美团配送数据团队所处的组织职能和发展阶段来说,我们希望通过数据治理解决数据生产、管理和使用过程中遇到的问题,完善已有的生产管理流程规范,保障数据安全和数据一致性,从而促进数据在组织内无障碍地进行共享。

    3. 何时进行数据治理

    找准数据治理的切入点,是关乎数据治理成败的关键。很多同学会问,如果将数仓建设分为数仓雏形阶段、数仓迭代阶段和能力沉淀阶段,数据治理应该在哪个阶段切入为宜呢?其实,我们不该把数据治理看作是一个阶段性的项目,它应该是一个贯彻数据建设各阶段的长期工程,只是在不同阶段根据业务特点和技术特点其覆盖的范围和关注的目标有所不同而已。

    数仓雏形阶段,也就是美团配送业务刚成立时,在该阶段中业务有两个特点:第一,重规模、快扩张;第二,业务变化快,数据需求多。为了快速响应业务的需求,并能够保障数据交付结果的准确性,我们主要进行技术规范和指标口径的治理在规范治理方面,通过制定一系列研发规范来保障研发质量,并在实际建模过程中不断迭代和完善我们的研发质量。在指标治理方面,我们对存量指标口径进行梳理,从而确保指标口径对外输出一致。

    数仓迭代阶段,我们希望通过架构治理改变前期开发的“烟囱式”模型,消除冗余,提升数据一致性。并且随着数仓中管理的数据越多,数据安全和成本问题也变得越发重要。所以在该阶段,我们在产研层面逐步开展架构治理、资源治理和安全治理在架构治理方面,我们明确了数仓中各层和各主题的职责和边界,构建一致的基础数据核心模型,并制定一系列的指标定义规范来确保指标的清晰定义,并基于业务迭代来不断完善和迭代相应的模型和规范。在资源治理方面,我们通过对不同层级的数据采用不同生命周期管理策略,确保用最少的存储成本来满足最大的业务需求。在安全治理方面,我们通过制定一系列的数据安全规范来确保数据的使用安全。

    能力沉淀阶段我们基于前两个阶段所做的业务和技术沉淀,将前期一系列规范形成标准,从业务到产研,自上而下地推动数据治理,并通过建立相应的组织、流程和制度来保障标准在该阶段的全面落地实施,并通过建设数据治理平台来辅助更高质量地执行标准。

    4.如何开展数据治理

    从大的阶段来看,数据治理主要分为存量数据“由乱到治”的阶段,以及增量数据严格按照规章制度实施确保“行不逾矩”的运营阶段。在“由乱到治”的过程中,我们需要沉淀出规章制度、标准规范,以及辅以规章制度标准规范实施的工具和组织。在增量数据的运营阶段,我们主要靠对应的组织确保规章制度的落实,通过审计定期考察实施效果,并在长期的运营中不断完善规章制度。在实现存量数据“由乱到治”的阶段,我们主要采取了“两步走”策略,具体执行策略如下所示。

    4.1 定标准,提质量

    第一步,主要围绕着业务标准、技术标准、数据安全标准和资源管理标准进行展开。通过业务标准,指导一线团队完成指标的规范定义,最终达成业务对指标认知一致性这一目标;然后通过技术标准来指导研发同学规范建模,从技术层面解决模型扩展性差、冗余多等问题并保障数据一致性;通过安全标准来指导我们加强数据的安全管控,确保数据拿不走、走不脱,针对敏感数据,用户看不懂;通过资源管理标准的制定,帮助我们在事前做好资源预算,在事中做好资源管理,在事后做好账单管理。

    4.1.1 业务标准

    业务标准主要是指标的管理和运营标准,我们主要解决三个问题:指标由谁来定义,指标该如何定义,指标该如何运营。基于这三个问题,我们同时提出了三条原则:

    • 业务团队负责指标的定义。
    • 产研商分负责给出指标定义标准和辅助工具,辅助业务团队完成指标的规范定义,达成指标认知一致性这一目标。
    • 最后由指标管理委员会负责指标的管理与运营,保障指标从创建、审核、上线以及到最后消亡的整个生命周期的运营。

    为统一指标的定义,我们将指标分为原子指标、衍生指标和派生指标,原子指标通过限定条件和时间的限定生成衍生指标。衍生指标间的“四则混合运算”构成了派生指标。我们不但制定了指标的标准定义,还对其做了准确的资产归属,一个指标出自一个具体的业务过程,一个业务过程归属于不同的数据域,多个数据域构成了美团配送业务线下的分析场景,如下图所示:

    指标定义标准

    指标定义标准

    4.1.2 技术标准

    这里所说的技术标准,主要是针对数据RD提出的建模标准和数据生产规范,通过建模标准来明确数仓分层架构,并清晰定义每一层的边界与职责,采用维度建模的设计理念。我们的整个仓库架构分为四层:操作层、基础事实层、中间层和应用层,并在每一层同步制定对应的建模规范,如下图所示:

    数仓架构以及建模标准

    数仓架构以及建模标准

    除了建模标准外,我们还制定了涵盖从生产到运维环节的生产规范以保障模型的质量,主要包括上线前的模型评审、生产过程中的完成元数据配置、DQC、SLA和生命周期设置以及上线后的日常运维机制等等。尤其针对元数据管理和生命周期管理,我们分别制定了仓库每一层元数据维护规范和生命周期管理规范,其中元数据管理规范,是依据数仓各层级中各种类型表的建模标准来制定,需要做到规范命名,明确数据归属,并打通业务元数据和技术元数据之间的关系。而生命周期管理规范,是依据配送业务特点和数仓各层级现状来制定的,如下表所示:

    仓库各层元数据管理标准

    仓库各层元数据管理标准

    仓库各层生命周期管理策略

    仓库各层生命周期管理策略

    4.1.3 安全标准

    围绕数据安全标准,首先要有数据的分级、分类标准,确保数据在上线前有着准确的密级。第二,针对数据使用方,要有明确的角色授权标准,通过分级分类和角色授权,来保障重要数据拿不走。第三,针对敏感数据,要有隐私管理标准,保障敏感数据的安全存储,即使未授权用户绕过权限管理拿到敏感数据,也要确保其看不懂。第四,通过制定审计标准,为后续的审计提供审计依据,确保数据走不脱。

    安全标准建设

    安全标准建设

    4.1.4 资源管理标准

    在资源管理方面,配送技术工程部已经对资源管理涉及的内容进行了合理抽象和准确定义,抽象出租户、资源和项目组等概念。不管是后续的资源预算还是资源管理,我们都需要基于租户和项目组来进行运营,因此,对于业务团队而言,我们只需要将租户和项目组特定职能划分清楚,然后根据不同的职能归属我们的资产,并分配生产该资产所需要的资源。为了方便后续的运营,我们对每个租户和项目组分配确定了责任人,由责任人对运营结果负责。

    对业务部门来说,资源管理的关键是对数据资产做清晰的分类,基于数据的分类划分不同的租户和项目组,将数据和租户、项目组实现一一映射。由于租户和项目组都有特定的责任人对其负责,因此,我们通过这种映射关系,不仅实现了资产的隔离,还实现了资产确权(项目组负责人同时对资产负责和运营)。我们整体将数据分为两大类,一是原始数据,包括流到数据中心的数据和日志中心的数据,针对流入数据中心的数据,根据其产生的方式不同,又进一步分为业务数据和流量数据。二是加工数据,对应着数据团队的仓库建设和其他团队的集市建设。基于上述的描述,针对资源管理,我们做了如下划分和确权:

    资源划分与管理

    资源划分与管理

    4.2 重实施,保落实

    第二步,落实第一步的标准,完成数据治理第一阶段的目标,实现存量数据“由乱到治”,并完成相应组织和工具的建设,为实现第二阶段“行不逾矩”这一目标提供工具和组织能力。在此过程中,主要分成三个方面的治理工作:第一,架构模型“由乱到治”的治理,消除模型冗余、跨层引用和链路过长等问题,在架构上保证模型的稳定性和数据一致性;第二,元数据“由乱到治”的治理,实现指标的标准定义、技术元数据的完整采集并建立指标与表、字段的映射关系,彻底解决指标认知一致性,以及用户在使用数据过程中的“找数难”等问题;第三,围绕着隐私安全和共享安全加强数据的安全管控来实现数据走不脱、拿不走,以及隐私数据看不懂这一目标。

    4.2.1 架构治理

    总结起来,架构方面的治理主要是解决两个问题:第一,模型的灵活性,避免需求变更和业务迭代对核心模型带来的冲击,让RD深陷无休止的需求迭代中;第二,数据一致性,消除因模型冗余、跨层引用等问题带来的数据一致性问题。

    模型灵活性

    配送解决的是效率、成本和体验三者之间的平衡问题,即在满足一定用户体验的条件下,如何提升骑手配送效率,服务更多的商家,以及如何管控骑手,降低配送成本。抽象到数据层面,基本上反映为上游包裹来源的变化、配送对外提供服务的变化以及对内业务管控的变化。为屏蔽业务迭代给核心模型带来的冲击,我们通过对外封装包裹属性和对内封装运单属性,抽象出包裹来源、提供服务、业务架构等一致性维度,任何业务迭代在数据层面只涉及维度的调整,大大降低了对核心模型冲击和“烟囱式”数据建设问题(新来一个业务,就拉起一个分支进行建设)

    包裹事实分配到运单明细构造单一运单模型

    包裹事实分配到运单明细构造单一运单模型

    配送指标体系建设的一个重点就是要输出各组织层级的规模、体验和效率指标,实现对运力的有效管控,运力所属组织的层级关系会随业务的迭代而不断变化。为了适应这种变化,避免仅仅因增加维度带来中间层数据的重复建设,我们将组织层级维表由固定层级建模方式调整为桥接表的方式来自适配组织层级变化,从而实现了中间层模型可以自动适配组织层级的变化,能自动产生新维度的指标。如下图所示:

    桥接表自适配组织层级灵活变动

    桥接表自适配组织层级灵活变动

    在精细化分析的场景下,业务会有分时段、分距离段以及分价格段的数据分析诉求。我们以分时段为例,有晚高峰、午高峰、下午茶等不同的分时段,不同的业务方对同一个时段的定义口径不同,即不同的业务方会有不同的分时段策略。为解决该场景下的分析诉求,我们在事实表中消除退化维度,将原来封装到事实表的时段逻辑迁移到维度表中,并将事实表中的时间进行按特定的间隔进行刻度化作为维表中的主键,将该主键作为事实表的外键。这样,针对业务不同的时间策略需要,我们就可以在维表中进行配置,避免了重复调整事实表和反复刷数的问题。即通过将时间、价格、距离事实刻度化,实现灵活维度分析。如下图所示:

    通过将时间刻度化,实现灵活分析

    通过将时间刻度化,实现灵活分析

    数据一致性

    数据一致性得不到保障的一个根本原因,是在建模的过程中没有实现业务口径标签化,并将业务口径下沉到主题层。很多同学在基于需求进行开发时,为实现方便,将新指标口径通过“Case When”的方式在应用层和中间层进行封装开发,主题层建设不能随着业务的迭代不断完善,RD在开发过程中会直接引用仓库的快照表在中间层或应用层完成需求开发。久而久之,就会造成数据复用性低下,相同指标的口径封装在不同的应用表来满足不同报表的需求,但随着应用的增多,很难保障相同指标在不用应用表封装逻辑的一致性,数据一致性难以得到保障,同时这种方式还带来两个严重后果:第一,跨层引用增多,数据复用性低下,造成计算和存储成本的浪费;第二,一旦指标口径发生变化,将是一个“灾难”,不仅影响评估是一个问题,而且涉及该指标的应用层逻辑调整对RD来说也是一个巨大的挑战。

    治理前模型架构

    治理前模型架构

    因此,我们在“由乱到治”的治理过程中,以衍生事实的方式实现业务口径标签化,将业务逻辑下沉到主题层,消除跨层引用和模型冗余等问题,从技术层面保障数据一致性是该阶段架构治理的重点我们在业务上,已经划分了严格的数据域和业务过程,在主题建设层面,将业务划分的数据域作为我们的主题,并基于业务过程进行维度建模,将属于该业务过程的指标口径封装在对应业务过程下的衍生事实中。

    治理后模型架构

    治理后模型架构

    4.2.2 元数据治理

    元数据治理主要解决三个问题:首先,通过建立相应的组织、流程和工具,推动业务标准的落地实施,实现指标的规范定义,消除指标认知的歧义;其次,基于业务现状和未来的演进方式,对业务模型进行抽象,制定清晰的主题、业务过程和分析方向,构建完备的技术元数据,对物理模型进行准确完善的描述,并打通技术元数据与业务元数据的关系,对物理模型进行完备的刻画;第三,通过元数据建设,为使用数据提效,解决“找数、理解数、评估”难题以及“取数、数据可视化”等难题。

    首先,为保障业务标准的顺利实施,实现业务对指标认知一致性这一目标。我们协同产研、商分、业务部门推动成立了度量衡委员会,并建立起指标运营机制,通过组织保障来实现指标运营按照规范的标准和流程实施。如下图所示:

    指标注册流程

    指标注册流程

    其次,基于配送业务的现状和未来演进方式,我们进行了高度的业务抽象,完成了主题、业务过程和分析方向等元数据内容的建设。配送即物流,通过线上系统和线下运营,我们将用户的配送需求和美团的运力进行有效的资源配置,实现高服务体验、低成本的配送服务。对外,我们将配送服务通过平台化的方式,提供给用户、商户和电商平台,以满足不同用户在不同业务场景下的配送需求。 对内,我们通过不同的调度模式将运单池中的运单调度给合适的骑手来完成履约,平衡规模、成本和体验之间的关系。如下图所示:

    配送业务模式抽象

    配送业务模式抽象

    基于以上的业务模式,我们划分了运单主题(对履约数据域下的数据进行构建,支撑规模和体验的数据分析需求)、调度主题(调度数据域下产生的数据,用于支撑调度策略的分析)、结算、评价、投诉、取消主题(用于支撑体验、成本数据分析需求)和管控主题(用于支撑运力奖惩、违规和招募分析需求)等各种主题,并在每个主题下划分对应的业务过程,在应用层制定分析方向的分析标签,通过对元数据内容的建设完成对业务的抽象,为物理模型的刻画准备了基础数据。

    第三,元数据服务建设,我们打通了元数据从采集到构建再到应用的整条链路,为使用数据提效,解决“找数、理解数、评估”难题以及“取数、数据可视化”难题。在整个建设过程中,我们围绕着元数据采集、元模型构建、元数据服务以及最后的产品应用进行展开,整体架构如下图所示:

    元数据建设架构图

    元数据建设架构图

    元数据采集

    元数据采集分为人工录入和自动抽取,通过人工录入的方式实现物理表的准确归属(包括该表属于仓库哪一层、对应的主题、业务过程、星型模型关系等)以及指标的采集,从而完成技术元数据和业务元数据的采集,通过自动抽取的方式完成生产元数据的采集和使用元数据的采集,主要包括:物理模型的依赖关系、存储占用、热度、等信息。

    元模型构建

    分为以物理表为核心的基础元模型构建,以及以血缘为中心的血缘元模型。基础元模型构建以物理表为中心,打通其与技术元数据(主题、业务过程、Schema)的关系,实现了物理表的清晰归属,打通其与生产元数据的关系,为其加上了物理表查询热度、资源消耗、查询密级等生产使用信息,打通其与指标、维度和应用的对应关系,为上层的取数应用建立了完备的元数据。血缘元模型以血缘为中心,不仅构建了从上游业务表到仓库离线表的物理血缘,而且打通了仓库离线表到下游对应报表的血缘,为后续的影响评估构建了完备的元数据基础。

    元数据服务

    统一元数据服务(OneService),主要提供两类元数据服务,提供查询表、指标、维度基本信息的基础元数据服务以及查询表级血缘、字段级血缘的血缘服务。

    元数据应用

    主要孵化出了三个产品,以“找数、理解数、影响评估”为应用场景的数据地图(Wherehows),以“取数、数据可视化”为应用场景的数据可视化(QuickSight),以及以管理审计为目的的管理审计报表。

    4.2.3 安全治理

    安全治理主要加强了敏感数据的安全治理和数据共享环节的安全治理。通过对隐私数据的安全治理,不仅要保证其在存储环节的不可见性,而且还要保证在其使用环节对用户进行双重鉴权,字段的密级鉴权和解密的密钥鉴权;通过对数据共享环节的安全治理,我们在数据分级分类的基础上,使数据的权限控制从表级权限控制扩展到行级权限控制。

    敏感数据安全治理

    敏感数据的安全治理,主要是解决敏感数据的存储安全和使用安全。离线场景下,敏感数据存储安全要解决两大挑战:

    • 确保仓库侧处理方案既要屏蔽上游业务系统变动带来的影响,又要屏蔽自身策略对下游BI系统的影响。
    • 要避免敏感数据在整个加工链路中的扩散。

    因此,为解决仓库处理方案与上游业务系统和下游BI系统的解耦问题,我们在上游敏感数据落到ODS环节,确保落到ODS层的敏感数据必须是明文,为保障其安全,对ODS层的所有数据进行文件加密,但是在使用层面,对下游链路透明保障下游链路的正常生产,并限制ODS层数据权限的开放。ODS层数据只用于安全生产,通过此方案既屏蔽了上游处理方案对仓库的影响,又解决了敏感数据的安全问题。当数据从离开仓库时,在传输环节对敏感数据进行可逆操作,将敏感数据以明文的形式推入BI库,实现与下游BI系统的解耦。为解决敏感数据在整个生产链路的扩散,我们在快照层对敏感数据进行脱敏处理,从快照层开始消除敏感数据,为保障敏感数据的可逆性,将ODS层的敏感数据抽取到安全库中并进行加密存储,实现安全独立管理。具体执行如下图所示:

    针对敏感数据的使用安全,我们通过对敏感字段的权限控制和对解密密钥的权限控制,来实现敏感数据使用安全这一目标。针对单独抽取的敏感数据,我们除了针对敏感数据设置其相应的密级确保敏感数据的权限管控外,还基于”暗语”的加密方式为每个项目组分配一个相同的密钥,并且将该密钥存放到与Hadoop集群集成的KMS进行管理(确保支撑离线计算的高并发),确保解密时实现密钥的权限管控。

    共享环节安全治理

    针对共享环节的安全治理,我们主要是在数据生产环节完成数据的分级分类和数据确权,在数据的使用环节完成数据的表级权限控制和行级权限控制。确保数据在使用环节规范的审批流转,权限开放以后的安全审计,保证数据走不脱。

    首先,我们在生产环节B3、B2、B1层数据按照主题或实体C层数据按照应用方向进行逻辑划分,并设定资源的密级和权限负责人。特别地为实现B3层数据在查询环节可按照业务线进行权限管控这一目标(即行级鉴权),针对B3层数据,我们标记该数据需要在查询环节进行行级权限管控,标记使用行级鉴权所需的字段和该字段对应的枚举值。

    其次,在使用环节,我们按照资产密级和使用人角色完成数据的审批流转,实现数据的安全共享。

    第三,针对B3层数据,审计是否设置了行级权限管控。在数据开放时是否存在越权使用的情况,以及针对即将离职员工加强数据的使用审计,保证数据走不脱。

    在数据“由乱到治”的治理过程中,我们不仅实现了存量数据的“由乱到治”,并且在此过程中沉淀出了一系列的建模方法论、工具,并建立了相应的安全小组和指标运营组织。同时,我们为后续增量数据治理确保数据建设“行不逾矩”,提供了强有力的组织保障、稳定的辅助工具和严格的执行标准。在数据治理的第二阶段实现增量数据的“行不逾矩”的过程中,我们主要围绕大数据架构审计、大数据安全与隐私管理审计、大数据质量管理审计和大数据生命周期管理审计这四方面的工作展开,保障治理工作的持续进行,不断提高了组织的治理水平。

    5. 工具简介

    5.1 数据地图(Wherehows)

    数据地图作为元数据应用的一个产品,聚焦于数据使用者的“找数”场景,实现检索数据和理解数据的“找数”诉求。我们通过对离线数据集和在线数据集的元数据刻画,满足了用户找数和理解数的诉求,通过血缘图谱,完成物理表到产品的血缘建设,消除用户人肉评估的痛苦。

    离线数据场景

    1.关键字检索和向导查询共同解决了“找数据”的问题:大部分的检索数据场景下,数据使用者都可以通过关键字检索来得到匹配结果。剩下的一小部分场景,例如,对于新人入职后如何了解整个数仓和指标的体系(数仓分几层,每层解决什么问题,都孵化出什么模型;整个指标、维度体系都是怎么分类,有哪些指标和维度),这部分场景可以使用向导查询功能。向导查询相当于分类查询,将表和指标按照业务过程进行分类,用户可以按照分类逐步找到想要的表或指标。

    2.我们打通了业务元数据和技术元数据之间的关系,提高了“找数据”的能力:通过“Wherehows”查找到指标后,不仅不可查看指标的业务定义,还能查看指标的技术实现逻辑,指标在哪些维度或维度组合中已经实现,并且能够在哪张表里找到这些维度,或维度组合的指标数据。反之,也可以知道在某个维度下已经实现了哪些指标,对应的指标在哪些表里。这些功能能让用户更加方便地找到想要的数据。

    3.我们提供了较为完善的数据信息,帮助用户更好理解数据:对于表的信息,“Wherehows”除了提供表和字段的中英文名称、描述信息等基础信息外,为了帮助用户更好地理解表的建设思路,我们还提供了表的星型模型(可以关联的一致性维度及对应的维度表)、表的血缘关系等信息。

    4.我们通过评论问答功能,帮助用户可以快速得到问题反馈:如果用户看了信息后还是感到有问题,“Wherehows”提供评论问答的功能,用户通过这个功能可以进行提问,会有相应的负责人进行回复。对于重复问反复问的问题,用户通过查看其它人的提问和回复就能找到答案。并且负责人还会定期的将问答信息沉淀到对应的元数据里,不断地对元数据进行补充和完善。

    业务数据场景

    业务数据场景主要想解决的一个问题是,如何知道一个业务表(MySQL表)有没有同步到数仓。如果没有同步,能够找谁进行同步。因为已经打通“业务表 -> 数仓表 -> 产品”三者之间的血缘关系,我们能够轻松解决业务数据场景的问题。

    生产评估场景

    在日常数据生产工作中,我们经常需要对表进行影响评估、故障排查、链路分析等工作,这些工作如果靠纯人工去做,费时费力。但现在我们已经打通了“业务表/字段 -> 数仓表/字段 -> 产品”三者之间的血缘关系,就能够在10分钟内完成评估工作。对于不同的场景,血缘链路提供了两个便捷的功能:过滤和剪枝。例如,某个表逻辑需要修改,需要看影响哪些下游表或产品?应该要通知哪些RD和PM?这种情况下,血缘工具直观地显示影响了哪些负责人和产品,以及这个表的下游链路。

    有些表的链路很长,整个血缘关系图很大,这样会导致用户定位信息或问题。所以血缘工具提供了剪枝的功能,对于没用的、不想看到的分支可以剪掉,从而让整个链路变得更加直观。

    5.2 数据可视化(QuickSight)

    聚焦于数据使用者“取数”场景,使用QuickSight,用户可以不再关心数据的来源,不再担心数据的一致性,不再依赖RD的排期开发。通过所选即所得的方式,满足了用户对业务核心指标的二次加工、报表和取数诉求。首先,我们通过指标池、数据集等概念对离线生产的指标进行逻辑隔离,针对不同用户开发不同的数据集以达到权限控制的目的,如下图所示:

    用户、指标池与数据集间的关系

    用户、指标池与数据集间的关系

    其次,我们为用户提供一系列的组件,帮助用户基于为其开放的数据集实现指标的二次加工和数据可视化功能,满足其在不同业务场景下的取数和可视化应用。如下图所示:

    指标加工组件

    指标加工组件

    6.总结与展望

    经过三个阶段的治理工作,我们在各个方面都取得了较好的效果:

    • 在数据标准方面,我们制定了业务标准、技术标准、安全标准、资源管理标准,从而保障了数据生产、管理、使用合规。
    • 在数据架构方面,我们通过桥接表、时间刻度化、业务口径下沉等手段提升模型灵活性,并保障数据一致性,消除跨层引用和模型冗余等问题。
    • 在数据安全方面,我们加强了对敏感数据和数据共享环节的安全治理,保证数据拿不走、走不脱,隐私数据看不懂。
    • 在元数据建设方面,我们打通了从采集到构建再到应用的整条链路,并为数据使用人员提供数据地图、数据可视化等元数据应用产品,帮助他们解决了“找数”、“取数”、“影响评估”等难题。

    未来,我们还会继续通过组织、规范、流程等手段持续对数据安全、资源利用、数据质量等各方面进行治理,并在数据易用性上下功夫,持续降低用户的数据使用成本。

    • 在数据架构方面,随着数据库技术的飞速进步,现在已经有很多数据库能够支持千万级乃至亿级数据的现算先用,我们也在尝试使用这些数据库帮助提升数据开发效率,改善数仓分层管理和应用支撑效率。
    • 在数据产品方面,我们将持续完善数据地图、数据可视化等数据应用产品,帮助用户快速探查、高效分析,真正发挥数据的业务价值。

    作者简介

    • 王鹏,2016年加入美团点评,目前在配送事业部数据团队负责众包业务数据建设、数据治理和系统化相关工作。
    • 家豪,2018年加入美团点评,目前在配送事业部数据团队负责众包业务数据建设、数据治理和系统化相关工作。
    展开全文
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们...而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范...

    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保标准、物流配送标准等,这些标准有国际标准、国家标准、行业标准、企业标准等。而我们所说的数据标准却不单单是指与数据相关的标准文件,数据标准是一个从业务、技术、管理三方面达成一致的规范化体系。

    数据标准是什么?

    数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。——维基百科。

    笔者理解:数据标准是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

    企业数据标准管理的内容

    1、数据模型标准,即元数据的标准化。自己从事IT行业10多年,一路走来,曾经做开发的时候一度认为数据模型没什么,只不过就是表结构、存储过程的设计,后来接触了数据集成ETL、ESB,虽然也知道ETL脚本本身也是元模型的一部分,但对其重要程度也没放在心上。

    后来慢慢发现之前的想法还过于简单,如果把企业信息化比作是人体的话,数据模型就是其骨架,数据之间的关系和流向是其血管和脉络,数据是其血液,数据模型的标准化是其数据血液能够正常流动和运行的根本。数据模型标准是元数据管理的主要内容,是企业数据治理的基础。请参考《数据治理系列2:元数据管理—企业数据治理的基础

    2、主数据和参照数据标准。主数据是用来描述企业核心业务实体的数据,比如客户、供应商、员工、产品、物料等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,被誉为企业的“黄金数据”。参考数据是用于将其他数据进行分类或目录整编的数据,是规定数据元的域值范围。参照数据一般是有国标可以参照的,固定不变的,或者是用于企业内部数据分类的,基本固定不变的数据。个人认为主数据与参照数据的标准化是企业数据标准化的核心。请参考《主数据管理实施四部曲概论

     

     

    3、指标数据标准。指标数据是在实体数据基础之上,增加了统计维度、计算方式、分析规则等信息加工后的数据。指标数据标准是对企业业务指标所涉及的指标项的统一定义和管理。企业的财务、销售、采购、生产、质量、售后等各业务域均分布都有其相应的业务指标。这些指标不仅需要在业务系统中统计和展现还需要在数据分析系统中展现,有的指标数据需要多个从不同的业务系统中进行获取。

     

    没有指标数据标准化,你可以想象在每次数据平台有新分析主题构建或旧的分析主题变革,都需要从所涉及的各个系统、库表中进行分析和定义,需要耗费的成本巨大。同时,目前大数据分析都提倡业务人员的自助化分析,没有指标数据标准,业务人员要从不同系统中拿到自己想要的数据进行分析几乎是不可能的。

     

    企业数据标准的梳理

    企业数据标准项目的实施,要根据业界经验和企业实际情况确定实施范围,并根据优先级和难易度制定计划。需要从企业业务域、业务活动、对象实体、实体关系等方面层层递进,逐步展开。对于数据梳理的方法主要用到IRP(企业信息资源规划)和数据仓库的数据梳理法。这两种方式我在《主数据管理实施四部曲概论》的文章进行过分享,有兴趣可以关注。

     

    企业数据标准梳理一般需要以下步骤:

     

     

    首先,对企业业务域进行定义,并对每个业务域中的业务活动进行梳理,同时需要收集各类业务单据、用户视图,梳理每个单据和用户视图的数据对象。

     

    其次,针对数据对象的进行分析,明确每个数据实体所包含的数据项,同时,梳理并确定出该业务域中所涉及的数据指标和指标项。分析并定义每个数据实体或指标的数据项标准,包括:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围、管理部门等。

     

    第三,梳理和明确所有数据实体、数据指标的关联关系,并对数据之间的关系进行标准化定义。数据关系也是数据标准管理的内容。

     

    第四,通过以上梳理、分析和定义,确定出主数据标准管理的范围。

     

    数据标准梳理和建设的方法并不难掌握,关键是建设过程中需要收集并整理大量的业务规范、制度章程、法律法规、监管规定、国家标准,并将这些规定具象到数据标准定义的信息项中。对于一个从未做过数据标准的实施团队而言,这将意味着巨大的工作量。

     

    数据标准管理组织

    数据标准管理是企业数据治理的一部分,数据标准管理是一个涉及范围广、业务复杂、数据繁杂的工程。数据标准管理的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,制定企业数据战略和实施路线图,明确各阶段数据标准工作的目标和内容,并监督及考核数据标准的贯彻与执行。

     

    数据标准管理组织或数据治理组织从职能划分上可以分为三层,如下图所示:

     

    1、数据标准管理委员会,即数据治理的决策层,主要负责制定企业数据战略、把控数据治理的总体策略,审查数据标准的贯彻执行情况。

    2、数据标准管理办公室,是数据治理的经营管理层,主要负责企业数据标准的制定、审查数据质量,贯彻数据标准落地。

    3、数据标准执行层或业务操作层,主要负责数据标准的贯彻执行,并为数据标准的编制和优化提供数据和意见。

     

    数据标准设计流程

    数据标准的设计从需求发起到落地执行,一般需要经过标准编制、标准审查、标准发布、标准贯彻四个阶段:

     

     

    1. 数据标准编制:数据标准管理办公室根据数据需求开展数据标准的编制工作,确定数据数据项,数据标准管理执行组根据所需数据项提供数据属性信息,例如:数据项的名称、编码、类型、长度、业务含义、数据来源、质量规则、安全级别、域值范围等。数据标准管理办公室参照国际、国家或行业标准对这些数据项进行标准化定义并提交审核。注:如没有参考标准,则数据标准管理办公室可根据企业情况制定相应的企业级数据标准。

     

    2. 数据标准审查:数据标准管理委员会对数据标准初稿进行审查,判断数据标准是否符合企业的应用和管理需求,是否符合企业数据战略要求。如数据标准审查不通过,则有数据标准管理办公室进行修订,直到满足企业数据标准的发布要求。

     

    3. 数据标准发布:数据标准审查通过后,由数据标准管理办公室面向全公司进行数据标准的发布。该过程数据标准管理执行组需要配合进行数据标准发布对现有应用系统、数据模型的影响评估,并做好相应的应对策略。

     

    4. 数据标准贯彻:把已定义的数据标准与业务系统、应用和服务进行映射,标明标准和现状的关系以及可能影响到的应用。该过程中,对于企业新建的系统应当直接应用定义好的数据标准,对于旧系统应对一般建议建了相应的数据映射关系,进行数据转换,逐步进行数据标准的落地。

     

    企业进行数据标准化时,除了对数据本身标准化规则构建外,相当大一部分需要考虑标准化流程的管理。而在管理过程中必然会涉及到新旧系统、不同部门、不同业务的冲突,这些冲突如果解决不好将会直接导致标准化的失败。所以,数据标准落地过程要充分做好影响评估和各干系方的沟通。

     

    数据标准管理价值总结:

    一个数据一般有业务属性、技术属性和管理属性组成,例如:数据项的业务定义、业务规则、质量规则为该数据的业务属性;数据项的名称、编码、类型、长度等为该数据的技术属性;数据的存储位置、管理部门、管理人员为该数据的管理属性。而数据标准管理的过程就是对数据以及数据的属性信息的标准化定义和应用的过程。

     

    数据标准目标是为业务、技术和管理提供服务和支持。

    业务方面:通过对实体数据的标准化定义,解决数据不一致、不完整、不准确等问题,消除数据的二义性,使得数据在企业有一个全局的定义,减少了各部门、各系统的沟通成本,提升企业业务处理的效率;标准统一的数据指标体系,让业务人员也能够轻松获取数据,并能够自助式的进行数据分析,为基于数据的业务创新提供可能。

    技术方面:统一、标准的数据及数据结构是企业信息共享的基础;标准的数据模型和标准数据元为新建系统提供支撑,提升应用系统的开发实施效率;数据标准化清晰定义数据质量规则、数据的来源和去向、校验规则,提升数据质量。

    管理方面:通过数据的标准化定义,明确数据的责任主体,为数据安全、数据质量提供保障;统一、标准的数据指标体系为各主题的数据分析提供支持,提升数据处理和分析效率,提供业务指标的事前提示、事中预警、事后提醒,实现数据驱动管理,让领导能够第一时间获取决策信息。

     

    数据标准与主数据、元数据、数据质量的关系

     

    数据治理项目的根本诉求在于提升数据质量

     

    数据标准与主数据的关系

    从范围上看,数据标准包括数据模型标准、主数据标准、参照数据标准、数据指标标准和其他数据元标准,主数据是数据标准的一个子集;从数据梳理和识别、能力成熟度评估、数据标准编制、数据管理和应用、管理体系建设、实施涉及的业务面等方面,数据标准和主数据都是基本相同的。企业在数据治理项目中,有整体建设的,包含了:元数据、主数据、数据标准等领域;也有分开建设的,例如:主数据项目单独立项,数据标准管理和数据仓库放在一起实施;企业应根据自身的实际情况和需求,明确实施范围和内容,制定适合企业发展需要的数据治理路线图。

     

    数据标准与元数据的关系

    元数据是数据标准的基础,企业在制定数据标准的时候最先需要明确的就是数据业务属性、技术属性和管理属性,而这三类属性就是我们所说的业务元数据、技术元数据和管理元数据。基于元数据的数据标准管理,为业务实体的定义、关系和业务规则到IT实现之间提供清晰、标准的语义转换,提高业务和IT之间的一致性,保障IT系统能够真实反映业务事实。并为数据标准系统与其他业务系统的集成,提供有关数据标准、数据映射关系和数据规则的描述,为业务系统的集成提供支撑。

    数据标准与数据质量的关系

    没有标准化就没有信息化,那就更谈不上数据质量了。通过对数据标准的统一定义,明确数据的归口部门和责任主体,为企业的数据质量和数据安全提供了一个基础的保障。通过对数据实体、数据关系以及数据处理阶段,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量校验有据可依,有法可循,为企业数据质量的提升和优化提供支持。

    (文:石秀峰 2019年5月)

    注:本文的首发平台为微信公众号:learning-bigdata(谈数据),如需要了解第一手数据治理相关内容,请关注微信公众号,CSDN微博不定期更新。

    欢迎转载,转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据)

    展开全文
  • 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,...
  • 数据治理-从理论到实践(一)

    千次阅读 2019-04-01 16:48:13
    大数据治理范围 一、背景概述 1.数据治理 由于切入点和侧重点,业内给予了不同的见解。 广泛认可标准:DMBOK、COBIT 5、...数据治理不是一门技术,而是逻辑性很强的理论型学科。 1.1大数据治理 Sunil Soares ...
  • 摘要:本文针对“数据牵引改进,工具固化规范”这一思路在业务团队落地过程中的动作流程进行详细阐述,并明确了支撑整个流程的关键角色定义和组织运作形式。 目的 为实现云服务开发的过程可信,需要基于数据对...
  • 数据治理、共享和应用

    千次阅读 2019-07-23 11:47:31
    如何让数据资产工具更好的用户体验,实现数据“好找、好用、好看、实时和共享”,需借助大数据、云搜索、微应用等先进技术,搭建企业数据资产管理体系,推动企业数据资产管理规范和创新,丰富数据应用与消费工具,...
  • 目录:一、航空业数据治理现状二、航空业大数据治理的三个发展趋势三、规划企业数据架构的两种模式四、规划企业数据架构的三个关键技术五、总结一、航空业数据治理现状目前航空行业数据治理已经逐步在开展起来,驱动...
  • 数据治理最佳实践

    千次阅读 2015-01-07 15:09:06
    团队建设 组织: 建立企业级的管理团队是主数据管理的基础 角色:数据管理团队按照管控的内容进行岗位...规范数据团队中各工作岗位应有相应的工作规范 制度:须建立主数据管理制度 技术体系 平台:团队的工作必须建
  • 目录快手数据治理的依据和核心快手模型规范治理实践快手模型规范快手模型治理案例快手数据治理体系展望与总结 年底真的是各种分享的集中点,也是我等菜鸟的饕餮盛宴时刻啊!今天又有很多大会,我是开着好几个远程...
  • 本指南旨在指导企业和政府...维度、场景维度三个维度建设说明,帮助大家以实际经验为基础,将制度规范技术工具有 效融合,以整体提升数据安全能力为最终目的,本指南具有全面性、先进性、持续性、可落 地性的特点。
  • 睿治元数据以Meta Object Facility(MOF)规范为基础,支持XMI格式的元模型导入和导出,同时内置大量技术数据、业务元数据的元模型,用户可直接使用。元模型管理对元模型的基本信息、属性、父子关系、依赖关系、组合...
  • 前言如何让数据资产工具更好的用户体验,实现数据“好找、好用、好看、实时和共享”,需借助大数据、云搜索、微应用等先进技术,搭建企业数据资产管理体系,推动企业数据资产管理规范和创新,丰富数据...
  • 技术架构下的运维治理

    千次阅读 2016-11-04 14:20:32
    COBIT看运维治理运维治理的典型框架运维治理的典型过程运维治理的目标运维治理之流程体系运维治理规范体系运维治理之标准化服务治理之架构失控运维治理之架构点控制运维治理之架构线的控制技术架构之名字服务名字...
  • 城市数据大脑是一座城市的人工智能中枢,内核采用阿里云ET人工智能技术,可以对整个城市进行全局实时分析,自动调配公共资源,修正城市运行中的Bug,最终将进化成为能够治理城市的超级人工智能。城市大脑的意义在于...
  • 快手大数据:2020数据管制技术交流会会议介绍:数据中台的建设过程中,除了数据内容的建设,还需要持续不断的进行优化和治理,以确保数据...议题一:快手从模型规范开始的数据治理实践 主讲人:孙伟模型规范治理是数...

空空如也

空空如也

1 2 3 4 5 6
收藏数 102
精华内容 40
关键字:

数据治理数据规范技术