数据治理 订阅
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。 展开全文
数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。国际数据管理协会(DAMA)给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。国际数据治理研究所(DGI)给出的定义:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程、工具。
信息
外文名
Data governance
技术要求
大数据分析、大数据处理、大数据管理
中文名
数据治理
应用范围
企业、政府
数据治理数据治理内容
以企业财务管理为例,会计负责管理企业的金融资产,遵守相关制度和规定,同时接受审计员的监督;审计员负责监管金融资产的管理活动。数据治理扮演的角色与审计员类似,其作用就是确保企业的数据资产得到正确有效的管理。由于切入视角和侧重点不同,业界给出的数据治理定义已经不下几十种,到目前为止还未形成一个统一标准的定义。 [1]  ITSS WG1认为数据治理包含以下几方面内容(1)确保信息利益相关者的需要评估,以达成一致的企业目标,这些企业目标需要通过对信息资源的获取和管理实现;(2)确保有效助力业务的决策机制和方向;(3)确保绩效和合规进行监督。数据治理过程 [2]  从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统(控制理论中趋稳的系统)。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管(监管就是我们在执行层面对信息系统的负反馈),而监管的职能主要通过以下五个方面的执行力来保证——发现、监督、控制、沟通、整合。
收起全文
精华内容
参与话题
问答
  • 企业数字化转型,数据中台和大数据平台的发展,对企业、个人的数据治理、管理能力都提出了更高的要求。 DAMA做为全球知名的数据管理、数据治理知识体系的贡献者,获得DAMA CDMP认证成为职业晋级的核心能力和标志。 ...
  • 数据治理系列1:数据治理框架【解读分析】

    万次阅读 多人点赞 2019-05-08 14:58:56
    作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理、数据治理,欢迎关注。 一、什么是数据治理? 维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会...

    作者:石秀峰,多年来一直从事企业数据资源规划、企业数据资产管理、数据治理,欢迎关注。

     

    一、什么是数据治理?

     

    维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。

     

    笔者认为:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。

     

    二、为什么需要数据治理?

     

    在我国,各行业的信息化发展和建设水平并不均衡,甚至有的行业是刚刚起步。但是,不论是金融行业、通讯行业、地产行业、传统制造业以及农业,其信息化的发展基本都遵循了“诺兰模型”。笔者认为企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大的阶段,可以说是一个先建设后治理的过程。

     

     

    1、数据质量层次不齐

    当今时代,“数据资产化”的概念已经被大多数人理解和接受。不论是企业、政府还是其他组织机构,对于的数据资产的管理越来越重视。然而,数据并不等于资产,也就是说不是所有数据都是数据资产,数据中也有垃圾数据。我们需要治理的是能够为企业创造价值的数据资产,而不是全部数据。

     

    2、数据交换和共享困难

    企业信息化建设初期缺乏整体的信息化规划,系统建设大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,甚至还有大量的数据存放在员工的个人电脑中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,数据的价值不能充分发挥。只有联通数据,消除这些“信息孤岛”,才能实现数据驱动业务、数据驱动管理,才能真正释放数据价值。

     

    3、缺乏有效的管理机制

    目前,许多企业都认识到了数据的重要性,并尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,在数据流转过程中,存在数据维护错误、数据重复、数据不一致、数据不完整的情况,导致了产生了大量的垃圾数据。数据产权不明确,管理职责混乱,管理和使用流程不清晰,是造成数据质量问题的重要因素。

     

    4、存在数据安全隐患

    2018年3月份的Facebook 5000万用户信息被泄露和滥用的事件,受该事件影响,Facebook股价当日大跌7%,市值缩水360多亿美元,而盗用数据的剑桥分析这家公司也于同年5月停止运营,并申请破产。这种数据安全事件,在我国发生频率更多,我还清楚的记得:2011年,黑客在网上公开了CSDN的用户数据库,高达600多万个明文的注册邮箱账号和密码遭到曝光和外泄;2016年,顺丰员工应盗取大量客户信息被送上法庭;2017年,京东员工盗取用户个人信息50亿条,并通过各种方式在网络黑市贩卖。近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。

     

    三、DMBOK的数据治理框架

     

    DMBOK是由数据管理协会(DAMA)编撰的关于数据管理的专业书籍,一本DAMA 数据管理辞典。对于企业数据治理体系的建设有一定的指导性。注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。

     

    DMBOK将数据管理分为以下10个职能域:

     

    • 数据控制:在数据管理和使用层面之上进行规划、监督和控制。

    • 数据架构管理:定义数据资产管理蓝图。

    • 数据开发:数据的分析、设计、实施、测试、部署、维护等工作。

    • 数据操作管理:提供从数据获取到清除的技术支持。

    • 数据安全管理:确保隐私、保密性和适当的访问权限等。

    • 数据质量管理:定义、监测和提高数据质量。

    • 参考数据和主数据管理:管理数据的黄金版本和副本。

    • 数据仓库和商务智能管理:实现报告和分析。

    • 文件和内容管理:管理数据库以外的数据

    • 元数据管理:元数据的整合、控制以及提供元数据。

     

    四、数据治理框架的理解和解读

     

    DMBOK对企业级数据治理给出了框架性建议,但是任何指导性的框架文件都不是万能的。不同的行业、不同性质的企业、不同的信息化程度、不同的企业文化,其数据治理方案必须因地制宜,量身定制。我们常说:没有最好的解决方案只有更合适的解决方案。企业在实施数据治理的时候,应做好充分的分析和评估,切勿盲目跟风,避免出现数据治理收效甚微,还浪费了投资的窘境。

     

    笔者认为企业数据治理应考虑以下要素:

     

    1、数据治理的对象

    大家都在谈数据治理,但是到底哪些数据需要被治理?我们说数据治理不是治理全部数据,而是针对企业数据资产的治理。那么,问题来了,到底什么是数据资产?又如何识别数据资产?

     

    维基百科定义:数据资产属于普通个人和企业的数字财产,数据资产是无形资产的延伸,不具有实物形态。其本质是数据作为一种经济资源参与企业的经济活动,减少和消除了企业经济活动中的风险,为企业的管理控制和科学决策提供合理依据,并预期给企业带来经济利益。

     

    笔者认为,数据资产虽不具备实物形态,但是它必定是实物在网络世界映射的一种虚拟形态。对于企业而言,人、设备、产品、物料、软件系统、数据库、以及任何涉及到使用文件作为载体的各类数据,都属于企业的数据资产。

     

    我们虽然定义了数据资产,但是不同行业的数据治理侧重点也不同。数据治理要理解行业需求、企业诉求,在不同行业、不同企业应具有不同的差异化方案。企业在实施数据治理的时候,首先要进行数据资产的识别和定义,明确数据治理的对象和范围,做好数据治理的顶层设计!

     

    2、数据治理的时机

    这些年由于工作原因走访了一些企业,其经济情况不同、行业特点不同、信息化程度不同、数据治理情况也不尽相同。

     

    第一类企业:经济实力雄厚,信息化起步较早,信息化程度比较高,如:XX银行、国家电网,他们已形成了系统性的数据治理体系。

     

    第二类企业:有一定的经济实力、信息化程度相对较好,但是早期的信息化盲目建议,买了一堆的套装软件,建了一堆的系统,虽然系统或多或少都有使用,但效果不佳,谈起数据治理,客户自己都觉得头痛:企业到底都有哪些数据?这些数据都是分布在哪里?数据治理该如何入手?

     

    第三类企业:经济实力相对薄弱,也有信息化刚刚起步的企业,这些企业多数的业务还是靠纸质或线下模式,部分企业使用了财务软件或ERP系统,数据存放个人电脑或生产系统中,基本没有数据治理。我国的一些中小民型营制造企业多数处于这个水平。

     

    企业数据治理的时机该如何选择?是先有了数据再进行治理,还是先建设好数据治理体系再进行应用系统建设?针对上述不同类型的企业,其数据治理选择的时机和体系建设的设计绝对不能一概而论。

     

    对于第一类企业,已经有了相对完善的数据治理体系,更需要的是加强数据安全、数据应用、数据创新,稳固提升数据管理、数据应用和数据变现的能力;

     

    对于第二类企业单体架构的系统多,信息孤岛严重,一定存在数据多源、重复、不一致等问题,其数据治理已是迫在眉睫;

     

    对于第三类企业,在数字化的浪潮下,信息化虽然薄弱,但如果打好数据基础,未免不是企业改革创新,实现“弯道超车”的最佳时机。

     

    3、谁来实施、谁来主导

    企业常常有这样一个误区,很多人认为数据治理就是信息化部门的事情和业务部门无关。前边我们说过数据治理是对企业数据资产的治理,既然是资产,就一定要确权。企业数据资产的生产、使用应该有明确的责任部门,显然数据资产的生产及归属部门应该是业务部门,信息化部门最多也就是一个数据资产的托管部门而已。笔者也多次强调企业的数据问题,80%是业务和管理的问题,20%是技术问题。

     

    所以,企业数据治理是应有高层领导牵头,业务部门负责,信息部门执行,企业全员的参与。企业全员应培养起数据思维和数据意识,当然这是一个长期的过程,也是一件很不容易的事情,需要一点一滴的积累沉淀,并不断融入企业文化中。

     

    4、数据治理的内容

    数据治理是长期、复杂的工程,涉及到组织体系、标准体系、流程体系、技术体系和评价体系五方面的工作领域,包含了数据标准、数据质量、主数据、元数据、数据安全等多个方面内容。由于企业性质、业务特点、管理模式的不同,有必要建立符合企业现状和企业需求的数据治理框架,指导企业数据治理工作的开展。

     

    以下是笔者个人理解的数据治理框架内容,不足之处希望业内专家指正,期待与您的交流:

     

     

    组织体系:数据治理项目的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,进行数据资产的确权,明确相应的治理制度和标准,培养整个组织的数据治理意识。这需要 IT 与业务部门进行协作,而且必须始终如一地进行协作,以改善数据的可靠性和质量,从而为关键业务和管理决策提供支持,并确保遵守法规。

     

    标准体系:数据治理的标准体系是多个层面的,包括:国际标准、国家标准、行业标准、企业标准等。企业数据标准体系内容应涵盖:元数据标准、主数据标准、参照数据标准、数据指标标准等。数据治理的成效,很大程度上取决与数据标准的合理性和统一实施的程度。企业数据标准体系的建设应既满足当前的实际需求,又能着眼未来与国家及国际的标准接轨。

     

    流程体系:数据治理流程体系,为数据治理的开展提供有据可依的管理办法、规定数据治理的业务流程、数据治理的认责体系、人员角色和岗位职责、数据治理的支持环境和颁布数据治理的规章制度、流程等。建立数据的生产、流转、使用、归档、消除的整个生命周期管理的过程。企业应围绕数据治理的对象:数据质量、数据标准、主数据、元数据、数据安全等内容建立相应的制度和流程。

     

    评价体系:建立数据评价与考核体系是企业实施和贯彻数据治理相关标准、制度和流程的根本。建立明确的考核制度,实际操作中可根据不同企业的具体情况和企业未来发展要求建立数据的认责体系,设置考核指标和考核办法,并与个人绩效挂钩。考核指标包括两个方面内容,一方面是对数据的生产、管理和应用等过程的评估和考核指标,另一方面是数据质量的评测指标。

     

    技术体系:数据治理包括数据治理的工具和技术,总体应包括元数据管理、主数据管理、数据标准管理、数据质量管理和数据安全管理。

     

     

    元数据管理:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。

     

    数据标准管理:数据标准适用于业务数据描述、信息管理及应用系统开发,可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。数据标准需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。

     

    主数据管理:主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。

     

    数据质量管理:建立数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。

     

    数据安全管理:目前多数人都知道数据安全问题十分重要,但在现实中,数据安全却常常被忽视,只有出现了数据安全问题甚至事故时,人们才认识到要为数据安全做点什么了。数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。

     

    五、数据治理框架总结

     

    再次强调,企业实施数据治理需因地制宜,不论建立什么样的数据治理体系、采用什么样的数据治理技术,其目的都是实现数据治理目标,即:通过有效的数据资源控制手段,对进行数据的管理和控制,以提升数据质量进而提升数据变现的能力。数据治理体系和框架,只是企业数据治理的一个参考,不能照搬和套用,更不能为了治理而治理。

     

    (文:石秀峰 2019年4月)

     

    更多精彩请微信扫描上图二维码,关注谈数据!

    展开全文
  • 数据治理怎么做?这篇万字长文终于讲清楚了!

    万次阅读 多人点赞 2018-10-27 13:53:01
    风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同...

    引言:

    股份制改革对我国银行业来说只是一个开始,企业在风险管理、创造价值等方面还有很长的路要走。风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同顾客的不同需求。对数据本身而言,业务发展加快了数据膨胀的速度,也带来了数据不一致等问题,业务部门的频繁增加和剥离同样会对数据治理提出挑战。这些日益复杂的内外因决定了我国银行业对数据治理的超高标准要求,而目前对应的经验能力却稍显薄弱。

    数据治理不仅需要完善的保障机制,还需要理解具体的治理内容,比如我们的数据该怎么进行规范,元数据又该怎么来管理,每个过程需要哪些系统或者工具来进行配合呢?这些问题都是数据治理过程中最实际的问题,也是最复杂的问题,今天我们将从数据治理的各个核心领域来解答这些问题。

    数据治理怎么做?这篇万字长文终于讲清楚了!

     

    银行数据治理核心领域

    每个数据治理的领域都可作为一个独立方向进行研究治理,目前总结的数据治理领域包括但不限于一下内容:数据标准、元数据、数据模型、数据分布、数据存储、数据交换、数据生命周期管理、数据质量、数据安全以及数据共享服务。

    同时各领域之间需要有机结合,如数据标准、元数据、数据质量等几个领域相互协同和依赖。通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量,减少数据生产问题;在元数据管理的基础上,可进行数据生命周期管理,有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费;通过元数据和数据模型管理,将表、文件等数据资源按主题进行分类,可明确当事人、产品、协议等相关数据的主数据源归属、数据分布情况,有效实施数据分布的规划和治理。

    数据治理领域是随着银行业务发展而不断变化的,领域之间的关系也需要不断深入挖掘和分布,最终形成一个相互协同与验证的领域网,全方位的提升数据治理成效。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    数据治理核心领域

    1.数据模型

    数据模型是数据治理中的重要部分,合适、合理、合规的数据模型,能够有效提高数据的合理分布和使用,它包括概念模型、逻辑数据模型和物理数据模型,是数据治理的关键、重点。数据模型包含三个部分,数据结构、数据操作、数据约束。

    • 数据结构。数据模型中的数据结构主要用来描述数据的类型、内容、性质以及数据间的联系等。数据结构是数据模型的基础,数据操作和数据约束都基本是建立在数据结构的之上的。不同的数据结构有不同的操作和约束。
    • 数据操作。数据模型中的数据操作主要用来描述在相应的数据结构上的操作类型和操作方式。
    • 数据约束。数据模型中的数据约束主要用来描述数据结构内数据间的语法、词义联系、他们之间的制约和依存关系,以及数据动态变化的规则,以保证数据的正确、有效和相容。

    2.元数据管理

    元数据分为业务元数据、技术元数据和操作元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。

    • 业务元数据。业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义乌信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。
    • 技术元数据。它可以分成结构性技术元数据和关联性技术元数据。结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库/视图组/文件组/接口组、源代码/程序、系统、软件、硬件等。技术元数据一般以已有的业务元数据作为参考设计的。
    • 操作元数据。操作元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。
    • 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣裙:805+127+855,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系

    3.数据标准

    数据标准是银行建立的一套符合自身实际,涵盖定义、操作、应用多层次数据的标准化体系。它包括基础标准和指标标准(或称应用标准)。与数据治理其他核心领域具有一定的交叉,比如元数据标准、数据交换和传输标准、数据质量标准等。商业银行的数据标准一般以业界的标准为基础,如国家标准、监管机构(如国家统计局、中国人民银行、工信部)制定的标准,结合商业银行本身的实际情况对数据进行规范化,一般会包括格式、编码规则、字典值等内容。良好的数据标准体系有助于商业银行数据的共享、交互和应用,可以减少不同系统间数据转换的工作。数据标准的主要由业务定义、技术定义和管理信息三部分构成。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    数据标准的主体构成

    • 业务定义。业务定义主要是明确标准所属的业务主题以及标准的业务概念,包括业务使用上的规则以及标准的相关来源等。对于代码类标准,还会进一步明确编码规则以及相关的代码内容,以达到定义统一、口径统一、名称统一、参照统一以及来源统一的目的,进而形成一套一致、规范、开放和共享的业务标准数据。
    • 技术定义。技术定义是指描述数据类型、数据格式、数据长度以及来源系统等技术属性,从而能够对信息系统的建设和使用提供指导和约束。
    • 管理信息。管理信息是指明确标准的所有者、管理人员、使用部门等内容,从而使数据标准的管理和维护工作有明确的责任主体,以保障数据标准能够持续的进行更新和改进。

    4.数据质量管理

    数据质量管理已经成为银行数据治理的有机组成部分。高质量的数据是商业银行进行分析决策、业务发展规划的重要基础,只有建立完整的数据质量体系,才能有效提升银行数据整体质量,从而更好的为客户服务,提供更为精准的决策分析数据。

    数据治理怎么做?这篇万字长文终于讲清楚了!

     

    制度和规范。从技术层面上,应该完整全面的定义数据质量的评估维度,包括完整性、时效性等,按照已定义的维度,在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    数据质量评价维度

    明确相应的管理流程。数据质量问题会发生在各个阶段,因此需要明确各个阶段的数据质量管理流程。例如,在需求和设计阶段就需要明确数据质量的规则定义,从而指导数据结构和程序逻辑的设计;在开发和测试阶段则需要对前面提到的规则进行验证,确保相应的规则能够生效;最后在投产后要有相应的检查,从而将数据质量问题尽可能消灭在萌芽状态。数据质量管理措施,宜采用控制增量、消灭存量的策略,有效控制增量,不断消除存量。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    商业银行数据质量管理流程

    5.数据生命周期管理

    任何事物都具有一定的生命周期,数据也不例外。从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    数据生命周期中各参数间的关系

    从上图数据生命周期中各参数间的关系中我们可以了解到,数据生命周期管理可以使得高价值数据的查询效率大幅提升,而且高价格的存储介质的采购量也可以减少很多;但是随着数据的使用程度的下降,数据被逐渐归档,查询时间也慢慢的变长;最后随着数据的使用频率和价值基本没有了之后,就可以逐渐销毁了。

    6. 数据分布和存储

    数据分布和存储主要涵盖了数据如何划分和存储,总行系统以及总分行数据如何分布,主数据及参考数据(也称为副本数据或者辅数据)如何管理。只有对数据进行合理的分布和存储,才能有效的提高数据的共享程度,才能尽可能的减少数据冗余带来的存储成本。

    通常情况下,综合数据规模、使用频率、使用特性、服务时效等因素,从存储体系角度,可以将商业银行的数据存储划分为四类存储区域,即交易型数据区、集成型数据区、分析型数据区、历史型数据区。

    1、交易型数据区。交易型数据区包括渠道接入、交互控制、业务处理、决策支持与管理等各类联机应用数据;存储客户自助或与银行操作人员在业务交互办理过过程中产生的原始数据的存储,包括业务处理数据,内部管理数据和一些外部数据,其存储的是当前状态数据。

    2、集成型数据区。集成型数据区包括操作型数据(OLTP)和数据仓库型数据(OLAP)。

    3、分析型数据区。分析型数据主要是用于决策支持与管理的各类集市应用的数据。为了对业务执行情况进行深入分析,需要对原始数据进行进一步汇总统计分析,统计分析结果用于最终的决策展示,因此分析型数据区存储了这些统计、分析模型结构的指标数据。

    4、历史数据区。这里存储了所有近线应用、归档应用、外部审计数据平台应用等的数据,主要满足各种历史数据归档后的数据保管和数据查询服务。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    数据存储布局

    7.数据交换

    数据交换是银行进行数据交互和共享的基础,合理的数据交换体系有助于银行提高数据共享程度和数据流转时效。一般商业银行会对系统间数据的交换规则制定一些原则,比如对接口、文件的命名、内容进行明确,规范系统间、银行系统与外部机构间的数据交换规则,指导数据交换工作有序进行。建立统一的数据交换系统,一方面可以提高数据共享的时效性,另一方面也可以精确掌握数据的流向。

    8.数据安全

    商业银行的重要且敏感数据大部分集中在应用系统中,例如客户的联络信息、资产信息等,如果不慎泄露,不仅给客户带来损失,也会给商业银行带来不利的声誉影响,因此数据安全在数据管理和治理过程中是相当重要的。

    • 数据存储安全。包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。
    • 数据传输安全。包括数据的加密和数据网络安全控制,主要通过专业加密软件厂商进行规范设计和安装。
    • 数据使用安全。需要加强从业务系统层面进行控制,防范非授权访问和下载打印客户数据信息;部署客户端安全控制工具,建立完善的客户端信息防泄漏机制,防范将客户端上存储的个人客户信息非授权传播;建立完善的数据安全管理体系,建立数据安全规范制度体系,组建数据安全管理组织机构,建立有效的数据安全审查机制;对于生产及研发测试过程中使用的各类敏感数据进行严密管理;严格与外单位合作中的个人客户信息安全管理等。

    9.数据服务

    数据的管理和治理是为了更好的利用数据,是数据应用的基础。银行应该以数据为根本,以业务为导向,通过对大数据的集中、整合、挖掘和共享,实现对多样化、海量数据的快速处理及价值挖掘,利用大数据技术支持产品快速创新,提升以客户为中心的精准营销和差异化客户服务能力,增强风险防控实时性、前瞻性和系统性,推动业务管理向信息化、精细化转型,全面支持信息化银行的建设。

    • 建立结构化数据处理分析平台。数据仓库建设能够实现企业异构数据的集成,企业按照分析主题重组数据,建立面向全行的一致的信息视图。下图是一个典型的银行数据仓库服务体系:

    数据治理怎么做?这篇万字长文终于讲清楚了!

    银行典型的数据仓库服务体系

    • 数据资产视图。在建立了数据仓库之后,需要建立统一的分析和可视化平台,解决数据在哪里,数据怎么用的问题。一个典型的应用是建立全行统一客户视图,包含客户信息统一视图、客户信息风险视图和网点业绩视图。

    数据治理怎么做?这篇万字长文终于讲清楚了!

    数据资产视图示例

    数据治理的展望

    数据治理不是一个临时性的运动,从银行业务发展、数据治理意识形成、数据治理体系运行的角度,需要一个长效机制来进行保证。 在大数据时代,经过数据治理的银行数据可以发挥更大的作用。

    1.利用大数据挖掘技术分析各类海量信息,发现市场热点与需求,实现产品创新服务

    可以将大数据应用到产品生命周期,深入挖掘客户需求,把握客户痛点,推动产品创新。利用大数据技术对社交网络信息、在线客户评论、博客、呼叫中心服务工单、用户体验反馈等信息进行深度挖掘和分析,充分洞察客户,分析客户的情绪,了解客户对产品的想法,获知客户需求的变化趋势,从而对现有产品进行及时的调整和创新,事情贴近客户的生活场景和使用习惯。

    基于大数据创新产品评价方法,为产品创新提供数据支撑。通过大数据分析,改变目前以规模、总量为主的业务评价方式,建立一整套完整的以质量、结构为主的全新的评价方式,以引导全行真正追求有质量、有效益的发展。

    2.加强内外部信息联动,重点利用外部信息提升银行风险防控能力

    进一步加强与税务、海关、法院、电力部门、水务部门、房产交易登记中心、环保部门以及第三方合作机构的数据互联共享,有效拓宽信息来源渠道,深度挖掘整合系统内外客户信息、关联关系、交易行为、交易习惯、上下游交易对手、资金周转频率等数据信息,利用大数据技术查找与分析不同数据变量间的关联关系,并建立相应的决策模型,提升银行风险防控能力。

    • 在信用风险方面,可以结合外部数据,完善信用风险防范体系,基于可视化分析有效防控信用风险的传导。引入大数据理念和技术,统一信用风险模型管理,构建覆盖信用风险训练、模型管理、日常预警、评分评级、客户信用视图以及业务联动控制的信贷大数据平台,建立多维度、全方位的缝隙爱你预警体系。
    • 在市场风险方面,基于市场信息有效预测市场变动,基于大数据处理技术提升海量金融数据交易的定价能力,构建定价估值引擎批量网格计算服务模式,支持对海量交易的实时定价,有效提升银行风险管控与定价能力,为金融市场业务的发展提供有力支撑。
    • 在操作风险方面,依托大数据信息整合优势,有效防控操作风险。通过可视化技术,从业务网数据中发现识别风险线索,实现由“风险监控”向“业务监控”模式转变,提升风险的提前预警能力。加强跨专业风险监控模型的研发,通过由点带线、由线及面的矩阵式关联监控,提前识别风险交织趋势,防范风险传染。

    3.利用大数据技术提升经营管理水平,优化业务流程,实现精细化经营决策

    • 在经营决策方面,通过外部数据的补充和整理,实现经营分析外延的拓展,从市场和经营环境的高度分析各级机构的发展方向、竞争压力,制定更合理、更有效的经营策略。同时,应用大数据可视化技术,实现复杂分析过程和分析要素向用户的有效传递,增强分析结果说服力和指导性,向经营人员提供有力的信息支撑。
    • 在资源配置方面,依托大数据采集和计算能力,提升测算的敏感性和有效性,加强财务预测的可靠性和有效性,为总体资源配置提供更好的信息支撑,实现对具体资源配置的动态管理。
    • 在过程改进方面,优化业务流程,对交易、日志的专业挖掘,探索当前业务处理流程节点的瓶颈,寻求最有的解决方案。比如通过分析客户从排队到等候完成全部交易的流程合理性,提出过程改进方法,提升网点整体运营效率和客户体验。
    • 在运维保障方面,基于流数据处理技术,搭建准实时的应用交易级监控平台,实现交易运行情况的即时监控,保障业务运行稳定高效。
    • 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习扣裙:805+127+855,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
    展开全文
  • 元数据与数据治理|学习汇总

    千次阅读 2019-01-08 15:23:02
    以下是学习元数据与 数据治理的整个过程:包含技术总结和心里变化情况   以日志的形式进行汇总 2019.1.4 (第一天:接触需求) 需求定义 第一天 讲解需求( 数据仓库、元数据处理建设) 内心变化  片面...

    以下是学习元数据与 数据治理的整个过程:包含技术总结和心里变化情况

     

    以日志的形式进行汇总

    2019.1.4   (第一天:接触需求)

    需求定义

    第一天 讲解需求(   数据仓库、元数据处理建设)

    内心变化 

    片面的理解是关系型数据;

    片面的理解是常规的增删改查询;

    根据需求网上搜索相关资料接触 到Apache Atlas,对就是那么一眼,不过在后来的交流当中,领导也提到了这个插件,所以加深了他的印象

    前期缺点 1.理解是有误区的   2.思路是混乱的  3.Apache Atlas是有抵触,看了下相当麻烦,主要以前涉及的技能点都没怎么用上,完全新的 领域

    2019.1.7(第二天  搜集资料,确定系统定位)

    探讨了项目每个系统的定位(好在有个 周六日,假期思考了下,将数据和api通过某种方式关联起来)

    初步确定了方向(红线部分就是所需 要做的)

     

    虽然思路理清楚,但是很多技术是接触不多的,心里对预期不是很有把握

    2019.1.8 (第三天 搜索资料,了解各个名词概念)

        开始网上搜索资料:正式开启,暂且决定Apache Atlas入手

     

    看第一篇,看到hadoop这个词也就是文章的第一段,然后就百度开始搜索"Hadoop技术栈",引出了第二篇(朦胧的)、第三篇(渐渐明白概念意识)

    看完之后自己简单构建了了个技术发展图(请看完以下文章后再仔细看图)

    文章学习路线搜集:  由第一篇演化出不同的文章分支

    元数据与数据治理|使用 Apache Atlas 进行数据治理 (第一篇) 

     元数据与数据治理|Hadoop技术栈(第二篇)

    元数据与数据治理|大数据生态及其技术栈(第三篇)

    元数据与数据治理|Spark初探(第四篇)

     元数据与数据治理|MapReduce统计词语出现次数(第五篇)

     元数据与数据治理|Spark SQL结构化数据分析(第六篇)

     元数据与数据治理|MapReduce概述(第七篇)

     元数据与数据治理|Intellij IDEA提交远程Hadoop MapReduce任务(第八篇)

    2019.1.9 (第四天 安装 Apache Atlas

       下午开始安装 Apache Atlas,中间 穿插做了下其它工作

        开始写安装 步骤

    Apache Atlas安装过程详解(未完成 版本)

    2019.1.10 (第四天 完成安装 Apache Atlas

    完成Apache Atlas的安装,安装文章初步写完,安装文件准备ok(暂未上传)

     

    元数据与数据治理|Apache Atlas安装过程详解(初步版本)

    元数据与数据治理|大数据治理(第九篇)

    元数据与数据治理|大数据之数仓平台设计(第十篇)

    元数据与数据治理|Apache Atlas API使用入门(第十一篇)

    来一张安装ok的图(明天继续)

    展开全文
  • 数据治理-从理论到实践(一)

    千次阅读 2019-04-01 16:48:13
    1.数据治理 由于切入点和侧重点,业内给予了不同的见解。 广泛认可标准:DMBOK、COBIT 5、DGI、和IBM数据治理委员会的定义。 明确数据治理的目标 理解数据治理的职能 把握数据治理的核心 数据治理遵循过程和...

    大数据治理范围

    一、背景概述

    1.数据治理

    由于切入点和侧重点,业内给予了不同的见解。

    广泛认可标准:DMBOK、COBIT 5、DGI、和IBM数据治理委员会的定义。

    • 明确数据治理的目标
    • 理解数据治理的职能
    • 把握数据治理的核心
    • 数据治理遵循过程和规范

    数据治理的本质:

    数据治理不是一门技术,而是逻辑性很强的理论型学科。

    1.1大数据治理

    Sunil Soares

    (1).大数据治理的工作就是制定策略

    (2).大数据必须被商业化

    从四个方面理解含义

    (1).领域

    (2).角色

    (3).各角色如何参与

    (4).大数据治理最终目标:决策

    1.2 大数据治理框架

    大数据治理范围

     大数据质量:大数据质量分析、问题追踪和合规性监控。

    大数据生命周期:数据的采集、存储、整合、呈现和展示、分析和应用、归档与销毁的流程。

    大数据架构:大数据基础资源层、大数据管理与分析层、大数据应用与服务层。

    大数据治理指标 (如下报表)

      大数据架构(数据存储) 安全 质量/标准   数据服务  
            清洗特征、画像 分析决策 洞察预测
    数据部门            
    业务部门            
    数据部门和业务部门联合            

     大数据架构与设计:

               原则(但凡原则就有例外)

    1.3 大数据架构

    1.31 系统架构

    分层原则(表现、数据、业务)

    模块化原则

    设计模式和框架的应用

    1.32 数据架构

    数据模型 (数据架构核心框架模型)

    数据的价值链分析 (业务流程及组件相一致的价值分析)

    数据交付与实现架构 (数据库架构、数仓、文档和内容架构,以及元数据架构)

    1.33 大数据架构

    • 数据处理中的元数据、主数据、数据仓库、数据接口技术。

    • 数据采集、存储、分析和应用功能过程的虚拟化技术,分布式文件,非关系型数据库,数据资源管理技术

    • 面向数据挖掘、预测、决策的大数据分析和可视化技术等。

    1.34大数据架构参考模型

    基础设施:商用服务器、可结合云计算虚拟化(比如私有云openstack)

    非关系数据库nosql:类表结构数据库、 文档数据库、图数据库和键-值存储。

    资源管理:一是虚拟化。二是基于Yarn或Mesos的资源管理层。

    2.大数据管理与分析层

    包含:元数据、主数据、数据仓库、大数据分析等。

    2.1 元数据

    关于数据的组织、数据域及其关系的信息。(数据的数据,类元注解这类的解释)

    重点:元数据的管理。

    元数据标准:行业标准和国际标准

    行业标准:OMG标准、W3C标准,空间地理标准,非结构化数据的元数据标准,面向领域的元数据标准。

    国际元数据标准:ISO/IEC11179

    2.2 数据仓库

    2.21 定义:

    面向主题的、集成的、随时间变化的、相对稳定的(不可更新是历史数据的快照)、支持决策制定过程的数据集合。

    2.22 主要功能:

    主要有数据采集、数据存储与管理、以及结构化数据、非结构化数据以及实时数据管理等功能。

    问:传统数据库有数据管理么?

    答:有的,传统数仓管理中,DMBS是主流、大数据体系中,基于分布式文件的存储(hdfs或其他的如淘宝、腾讯等自研的)是主流

    元数据机制主要支持以下几类功能。

    (1)描述数据在哪个数仓中。

    (2)定义入仓和出仓的数据。

    (3)记录业务事件发生而抽取的时间安排。

    (4)记录并检测系统数据一致性的要求和执行情况。

    2.23 主数据

    Mater Data指的是各个系统间要共享的数据。比如将人员组织关系数据标准化,统一管理。

    构建在ETL之上、因此很多主数据管理平台包含(数据抽取、数据加载、数据转换、数据质量管理、数据复制和数据同步等功能)。

    2.24 大数据分析

    智能决策支持系统DSS

    2.3 大数据应用与服务层

    传统接口:JDBC、ODBC、WEB接口

    DT时代:开放平台接口。https://www.datapipeline.com/

    3.大数据架构的实现

    基于hadoop的基础架构

     

    ETL数据:低质量数据、无关数据。

    Elect抽取数据-->从数据库中抽取

    了解数据结构、字段含义(对文档、定需求)-->数据质量分析报告。

    (1)抽取模式(数据平台通过一定的工具实现抽取,系统变更后导致失败,源系统不对数据质量负责,源系统的性能降低问题)(2)供数模式(源系统抽取)

    !!!!!数据平台的项目不能失败

    实时数据的抽取:

    定时小批量的面向数据采集

    实时业务的数据发送:轮询或者触发方式。

     

     

    Transfer转换数据-->数据转换

    简单映射、数据转换、计算补齐、规范化。

    Load-->数据加载

     

    小结:

    数据采集一定要做

    数据平台一定要有

               

    展开全文
  • 风险管理要求提供精准的数据模型、创造价值要求充分银行数据资产,这是数据治理的外部推动因素。此外,随着第三次工业革命的到来,银行业也需要进入定制化时代,以更低的成本,生产多样化的金融产品,从而满足不同...
  • 数据治理之死(一)

    千次阅读 2019-07-15 09:32:25
    在一个图里展现复杂的数据结构,并且有非常丰富的交互,即是数据都不达到,全是红色,也要那种深浅不一的红(我叫它五颜六色的红)。一个图柱子要叠起来,可以拖动时间,并且有两个纵轴指标,点击可以下钻...
  • 部分内容摘自 【成于微言】的微信公众号文章(来源:帆软数据应用研究院 作者:汪建辉),关于数据治理的思考来自于之前七年多的银行信贷科技从业经验,因为是在乙方,所以接触的银行相对多一些,做如下思考的分享:...
  • 数据治理系列5:浅谈数据质量管理

    万次阅读 2019-08-10 16:31:51
    本文原创地址:https://mp.weixin.qq.com/s/ovSa7Uhv5IyKzyb-l3PHaA,请手机扫描文章末尾的二维码,关注我们。 题外话:看过之前的文章的小伙伴不难发现,文章开篇几乎都是定义、概念,这已成了笔者写文章的一个...
  • 浅谈数据治理

    万次阅读 2015-07-20 10:16:14
    随着越来越多的企业建立并广泛应用BI系统,数据治理的话题也在最近被越来越多地提及和讨论。有专家表示,只有建立了一定的数据治理体系,用户才会真正进入商业智能的时代。而数据治理能够在短期内成为业内的焦点话题...
  • 魅族大数据平台的一个技术分享活动,话题是《大数据治理之路》.魅族大数据平台工作人员分享了一些他们的大数据治理经验,很有内容。 首先,他们整理了一个治理流程,架构图 然后,依照架构图,大致讲了架构图中的每个...
  • 数据治理

    2018-09-27 10:35:16
    数据治理计划失败的主要原因是,他们无法识别实际的业务问题,组织急需围绕一个特定的业务问题,定义数据治理计划的初始范围,一旦数据治理计划开始解决已识别的问题,业务职能部门将给予支持并将范围扩展到更多区域. ...
  • 数据治理

    2019-03-06 11:00:41
    数据治理怎么做?这篇万字长文终于讲清楚了! https://blog.csdn.net/cqacry2798/article/details/83445593 数据治理成功的六大要素,你做到了几个? https://baijiahao.baidu.com/s?id=1609664852125580100&...
  • 数据治理系列2:元数据管理—企业数据治理的基础

    千次阅读 多人点赞 2019-05-13 20:11:04
    导读:元数据管理是对企业涉及的业务元数据、技术元数据、管理元...元数据管理是企业数据治理的基础。 认识元数据 元数据(Metadata),元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是描述数据...
  • 数据治理系列3:数据标准管理

    万次阅读 多人点赞 2019-05-30 16:39:48
    转载请注明,作者:石秀峰,公众号:learning-bigdata(谈数据) 导读:提到“标准”二字,我们第一时间能够想到的就是一系列的标准化文档,例如:产品设计标准、生产标准、质量检验标准、库房管理标准、安全环保...
  • 数据治理

    2019-07-29 21:44:48
    数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。 数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据...
  • 数据治理分析项目最佳实践

    千次阅读 多人点赞 2019-02-13 11:00:11
    当今信息化建设程度不断深入,企业在优化整合各种IT能力,使IT成为企业的前进驱动力与核心竞争力的同时,将视角关注于更深层次的数据治理与分析,预示着以数据、流量、知识为主的数字经济时代到来,此背景下,数字化...
  • 数据治理这个概念的提出已经有十多年的历史,由于视角及侧重点不同,业界给出的数据治理定义多达几十种,到目前为止还未形成一个统一标准的定义,我们暂且以IBM数据治理委员会给出的定义作为本文的理解
  • 美团配送数据治理实践

    千次阅读 2020-03-13 15:10:06
    大数据时代的到来,让越来越多的企业看到了数据资产的...因为没有数据治理这一环节,其带来后果往往是:随处可见的数据不统一,难以提升的数据质量,难以完成的模型梳理,难以保障的数据安全等等,源源不断的基础...
  • 数据治理系列6:数据安全治理之道

    千次阅读 2019-08-17 10:37:07
    本文原创地址:https://mp.weixin.qq.com/s/5Ci4K2JvT9QGeJpCF93lTw,请手机扫描文章末尾的二维码,关注我们。...说到数据安全,不由得想起那些年做军工企业项目时的一些人和一些事。那是10年前——20...

空空如也

1 2 3 4 5 ... 20
收藏数 66,847
精华内容 26,738
关键字:

数据治理