精华内容
下载资源
问答
  • 数据中心

    千次阅读 2010-09-16 17:11:00
    企业级数据中心评价主要解决如何评价数据中心的问题。  由图10-1、图10-2可知,数据中心的构建涵盖了设计、施工、验收等三个主要阶段。在构建完成的数据中心中,建筑体、IT设备、基础物理设施构成了数据中心的...

    10.2企业级数据中心评价指标体系http://hi.baidu.com/idcserviceuser/blog

      ,就是人们认识数据中心、改造数据中心、评价数据中心的一般通行方法。企业级数据中心评价主要解决如何评价数据中心的问题。

      由图10-1、图10-2可知,数据中心的构建涵盖了设计、施工、验收等三个主要阶段。在构建完成的数据中心中,建筑体、IT设备、基础物理设施构成了数据中心的主要载体;在此载体的基础上运转相关软件,支撑企业的主要业务和海量数据。

    图10-1企业级数据中心建设逻辑架构图
    图10-1企业级数据中心建设逻辑架构图

    图10-2典型数据中心构成图
    图10-2典型数据中心构成图

    展开全文
  • 企业级灾备中心数据恢复

    千次阅读 2014-08-24 16:21:07
    数据中心的容灾备份和业务连续对公司来说有多重要?我们来看看国外在这方面的一些统计吧:金融业在灾难停机两天内所受损失为日营业额的50%;... 实施数据中心的容灾备份,是企业业务持续运作的要求、同时也

    数据中心的容灾备份和业务连续对公司来说有多重要?我们来看看国外在这方面的一些统计吧:金融业在灾难停机两天内所受损失为日营业额的50%;如果在两星期内无法恢复信息系统,75%的公司将业务停顿,43%的公司将再也无法开业;没有实施灾难备份措施的公司60%将在灾难后2-3年间破产。由此可见灾难恢复对公司正常运行的重要性、必要性和迫切性。

      实施数据中心的容灾备份,是企业业务持续运作的要求、同时也是企业规避风险健康发展、进行全球化战略发展和布局、成为世界级企业的要求。也是行业监管政策的必要措施。2007年7月,国家标准《信息系统灾难恢复规范》(GB/T20988-2007)出台,并于2007年11月1日开始正式实施。

      企业的业务连续管理包含的内容如下图所示。

    企业级灾备中心和数据恢复

      DRP(Disaster Recovery Plan)灾难恢复预案是IT的关注点,负责灾难发生时IT系统的恢复。BCP业务连续性计划关注灾难后企业业务的持续运作,如银行网点在银行信息系统灾难后的恢复正常营业。业务连续管理的内容还包括供应链管理,安全管理,突发事件管理。本文要介绍的是灾难恢复计划(DRP)的相关内容。

      根据灾难恢复的保护级别和数据丢失程度不同,国家标准将信息系统灾难恢复划分为六个等级,如下图。

    企业级灾备中心和数据恢复

      灾难恢复等级是基于对灾难恢复七要素的不同要求来定义的,灾难恢复的七大要素如下图。

    企业级灾备中心和数据恢复

    企业级灾备中心和数据恢复

      如果灾难恢复要达到六级的保护等级,灾难恢复七要素需要达到如下图所示的要求。

    企业级灾备中心和数据恢复

      国家标准中的灾难恢复预案框架(DRP)包含的内容有:

      1 目标和范围。

      2 组织和职责。

      3 联络和通信。

      4 紧急响应流程:灾难预警;人员疏散;损害评估;研判和灾难宣告。

      5 恢复和重新继续运行流程:恢复;重续运行。

      6 灾后重建和回退。

      7 预案的保障条件。

      8 附录:人员疏散计划;产品说明书;IT系统标准操作流程;服务级别协议;资源清单;预案保存和分发方法;业务影响分析报告。

      其中附录中的业务影响分析报告是设计灾备中心时的最初着手点,业务影响分析报告从各个应用的重要性不同出发,判断对各应用采取什么样的等级保护并设计出方案。

      开发DRP的各个工作阶段如下图所示(流程由左至右)。

    企业级灾备中心和数据恢复

      灾备中心的设计有几个很重要的灾难恢复业务参数:RTO(Recovery Time Objective)时间恢复目标;RPO(Recovery Point Objective)恢复点目标;NRO(Network Recovery Objective)网络恢复目标;RAO(Recovery Access Objective)访问恢复目标。

      RTO 时间恢复目标是指发生灾难后恢复物理系统环境的时间,例如服务器重启、数据库重启、数据恢复、应用回归正常运行。

      RPO 恢复点目标,指灾难发生前最后一次备份的时间即数据丢失量标准,灾备中心和数据中心的距离会影响RPO值,同城时应为零,异地距离较远时则应控制在分钟级水平。

      NRO 网络恢复目标是灾难发生后的网络恢复时间,即用户在灾难后可以连接到灾备中心的时间。

      RAO 访问恢复目标指验证业务能正常运行的时间,如以银行为例,在向客户和最终用户发布灾难恢复环境以恢复服务/运作之前,银行服务员应可以像用户那样登陆和正确执行交易。

    下面是一个银行客户的灾难恢复业务影响分析。银行客户大约有60个应用,关键应用需要同时运行在主机和开放平台上。根据业务的保护性要求不同将业务分为三类,如下图。

    企业级灾备中心和数据恢复(2)

      Ⅰ类是银行面向客户的业务,含24×7小时、8×7小时两种;Ⅱ类为银行的外部链接和批处理业务等;Ⅲ类为银行内部办公和管理系统应用。其中Ⅰ类和Ⅱ类应用需要第6级(无数据丢失)灾难恢复支持,Ⅲ类应用需要第5级或第4级灾难恢复支持。

      银行的部分应用分类如下图。

    企业级灾备中心和数据恢复(2)

     

    企业级灾备中心和数据恢复(2)

      根据应用的分类和灾难恢复等级确定RTO、RPO等参数指标,如下图。图中包含灾备中心和数据中心同城,异地两种情况。

    企业级灾备中心和数据恢复(2)

      从RTO目标来确定数据备份需求和连接需求,根据RTO目标不同设计的三个方案如下图。随着RTO值要求降低,一些应用的连接需求FC(Fiber Channel)值也降低,部分应用的复制方式也不一定需要同步进行。

    企业级灾备中心和数据恢复(2) wordend

      灾难备份中心建设的技术实现主要包含高层模式、数据复制、客户端切换、灾备中心建设和互联。

      * 高层模式

      高层模式包括冷备、暖备/热备、双活。

      数据中心冷备份示意图如下.

    企业级灾备中心和数据恢复(2)

      冷备模式的灾备中心平时不启用,当数据中心发生故障时才会启用。由于平时不怎么使用,相对成本高,冷备模式的灾备中心现在应用较少,用户考虑建冷备模式的灾备中心时很多也是采用的外包方式,将灾备中心外包给灾备服务提供商,当灾难发生时,要求灾备服务提供商启用灾备中心。

      数据中心暖备份/热备份示意图如下.

    企业级灾备中心和数据恢复(2)

      上图中有DC1、DC2两个数据中心,他们各自既是数据中心也是灾备中心。DC1是应用1的数据中心同时也是应用2的灾备中心,DC2是应用2的数据中心和应用1的灾备中心。当用户访问应用1时,DC1正常时连接到DC1,如DC1出故障则连接到DC2。DC1、DC2的主机配置、网络配置、人员配置等基本相同,这样当某一中心出故障时,整体的运营维护不会有跟不上的情况。

      双活模式的数据中心网络架构如下图。

    企业级灾备中心和数据恢复(2)

      采用双活模式的数据中心网络架构时,两个数据中心能同时为用户提供服务。数据中心的应用架构基本上都是多层应用架构,分Web层、应用服务器层、数据库层,在各层上实现双活模式的难度不同。Web层一般不基于状态而只是HTTP连接,因此应用基本上可以连接到任一个数据中心的Web层。应用服务器层可以在不基于状态的应用上实现双活。数据库的集群不能跨越太远的距离,太远的距离会导致数据库的访问时间,同步策略等难以实现,因此数据库层的双活在数据中心相距较远时较难实现。

    * 数据复制

      数据中心和灾备中心间的各种数据复制方式如下图所示。

    企业级灾备中心和数据恢复(3)

      从兼容性、复杂度、带宽要求上来看,基于阵列的复制方式兼容性、复杂度最低,带宽要求最高,基于应用的复制方式兼容性、复杂度最高,带宽要求最低。

      双活中心基于应用进行数据复制示意图如下。

    企业级灾备中心和数据恢复(3)

      双活中心基于应用进行数据复制时,客户发送的应用请求会同时发送到两个数据中心,主中心和备份中心都会做应用数据的处理,正常情况下只有主中心会回复应用请求,灾难情况下则由备份中心回复。两个中心间只需要做数据校验和数据库LOG的验证,因此对数据中心间带宽的要求较小。但是当做需要改写应用的项目时,项目的实施周期较长,同时一些不是通过应用来对数据库进行修改的操作会导致两个中心的数据不一致。

      基于SAN进行复制示例如下图。

    企业级灾备中心和数据恢复(3)

      基于SAN进行复制时,当主数据中心对其存储设备进行写操作后,SAN交换机会复制写操作,并对备份数据中心的存储设备作相应的写操作。由于复制操作由SAN设备完成,所以基于SAN进行复制的方式具有对服务器透明、对CPU没有压力、可写异构的存储设备、快速支持多种应用、性能高等优点。

      基于数据库LOG进行数据复制示例如下图。

    企业级灾备中心和数据恢复(3)

      当主数据中心对数据库有写操作时,主数据中心会将数据库写操作的LOG传送到备份数据中心,备份数据中心根据LOG对自己的数据库进行相应的写操作。由于传送的是数据库LOG,所以基于数据库LOG进行数据复制的方式需要的带宽少,但它无法实现非数据库类型数据的远程复制,同时,当系统为高IO时,这种方式会对系统性能产生15%左右的影响。

      基于数据表进行数据复制示例如下图。

    企业级灾备中心和数据恢复(3)

      基于数据表进行数据复制是一种高性能的数据复制方式,通过数据库代理来侦听数据库的变化。数据库代理利用Trigger(触发器/探针)来侦测数据库的变化,并将侦测到的变化生成为标准的数据表,数据表通过数据总线传输到备份数据中心。基于数据表进行数据复制符合SOA的架构,实现应用接口标准化,还可以实现双向数据复制,或只复制部分数据表、部分数据列,并进行格式转换,同时还可以将数据发布到多个应用系统。

      以上介绍的各种复制方式对应的系统恢复时间如下图。

    企业级灾备中心和数据恢复(3)

      基于应用和数据表的数据复制方式对应的系统恢复时间为零,除应用复制方式外其他的复制方式都需要补丢失数据的时间。从图中可以看出应用复制方式的指标最好,但它的应用复杂性和日常维护复杂性都很高。

      在基于SAN进行数据复制方式中,思科的MDS SAN交换机支持压缩、加密,可以减少传输数据的数量并可以对传输数据进行加密。结合思科的WAAS技术在数据中心间传输数据还可以进一步节约带宽,提高效率。

    企业级灾备中心和数据恢复(3) wordend

      灾难备份中心建设的技术实现主要包含高层模式、数据复制、客户端切换、灾备中心建设和互联。本文重点介绍客户端切换、灾备中心建设和互联。

    * 客户端切换

      正常情况下,企业的用户、分支机构等都是连接到主数据中心,如下图。

    企业级灾备中心和数据恢复(4)

      当主数据中心发生故障之后,企业的用户、分支机构等都应该能切换为与备份数据中心相连接,如下图。

    企业级灾备中心和数据恢复(4)

      实现这种客户端切换的一些技术如下图所示。

    企业级灾备中心和数据恢复(4)

      手工切换的技术可应用于数据中心的冷备或暖备方式。基于双活中心中的主中心可以采取DNS和HTTP重定向切换技术,能实现负载分配和就近选择。基于双活中心中的备份中心可以采用健康路由注入和BGP切换技术。

      手工切换方式。

      生产中心的IP子网为A.B.0.0,正常情况下,用户和分支机构都会通过这个网段来连接到生产中心,容灾中心的子网也是设置为A.B.0.0,但正常情况下容灾中心的网段是关闭着的,如下图所示。

    企业级灾备中心和数据恢复(4)

      当生产中心发生灾难时,此时手动操作打开容灾中心的网段,用户和分支机构不做任何修改便可以连接到容灾中心,如下图。

    企业级灾备中心和数据恢复(4)

      DNS切换方式。

      要实现DNS切换方式,在数据中心的部署中必须要有一个智能的DNS设备作为站点的域名解析服务器,思科采用的是思科的GSS设备。主数据中心和备份数据中心都配置了一个GSS,当用户需要访问思科站点www.Cisco.com时,首先会将请求送到电信的DNS服务器进行处理,经过各级的DNS查找之后电信的DNS服务器会将DNS请求送到GSS设备上,GSS设备具有应用感知功能,它可以监控数据中心WEB服务器、应用服务器等的状态。当主数据中心正常时,GSS会将主数据中心服务器的IP地址回给用户,这时用户就连接到主数据中心了,如下图。

    企业级灾备中心和数据恢复(4)

      当主数据中心发生灾难时,主数据中心的GSS设备检测不到它的服务器状态,此时备份数据中心的GSS设备便将备份数据中心服务器的IP地址回给用户,用户连接到备份数据中心。

      健康路由注入切换方式。

      主数据中心和备份数据中心的负载均衡设备能探测数据中心后台服务器的健康状况,如果探测到的服务器状况良好,负载均衡设备便向网络中发送一条与负载均衡设备对应的数据中心服务器的主机路由。对于主数据中心和备份数据中心来说,他们发出的主机路由值不同,主数据中心发送低Cost值路由,备份数据中心发送高Cost值路由。两个数据中心都正常工作时,用户发送连接请求后会收到两条Cost值不同的主机路由,通常情况下会选择Cost值低的路由连接到主数据中心,如下图。

    企业级灾备中心和数据恢复(4)

      当主数据中心发生灾难时,请求连接的用户只能收到一条来自备份数据中心的高Cost值路由,用户通过该路由连接到备份数据中心,如下图。

    企业级灾备中心和数据恢复(4)

      以上介绍的各种客户端切换方式的比较如下图。

    企业级灾备中心和数据恢复(4)

      思科的Nexus 7000能实现长距离的vMotion支持,vMotion是一种虚拟机的迁移方式,可以动态的将虚拟机从一台物理主机切换到另一台物理主机,用户的交易连接在切换过程中不会中断。以前,vMotion只能在局域网中实现,思科Nexus 7000能实现200公里以内的两个数据中心间的vMotion虚拟机迁移,如下图。

    企业级灾备中心和数据恢复(4) wordend

      * 灾备中心建设和互联

      灾备中心如果要达到六级的保护标准,灾备中心的网络设备、通信线路、服务器必须和生产中心相同,因此思科灾备中心的设计与思科生产中心一样采用标准的分层、分区设计方法。不同的服务器位于不同的区域,服务器经过每个区域的汇聚层连接到核心层,还有存储设备和存储核心的设计。灾备中心的设计中有一个数据中心互联模块,互联模块基本上采用光传输产品来实现高带宽连接,实际中通过应用分析得出数据存储量的大小,根据数据存储量得到所需FC(Fiber Channel)值并在互联模块中部署,还有数据中心间的IP连接需求,IP连接需求一般来说千兆或万兆连接即可满足。

    企业级灾备中心和数据恢复(4)

      数据中心间的几种互联方式如下图。

    企业级灾备中心和数据恢复(4)

      数据中心间的互联技术选择如下图。

    企业级灾备中心和数据恢复(4)

      根据数据中心间的距离选择不同的互联技术。在数据中心内部可采用裸光纤;园区范围内可采用CWDM,CWDM在一根光纤上只能传8个波;城域范围内很多用户会采用DWDM,DWDM在一根光纤上能传32个波,每个波能实现10G的带宽;距离更远时只能采用SDH或IP的方式,SDH或IP方式在长距离时不能做到同步的数据复制。

    SDH和DWDM两种互联方式的比较。

      SDH方式。

    企业级灾备中心和数据恢复(5)

      SDH是时分复用技术,目前的最高带宽为10G。

      DWDM方式。

    企业级灾备中心和数据恢复(5)

      DWDM是波分复用技术,可将32个波复用到一根光纤上,每个波有10G的带宽,传输数据时可做到现速转发,但应用的距离不能超过200公里。

      在企业级平台上,思科采用Cisco ONS 15454配合不同的功能卡来实现SDH和DWDM。

      数据中心间距离非常远时还可以采用FCIP互联方式,FCIP方式如下图。

    企业级灾备中心和数据恢复(5)

      FCIP方式将FC(Fiber Channel)数据(图中黄色部分)增加一个IP数据的包头,将FC(Fiber Channel)数据变换为IP数据并通过IP网络来传输,这样就不用去租用昂贵的SDH线路。思科的MDS交换机在实现FCIP时可实现压缩、加密、用户写加速等优化功能。

      * 案例分享

      某银行北京和上海之间的异地灾备。

    企业级灾备中心和数据恢复(5)

      某银行数据中心通讯连路汇聚示例。

    企业级灾备中心和数据恢复(5)

      某银行灾备拓补结构。

    企业级灾备中心和数据恢复(5)

    展开全文
  • 前言 ...往往一个机构针对其数据资产类别和数量都缺乏全面了解, 数据质量、数据安全、资产评估、资产交换交易等精细管理、价值挖 掘和持续运营则更为薄弱。数据资产管理是现阶段推动大数据与...

    https://www.toutiao.com/i6654889698344829454

    前言

    数据成为资产,已经是行业共识,甚至有人建议将数据计入资产 负债表。但如果对比实物资产,对数据资产的管理,还处于非常原始 的阶段。往往一个机构针对其数据资产类别和数量都缺乏全面了解, 数据质量、数据安全、资产评估、资产交换交易等精细管理、价值挖 掘和持续运营则更为薄弱。数据资产管理是现阶段推动大数据与实体经济深度融合、新旧动 能转换、经济转向高质量发展阶段的重要工作内容。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     


    定义与内涵

    1. 数据资产管理的概念

    • 数据资产(Data Asset)是指由企业拥有或者控制的,能够为企 业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文 件资料、电子数据等。在企业中,并非所有的数据都构成数据资产, 数据资产是能够为企业产生价值的数据资源。
    • 数据资产管理(DAM,Data Asset Management)是指规划、控制 和提供数据及信息资产的一组业务职能,包括开发、执行和监督有关 数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保 护、交付和提高数据资产的价值。数据资产管理是需要充分融合业务、 技术和管理,来确保数据资产保值增值。

    2. 数据资产管理的内涵

    数据资产管理在大数据体系中的定位如图所示,它位于应用 和底层平台中间。数据资产管理包括两个重要方面,一是数据资产管 理的核心管理职能,二是确保这些管理职能落地实施的保障措施,包括组织架构、制度体系。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    数据资产管理在大数据应用体系中,处于承上启下的重要地位。 对上支持以价值创造为导向的数据应用开发,对下依托大数据平台实 现数据全生命周期的管理。数据资产管理贯穿数据采集、应用和价值实现等整个生命周期全 过程。企业管理数据资产就是通过对数据的生命周期的管理,提高数 据资产质量,促进数据在“内增值,外增效”两方面的价值变现。数据 先被规范性定义、创建或获得,然后存储、维护和使用,最终被销毁。 数据的生命周期开始于数据获取之前,企业先期制定数据规划、定义 数据规范,以期获得实现数据采集、交付、存储和控制所需的技术能 力。数据资产管理一般来说包括统筹规划、管理实施、稽核检查和资 产运营四个主要阶段,详见第三部分数据资产管理的实施要点。

    3. 数据资产管理的演变

    数据管理的概念是伴随上世纪八十年代数据随机存储技术和数 据库技术的使用,计算机系统中的数据可以方便地存储和访问而提出的。 国际数据管理协会( DAMA, Data Management Association International)在 2009 年发布的数据管理知识体系 DMBOK1.0中定 义为规划、控制和提供数据资产,发挥数据资产的价值。DAMA 数 据管理体系将数据管理划分为 10 个领域,分别是数据治理、数据架 构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数 据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理和 数据质量管理。2015 年,DAMA 在 DBMOK2.0 知识领域将其扩展为 11 个管理职能,分别是数据架构、数据模型与设计、数据存储与操 作、数据安全、数据集成与互操作性、文件和内容、参考数据和主数 据、数据仓库和商务智能(BI,Business Intelligence)、元数据、数据质量等。

    在数据资产化背景下,数据资产管理是在数据管理基础上的进一 步发展,可以视作数据管理的升级版。主要区别可以从三方面看:一 是从数据管理变成数据资产管理,在数据资产管理的概念下,强调的 是紧紧围绕着把数据作为一种资产,基于数据资产的价值、成本、收 益开展全生命周期的管理。二是管理职能有所调整,和 2015 年 DAMA 的管理职能相比,数据资产管理延用数据模型、元数据、数据质量、 参考数据和主数据、数据安全等内容,整合数据架构、数据存储与操作等内容,将数据标准管理、数据生命周期管理纳入管理职能,还针 对当下应用场景、平台建设情况,将传统数据管理职能的具体内容进 行了升级,增加了数据资产价值评估、数据资产运营流通两个管理职 能。关于管理职能的描述详见第二章。三是管理要求有所升级,在“数 据资源管理转向数据资产管理”的理念影响下,管理制度和组织架构 也要有相应的变化,需要有更细致的管理制度和更专业的管理队伍来 确保数据资产管理的流程性、严谨性和安全性。此外,业界也经常使用 “数据治理”、“数据管控”等说法。


    必要性

    数据作为越来越重要的生产要素,将成为比土地、石油、煤矿等 更为核心的生产资源,如何加工利用数据,释放数据价值,实现企业 的数字化转型,是各行业和企业面临的重要课题,然而数据的价值发 挥面临重重困难。企业的数据资源散落在多个业务系统中,企业主和 业务人员无法及时感知到数据的分布与更新情况,也无法进一步开展 对数据加工工作。数据标准不统一,数据孤岛普遍存在导致业务系统 之间的数据无法共享,资源利用率降低,降低了数据的可得性。标准 缺失、数据录入不规范导致数据质量差,垃圾数据增多,数据不可用。 数据安全意识不够、安全防护不足导致了数据泄露事件频发,危害了 企业经营和用户利益。而且数据的价值难以评估,数据服务缺乏合规 性的指导,阻碍了数据在企业内外的流动。数据资产管理主要解决数 据面临的诸多问题,以体系化的方式实现数据的可用、好用,充分释放数据价值,具体来看有六个方面的作用。

    1. 全面盘点数据资产

    据 IDC 预测,全球数据总量预计 2020 年达到 44 个 ZB,我国数据量将达到 8060 个 EB,占全球数据总量的 18%。2025 年全球大数据规模将增长至 163ZB,相当于 2016 年的 10 倍,数据的规模越来越庞大。随着自然语言处理、图像识别、传感器 等技术的不断发展,数据的种类越来越丰富,一个机构对他掌握的数 据类型,缺乏全局管理视图。因此,数据资产管理的切入点是对数据 家当进行全面盘点,形成数据地图,为业务应用和数据获取夯实基础。

    2. 不断提升数据质量

    早在 1957 年的时候,计算机刚刚发明 的时候,大家就意识到数据对于计算机决策的影响,提出 Garbage In Garbage Out的警示。2001 年,美国公布《数据质量法案(Data Quality Act)》,提出提升数据质量的指导意见。2016 年,美国发布国家大数 据战略,其中之一就是希望企业通过数据管理来提升数据质量,确保 数据决策的可信性。糟糕的数据质量常常意味着糟糕的业务决策,将 直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问 题。根据数据质量专家 Larry English 的统计,不良的数据质量使企业 额外花费 15%到 25%的成本。数据能够被当作资产,并发挥越来越 大的价值,其前提是数据质量的不断提升。

    3. 实现数据互联互通

    传统的信息系统建设都是烟囱式的,各个部门各自存储数据,也缺乏数据跨部门共享的管理机制。据统计, 98%的企业都存在数据孤岛问题。造成数据孤岛的原因既包括技术 上的,也包括标准和管理制度上的。在大数据时代,要实现数字化转型,打破数据孤岛、实现数据互联互通不仅对于一个单一机构具有重 要意义,对整个社会也具有深远意义。

    4. 提高数据获取效率

    一般来说,数据分析人员 80%的精力都 花在了数据准备上。业务人员可能会有突发的数据使用需求,希望快 速地获取真实、完整和规范的数据,但是由于数据孤岛、数据质量不高、缺乏平台和工具等原因,业务人员无法及时有效获取数据。让数 据随时快速有效就绪,缩短数据分析人员和数据科学家的数据准备时 间,就需要在技术平台、数据质量和数据共享等方面采取综合措施。

    5. 保障数据安全合规

    随着各个机构数据的快速累积,一旦发 生数据安全事件,其危害性将越来越大。数据安全造成的风险主要包 括数据泄露与数据滥用等。根据数据泄露水平指数(Breach Level Index)监测,自 2013 年以来全球数据泄露高达 130 亿条,其中很多 都是由于管理制度不完善造成的。2018 年 3 月,脸书(Facebook)被 曝光,将超过五千万用户信息数据提供给剑桥分析( Cambirdge Analytica)咨询公司用于定向投放广告,这起数据滥用事件在全球引 起轩然大波。所以,保障安全是数据资产管理和价值开发的底线。

    6. 数据价值持续释放

    目前,数据的价值还没有得到充分释放, 是因为大部分企业还没有建立起一个有效管理和应用数据的模式。数 据资产管理是一个持续和动态的过程,应随着技术、市场、产业的变 化不断迭代,使数据资产能够为数字化转型提供源源不断的动力。从 企业高管到业务人员及技术人员,全员都要以持续释放数据价值为理念来重视数据资源管理工作。管理方面,需要建立一套符合数据驱动 的组织管理制度和流程。技术方面,需要建设现代化数据平台、引入 智能化技术,确保数据资产管理系统平台持续、健康地为数据资产管 理体系服务。国际上提出 DataOps的理念可供借鉴。


    变革

    随着大数据的迅猛发展,数据资产管理相对传统的数据管理是正在变革的,逐渐呈现一些新特点,可以从数据对象、处理架构、组织职能、管理手段和应用范围五个方面来认识。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    1. 数据对象纷繁复杂

    数据作为数据资产管理的对象,体现出数据规模海量庞大、数据 格式种类繁杂以及数据来源各式各样等特征。在数据量方面,单一机 构的数据规模由以前的 GB 级上升到 TB 级,甚至 PB 级、EB 级,数 据增速快。在数据格式种类方面,除传统的结构化数据之外,文本数据、图像数据、语音数据、视频数据等半结构化数据或非结构化数据占比越来越大,种类日益丰富。在数据来源方面,数据既包括内部数据,也包括来自第三方的外部数据,既包括传统业务处理采集的业务数据,也包括手机终端、传感器、机器设备、网站网络、日志等技术产生的数据。数据资产呈现数据对象海量、多样、多元化等特点。

    2. 处理架构更新换代

    处理架构的更新换代体现在两个方面。一方面是底层架构,数据处理的底层架构快速的向分布式系统迁移。以Hadoop、Spark等分布式技术和组件为核心的“计算&存储混搭”的数据处理架构,能够支持批量和实时的数据加载以及灵活的业务需求。另一方面是数据的预处理流程正在从传统的ETL结构向ELT转变。传统的数据集成处理架构是ETL结构,这是构建数据仓库的重要一环,即用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。而大数据背景下的架构体系是ELT结构,其根据上层的应用需求,随时从数据湖中抽取数据建模分析。

    3. 组织职能升级变迁

    传统的管理制度体系中,数据管理职能主要由IT部门来负责,是IT部门的一项工作,业务部门配合IT部门执行数据管理,提出需求。随着数据分析与业务融合越来越深入,业务部门逐步成为大数据应用的主角,因而数据资产管理在企业中扮演越来越重要的角色。出现了越来越多的企业设置专门的“数据管理”职能部门或首席数据官(CDO,Chief Data Officer)岗位。在这种变迁背景下,数据管理的组织架构也面临革新的需求。

    4. 管理手段自动智能

    依靠“手工人力”的电子表格数据治理模式即将被“自动智能”的“专业工具”取代,越来越多的数据管理员、业务分析师和数据领导者采用“平台工具”来梳理元数据、主数据,构建模型和管控质量。随着机器学习、深度学习技术的成熟,相关专项解决方案和平台工具系统的技术局限性如效率低、差错率高、扩展性差等将被一一攻破,能够有效地解放人力,提高效率和精度。

    5. 应用范围不断扩大

    数据的应用范围在不断扩大,由传统的支持管理需要的战略决策分析为主,发展为支撑业务一线业务场景的战术性决策。数据资产的意义价值也从对内强化能力扩展到了对外合作开放上,从而实现数据资产保值到增值的跨越。战略决策分析一般包括管理优化、研判决策、风险合规、业务拓展、管控成本等。由原来的只应用于领导决策场景扩展到部门级业务分析使用。战术性决策包括智能推荐、精准营销、分析报告以及风险防范等。在跨企业的业务合作中,数据不可避免的也会流通到上下游的合作伙伴。从使用对象来看,数据资产的使用者不仅包括企业决策人员,还包括运维用户、业务管理人员、数据分析人员、数据科学家等各种角色。数据应用范围越广,就越需要智能化的数据资产管理技术及完备的管理制度作为支撑,从而实现数据精细化管控和数据价值最大化。


    主要内容

    数据资产管理框架如图所示,包含8个管理职能和5个保障措施。管理职能是指落实数据资产管理的一系列具体行为,保障措施是为了支持管理职能实现的一些辅助工作。本章主要描述具体的管理职能和保障措施的详细内容。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    1. 管理职能

    数据资产管理的管理职能包括数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据安全管理、数据价值管理以及数据共享管理等8个方面,详细阐述如下。

    • 数据标准管理

    数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束。数据标准一般包括三个要素:标准分类、标准信息项(标准内容)和相关公共代码(如国别代码、邮政编码)。数据标准通常可分为基础类数据标准和指标类数据标准。

    基础类数据标准一般包括数据维度标准、主数据标准、逻辑数据模型标准、物理数据模型标准、元数据标准、公共代码标准等。指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标一般不含维度信息,且具有特定业务和经济含义,计算指标通常由两个以上基础指标计算得出。

    数据标准管理是指数据标准的制定和实施的一系列活动,关键活动包括:

    1. 理解数据标准化需求;
    2. 构建数据标准体系和规范;
    3. 规划制定数据标准化的实施路线和方案;
    4. 制定数据标准管理办法和实施流程要求;
    5. 建设数据标准管理工具,推动数据标准的执行落地。
    6. 评估数据标准化工作的开展情况数据标准管理的目标是通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现企业大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理活动提供参考依据。
    • 数据模型管理

    数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件。数据模型所描述的内容有三部分:数据结构、数据操作(其中ER图数据模型中无数据操作)和数据约束,形成数据结构的基本蓝图,也是企业数据资产的战略地图。数据模型按不同的应用层次分成概念数据模型、逻辑数据模型、物理数据模型三种类型。

    1. 概念模型:是一种面向用户、面向客观世界的模型,主要用来描述现实世界的概念化结构,与具体的数据库管理系统(DBMS,Database Management System)无关;
    2. 逻辑模型:是一种以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型。逻辑模型可用于指导在不同的DBMS系统中实现。逻辑数据模型包括网状数据模型、层次数据模型等;
    3. 物理模型:是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构。物理模型的设计应基于逻辑模型的成果,以保证实现业务需求。它不但与具体的DBMS有关,而且还与操作系统和硬件有关,同时考虑系统性能的相关要求。

    数据模型管理是指在信息系统设计时,参考业务模型,使用标准化用语、单词等数据要素来设计企业数据模型,并在信息系统建设和运行维护过程中,严格按照数据模型管理制度,审核和管理新建数据模型,数据模型的标准化管理和统一管控,有利于指导企业数据整合,提高信息系统数据质量。数据模型管理包括对数据模型的设计、数据模型和数据标准词典的同步、数据模型审核发布、数据模型差异对比、版本管理等。数据模型管理的关键活动包括:

    1. 定义和分析企业数据需求;
    2. 定义标准化的业务用语、单词、域、编码等;
    3. 设计标准化数据模型;
    4. 制定数据模型管理办法和实施流程要求;
    5. 建设数据模型管理工具,统一管控企业数据模型。

    数据模型是数据资产管理的基础,一个完整、可扩展、稳定的数据模型对于数据资产管理的成功起着重要的作用。通过数据模型管理可以清楚地表达企业内部各种业务主体之间的数据相关性,使不同部门的业务人员、应用开发人员和系统管理人员获得关于企业内部业务数据的统一完整视图。

    • 元数据管理

    元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。

    1. 技术元数据(Technical Metadata):描述数据系统中技术领域相关概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等;
    2. 业务元数据(Business Metadata):描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等;
    3. 管理元数据(Management Metadata):描述数据系统中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。

    元数据管理(Meta Data Management)是数据资产管理的重要基础,是为获得高质量的、整合的元数据而进行的规划、实施与控制行为。元数据管理的内容可以从以下六个角度进行概括,即“向前看”:“我”是谁加工出来的;“向后看”:“我”又支持了谁的加工;“看历史”:过去的“我”长什么样子;“看本体”:“我”的定义和格式是什么;“向上看”:“我”的父节点是谁;“向下看”:“我”的子节点是谁。元数据管理的关键活动包括:

    1. 理解企业元数据管理需求;
    2. 开发和维护元数据标准;
    3. 建设元数据管理工具;
    4. 创建、采集、整合元数据;
    5. 管理元数据存储库;
    6. 分发和使用元数据。

    元数据分析(血缘分析、影响分析、数据地图等)通过元数据管理活动,可以使企业数据信息的描述和分类实现格式统一,有助于理解数据的真实含义,为数据资源的管理和数据应用奠定了基础。

    • 主数据管理

    主数据(Master Data)是是指用来描述企业核心业务实体的数据,是企业核心业务对象、交易业务的执行主体。是在整个价值链上被重复、共享应用于多个业务流程的、跨越各个业务部门、各个系统之间共享的、高价值的基础数据,是各业务应用和各系统之间进行信息交互的基础。从业务角度,主数据是相对“固定”的,变化缓慢。主数据是企业信息系统的神经中枢,是业务运行和决策分析的基础。例如供应商、客户、企业组织机构和员工、产品、渠道、科目COA、BOM等。

    主数据管理(MDM,Master Data Management)是一系列规则、应用和技术,用以协调和管理与企业的核心业务实体相关的系统记录数据。主数据管理的关键活动包括:

    1. 理解主数据的整合需求;
    2. 识别主数据的来源;
    3. 定义和维护数据整合架构;
    4. 实施主数据解决方案;
    5. 定义和维护数据匹配规则;
    6. 根据业务规则和数据质量标准对收集到的主数据进行加工清理
    7. 建立主数据创建、变更的流程审批机制
    8. 实现各个关联系统与主数据存储库数据同步
    9. 方便修改、监控、更新关联系统主数据变化主数据管理通过对主数据值进行控制,使得企业可以跨系统的使用一致的和共享的主数据,提供来自权威数据源的协调一致的高质量主数据,降低成本和复杂度,从而支撑跨部门、跨系统数据融合应用。
    • 数据质量管理

    数据质量是保证数据应用的基础。衡量数据质量的指标体系有很多,几个典型的指标有:完整性(数据是否缺失)、规范性(数据是否按照要求的规则存储)、一致性(数据的值是否存在信息含义上的冲突)、准确性(数据是否错误)、唯一性(数据是否是重复的)、时效性(数据是否按照时间的要求进行上传)。数据质量是描述数据价值含量的指标,就像铁矿石的质量,矿石的质量高,则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也增加了提炼的成本。

    数据质量管理是指运用相关技术来衡量、提高和确保数据质量的规划、实施与控制等一系列活动。数据质量管理工作中的关键活动包括:

    1. 开发和提升数据质量意识;
    2. 定义数据质量需求;
    3. 剖析、分析和评估数据质量;
    4. 定义数据质量测量指标;
    5. 定义数据质量业务规则;
    6. 测试和验证数据质量需求;
    7. 确定与评估数据质量服务水平;
    8. 持续测量和监控数据质量;
    9. 管理数据质量问题;
    10. 分析产生数据质量问题的根本原因
    11. 制定数据质量改善方案
    12. 清洗和纠正数据质量缺陷;
    13. 设计并实施数据质量管理工具;
    14. 监控数据质量管理操作程序和绩效。

    通过开展数据质量管理工作,企业可以获得干净、结构清晰的数据,是企业开发大数据产品、提供对外数据服务、发挥大数据价值的必要前提,也是企业开展数据资产管理的重要目标。

    • 数据安全管理

    数据安全管理是指对数据设定安全等级,保证其被适当地使用。企业通过数据安全管理,规划、开发和执行安全政策与措施,提供适当的身份以确认、授权、访问与审计等功能。

    数据安全管理的关键活动包括:

    1. 理解数据安全需求及监管要求;
    2. 定义业务敏感数据对象
    3. 定义数据安全策略;
    4. 定义数据安全标准
    5. 定义数据安全控制及措施;
    6. 管理用户、密码和用户组成员;
    7. 管理数据访问视图与权限;
    8. 监控用户身份认证和访问行为;
    9. 定义数据安全强度,划分信息等级;
    10. 部署数据安全防控系统或工具;
    11. 审计数据安全。

    数据安全管理的目标是建立完善的体系化的安全策略措施,全方位进行安全管控,通过多种手段确保数据资产在“存、管、用”等各个环节中的安全,做到“事前可管、事中可控、事后可查”。

    • 数据价值管理

    数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。数据成本一般包括采集获取和存储的费用(人工费用、IT设备等直接费用和间接费用等)和运维费用(业务操作费、技术操作费等)。数据应用价值主要考虑数据资产的分类、使用频次、使用对象、使用效果和共享流通等因素。

    当前,对于数据资产评估的研究还处于早期阶段,评估方法手段还不成熟。可能的方法包括市场法、成本法和收益法三种,三种方法的优缺点如下表所示。以收益法为例,将企业数据资产未来可能产生的收益折现为现金流进行计算。对数据资产价值的估算可以帮助企业更准确的掌握信息化投资收益,也是数据交易流通的前提之一。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    进行数据价值管理的关键性活动包括:

    1. 确定企业数据集成度水平;
    2. 确定企业数据的应用场景;
    3. 计算数据在不同应用场景下的收益;
    4. 计算企业数据资产的总体价值。
    • 数据共享管理

    数据共享管理主要是指开展数据共享和交换,实现数据外部价值的一系列活动。数据共享管理是指数据的所有者通过对数据的建模分析挖掘,把隐藏在海量数据中的符合共享开放层级的信息作为应用商品,以合规安全的形式完成共享交换或开放发布,使得数据具有流通属性,能方便供数据消费者使用。目前来看,拥有海量数据是企业开展数据资产运营的前提条件,在数据流通环境下,数据资产运营流通职能的服务对象包括了数据提供者、数据消费者、数据服务者和数据运营者四类角色。

    数据共享管理的关键活动包括:

    1. 定义数据资产运营流通监控指标;
    2. 设计数据资产运营流通管理方案;
    3. 制定数据资产运营流通管理办法和实施流程要求;
    4. 监控数据资产运营指标;
    5. 监督落实数据流通等合规性管理要求;
    6. 分析运营流通指标,评价运营效果并改进。

    重视数据资产管理、运营、流通可以为企业带来未来经济利益,同时这也是数据保值增值的重要手段。数据资产运营流通是使数据资产流动和发挥价值的核心,它将推动数据价值创造模式的不断创新,从根本上改变企业管理、社会管理和政府治理的发展趋势。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    管理职能之间的关系。在数据资产管理的实践中,各项管理职能所涉及的管理内容之间往往存在着紧密的联系。数据资产管理的数据一般包括元数据、主数据和业务数据。数据模型管理为主数据、元数据和业务数据设计数据模型。数据质量管理按照数据标准的规定稽核各部分数据内容。元数据管理发挥承上启下的作用,承接数据标准管理和数据模型管理的阶段性成果,同时为主数据管理提供有力支撑。数据安全管理贯穿数据全生命周期,为数据资产管理各项管理职能提供了有力支撑。数据标准管理,顾名思义,就是定义数据模型、数据安全和数据质量相关规范,一般以文件形式呈现。

    2. 保障措施

    数据资产管理是体系化非常强的工作,需要充分考虑企业内部IT系统、数据资源以及业务应用的开展现状,同时也要考虑围绕业务开展所设立的人员和组织机构的情况,在此基础上设计一套有针对性的数据资产管理组织架构、管理流程、管理机制和考核评估办法,通过管理的手段明确“责权利”以保障数据资产管理工作有序开展。数据资产管理的保障措施可以从战略规划、组织架构、制度体系、审计机制和培训宣贯五方面进行展开。

    • 制定战略规划

    从管理层、领导层出发,从顶向下全局部署数据资产管理规范从而形成全面的标准规则体系和执行调度流程。战略规划是数据资产管理成为企业战略核心任务应用的重要部分,是数据资产得到一定程度内外部应用的指导蓝图。值得一提的是,越来越多的企业单位在战略规划阶段决议成立专门的数据管理部门,以连通IT部门和业务部门。

    • 完善组织架构

    典型的组织架构主要由数据资产管理委员会、数据资产管理中心和各业务部门构成。组织架构划分和角色设定如下图所示:

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    为了让组织架构中的各个角色相互配合,各司其职,还需要明确他们相应的职责,让工作职责融入到日常的数据资产管理和使用工作中。与上述典型的数据资产管理架构相适应的角色职责如下表。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    数据认责是数据资产管理在服务各领域、各环节工作落到实处的 有效手段,通过数据角色职责开展数据认责相关工作。具体认责条例、管理办法及相关制度流程由数据资产管理委员会进行制定。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    • 建立制度体系

    为了保障活动实施和组织架构正常运转,需要建立一套覆盖数据引入、使用、开放等整个生产运营过程的数据管理规范,从制度上保障数据资产管理工作有据、可行、可控。

    数据资产管理规范包括元数据管理规范、生命周期管理规范、数据质量管理规范以及数据安全管理规范等对应管理职能的具体规范。在此基础上,规范需细化至接口设计、接口开发、模型设计、模型开发、数据开放以及服务封装等内容。规范的标准一般包括基础分类标准、命名规范要求、数据架构划分、存储与数据权限规则、元数据信息完整性要求等。规范和标准在执行的过程中执行监控规定,要求事中检查和事后监控。事中检查指的是在开发和上线时进行控制,包括命名规范,信息完整性,合理性等;事后监控指的是对存储周期,数据安全敏感信息和加密信息,权限赋权常态化检查。如下是一种典型的制度体系架构举例。

    航司企业级大数据规划(方法论) - 企业级数据资产管理

     

    • 设置审计机制

    为进一步保障、评估数据资产管理的规范、规划、组织机构、制度体系的执行状况,保障、评估数据资产的安全性、准确性、完整性、规范性、一致性、唯一性和时效性,需有完整的贯穿数据资产管理整个流程的审计机制。审计方式从审计体系规范建设入手,信息技术审计方法和专职人员审计方法并行。审计对象包括数据权限使用制度及其审批流程、日志留存管理办法、数据备份恢复管理机制、监控审计体系规范以及安全操作方案等体系制度规范以及敏感、重要数据。数据资产管理在实施过程中需要保障集中审计的可行性。

    • 开展培训宣贯

    培训宣贯是企业实施数据资产管理进程中的重要组成部分,是数据资产管理理论落地实践、流程执行运作的基础,是数据资产管理牵头部门在技术部门和业务部门之间顺利开展工作的重要保障。企业需利用现有资源,合理安排员工参与数据资产管理培训、课程。促进员工有效培训和自我提高,提升人员的职业化水平,强化工作的标准化、规范化。

    企业开展数据资产管理的培训教育周期、培训内容和参与方式,包括:行业现有数据资产管理体系课程培训,行业内、外部单位优秀经验沟通与交流,主要参与培训人员部门内二次培训,企业优秀部门、员工经验、案例分享,常规员工培训中添加数据资产管理培训的课程等。

    各企业单位需将数据资产管理纳入现有晋升、薪酬、职位资格等体系范畴,建立员工职业发展通道。根据现实工作环境中完成任务的能力,设立数据资产管理相关奖项,对优秀的个人、团队进行奖励,树立行业、员工优秀模范,引导员工树立不断学习,激发员工不断改进工作,提高工作质量和工作效率。

    5. 成功要素

    • 明确责权利标,有效推进管理

    数据资产管理最重要的成功要素之一就是重视组织管理的作用,将责权利清晰化,逐步建立健全包括管理型人才和技术性人才的适应数据发展的人才结构,减少工作推进阻碍。并注重数据标准化环节以保障信息体系不发生混乱,确保数据规范一致性。数据标准是数据资产管理的基础,是对数据资产进行准确定义的过程。对于一个拥有大量数据资产的企业,或者是要实现数据资产交易的企业而言,构建数据标准是一件必须要做的事情。标准化是解决数据的关联能力,保障信息的交互、流动、系统可访问,提高数据活化能力。保障信息体系不发生混乱,确保数据规范一致性——避免数据混乱、冲突、多样、一数多源。数据资产管理的核心目的是有效综合运营数据以服务企业,让数据成为利润中心的一部分,这离不开管理,更离不开技术。

    • 合理引进技术,提升治理能力

    人工智能、物联网、新一代移动通信、智能制造、空天一体化网络、量子计算、机器学习、深度学习、图像处理、自然语言处理、4k高清、知识图谱、类脑计算、区块链、虚拟现实、增强现实等前沿技术正在大数据的推动下蓬勃发展。然而,在实现数据资产管理的过程中,应根据自身实际情况,避免盲从,合理引进创新技术以提高数据挖掘准确性和挖掘效率,节省人力成本。信息时代万物数化,企业拥有数据的规模、活性以及收集、运用数据的能力,决定其核心竞争力。掌控数据,就可以支配市场,意味着巨大的投资回报,数据是企业的核心资产。数据在实现价值的过程中需要充分依托技术,但更离不开结合自身业务与应用,合理规划。大数据和云计算的建立与开放至关重要,可以帮助企业梳理数据内容,高效检索展示,最终给企业带来一定的经济收益和社会效应。但其应用的成功与否还是要取决于企业自身商业模式的建立,以数据融合技术为战略资产的商业模式,可以决定企业未来。

    • 着眼业务应用,释放数据价值

    数据资产化进程给各类企业带来重生、颠覆和创新,企业应重点关注、顺势而为,建立起符合自身业务和数据特点的数据资产化体系和能力,数据资产管理人员不能只陷于数据资产管理工作,还应紧密联系业务,只有明确了前端业务需求,才能做到数据资产管理过程中的有的放矢,张弛有度。数据的价值体现在决策精准、敏锐洞察,数据资产管理能够使管理具流程化、规范化,结合业务应用的数据资产管理不仅使数据保值增值,还将会给企业带来更加巨大的经济效益和社会效益。

    • 加强数据合规,注重风险风控

    在数据资产管理的过程中,综合考虑困难及挑战,并全面管控风险,要基于行业模型、行业标准等积累完整、准确的内外部数据以保证数据合规性,进而规避风险。数据资产管理是一项持之以恒的工作,不可能一蹴而就,需要一个循序渐进的过程分阶段进行。要做好充分地长期作战准备,就一定要加强数据合规操作,避免安全漏洞,及时风险风控。

    • 持续迭代完善,形成良性闭环

    一步到位建立一套完美的数据资产管理体系是很困难的。主要原因是业务需求会随着市场环境不断变化,技术手段也在不断革新,因此数据资产管理体系不是一劳永逸、一蹴而就的,需要建立一个小步迭代的数据资产管理循环模式。在管理制度层面,需要制定有利于业务人员、技术人员积极为数据资产管理体系循环迭代完善献言献策的方法和制度,进而促使数据资产管理体系在实践中日趋成熟;在技术平台方面,要借鉴DevOps的理念,促进开发、技术运营和质量保障部门之间的沟通、协作与整合,确保数据资产管理系统平台持续、健康地为数据资产管理体系服务。

     

    展开全文
  • 引言——首先来聊聊现代企业数据架构及痛点: 数据孤岛:低效率和利用困难的根源 应用瓶颈:传统方案数据仓库、数据湖的不足   单讲这两个问题你可能会疑惑——为什么会出现这样的问题?   所以下面来讲讲两个...

    引言——首先来聊聊现代企业数据架构及痛点:

    1. 数据孤岛:低效率和利用困难的根源
    2. 应用瓶颈:传统方案数据仓库、数据湖的不足

      单讲这两个问题你可能会疑惑——为什么会出现这样的问题?

    所以下面来讲讲两个实际的例子来细讲一下这两个问题:

    第一部分——两个实际的场景例子引入

    1.以航空公司的场景为例:

      航空公司的市场部计划推出一个新产品或者是一个客户活动,会希望了解哪一种渠道是某类客户最常用的?当想到这个问题的时候,发现航空公司的客户触点太多了。

      PSDP行程订单,投诉、行李系统,常旅客系统,手机App系统等等。这些系统都是航空公司在不同阶段,不同的业务部门建立的应用。这些应用在部署时只会以本业务为目标,而不会考虑到企业其他业务能够很好的对接。如果这些应用中的数据没有做到统一的话,那要花费数天或者数周才能得到结果,甚至都不知道哪里能够拿到数据。有时就算知道,还要协调其他业务部门来正确地给到。

    在这里插入图片描述

    2.以保单贷小程序的场景为例:

      当客户通过这个保单贷小程序申请现金贷的时候,如果客户在保险公司中已购买过重疾险、人寿险或财产险,系统可以根据客户的保单额,在一分钟内判断出提供给客户适合类型的现金贷。

      在上线的时候发现,这个保单贷小程序很快开发好了,但是数据在人寿、重疾、财险等不同的系统里面,有些还需要推荐系统和标签系统。所以要花很多的时间来做数据的对接,这个时间是数周、甚至数月。因为其中不只是数据问题,还涉及到权限等问题。

    在这里插入图片描述

    以上的情形都是企业中常见的数据孤岛的问题,而且随时 IT 建设的发展,这个问题会原来越常见。

    在这里插入图片描述

    综合分析:

    1. 有关于第一个问题——数据孤岛:
      数据孤岛成因:
        是由于事业部门在建设 IT 服务的时候,分别以各自业务建设为核心,而不是以数据建设为目标而形成的。

    2. 有关于第二个问题——应用瓶颈:
        其次,常用的数据库如Oracle, SQLServer, DB2, Sybase,这些关系型数据库一直以来存在性能扩展的瓶颈。导致在上大的系统,或者客户量增加时,需要采用分库分表的方式。因为单个库没有办法支撑到太多的业务量。这也形成了大量数据孤岛。

    3. 上述两个问题形成大量的数据孤岛,所带来的的对应的问题主要有(数据孤岛带来的影响严重阻碍了新业务对已有数据的重复利用):
      ①需要大量时间对接和同步;
      ②用户体验下降,数据不完整不实时;
      ③重复建设,复用率低等。

    第二部分——各种解决方案的分析

    在这里插入图片描述

    为了解决数据孤岛的问题, 目前的解决方案:

      有应用层面 ESB 企业总线、MQ等;从存储角度来说,有数仓Teradata,Greenplum,以及数据湖。这些方案都可以在一定层面上解决问题,但是存在局限性:

      首先,这些方案都是面向分析场景,对于数据抽取不及时,多数是 T+1 方式,也就是说业务获取的数据,是系统昨天生产出来的。这些数据在数仓及数据湖中处理形成了大量报表及结果数据,通过下载、导出等方式进行交付,形式粗放。所有目前市面上的大数据平台,大部分的场景是偏重于分析,主要用于做BI,做报表、Dashboard,来对企业的运营和客户有所洞察。

    在这里插入图片描述

      而对于企业运营来说,关键的、核心的能力不是后端的分析,而是在前端与客户交互,与业务交互,与流程交互。

    基于上述情况,数据中台应运而生。

    第三部分——优胜劣汰留下唯一解决方案->数据中台

    以打通部门或数据孤岛的统一数据平台为基础,构建统一数据资产体系,并以API服务方式为全渠道业务(分析 + 应用)提供即时交付能力的企业级数据架构。

    在这里插入图片描述

    • 首先,统一数据平台。
      数据中台也是一个数据统一的平台,它不会取代原来的系统,而是把原来组织中分散在各系统中的数据实时地汇聚到统一平台之中。

    • 其次,数据资产体系建立。
      与数仓及其它大数据平台不同的是,汇聚统一之后,做数据资产体系规划。对数据打标签,组织目录和结构,便于发现和使用。

    • 最后,提供数据服务。
      以API的标准接口方式向前端的业务场景,或分析场景提供服务。而不是通过传统的SQL,或者是dump的方式来导出数据。我们称之为DaaS(Data as a Service),数据即服务。

      构建企业数据中台,所支撑的场景不仅仅是分析(如可视化分析,数据发现,数据报表等等),也包括满足各种前端业务应用对数据的需求,如CRM、BPM、SCM、MES等。所以这里提供的数据服务是全渠道业务,而不是传统数仓做的BI类似的工作。更多前端业务应用如掌上商城、手机银行、保单管理、客户360、统一订单、销售大屏等。汇聚在中台的数据可以直接推到手机、App等各类前端,并且是实时的,交互的数据。

    这些都是传统数仓这样的平台所无法比拟的。

    以下是金融企业的数据中台架构参考(银行业):

    • 最低下蓝色是EDW、Hadoop、DB2、Oracle等是已有的各类系统的数据源。

    • 通过CDC、批量导入、API集成等方式把数据汇聚到中台。

    • 在中台里面进行资料的建模和分类,比如按照客户、账户、交易等纬度。

    • 然后以API方式交付到他们的各个业务中心。

    • 最后做成各种业务开发,如金融商城,手机App,社交系统等。

    在这里插入图片描述

    在没有数据中台的时候。实现这些前端场景需要各个业务中心找每一个需要用到的数据中心去协商,前端业务直接连到后台的核心系统。因此而产生两个问题:

    1. 当数据量上来时,如做促销活动,核心系统DB2,Oracle等跟不上。

    2. 当有业务中心有新的需求产生,对数据模型要改变的时候,核心系统很难支撑。

    当企业有了可以灵活组织新的业务模型的数据中台,才可能真正快速地响应前端的业务需要。

    在上图的右上角,可以看到数据中台依旧可以支持一些分析的场景。

    当然,这样的数据中台必须具备数据的治理能力,如质量,编目,建模等等。

    所以数据中台的主要价值在于,数据的协同效率、复用效率和交付速度。原各个系统中的数据不再各自为政,而协同到一起效率提高很多。同样,一份数据可以给多个业务场景使用,而不再需要 ETL 到不同的系统,还要去维护它们的一致性,去掉重复,或防止遗失。最大的价值更在于,加快数据的交付速度。

    (1)技术需求:

    我们讲完了这个中台的一个架构和它的逻辑模型,如果我们要来考虑实施数据中台有哪些技术模块要考量。还回到刚才那张图,首先中台必须是基于一个数据统一平台的,那数据统一的时候,其实刚才没有讲到的,还需要把数据同步和汇聚过来。所以有一部分的工作你是少不了的,如果你没有做过这种中台甚至统一平台的话,你必须有一个ETL平台来把你的来自各个来源的数据抽取过来,抽到你的数据统一平台上。

    数据统一平台你用什么样的解决方案?那是另外一个问题,回头我们会讨论。那进到里面了以后,我们在上面才构建我们的资产体系,这个是需要用到中台相应的一些比如数据治理的模块能力来做这个事情。那最上面层就是一套服务化能力,要把它做成API server 的方式,把这个数据快速的可以交付出去。

    基于上述对于数据中台的理解和定义,我们列出了数据中台所应该具备的技术需求。主要是分为:数据存储系统、数据同步汇聚工具、数据治理和开发、数据交换和发布、数据管理能力五大模块。

    如下表:
    在这里插入图片描述
    在这里插入图片描述

    • 我按照各每个系统大概列了一些数据中台比较核心需要的能力,当大家在采用某一种系统的时候,某一种方案的时候,可以对照一下。也不是每一个你们都会关注,但是这是从我们经验中经常用得到的。比如作为数据平台存储系统的话,你第一个肯定是要横向扩展。为什么?你做的是一个企业级的数据平台,你要把所有的原系统有可能真的做到其极致的话,可能全部把他拿过来,所以你必须得有一个横向扩展能力。不能想今天我的数据这个数据在MySQL可以放得下了,或者是一个Oracle可以放得下了,但你要考虑到明年、后年,甚至是三年、五年以后,因为这个架构放上去以后是一时半会不会动的,那灵活的数据模型,这些也是我们的经验,我们要这个是做一个数据汇聚。往往你的一套同一个客户系统,同一个客户模型会来自于多个不同的系统。这个时候,你有一种灵活的模型和相对的一种比较死板模型的话,你会发现这种灵活模型会比较容易的把数据整合进来,能够接受不同的一些字段的变化,也可以方便的把它合并到一个模式里面。

    • 高并发低延迟就是我们这个中台最终不仅仅是支撑分析,还要支撑前面的业务,所以必须得有这种潜在的直接穿透到前端,例如我们的移动端用户,或者会有大量的这种高并发。作为这个核心数据,高可用、备份、安全都是不用说的了。这是关于存储系统数据平台的一些最基本的一些要素,所以大家考虑的时候,可以从这方面来想这个问题。

    • 其他还有涉及到就是同步工具。批量导入能否实时同步?批量导入一般都有,但是能够实时同步,比如说因为我们要做的事情真的是比如说我们在一家银行做的需要这边刷卡,刷完卡,这个数据在三秒之内直接要进到我们的中台里面,因为上面有一些业务场景会给予中台来做一些推送。所以这个时候实时同步的能力是非常关键的,然后还有一些断点续传或者是所有的数据源的支持,这个就是比较常见的这种同步工具的一些需求了。

    • 治理开发就是我们刚才讲的很多就是说怎么样之间数据体系,你必须得有一系列的能力。数据目录、原数据管理、建模、开发、质量管理等等,匹配去重都是,需要在考察的时候,看他们中台有没有这个能力来做这些事情。

    • 数据交换的发布就是我们的data API。我们说这是一个数据开发平台,我们面对的使用者,比如大数据团队也好,或者数据管理团队也好或者DBA也好,往往不会是开发人员来做这事情。这更像是一个比较中央化的数据平台团队,所以他们关注的可能是一些管理能力,无代码能力就不用让他们写很多代码,所以这个API能否很方便、很快速地按照需求来接通到为前端做服务,这是很关键的。当然,接口的多样性也是非常关键。SQL方式,大数据、流数据,这些接口都按照我们的需求考虑是否需要。

    • 最后一点就是系统管理能力,就是常见的就是这种可视化。因为这里面做很多的事情要有一些相应的任务管理、任务设计、监控、告警啊等等,权限管理,一般的系统都会有这种需求。

    (2)技术选型:

    常见搭建数据中台的技术产品!

    数据中台包括:统一数据平台,数据同步,数据治理,数据服务四大部分。

    下表列出了这四大部分中相应的技术产品,有同步汇聚工具、有数据治理、还有数据服务。

    在这里插入图片描述

    • 数据平台最常见的是以 Hadoop 大数据为基础的。在最近十年,有很多家公司投入很多来做这个事情,把数据已经收集到中央化的一个 datalake 里面,那这个就是个很好的起点。其他的还有用数仓来做的,用 Teradata 或者是 Oracle, Gleenplum,MySQL Cluster,MongoDB,国内的话,有星环或者一些大数据公司。有一些特殊的场景,有人会用一些其它产品,比如说 ElasticSearch 会用来做一些全文搜索,但往往那个只是配合,他不会整体的放在这上面。

    • 同步工具就很多,有开源的,有商用的。开源的话,比如有 Kafka、Kettle, Spark ETL 、Talend,商用的的话要有 Informatica、Golden Gate,包括我们 Tapdata 也提供这种类似的数据同步工具。

    • 治理方面比较做的比较好的可能是开源的话,有 Apache Atlas,那如果是开源商用的话 Informatica 应该是最老牌的,Erwin 这些都是比较经典的这种数据治理的公司,可以配合这些产品来把中台里面数据进行编目和治理管理,Oracle 也有相应的产品。

    • 数据服务就是涉及到API。我们见的最多的可能还是大家用 spring 来搭建一个 API 框架,或者有一些比较现成的 API 机,像 Kong 比较流行。Kafka 是提供一种流式数据的服务,可以做 streaming,Loopback也是可以用 nodejs 的方式来提供 API。Mulesoft 和 CA 都是一个非常成熟的 API 产品,当然他们的价格也不便宜。

    • 他们的优势是他会给你一套整体的 API。不仅仅是服务方案,还有管理方案,他的监控、安全、认证、鉴权,然后把你所有的不管是 data API也好,你的业务API也好,都有个统一的管理界面和一个 gateway的方式来帮他做好。

    • 这里面大家可以看到有非常非常多的选择。如果咱们已经有的话,基本上是用已有的工具,如果没有的话就可能要好好的来看一下看看哪些厂商,或者是一些共享的方案。下边我们也会分享一个方案,可以参考一下来一个快速的选型。

    (3)数据平台产品分类:

    对数据平台比较关注的来看一下数据平台产品分类。

    1. 数据平台的这种产品从90年代开始,从关系型数据库到21世纪的数仓MPP,到后来的大数据,到现在的很多的NoSQL,NewSQL,有非常多的种类。他们都有什么样的特色呢?是否合适来做数据中台的一个存储呢?

    在这里插入图片描述

    1. 数据统一平台的特点对比:
      在这里插入图片描述

    2. 数据统一平台选项参考:
      这里简单来看一下,如果是做数据统一平台选型参考的话,从它的海量数据能力,响应时间和并发能力和他支持多结构数据的能力上,我的个人见解。比如说我们说的现在的NewSQL的吧,他就是对多结构数据支持不是特别的理想。包括RDBMS、MPP也都是这样,那这个时候大家可以考虑一下用哪种方式。这取决于你的场景,MongoDB确实他有他自己的一些弱点,比如做多表关联的时候其实并不是他的优势,我们会建议尽可能避免这种多表关联的场景。但是如果你真的是避免不了的话,那他可能就不是一个很好的选择。
      在这里插入图片描述

    3. 选型建议:
      在这里插入图片描述

    这里是我的一些小小的选型建议,从我个人的出发点,按照我的自己的跟客户的一些交流的经验看了他们的一些情况,然后也是经过一些项目的实施,就是提供的一些情况,然后也是经过一些项目的构实施提供的一些建议。

    • 如果你已经有Hadoop或者数仓的统一平台,我们很多的头部企业,大型企业都是已经有的,这个时候你是不希望从头开始构建一套新的什么所谓的中台架构。你基本上可以基于这个基础之上,配合他的数据治理,把它打造成一个数据资产体系,然后加上他的Data API。对于这种情况,我们刚才看到的很多的已有的数据中台的解决商,他都是基于这种大数据的方案来做的,所以他们的一些能力。往往是已经跟你Hadoop Hive之类的或者数仓呀做比较好的结合,那些同步工具,ETL工具都是有比较不错的结合了,你就可以在这个基础上只是用它的理念来构建。

    • 如果你还没有数据统一平台,没有数仓,没有这个Hadoop之类的话,这个时候我们觉得可以考虑一下,就是我们推荐的这种MongoDB的方案,会非常理想,因为我们相对来说是比较简单一些。起步会快,假设真的不行,你也可以很快就见效,我们叫做非常 fail fast,错就错的快一点,不要花很长的时间才发现不行,那如果你还没开始构建的话,一步到位就可以拿到。因为我们刚才讲的MongoDB在数据平台上是有很大的优势的。如果是Hadoop的话,最近几家合作的海外的那几家都三家只剩下了一家Cloudera,其他两家都已经被收掉了或者被合并了,这也是因为它的本身有很大的局限性,很复杂很难用,投入很大,收效比较小。

    • 如果你的中台主要目的想支撑前端交互式应用。那MongoDB是最理想的,因为我们的特点就是高并发、低延迟、横向扩展。然后非常面向开发,非常面向JSON API,这是非常理想的。那Hadoop的话,他一开始大数据都是以分析为主的,不是为前端为主的。

    • 反过来,如果你的中台数据目前你看不到有什么前端的业务场景会来使用。最主要的还是解决这个数据统一。而且你觉得有很多复杂的表。要做很复杂关联,这个时候一下子把它合并到一个JSON里面是几个JSON里面是比较麻烦的,那可能是MongoDB的适用度就一般了。那反而是那些基于传统的数仓的,那个会比较做的会比较好一点,相对来说是功能上比较完善一点。

    • 如果你是比较喜欢有些比较快速,能够比较轻一点的,比较简单一点的。下载下来就可以安装可就可以跑起来,那我们Tapdata这种方案会比较轻便一点。

    • 如果你没有数据工程师的话,我们MongoDB的一个的优势就是比较自然,比较直接,比较容易理解数据模型,会是一个不错的选择。

    • 如果你没有明确你这个中台搭建的想做什么,我们可能不合适,因为我们可能这个事情做出来以后没有什么太大的效果的话,你就发挥不了我们的所谓的这种价值。其他的方案,我也不知道是不是合适了。

    有了这么多解决方案,我们来看一下,如果是基于一个 MongoDB 的方案会是怎么样?我们刚才只是讲的数据平台在做一些选择,但是做一个完善的数据中台的话还需要很多其他模块,所以这里面是用到了另一个产品,就是Tapdata DaaS。通过 MongoDB 和 Tapdata DaaS 这样一个组合,一起来做这个中台的解决方案。

    第四部分——tapdata DaaS 基于 MongoDB 的数据中台落地方案

    (1)落地

    MongoDB 作为中台架构的数据平台

    • 我们先来看MongoDB作为中台架构的平台优势。
      ①MongoDB 是一个多模数据库。所谓多模数据就是他一套系统里面一套分布式集群,里面可以做很多的不同的事情,有的时候你可以把它作为一个内存数据库,可以把它作为一个目录数据库,也可以把它作为一个IOT的数据模型。就是说它的多模性特性是比较有特长的,而且它的自动扩展能力也是非常适合这种中台的统一平台的需求。多模多态,对汇聚性也是非常重要,因为我们需要支撑不同结构、半结构化、非结构化、甚至一些图片文件能够来做到这一些。
      ②另外,就是MongoDB的API友好能力,采用 JSON 作为传输格式。我们知道现在都是微服务,都是通过Data API的方式交付数据中台的数据。前面业务中台往往都是用微服务,也是通过这种RESTful API,那MongoDB的这种JSON模型对新一代的这种架构式有得天独厚的优势,你会发现你花很少的时间就可以把这个API构建好。另外,MongoDB 也原生提供这种 Streaming API 帮助来做一些流处理的事情。所以MongoDB 作为一个中台的统一平台数据库,其实是有非常得天独厚的条件。
      ③当然,除了他的多表关联是可能是缺陷。
      在这里插入图片描述
      ④MongoDB另外一个优势就是它的对象模型。我们的 JSON 模型就是非常接近于我们开发的对象,Json也好,或者是Java 里边的 Object,python 里面的 Dictionary。
      在这里插入图片描述

    • 一个传统的数仓,或者是现在的数据中台的数据统一平台,要做很多的数据治理。比如要做一系列的建模的工作有概念建模、逻辑建模、物理建模。而且物理建模就是我们所谓的物理层,那就涉及到关系模型。管理一个逻辑对象,怎么样转化成五张表,十张表,20张表遵从第三方指示,这里面其实是很复杂,也会很花时间。你要设计一个很好的模型,怎么样来支撑未来的业务,这也是为什么传统数仓会花那么多的落地项目代价来做这个事情。

    • 而MongoDB的解决方案能轻松地处理这方面的事情,这就是为什么 MongoDB 会受很多开发者的喜欢:MongoDB 在建模方面是一个非常独特的形式,它的模型是基于类似于这种逻辑模型的对象模型。你可以把它理解为差不多是一对一。业务人员一般都会明白这个概念,比如建模、逻辑建模,这些模型他们心里都有数。他们就是可能不懂那种种 DBA 说出来的的 Oracle 的这种建模方式,但是对于 MongoDB 来说,其实你只需要达到逻辑建模层的话,你就可以把这事情做了。而且这个模型建完了以后,直接可以用REST API的方式交付出去。从这一点上来说,它是有一个技术上是非常独到的一个先天性的优势,尤其对我们想做这种基于API的这种服务中台来说。

    • MongoDB 的读写分离,HTAP支持全渠道业务需求。 有一些开发者会说是 HTAP (Hybrid Transaction and Analytical Process),就是说又可以做分析业务,也可以做的交易型的业务。在MongoDB里面,我们怎么样来做这种事情呢?比如说一个集群里面,一个cluster,一个复制集,我们有五个节点,四个Secondary,一个primary。左边的primary节点可以用来直接。直接跟我们的手机或者是网页端的应用进行交互收集,采集数据,用户数据。那MongDB自动同步把的数据从primary同步到secondary里面。

    • 然后我们还可以除去左边三个,作为正常的高可用集群来说,我们还可以拿出两个节点专门用来做分析,你看他这个use=analytics。就是一个标签,就比如说这两个节点是只是用来做于分析型的,那这个时候我们就可以用它来上面。加上我们的BI connector,或者是直接用我们的MongoDB charts和compass,直接可以对接MongoDB数据库做一些展示:kpi,dashboard等等。我们也可以通过一些大数据接口,比如说spark connector 来做一些大型的machine learning或者是AI都是,有很多的这种应用场景,那这些都可以最实时的,在你最新鲜的数据上通过一个读写分离的架构上来完成,你不需要再ETL。在MongoDB里面,这个ETL的需求量是非常非常少的,因为可以通过原生的这种同步来提供数据的汇聚,数据放到这个分析集群里面。

    • MongoDB 还有一个触发器的 API 也是比较实用的。就是大家如果不是太了解的话从3.6开始有个change stream,你可以用来订阅数据库的更新事件。比如从IOT设备过来,有一个灯亮了,有一个设备进入一个地理围栏里面发个报警。你都可以通过一个非常简单的订阅方式获取这些事件,然后做一些实时的,响应式的处理,不管是在dashboard上面显示个警告,或者是把它推送到一个Message Queue 、Kafka之类的都可以,直接就用MongoDB的原生的功能来完成。

    (2)Tapdata DaaS 是什么?

    Tapdata DaaS 是钛铂数据为现代企业加速数字化转型设计的数据平台,通过提供采集、存储、组织和增强等一揽子解决方案,从而得到更加方便和友好的数据服务。

    Tapdata DaaS 提供了4个主要的功能模块,数据采集和同步、数据转换和治理、元数据管理、和数据服务。
    在这里插入图片描述

    Tapdata: 为MongoDB量身定做的中台构建工具集

    Tapdata DaaS 可以看做是 MongoDB 生态上一个工具集。 要做一个数据中台,要同步、要治理、要建模、还要做API发布,这些都不是 MongoDB 做的事情,MongoDB 主要是做数据库为它的核心的主要的功能,其他的相应的功能就可以通过一些外围的工具。而 Tapdata DaaS 可以快速的来实现这些不需要用代码的方式快速把数据的同步,建模和治理,以及发布给快速的做出来,这个大概就是一个整体,Tapdata DaaS 加 MongoDB 的架构。下图中的蓝色的部分就是中台的几个其他部分,绿色的就是MongoDB 的数据平台。

    在这里插入图片描述

    1. 数据同步及处理能力:
      结合 MongoDB , Tapdata DaaS 这套方案是可以快速落地, 可以最快的时间对接上数据进行建模、同步,然后拉到中台里面并进行把它发布出来。举一些例子,比如说可以从 Oracle database 里面把它的表的数据拖到 Tapdata DaaS 的目标的中台库里面,然后对数据进行 JSON 建模,或者是一对一建模。在这个过程中,还可以是进行实时的同步,基于日志的同步。Tapdata DaaS 数据源可以支持 SQL server、Oracle、Sybase、MongoDB、DB2 、MySQL、Redis、Elasticsearch 等等,也支持文件,比如 excel、CSV。

    2. 数据建模能力:
      基于这种内嵌的模型Embedded的模型,把一对一,一对多的关系,甚至多对一的关系就直接就合并到里面去。这个会对客户数据合并、产品数据合并、订单数据合并有非常好的效率的提升。Tapdata DaaS 提供一个可视化的建模见面,就可以很容易完成这种合并工作。

    3. 数据治理能力:
      数据进到库里面,进到中台里面。有来自于不同的数据库,几十套,上百套都有可能,每一套库里面有几百张表在里面必须有一个非常好的分类,非常好的组织能力。按照不同的目的、不同的角色、不同的规则或者数据体系给它分门别类建好在这里面,把这数据打好标签,这样的话可以快速的让大家高效的来使用到这些数据。

    4. 数据API发布能力:
      可以通过RESTful API快速的交付出去。提供图形化低代码开发工具,只需要几分钟的时间就可以简单的发布数据给其他使用方调用。兼容Open API,也可以支持行级列级的过滤。同时也会有一些API文档的测试能力,权限管控等等,这个是中台必不可少的能力之一。

    展开全文
  • 互联网数据中心(IDC–Internet Data Center) 企业数据中心 (EDC–Enterprise Data Center...EDC机房:企业级数据中心,通常为企业自建自行运维。稳定性要求较高,多采用相对成熟的技术; 对IDC、EDC的数据中心都包含
  • 数据大集中之后,企业的经营活动越来越依赖于数据中心与网络等IT基础设施,IT的7*24全天业务连续运营成为大型企业IT建设运营与企业经营追求的目标。如何实现减少甚至消除正常和非正常的停机对业务可用性造成的影响,...
  • “全新启航的联想企业科技集团,将在智能基础架构领域...值得注意的是,在大会现场,联想数据中心中国区业务宣布了全新的组织变更,并更名为“联想企业科技集团”。此次全新的战略布局规划,向我们传达出全新启航的...
  • 数据中心中的备份系统包含哪些?数据中心容灾备份是什么? 数据中心中的备份系统包含四个方面: 方面一:程序备份和手动备份定时或不定时执行。一般的数据备份应用都提供作业调度程序,它可以按照所定义的时间安排,...
  • 为何企业级架构日益盛行?

    千次阅读 2017-08-21 10:50:48
    现今 IT 开发领域,架构师的职位如雨后春笋般涌现出来,而且企业架构师的需求持续上涨。是一种新的时尚还是只是一个新的噱头?是 IT 头衔的通货膨胀还是一时的昙花一现?IT 市场上对架构师的需求还会越来越多吗?...
  • 这是华南地区规模最大的绿色数据中心,可容纳超过30万台服务器,作为深圳地域的新可用区为华南地区上百万企业客户提供领先的云计算、人工智能、物联网等服务。 据悉,河源数据中心采用了目前业内最先进的硬件...
  • 数据中心存储架构 文/刘新民 存储系统是数据中心IT环境的核心基础架构,是数据中心数据访问的最终承载体。存储在云计算、虚拟化、大数据等相关技术进入...在新的IT发展过程中,数据中心建设已经进入云计算时代,企业I
  • 大数据,Spark,企业级实战,pdf完整版,目录
  • JEECG 3.7跨时代重构精华版本发布,企业级JAVA快速开发平台,此版本为跨时代精良重构版,简化平台功能,优化系统性能,制作详细开发手册,公司项目平台最佳选择!④176031980、②106838471(满)、①106259349(满)、③...
  • 企业级监控解决方案 Nightingale

    千次阅读 2020-03-24 15:03:37
    夜莺(Nightingale)是滴滴基础平台联合滴滴云研发和开源的企业级监控解决方案。旨在满足云原生时代企业级的监控需求。Nightingale 在产品完成度、系统高可用、以及用户体验方面,达到了企业级的要求,可满足不同...
  • “大数据中心能否采用消费级SSD?” 我想,大部分朋友应该都知道SSD分为企业级和消费级,但是这两者之间的区别,也许并不十分清楚。 顺着这个话题,分享一下企业级SSD与消费级SSD的区别。 首先,我们先看两张...
  • 随着移动互联网的蓬勃发展,今天的数据中心和10年前的数据中心大为不同,无论从IDC的机器规模,还是流量模型都发生了很大变化。《前浪:传统数据中心的网络模型》已经为大家介绍了数据中心网络建设的基本要求、传统...
  • 谈的数据中心等级,很多人对数据中心等级划分并不了解。今天给大家普及一下数据中心等级划分。 了解更好IDC,运维,互联网商业请上我个人博客网站 https://www.serverceping.com/ T3数据中心是什么?它与T1和T4有什么...
  • 打造过千亿实时日志平台、手机淘宝日志分析创始人、阿里云数加平台技术创始人。   正文:     2014年还在阿里云的时候,内部有一个5K+的项目,集合了当时CDO的多支团队在北京联合关小黑屋,希望能够将...
  • 数据中心机房建设方案

    万次阅读 多人点赞 2020-04-23 15:23:56
    机房布局划分 数据中心机房总面积大约178平方米,使用面积约为123平方米,分为三个功能区域,分别为主设备机房、动力机房、操作间、钢瓶间。各间需要单独隔开。隔开后主设备机房用于放置配线柜、机柜、服务器、小型...
  • 分布式双活数据中心部署模式

    千次阅读 2015-09-22 23:10:58
    中国IDC圈7月26日报道: 传统主备模式是一个业务只在一个数据中心运行,企业结合灾备等级需求和业务需求,在备份中心部署了大量的备份服务器,但备份中心仅为该业务提供灾备服务,只有当灾难发生、生产数据中心瘫痪...
  • 云计算数据中心局域网技术浅析

    千次阅读 2012-06-12 11:27:58
    云计算数据中心局域网技术 第一代数据中心局域网 第一代数据中心局域网是传统以太网,众所周知,performance和cost是推动其快速部署和应用的主要原因。   第二代数据中心局域网 第二代数据中心局域网就是包含...
  • 走近光大银行数据中心-作者孟庆

    千次阅读 2012-06-05 17:41:37
    隔行如隔山,哪怕是同在企业级IT领域工作多年的系统架构师,也不敢轻言熟悉任何一个数据中心。近日,ZDNet至顶网有幸邀约到了光大银行系统运维处的高级经理穆先生(处于保护,此为化名),请他详细介绍了光大银行...
  • ASP.NET Core 企业级开发架构简介及框架汇总 企业开发框架包括垂直方向架构和水平方向架构。垂直方向架构是指一个应用程序的由下到上叠加多层的架构,同时这样的程序又叫整体式程序。水平方向架构是指将大应用...
  • 如何让内存NoSQL数据库适合企业级应用作者:chszs,转载需注明。博客主页:http://blog.csdn.net/chszs英文原文:How to Make Your In-memory NoSQL Datastores Enterprise-Ready对于每一个关注用户体验的Web应用或...
  • 文章目录一、数据中心是什么二、传统数据中心网络架构三、云计算的发展对数据中心的影响四、数据中心流量丰富化带来的挑战五、总结 一、数据中心是什么 数据中心,指用于安置计算机系统及相关部件的设施,例如电信和...
  • JAVA企业级开发技术

    千次阅读 2018-06-29 14:49:12
    传统框架SpringMVC(表现层)Struts2(表现层)Mybatis(数据层)Hibernate(数据层)SpringData Jpa(数据层)开发中比较常见的组合:SSM : Spring-SpringMVC-MybaitsSSH :Spring-Struts2-hibernate2017年热门开发框架...
  • 基于Hadoop的企业级网盘系统的研究与开发   Research and Development of Enterprise-class Online Storage System based on Hadoop  演示网站:http://haodisk.duapp.com     项目地址...
  • 全国各高校的信息化系统也日趋完善,各种学习平台、教学、办公、管理平台都运行在数据中心,一旦数据中心发生故障,将影响到全校信息化系统的正常运转,近年来报道的个别企业已经发生了数据中心故障的案例,更说明...
  • 全面了解IDC数据中心

    万次阅读 2018-12-01 00:01:00
    数据中心(Internet Data Center,简称IDC)机房设计集建筑、结构、电气、暖通空调、给排水、消防、网络、智能化等多个专业技术于一体。IDC机房应具有“良...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 164,323
精华内容 65,729
关键字:

企业级数据中心