精华内容
下载资源
问答
  • 数据中台

    千次阅读 2019-10-10 12:51:15
    数据中台到底是什么?阿里提出了“大中台,小前台”,其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部,数据技术及产品部应是数据中台建设的核心部门。那么,数据中台到底是什么?具体包含哪些内容?跟...

    数据到底是什么?

    阿里提出了“大中,小前”,其中事业部包括搜索事业部、共享业务平数据技术及产品部,数据技术及产品部应是数据建设的核心部门。

    那么,数据到底是什么?具体包含哪些内容?跟大数据是什么关系?在架构层面是怎么体现的?数据跟产品又有什么关系?

    阿里数据技术及产品部的掌门提倒了数据的具体含义,这里引用他说的话:

    “很多人会把数据比作“石油”,马老师(马云)也说过,阿里巴巴要成为全球电子商务的“水电煤”。我们现在搭建的数据,就是希望扮演“发电厂”的角色。”

    “我们知道,电力的发展可以分为几个阶段,最开始是一些有能力的企业自己发电,后来出现新的工业产能,有的企业电用不掉,有的却不够用,这时候国家机构就出来了,会去搭建国家级的电网,不管是核能发电,还是风力发电、水力发电,最大程度地保障不同群体的用电需求。”

    “我们数据也是这样一个运转思路,我们落到实处是一个倒三角形,从下往上分为四个部分——”

    “第一是数据技术。没有数据的时候,不管是阿里内部还是各商家,大家都有自己的数据中心、机房、小数据库。但当数据积累到一定体量后,这方面的成本会非常高,而且数据之间的质量和标准不一样,会导致效率不高等问题。因此,我们需要通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。”

    “第二是数据资产。数据把阿里系的数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而保证为集团各业务和商家提供高效服务。”

    “第三和第四都是数据服务,包括服务商家和服务小二。例如生意参谋和阿里指数,就是数据中面向商家端提供的数据服务。”

    数据服务阿里,说白了更多是在为各位商家服务。平会确保大家在使用数据的过程中,口径、标准、时效性、效率都有保障,能有更高的可靠性和稳定性。”

    以上说得好像都对,但逻辑上有些是无法自洽的,比如这里的数据技术跟阿里云的数据技术是什么关系?数据要不要承担hadoop/ETL这类平和工具的研发?生意参谋是个端到端的产品,似乎不能划为数据

    当然,从职能看,作为中部门的确需要基于产品直接服务一线客户,而不是往后退,这也是以前笔者对于数据最大的困惑,一直在想这个数据的部门绩效该如何定呢?没有业务的滋养中如何迭代优化呢,阿里算是解惑了。

    但如果把直接的产品当成中显然是不合理的,阿里提了数据,忙坏的倒可能是那些做数据架构和数据管理的,因为架构讲究逻辑严密,本质和边界必须定义清楚,没有歧义,否则做事就会很茫然,不知道该怎么入手。

    比如哪天领导问你,我们企业的数据有没有,要向阿里学习啊,有了清晰的概念你就可以做映射了,否则就会显得手足无措,这种事情其实很多。

    笔者的企业最近在做IT规划,很多人就对数据要带一些产品职能有异议,记得以前笔者还把营销平当成中,号称也是赋能所有营销人员的,这就是概念不清造成的问题。

    说来也奇怪,网上很难找到数据的更科学解释,能找到的大多也不够清晰,与大数据有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。

    所谓数据,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整合和知识沉淀,通过数据服务实现对于数据的封装和开放,快速、灵活满足上层应用的要求,通过数据开发工具满足个性化数据和应用的需要

    1、数据模型

    数据模型是分层次的,以前叫作数据仓库模型,笔者这里概括为三层,基础模型一般是关系建模,主要实现数据的标准化,我们叫作“书同文、车同轨”,融合模型一般是维度建模,主要实现跨越数据的整合,整合的形式可以是汇总、关联,也包括解析,挖掘模型其实是偏应用的,但如果用的人多了,你也可以把挖掘模型作为企业的知识沉淀到中,比如离网挽留的模型具有很大的共性,就应该有人把它规整到中模型,以便开放给其它人使用,中的中是相对的,没有绝对的标准。

    2、数据服务

    数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中中的服务概念是完全相同的,只是数据封装比一般的功能封装要难一点,毕竟OLTP功能的变化有限,而数据分析受市场因素的影响很大,变化更快,导致服务封装的难度变大。

    随着企业大数据运营的深入,各类大数据应用层出不穷,对于数据服务的需求非常迫切,大数据如果不服务化,就无法规模化,比如浙江移动封装了客户洞察、位置洞察、营销管理、端洞察、金融征信等各种服务共计几百个,每月调用量超过亿次,灵活的满足了内外大数据服务的要求。

    3、数据开发

    但有数据模型和数据服务还是远远不够的,因为再好的现成数据和服务也往往无法满足前端个性化的要求,这时候就得授人以鱼不如授人以渔了,数据的最后一层就是数据开发,其按照开发难度也分为三个层次,最简单的是提供标签库(DMP),用户可以基于标签的组装快速形成营销客户群,一般面向业务人员,其次是提供数据开发平,用户可以基于该平访问到所有的数据并进行可视化开发,一般面向SQL开发人员,最后就是提供应用环境和组件,让技术人员可以自主打造个性化数据产品,以上层层递进,满足不同层次人员的要求。

    对于标签库(DMP)到底是属于SaaS还是PaaS是有争议的,但标签库这类平显然较生意参谋类产品更中一点,因为其通用性更强,专有业务的特性不是非常明显,笔者还是认为可以归为中

    应该来讲,数据开发中的组件,比如页面组件、可视化组件什么的,归属到业务中似乎更合理,但其实也要看企业的实际情况,哪里用的多就可以归属到哪里,没有绝对的标准了。

    以上划分方式在逻辑上还是说得通的,但还有很多没有考虑进来,比如算法服务、机器学习引擎、hadoop、MPP等等,笔者觉得算法服务应该属于数据服务的一种类型,但h a d o o p、MPP、机器学习引擎更底层一点,应属于私有云或公有云的范畴了,比如笔者看到阿里云就提供了MaxCompute这类机器学习服务。

    关于数据的分层看似简单,但笔者却纠结了好久,很多边界是模糊的,最近看的一本书提到,新的概念如果跟既有知识体系不相符,一定要努力搞清楚,不能人云亦云,只要能表达出自己的观点,即使还是错了,也有了被人家纠正的机会,对于事物理解的不深入,大多是不求甚解导致的概念不清的结果。

    最近新零售很热,各路大仙都出来诠释新零售的概念,大家可以想想新零售到底是什么?

    展开全文
  • 到底什么是数据中台

    万次阅读 多人点赞 2019-07-22 21:00:00
    最近可能大家听到“数据中台”这个词越来越频繁了,有时候我跟一些朋友聊起来,也是都在说这个,但是一直不知道这到底是个什么。最近就看到这篇文章,觉得说的还挺好的,分享给大家看...
        

    最近可能大家听到“数据中台”这个词越来越频繁了,有时候我跟一些朋友聊起来,也是都在说这个,但是一直不知道这到底是个什么。最近就看到这篇文章,觉得说的还挺好的,分享给大家看看,希望大家看完能对数据中台有一些认识。


    转载来源

    公众号:AI 前线

    声明:本文由微信公众号 「AI 前线」原创(ID:ai-front),未经授权不得转载

    阅读本文大概需要 12 分钟。


    导读:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?带着上述问题,InfoQ 在技术雷达峰会上采访了 ThoughtWorks 数据和智能总监史凯,谈谈他对于数据中台的看法。
    数据中台不是大数据平台!

    首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。

    要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。

    我们可以应用 Gartner 的 Pace Layer 来理解为什么要有中间层,这样可以更好地理解中台的定位和价值。Pace Layer 里提到,可以按照事物变化的速度来分层,这样可以逐层分析并设计合理的边界与服务。

    640?wx_fmt=png

    在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。

    数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。

    数据中台解决的问题可以总结为如下三点:

    1. 效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。

    2. 协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。

    3. 能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发人员很少。

    这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。

    史凯总结说,“数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。

    如下图所示:

    640?wx_fmt=png

    DData API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。至于产生 DataAPI 的过程,怎么样让 DataAPI 产生得更快,怎么样让 DATA API 更加清晰,怎么样让 DATA API 的数据质量更好,这些是要围绕数据中台去构建的能力。

    数据中台和数据仓库、数据平台的关键区别

    这是现在数据行业大家经常讨论的问题,到底数据仓库、数据平台和数据中台的区别是什么。

    640?wx_fmt=png

    概括地说,三者的关键区别有以下几方面:

    1. 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;

    2. 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;

    3. 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;

    4. 数据中台距离业务更近,为业务提供速度更快的服务;

    5. 数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;

    6. 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

    数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。

    数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

    而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。

    数据中台应该具备什么能力?

    大数据和人工智能大火之后这几年,很多人一直在提一个说法,那就是“数据是新的石油”。但史凯的观点却有些不同,在他看来,数据不等于数据资产,如果没有从业务的角度对数据进行规划,再多的数据也无法产生价值。

    史凯认为数据中台最核心的一个关键组件是数据资产目录。“我们认为,一个企业的数据要能够充分发挥价值,很重要的一个前提条件就是这个企业的数据结构和数据资产目录是对整个企业开放的。所有人都能够通过这个资产目录了解公司有哪些类别的数据、包含什么属性、源数据由谁管理,这样就可以快速搞清楚这些数据是不是自己需要的。但数据本身可以不开放,因为数据是有隐私信息和安全级别的。”

    大企业内部业务众多,不同业务可能存在很多重复数据。所谓的数据资产目录就是把数据的模型去重、归一、梳理,变成一个树状结构,这个树状结构不直接对应数据库中的字段。以航空货运为例,其数据资产可能包括货机、客运机的辅舱,一架货机就是一个数据资产目录的节点,而货机的各种属性(如货机型号、空间大小、年份等)就是这个节点下面的数据模型。数据资产目录做的事情就是从业务层面出发制定数据标准,将企业业务相关的数据资产模型抽取出来,这跟后面用什么数据库去存储、用什么结构去存储、存成结构化还是非结构化都没有关系。它相当于把企业的业务从数据层面做了一个梳理,用数据的语言把企业的业务模型还原出来。数据资产目录做好之后,后面才是用什么技术手段、从哪里提取数据来映射到这个数据资产目录。

    除了开放,数据资产目录还应该具有标签描述、可检索,这样才能最大程度地方便真正使用数据的人,以最快的速度找到他们需要的东西。

    在 ThoughtWorks 提出的精益数据创新体系中将企业所需要具备的数据能力概括为以下六种,具备了这六种能力,企业才具备成为数据驱动的智能企业的基础,而这些能力的承载平台,就是数据中台:

    640?wx_fmt=png

    1. 数据资产的规划和治理

    做中台之前,首先需要知道业务价值是什么,从业务角度去思考企业的数据资产是什么。数据资产不等同于数据,数据资产是唯一的,能为业务产生价值的数据。 对于同一堆数据,不同业务部门所关注的数据指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需要规划企业的数据全景图,将所有有可能用上的、所有对企业有可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。在这个时候不需要考虑有没有系统、有没有数据,只需要关注哪些数据是对企业业务有价值的。这一层不建议做得太细,太细就难以形成标准,不能适用于多个场景了。数据治理是数据中台很重要的一个领域,ThoughtWorks 认为在现在业务边界消失、需求快速变化的情况下,企业需要具备精益数据治理的能力——Lean Data Governance。传统的中心化、事前控制式的数据治理方式,要改变为去中心化、事后服务式的治理方式。

    640?wx_fmt=png

    1. 数据资产的获取和存储

    数据中台要为企业提供强大的数据资产的获取和存储的能力。

     3. 数据的共享和协作

    企业的数据中台一定是跨域的,需要让所有的人都知道数据资产目录在哪里。不能因为数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据没有办法流动起来,没有流动的话数据的价值产生的速度就会非常慢。所以在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放,要让业务人员能够做到“Self-Service”。

      4. 业务价值的探索和分析

    数据中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。一个好的数据中台解决方案中需要针对不同业务岗位的用户提供个性化的数据探索和分析的工具,并且在此基础上一键生成数据 API,以多样化的方式提供给前台系统。

    1. 数据服务的构建和治理

    数据中台需要保证数据服务的性能和稳定性,以及数据质量和准确性,还需要具备强大的服务治理能力。数据中台是一个生态平台,在数据中台上面会不断生长各种数据服务,所以从一开始就构建好数据服务的治理结构是非常重要的,数据服务需要可以被记录、可被跟踪、可被审计、可被监控。

       6. 数据服务的度量和运营

    如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色。数据中台还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门用了多少次等,通过这些去度量每一个数据服务的业务价值。

    史凯认为,数据中台是一个需要用互联网思维去经营的利润中心平台,数据中台的经营分析人员需要分析业务,了解为什么今天上午这个财务部门的人用了数据中台、调用了十次,下午他不用了,原因是什么,调用了这些数据服务的人通常还会调用哪些其他的数据服务。这些都需要相应地做记录、做日志、做分析,要把数据当做像电商平台一样去经营,然后实时地根据这些业务行为数据去提醒数据服务提供方,调整、改变、优化数据服务,这才是可经营的数据中台,也只有这样业务部门才能得到最快的支持和响应。

    为什么人人都需要数据中台?

    数据中台并非只有大公司才需要的高大上的玩意。

    ThoughtWorks 从 2017 年到现在,已经帮助多家大型国内外企业建设数据中台,其中有体量巨大的企业级数据中台,也有部门级的小数据中台。

    “未来所有的企业核心都会变成加工数据的企业,而数据中台是数据价值化的加工厂,所以所有的企业都需要数据中台的能力,数据中台一定是未来每个企业的标准配置。”

    在史凯看来,数据中台并不意味着“大而全”的数据平台。根据企业的规模和业务的不同,数据中台可大可小,规模、复杂度可能都不相同,但它对业务产生的价值是一样的。

    当企业评估自己是否应该建设数据中台时,应该从哪些方面来考虑?史凯认为,从战略角度来说,每个企业都需要建立自己的数据中台;从战术角度来说,当企业发现自己的数据开发利用的速度和应用开发的速度不匹配的时候,就需要考虑构建数据中台。

    原来很多企业在做应用系统的时候,什么都不考虑直接上单体架构,一上来就先做数据库,然后在上面建应用。ThoughtWorks 建议现在的企业,即使不做数据中台、不去立一个叫做“数据中台”的项目,但是在做应用的时候,最好把这个应用分成三层,业务层、数据中台层、源数据层,在一开始做应用的时候就把三个层次抽象出来。

    数据质量差所以做不了数据中台?No!

    历史遗留的数据质量问题经常让大家对数据的利用和价值产生质疑。2018 年,史凯在与不同企业沟通过程中经常听到的一句话就是,“我们现在还没有到利用数据这一步,因为(应用系统中的)数据质量太差”。

    每次听到这句话,史凯脑子里就好像听到了另外一句话,“还没到培养孩子的时候啊,孩子太小了”。

    不能因为数据质量差,就不去利用数据。恰恰是因为没有去做后面的事情,所以数据质量才差。而且也不能因为数据质量差就抛开业务场景、试图全面解决数据质量的问题,这样得不到业务部门的支持,也无法从数据工作中产生业务价值。所以 ThoughtWorks 建议的恰恰是利用做应用、做业务的需求,同步解决数据质量问题。

    史凯认为,数据质量问题,根本上是在构建应用之初缺乏整体数据规划和数据思维导致的问题。原来的流程类应用构建之初,只考虑了如何让流程跑起来,缺乏对这个应用在整个企业的数据全景图(Data Landscape)中的定位的分析,没有从源头上优化数据的存储、流转,从而更好地与其他的系统中的数据去对齐口径、统一语言,将流程问题抽象成领域模型问题,再将领域模型抽象成数据模型。

    建设数据中台的挑战及应对策略

    建设数据中台最大的挑战在于前期能否从业务层面梳理清楚有业务价值的场景,以及数据全景图,而不仅在于后期的技术建设。

    数据中台建设面临的挑战包括:

    • 梳理业务场景:搞清楚数据中台如何对业务产生价值。

    • 建设数据中台的优先级策略:需求可能大而全,但我们不能直接建大而全的数据中台,应该根据业务重要性来排需求的优先级。

    • 数据治理问题:和业务独立开的数据治理少有成功的,大的数据标准要有(数据资产目录),通过数据资产目录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。

      数据中台的建设需要两个战略耐心

    数据中台是为了加快从数据到业务价值的产生速度,但是它的生产过程依然是需要时间、有很多复杂的工作要做的,所以对于数据中台的投资方和数据中台的建设方来讲,都需要对应的战略耐心。

    640?wx_fmt=png

    • 对于投资方来讲,要充分认识到数据中台类项目的价值和局限性。在现在的组织结构和技术成熟度下,数据中台依旧是一个技术平台,对于业务价值的产生是一个加速的过程。但是业务对于数据的需求不会因为有了数据中台就减少,数据中台也不是哆啦 A 梦,不能随心所欲地变出各种业务想要的服务。这依然是一个需要统筹规划、敏捷迭代、演进建设的系统性工程,所以需要要管理好期望,有一定的战略耐心。

    • 对于建设方来讲,要充分认识到数据中台建设的复杂度,不要操之过急,不要期待毕其功于一役。史凯的建议是要从小中台做起,围绕具体有价值的业务场景去建设,尽量不脱离场景去搞周期长、大而全的纯工具平台建设。

      数据中台也可以小而美

      建设数据中台的关键考量包括两方面。

    首先数据中台一定要与业务价值对齐。构建数据中台,最重要的不是技术,也不是数据质量好不好,而是数据思维和数据文化。数据思维就是要建立起从数据的视角去思考问题的方式;数据文化就是要把数据和业务当成一体去看,而不是只将数据当作一个支持工具。想清楚业务对于数据的诉求是构建数据中台的第一步,哪怕暂时不能想的太细,也要去想,想不清楚就先不要做。

    不要在业务场景还没有明确、优先级还不清晰、价值度量体系尚未建立起来的时候,就建立大而全的数据平台,并且把所有的数据都存起来。企业都是追求投入产出比的,大而全的数据平台往往会面临尴尬的局面,一堆功能看上去很有用,应该都能用上,但是缺乏应用场景,真的有了场景,发现也不能开箱即用,还需要众多的定制化。

    其次,数据中台应该从小数据、小场景做起。

    数据中台是面向场景而非面向技术的,这种与客户的业务、企业的结构和信息化发展阶段有着紧密的相关性的业务基础架构,是很难买一个大而全的产品来一劳永逸解决的。

    可以通过下面这个图来解释构建中台的原则:

    640?wx_fmt=png

    一开始的时候需要顶层设计,面向业务愿景制定中台的整体规划,全面的梳理数据创新全景蓝图,这就是上图左边的黑色框架部分,通过业务愿景驱动出所有的业务场景探索,从而推导出数据中台的全景架构、技术支撑。

    但是在实施的时候,要从具体的业务场景出发。从高价值数据集场景做起,然后顺着这个场景竖切,找到数据全景图中的一个或多个数据集合,从小数据场景落地,这样才能快速验证价值。大处思考,全局拉通,避免后续的数据孤岛,但是从小数据集切入,从可实现性高的场景启动。然后一个个的场景做起来,业务价值和中台能力也就同步建立起来了。

    总的来讲就是,“设计阶段横着走,落地阶段竖着切。”

    数据中台团队和技术选型

    数据中台团队通常需要包含以下角色:

    • 业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据。

    • 数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。

    • 数据分析团队:分析数据价值、探索场景,生产更多的数据服务。

    • 数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具(比如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。

    • 智能算法团队:为数据分析、业务探索提供智能和算法工具。

    而这样的一个团队的工作就构成了一个数据生产线,一个从数据到业务服务的数据服务工厂,这个工厂有生产车间(Data Pipeline)、研发中心(数据实验室)、管理办公室(数据治理),还有产品展示中心(数据服务商店)。

    640?wx_fmt=png

    数据工厂是一个逻辑概念,不是一个大而全的产品,ThoughtWorks 结合过去几年的实践给出了一个数据工厂组件选型的参考架构,这些推荐的架构和组件,很多都体现在过去 ThoughtWorks 推出的技术雷达中并进行了详细解释,如下:

    640?wx_fmt=png

    数据中台的出现对于现有数据团队的挑战

    前面已经提到,数据中台是企业的 Data API 工厂,用更高效、更协同的方式加快从数据到业务的价值,能够给业务提供更高的响应力。所以数据中台距离业务更近,这对于传统企业的数据业务来讲,是一个重大的变化,同时给原来的数据团队也会带来巨大的挑战。

     1. 对数据分析人员的业务要求提高了

    企业传统的数据工作和业务工作分工明确、界限清晰,业务人员负责业务需求,提出业务问题,并将业务问题拆解成一个个清晰的数据问题,然后数据工程师和数据分析师在这个清晰的问题下解题。

    但是,在数据中台出现后,数据中台是一个赋能平台,它会沉淀、提供很多数据分析工具和数据服务,能够让不具备专业数据能力的业务人员也可以进行一些简单的数据分析,产生业务的洞察。这就意味着在数据中台的支持下,相对简单清晰的业务问题会更多的由业务人员自己解决掉,那么传递到专业数据人员的问题,都会是更加复杂的问题。这对于数据人员的业务理解能力就加强了,他 / 她们必须具备快速理解业务的能力,才能够体现出专业性和优势。

     2. 对于数据人员的工程能力要求提高了

    原来的数据分析工作属于个体工作方式,每一个数据科学家、数据分析师就是一个独立的工作单元,业务部门给出业务问题,他们通过自己擅长熟悉的工具和方法给出结果。但是在数据中台出现后,他们一方面获得了更多数据分析的武器和工具,能够站在前人的基础上工作,提高了效率和准确度,另外一方面,他们也需要掌握更多的平台化的数据分析工具,比如 Jupyter Notebook,同时也被要求能够把自己分析的结果转化成数据服务,沉淀到中台。

     3. 数据团队需要具备更多的业务视角

    原来的数据分析团队是一个功能型团队,更多以数据智囊团的身份存在。大部分情况下,距离业务比较远,更不要提对业务的结果负责。而在数据中台出现后,数据中台距离业务会越来越近,甚至直接影响和参与业务的运行,数据团队将慢慢脱离数据智囊团的身份,逐渐从后台走向前台,直接负责一个个数据服务,而这些数据服务是会直接参与到业务当中、产生业务价值的。这样的定位变化,要求数据团队具备更多的业务视角,要更关注业务价值,直接对齐企业的业务目标去工作。

    所以,数据中台的出现,不仅是一个技术平台,它对于企业而言是一个系统化的工作,企业数据相关的流程、职责、分工都要有对应的调整,才能达成整体的目标。

    数据中台 VS 数据隐私

    对于数据中台来说,数据隐私和安全性也是非常重要的问题。可能很多人还记得前些日子马化腾针对“腾讯数据中台论”的回应。去年腾讯组织架构调整进程中实现了技术打通,而对数据打通保持谨慎态度。马化腾在 18 年 11 月的世界互联网大会上回应“数据中台论”:“腾讯不能套用很多其他公司的做法,把数据直接去任意打通。因为在我们的平台里面,大量全部都是人和人之间的通信、社交行为数据,如果说数据可以任意打通,给公司业务部门或者给外部的客户用,那是会带来灾难性的后果。这方面我们要更加谨慎,我们要从用户的角度来考虑,把个人信息和数据保护放在优先地位。”很多人将这解读为腾讯不做数据中台,史凯却不这么认为。

    在他看来,腾讯的回应并不是说他们不做数据中台,而是强调要在数据隐私上做更多的工作。其实所有的数据安全和隐私的保护都需要从场景出发。史凯认为,“不能从纯数据层面来看数据隐私,数据隐私是不能脱离场景的”。如果纯粹从数据层面,而不从业务场景层面去管理数据隐私,就会带来两方面的问题,要么数据被管理的非常死,阻碍了业务价值的产生;要么数据隐私管理就会有漏洞。

    史凯举了一个例子,比如我们讲的用户交易数据,如果不关联用户基本信息,交易数据本身对于用户来说是不具备隐私风险的,因为它不关联到任何一个用户个体。所以,是可以对脱敏后的用户交易数据进行分析和利用的。

    另一方面,如果脱离场景谈数据隐私,也可能会导致忽略了潜在的安全问题。有时候如果不把场景关联起来,可能两个数据看上去没有安全问题,但其实外人把这两个数据关联起来就产生价值了。这也是为什么在一开始的时候就要把所有的场景,尽可能地全部分析出来。

    另外,设置权限、数据分级审核、库级数据脱敏等都是可以提升数据安全的手段。现代数据中台必须具备数据调用行为的监控和记录机制,反过来也能增强对数据安全和隐私的保护。

    数据中台的下一步

    当前国内外已经有不少公司开始投资建设数据中台,大家比较熟悉的包括阿里、华为、联想、海航、上汽、壳牌等。

    在史凯看来,数据中台当前处于上升发展期。虽然未来数据中台未必还叫做数据中台,但它一定会成为企业必备的基础组件。

    世界正在从信息化向数字化发展。信息化是指大部分的工作都在物理世界里完成,然后用信电脑的数字化世界解决一小部分问题。数字化则是把人从物理世界搬到数字化世界。从这个角度来讲,数据中台将会变成物理世界的业务在数字化世界的一个还原。

    数据中台设计的初衷是将计算与存储分离,从狭义上来说,真正最核心的数据中台可以是没有存储的。但就当前的情况来看,广义的数据中台在未来一段时间内仍会涵盖数据仓库、数据湖等存储组件,“数据工厂”这个概念可能更适用于现在的阶段。但随着数据中台的发展,未来很有可能不再需要数据湖了。

    最后,史凯也提到了阿里中台战略中的另一个中台——“业务中台”。他表示“当前业务中台更偏实时交易,是从上往下沉淀业务;数据中台目前更偏分析、决策和洞察,为业务提供 T+N 和 T+0 的数据服务,但是再往前走,数据中台跟交易会慢慢结合得更为紧密。随着计算能力越来越强,以及微服务架构的进一步发展,未来业务中台和数据中台可能会融为一体。”

    采访嘉宾

    史凯,ThoughtWorks 数据和智能总监,精益数据创新体系的提出者,2019 年被评选为 DataIQ100 的数据赋能者,有近 20 年年的企业信息化、数字化转型架构和实施经验,为众多大型客户提供数字化转型战略略规划和咨询实施服务。

    技术雷达是 ThoughtWorks 推出的公益的、不限行业的技术选型趋势报告,至今已坚持十年,旨在以雷达的表现形式,通过清晰的解读,给技术人员提供高质量、落地性强的技术平台、工具框架方面的选型指导,助力企业数字化转型。


    推荐阅读

    1

    跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

    2

    跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!

    3

    只会用Selenium爬网页?Appium爬App了解一下

    4

    妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池

    崔庆才

    静觅博客博主,《Python3网络爬虫开发实战》作者

    隐形字

    个人公众号:进击的Coder

    640?wx_fmt=gif640?wx_fmt=jpeg640?wx_fmt=gif

    长按识别二维码关注


    好文和朋友一起看~
    展开全文
  • 数据中台架构详解

    千人学习 2019-04-19 14:13:24
    当今是数据时代,越来越多的企业开始重视并探索数据的价值,希望通过数据运营赋能...因此,越来越多企业希望构建数据中台,通过数据中台来用好数据。 本次直播将深度揭秘企业数据中台的技术架构、数据架构、产品架构。
  • 数据中台,什么是数据中台

    千次阅读 2019-12-05 11:53:07
    数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会...

    导读:

    数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?

    数据中台不是大数据平台!

    首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。

    要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。

    我们可以应用 Gartner 的 Pace Layer 来理解为什么要有中间层,这样可以更好地理解中台的定位和价值。Pace Layer 里提到,可以按照事物变化的速度来分层,这样可以逐层分析并设计合理的边界与服务。

    在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。

    数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。

    数据中台解决的问题可以总结为如下三点:

    1. 效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。

    2. 协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。

    3. 能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发人员很少。

    这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。

    史凯总结说,“数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。

    如下图所示:

    DData API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。至于产生 DataAPI 的过程,怎么样让 DataAPI 产生得更快,怎么样让 DATA API 更加清晰,怎么样让 DATA API 的数据质量更好,这些是要围绕数据中台去构建的能力。

    数据中台和数据仓库、数据平台的关键区别

    这是现在数据行业大家经常讨论的问题,到底数据仓库、数据平台和数据中台的区别是什么。

    概括地说,三者的关键区别有以下几方面:

    1. 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;

    2. 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;

    3. 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;

    4. 数据中台距离业务更近,为业务提供速度更快的服务;

    5. 数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;

    6. 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

    数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。

    数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

    而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。

    数据中台应该具备什么能力?

    大数据和人工智能大火之后这几年,很多人一直在提一个说法,那就是“数据是新的石油”。但史凯的观点却有些不同,在他看来,数据不等于数据资产,如果没有从业务的角度对数据进行规划,再多的数据也无法产生价值。

    史凯认为数据中台最核心的一个关键组件是数据资产目录。“我们认为,一个企业的数据要能够充分发挥价值,很重要的一个前提条件就是这个企业的数据结构和数据资产目录是对整个企业开放的。所有人都能够通过这个资产目录了解公司有哪些类别的数据、包含什么属性、源数据由谁管理,这样就可以快速搞清楚这些数据是不是自己需要的。但数据本身可以不开放,因为数据是有隐私信息和安全级别的。”

    大企业内部业务众多,不同业务可能存在很多重复数据。所谓的数据资产目录就是把数据的模型去重、归一、梳理,变成一个树状结构,这个树状结构不直接对应数据库中的字段。以航空货运为例,其数据资产可能包括货机、客运机的辅舱,一架货机就是一个数据资产目录的节点,而货机的各种属性(如货机型号、空间大小、年份等)就是这个节点下面的数据模型。数据资产目录做的事情就是从业务层面出发制定数据标准,将企业业务相关的数据资产模型抽取出来,这跟后面用什么数据库去存储、用什么结构去存储、存成结构化还是非结构化都没有关系。它相当于把企业的业务从数据层面做了一个梳理,用数据的语言把企业的业务模型还原出来。数据资产目录做好之后,后面才是用什么技术手段、从哪里提取数据来映射到这个数据资产目录。

    除了开放,数据资产目录还应该具有标签描述、可检索,这样才能最大程度地方便真正使用数据的人,以最快的速度找到他们需要的东西。

    在 ThoughtWorks 提出的精益数据创新体系中将企业所需要具备的数据能力概括为以下六种,具备了这六种能力,企业才具备成为数据驱动的智能企业的基础,而这些能力的承载平台,就是数据中台:

    1. 数据资产的规划和治理

    做中台之前,首先需要知道业务价值是什么,从业务角度去思考企业的数据资产是什么。数据资产不等同于数据,数据资产是唯一的,能为业务产生价值的数据。 对于同一堆数据,不同业务部门所关注的数据指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需要规划企业的数据全景图,将所有有可能用上的、所有对企业有可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。在这个时候不需要考虑有没有系统、有没有数据,只需要关注哪些数据是对企业业务有价值的。这一层不建议做得太细,太细就难以形成标准,不能适用于多个场景了。数据治理是数据中台很重要的一个领域,ThoughtWorks 认为在现在业务边界消失、需求快速变化的情况下,企业需要具备精益数据治理的能力——Lean Data Governance。传统的中心化、事前控制式的数据治理方式,要改变为去中心化、事后服务式的治理方式。

    1. 数据资产的获取和存储

    数据中台要为企业提供强大的数据资产的获取和存储的能力。

     3. 数据的共享和协作

    企业的数据中台一定是跨域的,需要让所有的人都知道数据资产目录在哪里。不能因为数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据没有办法流动起来,没有流动的话数据的价值产生的速度就会非常慢。所以在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放,要让业务人员能够做到“Self-Service”。

      4. 业务价值的探索和分析

    数据中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。一个好的数据中台解决方案中需要针对不同业务岗位的用户提供个性化的数据探索和分析的工具,并且在此基础上一键生成数据 API,以多样化的方式提供给前台系统。

    1. 数据服务的构建和治理

    数据中台需要保证数据服务的性能和稳定性,以及数据质量和准确性,还需要具备强大的服务治理能力。数据中台是一个生态平台,在数据中台上面会不断生长各种数据服务,所以从一开始就构建好数据服务的治理结构是非常重要的,数据服务需要可以被记录、可被跟踪、可被审计、可被监控。

       6. 数据服务的度量和运营

    如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色。数据中台还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门用了多少次等,通过这些去度量每一个数据服务的业务价值。

    史凯认为,数据中台是一个需要用互联网思维去经营的利润中心平台,数据中台的经营分析人员需要分析业务,了解为什么今天上午这个财务部门的人用了数据中台、调用了十次,下午他不用了,原因是什么,调用了这些数据服务的人通常还会调用哪些其他的数据服务。这些都需要相应地做记录、做日志、做分析,要把数据当做像电商平台一样去经营,然后实时地根据这些业务行为数据去提醒数据服务提供方,调整、改变、优化数据服务,这才是可经营的数据中台,也只有这样业务部门才能得到最快的支持和响应。

    为什么人人都需要数据中台?

    数据中台并非只有大公司才需要的高大上的玩意。

    ThoughtWorks 从 2017 年到现在,已经帮助多家大型国内外企业建设数据中台,其中有体量巨大的企业级数据中台,也有部门级的小数据中台。

    “未来所有的企业核心都会变成加工数据的企业,而数据中台是数据价值化的加工厂,所以所有的企业都需要数据中台的能力,数据中台一定是未来每个企业的标准配置。”

    在史凯看来,数据中台并不意味着“大而全”的数据平台。根据企业的规模和业务的不同,数据中台可大可小,规模、复杂度可能都不相同,但它对业务产生的价值是一样的。

    当企业评估自己是否应该建设数据中台时,应该从哪些方面来考虑?史凯认为,从战略角度来说,每个企业都需要建立自己的数据中台;从战术角度来说,当企业发现自己的数据开发利用的速度和应用开发的速度不匹配的时候,就需要考虑构建数据中台。

    原来很多企业在做应用系统的时候,什么都不考虑直接上单体架构,一上来就先做数据库,然后在上面建应用。ThoughtWorks 建议现在的企业,即使不做数据中台、不去立一个叫做“数据中台”的项目,但是在做应用的时候,最好把这个应用分成三层,业务层、数据中台层、源数据层,在一开始做应用的时候就把三个层次抽象出来。

    数据质量差所以做不了数据中台?No!

    历史遗留的数据质量问题经常让大家对数据的利用和价值产生质疑。2018 年,史凯在与不同企业沟通过程中经常听到的一句话就是,“我们现在还没有到利用数据这一步,因为(应用系统中的)数据质量太差”。

    每次听到这句话,史凯脑子里就好像听到了另外一句话,“还没到培养孩子的时候啊,孩子太小了”。

    不能因为数据质量差,就不去利用数据。恰恰是因为没有去做后面的事情,所以数据质量才差。而且也不能因为数据质量差就抛开业务场景、试图全面解决数据质量的问题,这样得不到业务部门的支持,也无法从数据工作中产生业务价值。所以 ThoughtWorks 建议的恰恰是利用做应用、做业务的需求,同步解决数据质量问题。

    史凯认为,数据质量问题,根本上是在构建应用之初缺乏整体数据规划和数据思维导致的问题。原来的流程类应用构建之初,只考虑了如何让流程跑起来,缺乏对这个应用在整个企业的数据全景图(Data Landscape)中的定位的分析,没有从源头上优化数据的存储、流转,从而更好地与其他的系统中的数据去对齐口径、统一语言,将流程问题抽象成领域模型问题,再将领域模型抽象成数据模型。

    建设数据中台的挑战及应对策略

    建设数据中台最大的挑战在于前期能否从业务层面梳理清楚有业务价值的场景,以及数据全景图,而不仅在于后期的技术建设。

    数据中台建设面临的挑战包括:

    • 梳理业务场景:搞清楚数据中台如何对业务产生价值。

    • 建设数据中台的优先级策略:需求可能大而全,但我们不能直接建大而全的数据中台,应该根据业务重要性来排需求的优先级。

    数据治理问题:和业务独立开的数据治理少有成功的,大的数据标准要有(数据资产目录),通过数据资产目录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。

    数据中台的建设需要两个战略耐心

    数据中台是为了加快从数据到业务价值的产生速度,但是它的生产过程依然是需要时间、有很多复杂的工作要做的,所以对于数据中台的投资方和数据中台的建设方来讲,都需要对应的战略耐心。

    • 对于投资方来讲,要充分认识到数据中台类项目的价值和局限性。在现在的组织结构和技术成熟度下,数据中台依旧是一个技术平台,对于业务价值的产生是一个加速的过程。但是业务对于数据的需求不会因为有了数据中台就减少,数据中台也不是哆啦 A 梦,不能随心所欲地变出各种业务想要的服务。这依然是一个需要统筹规划、敏捷迭代、演进建设的系统性工程,所以需要要管理好期望,有一定的战略耐心。

    对于建设方来讲,要充分认识到数据中台建设的复杂度,不要操之过急,不要期待毕其功于一役。史凯的建议是要从小中台做起,围绕具体有价值的业务场景去建设,尽量不脱离场景去搞周期长、大而全的纯工具平台建设。

    数据中台也可以小而美

      建设数据中台的关键考量包括两方面。

    首先数据中台一定要与业务价值对齐。构建数据中台,最重要的不是技术,也不是数据质量好不好,而是数据思维和数据文化。数据思维就是要建立起从数据的视角去思考问题的方式;数据文化就是要把数据和业务当成一体去看,而不是只将数据当作一个支持工具。想清楚业务对于数据的诉求是构建数据中台的第一步,哪怕暂时不能想的太细,也要去想,想不清楚就先不要做。

    不要在业务场景还没有明确、优先级还不清晰、价值度量体系尚未建立起来的时候,就建立大而全的数据平台,并且把所有的数据都存起来。企业都是追求投入产出比的,大而全的数据平台往往会面临尴尬的局面,一堆功能看上去很有用,应该都能用上,但是缺乏应用场景,真的有了场景,发现也不能开箱即用,还需要众多的定制化。

    其次,数据中台应该从小数据、小场景做起。

    数据中台是面向场景而非面向技术的,这种与客户的业务、企业的结构和信息化发展阶段有着紧密的相关性的业务基础架构,是很难买一个大而全的产品来一劳永逸解决的。

    可以通过下面这个图来解释构建中台的原则:

    一开始的时候需要顶层设计,面向业务愿景制定中台的整体规划,全面的梳理数据创新全景蓝图,这就是上图左边的黑色框架部分,通过业务愿景驱动出所有的业务场景探索,从而推导出数据中台的全景架构、技术支撑。

    但是在实施的时候,要从具体的业务场景出发。从高价值数据集场景做起,然后顺着这个场景竖切,找到数据全景图中的一个或多个数据集合,从小数据场景落地,这样才能快速验证价值。大处思考,全局拉通,避免后续的数据孤岛,但是从小数据集切入,从可实现性高的场景启动。然后一个个的场景做起来,业务价值和中台能力也就同步建立起来了。

    总的来讲就是,“设计阶段横着走,落地阶段竖着切。”

    数据中台团队和技术选型

    数据中台团队通常需要包含以下角色:

    • 业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据。

    • 数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。

    • 数据分析团队:分析数据价值、探索场景,生产更多的数据服务。

    • 数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具(比如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。

    • 智能算法团队:为数据分析、业务探索提供智能和算法工具。

    而这样的一个团队的工作就构成了一个数据生产线,一个从数据到业务服务的数据服务工厂,这个工厂有生产车间(Data Pipeline)、研发中心(数据实验室)、管理办公室(数据治理),还有产品展示中心(数据服务商店)。

    数据工厂是一个逻辑概念,不是一个大而全的产品,ThoughtWorks 结合过去几年的实践给出了一个数据工厂组件选型的参考架构,这些推荐的架构和组件,很多都体现在过去 ThoughtWorks 推出的技术雷达中并进行了详细解释,如下:

    数据中台的出现对于现有数据团队的挑战

    前面已经提到,数据中台是企业的 Data API 工厂,用更高效、更协同的方式加快从数据到业务的价值,能够给业务提供更高的响应力。所以数据中台距离业务更近,这对于传统企业的数据业务来讲,是一个重大的变化,同时给原来的数据团队也会带来巨大的挑战。

     1. 对数据分析人员的业务要求提高了

    企业传统的数据工作和业务工作分工明确、界限清晰,业务人员负责业务需求,提出业务问题,并将业务问题拆解成一个个清晰的数据问题,然后数据工程师和数据分析师在这个清晰的问题下解题。

    但是,在数据中台出现后,数据中台是一个赋能平台,它会沉淀、提供很多数据分析工具和数据服务,能够让不具备专业数据能力的业务人员也可以进行一些简单的数据分析,产生业务的洞察。这就意味着在数据中台的支持下,相对简单清晰的业务问题会更多的由业务人员自己解决掉,那么传递到专业数据人员的问题,都会是更加复杂的问题。这对于数据人员的业务理解能力就加强了,他 / 她们必须具备快速理解业务的能力,才能够体现出专业性和优势。

     2. 对于数据人员的工程能力要求提高了

    原来的数据分析工作属于个体工作方式,每一个数据科学家、数据分析师就是一个独立的工作单元,业务部门给出业务问题,他们通过自己擅长熟悉的工具和方法给出结果。但是在数据中台出现后,他们一方面获得了更多数据分析的武器和工具,能够站在前人的基础上工作,提高了效率和准确度,另外一方面,他们也需要掌握更多的平台化的数据分析工具,比如 Jupyter Notebook,同时也被要求能够把自己分析的结果转化成数据服务,沉淀到中台。

     3. 数据团队需要具备更多的业务视角

    原来的数据分析团队是一个功能型团队,更多以数据智囊团的身份存在。大部分情况下,距离业务比较远,更不要提对业务的结果负责。而在数据中台出现后,数据中台距离业务会越来越近,甚至直接影响和参与业务的运行,数据团队将慢慢脱离数据智囊团的身份,逐渐从后台走向前台,直接负责一个个数据服务,而这些数据服务是会直接参与到业务当中、产生业务价值的。这样的定位变化,要求数据团队具备更多的业务视角,要更关注业务价值,直接对齐企业的业务目标去工作。

    所以,数据中台的出现,不仅是一个技术平台,它对于企业而言是一个系统化的工作,企业数据相关的流程、职责、分工都要有对应的调整,才能达成整体的目标。

    数据中台 VS 数据隐私

    对于数据中台来说,数据隐私和安全性也是非常重要的问题。可能很多人还记得前些日子马化腾针对“腾讯数据中台论”的回应。去年腾讯组织架构调整进程中实现了技术打通,而对数据打通保持谨慎态度。马化腾在 18 年 11 月的世界互联网大会上回应“数据中台论”:“腾讯不能套用很多其他公司的做法,把数据直接去任意打通。因为在我们的平台里面,大量全部都是人和人之间的通信、社交行为数据,如果说数据可以任意打通,给公司业务部门或者给外部的客户用,那是会带来灾难性的后果。这方面我们要更加谨慎,我们要从用户的角度来考虑,把个人信息和数据保护放在优先地位。”很多人将这解读为腾讯不做数据中台,史凯却不这么认为。

    在他看来,腾讯的回应并不是说他们不做数据中台,而是强调要在数据隐私上做更多的工作。其实所有的数据安全和隐私的保护都需要从场景出发。史凯认为,“不能从纯数据层面来看数据隐私,数据隐私是不能脱离场景的”。如果纯粹从数据层面,而不从业务场景层面去管理数据隐私,就会带来两方面的问题,要么数据被管理的非常死,阻碍了业务价值的产生;要么数据隐私管理就会有漏洞。

    史凯举了一个例子,比如我们讲的用户交易数据,如果不关联用户基本信息,交易数据本身对于用户来说是不具备隐私风险的,因为它不关联到任何一个用户个体。所以,是可以对脱敏后的用户交易数据进行分析和利用的。

    另一方面,如果脱离场景谈数据隐私,也可能会导致忽略了潜在的安全问题。有时候如果不把场景关联起来,可能两个数据看上去没有安全问题,但其实外人把这两个数据关联起来就产生价值了。这也是为什么在一开始的时候就要把所有的场景,尽可能地全部分析出来。

    另外,设置权限、数据分级审核、库级数据脱敏等都是可以提升数据安全的手段。现代数据中台必须具备数据调用行为的监控和记录机制,反过来也能增强对数据安全和隐私的保护。

    数据中台的下一步

    当前国内外已经有不少公司开始投资建设数据中台,大家比较熟悉的包括阿里、华为、联想、海航、上汽、壳牌等。

    在史凯看来,数据中台当前处于上升发展期。虽然未来数据中台未必还叫做数据中台,但它一定会成为企业必备的基础组件。

    世界正在从信息化向数字化发展。信息化是指大部分的工作都在物理世界里完成,然后用信电脑的数字化世界解决一小部分问题。数字化则是把人从物理世界搬到数字化世界。从这个角度来讲,数据中台将会变成物理世界的业务在数字化世界的一个还原。

    数据中台设计的初衷是将计算与存储分离,从狭义上来说,真正最核心的数据中台可以是没有存储的。但就当前的情况来看,广义的数据中台在未来一段时间内仍会涵盖数据仓库、数据湖等存储组件,“数据工厂”这个概念可能更适用于现在的阶段。但随着数据中台的发展,未来很有可能不再需要数据湖了。

    最后,史凯也提到了阿里中台战略中的另一个中台——“业务中台”。他表示“当前业务中台更偏实时交易,是从上往下沉淀业务;数据中台目前更偏分析、决策和洞察,为业务提供 T+N 和 T+0 的数据服务,但是再往前走,数据中台跟交易会慢慢结合得更为紧密。随着计算能力越来越强,以及微服务架构的进一步发展,未来业务中台和数据中台可能会融为一体。”

     

    采访嘉宾

    史凯,ThoughtWorks 数据和智能总监,精益数据创新体系的提出者,2019 年被评选为 DataIQ100 的数据赋能者,有近 20 年年的企业信息化、数字化转型架构和实施经验,为众多大型客户提供数字化转型战略略规划和咨询实施服务。

    技术雷达是 ThoughtWorks 推出的公益的、不限行业的技术选型趋势报告,至今已坚持十年,旨在以雷达的表现形式,通过清晰的解读,给技术人员提供高质量、落地性强的技术平台、工具框架方面的选型指导,助力企业数字化转型。

    展开全文
  • 八问数据中台:关于数据中台你想知道的都在这里! 原创: 筱愚她爸 凯哥讲故事系列 1周前 数据中台最近特别火,各个企业都在关注如何构建自己的数据中台,利用数据中台打造数据驱动的经营能力。数据中台的概念漫天...

    八问数据中台:关于数据中台你想知道的都在这里!
    原创: 筱愚她爸 凯哥讲故事系列 1周前

    数据中台最近特别火,各个企业都在关注如何构建自己的数据中台,利用数据中台打造数据驱动的经营能力。数据中台的概念漫天飞,作为最早为企业提供数据中台构建服务的实践者,我们希望将一些落地的经验和教训给到那些正在考虑建设数据中台的企业。

    1.数据中台是什么

    数据中台需求的出现,是企业数字化转型的一个标志性的转折,数据中台成为热点,标志着,“在企业信息化或者数字化的历史上,数据从来没有距离业务这么近,数字化转型正从流程优先走向数据优先”。要想从根本上理解数据中台是什么,要认识到数据和软件的关系。

    信息化和数字化的本质区别是:

    “信息化是用软件工程技术局部支撑和改良业务,数字化是用数字化技术重塑和转型业务本身”,而数据则是构成数字化业务世界的原子材料。

    数据从应用诞生的那一天开始就存在,但是,数据并不是第一天就被存储和利用的,应用和数据的发展是不同步的,数据的地位是不断演进,越来越重要的,经历了以下五个阶段:
    在这里插入图片描述
    阶段1:数据没有被存储

    早期的应用,是为了解决某一个单点的问题,比如计算器,计算过程的数据是不被存储的,但是计算的过程中,数据是客观存在的。这个阶段,数据是应用的过程产物,产生即丢弃,并不被存储。

    阶段2:只有少量结果数据被存储和查询

    当应用的功能丰富后,软件从解决单点问题的工具演进到处理一类业务问题,从而有了多个功能模块。典型的例子是办公自动化系统、进销存系统,这个时候少量的结果数据被存储起来,并且也有了对数据的查询、统计的需求。这个时候,数据是关键业务的记录。

    阶段3:数据仓库出现,数据被大量存储

    接着,企业级管理系统比如ERP、MES、CRM的出现,企业管理层需要跨条线,跨职能了解和掌握整体的经营情况,从而根据这些数据来帮助企业做决策。这个时候商务智能,传统数据仓库系统应运而生的出现了,数据在企业管理中的作用开始显现。但是这个时候的数据距离业务很远,为业务提供支持的速度很慢,往往是先有了业务想法和需求,先有“领导要看什么”,然后在去采集和处理对应的数据做出什么报表给到领导

    阶段4:数据的深入价值开始被挖掘

    传统数据仓库还是基于流程的,原因是数据仓库的需求还是来自于预先的设计,来自于固有流程数据的整合。而这个时候,企业的业务已经有了一定的复杂度,企业管理人员希望从数据当中发现一些隐藏的未知的价值和规律。而这个时候预定义的查询条件,预定义的业务主题已经不能满足这样的需求,所以在数据仓库基础上,产生了数据挖掘的技术,业务从数据中发现市场的规律,洞察客户的兴趣,产生一些人们不知道的信息。这个阶段在市场营销、生产调度等影响因子较多,动态性较大的业务领域,数据的重要性愈加凸显。

    以上四个阶段,基本上都处于“业务数据化”的阶段

    阶段5:业务数据化,数据成为企业核心资产

    到了数字化时代,所有的一切都被数字化的技术所重构,而数据是构成数字化世界的基础。数据如同石油一样,成为新时代的资源,从数据当中挖掘价值,从数据当中去产生创新已经成为了所有企业的共识。这个时候,数据成为了企业的核心资产,所有的业务都被数据化。

    总结一下,我们会发现在信息化时代,数据是流程的副产品,流程是预先设计好的,然后在设计好的流程中产生了数据;

    在数字化时代,业务流程应用软件(业务流程的显形载体)会随着市场的变化快速而不断动态迭代甚至消亡,而数据成为了物理世界映射到数字化世界的原子,数据思维(”Data First” )成为战略核心之一。

    “数据是构建物理世界对等的数字化世界的原子”,数据中蕴含着业务的本质,蕴含着创新的源泉,谁能掌握数据的能力谁就能在数字化竞争中拔得头筹。

    最近两年,数据在数字化转型的重要性被提上了前所未有的高度,数据驱动的决策,调度,运营给企业插上了智能的大脑,带来了巨大的业务价值。

    UPS的首席信息官Juan Perez在2017年启动了网络规划工具的试点,利用算法和数据来优化路由,2018年这个项目为UPS节约了三千九百万加仑的能源消耗,缩短了3.64亿公里的路程。现在利用算法,机器学习,深度学习的技术来加工数据,通过数据来驱动企业的运营已经成为了UPS的核心竞争力。

    [https://erpinnews.com/big-data-case-study-ups-using-analytics-improve-performance

    https://bigdata-madesimple.com/10-big-data-case-studies-big-results-2018/

    ]

    招商银行将“数据化”作为金融科技战略的核心举措,通过数据驱动来全方位进行渠道优化和服务升级革命,打造了一批数据和智能驱动的新产品和服务。

    [

    https://www.wdzj.com/hjzs/ptsj/20180724/707374-1.html

    http://www.cfc365.com/technology/bigdata/2018-07-25/14785.shtml

    ]

    ThoughtWorks在2018年初就提出,数字化转型已经从流程驱动进入数据驱动的时代,数据已经成为了企业的核心生产资料。

    [https://mp.weixin.qq.com/s/Y2Q_NUKzHWTOyX99kXO5BQ]

    2018年10月,阿里云栖大会上提出”数字外场“的概念,而数字外场的核心就是数据,每一个企业都在努力的成为数据驱动的企业,所以构建数据中台之前,企业需要在企业推行数据思维,建立自己的数据战略。

    [https://www.yidianzixun.com/article/0KBGxr4g]

    数据本身在企业数字化转型的历程中,成为了最核心,最重要的生产资料,成为了企业重塑业务,自我转型的决定性因子,在这个背景下,企业需要一个源源不断的输出数据服务,数据洞察的能力源泉,数据中台的出现就成了顺理成章的事情。

    在2017年,我们就观察到到数据中台将会成为今年的风口,那个时候我们提的最多的是“精益数据资产创新”(有兴趣的同学可以自行百度搜索“精益数据资产创新”)。

    那么,数据中台到底是什么呢?

    用一句话来简单的介绍,“数据中台是数据服务(Data API)工厂”,数据中台的核心是Data API。
    在这里插入图片描述

    Data API是数据中台的核心,它是连接前台和后台的桥梁,通过API的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。至于产生DataAPI的过程,怎么样让DataAPI产生得更快,怎么样让DATA API更加清晰,怎么样让DATA API的数据质量更好,这些是要围绕数据中台去构建的能力。

    某多产业现代物流集团,在2017年就通过构建企业级数据中台,为业务人员提供了数据资产创新服务,将数据以API的形式提供给前台,从而将新产品从想法到上线的时间,提高了数倍。

    在金融领域,所有的产品、服务、交易本身就是数据化的。我们看到最复杂的业务领域,电信行业现在的网络建设,网络优化,大部分工作都是在电脑上,利用各种工具软件来处理基站和网络的数据,将网络洞察数据转换成网络扩容需求数据,将扩容需求数据设计成网络架构数据,在讲网络架构数据处理成各种不同设备型号的配置数据,同步的产生财务、物流、服务数据等。整个过程90%的工作量在处理各类数据,最后把结果数据传递到现实世界,安排发货,安装,验收等行为。而现在所提倡的工业4.0,智能制造本身也是将生产过程数据化,在数字化世界里用数据来重构工厂本身,从而利用数字化的强大的计算能力,快速的搜索能力,数据的预测能力来增强和优化业务本身。

    未来企业的业务运营,从操作本质上来讲就是加工和处理数据。数据中台就是企业的数据服务工厂,完成从数据到价值的加工过程。
    在这里插入图片描述

    对比与之前的所有的数据相关的应用和系统来讲,

    数据中台对于业务的价值是“加速从数据到价值的过程,提高企业的响应能力“。

    传统的信息化建设过程中,数据对业务的贡献是靠人看报表,从数据中理解和发现了新的思想后,通过传统的沟通方式(开会,新需求)来对业务产生影响和指导的。

    数字化时代,数据中台对于企业的价值,是加速从数据到价值的过程,提高企业的响应力。

    原来从数据报表的产生到改变业务行为是以周为单位去计算的,而数据中台的价值是通过抽象和生产数据服务,更快的影响和改变业务行为本身,这就是有的企业将数据服务直接嵌入到交易系统中,实时通过数据洞察来改变业务流程和应用本身。

    某金融科技企业,构建自己的实时风控数据中台,将原来的报表系统变成实时的智能预警平台,将合规评估从事后的模式,直接改变成事前的模式,就像在业务的高速公路上建设了一个个的风控检查站,检查站通过高速的建模,实时数据分析,能够在不影响业务速度的情况下,实时对来往的车辆做风控评估,如果有的车辆有风险,则实时预警。

    将传统的数据服务,从事后管控的模式提高到事前评估的模式,打造高数据响应力的企业是数据中台对于业务的核心价值。

    数据中台还能够为企业解决数据开发和应用开发不同步的问题。

    我们要接受并认可一个现实问题,那就是,企业的数据开发是跟不上应用的开发速度,更是跟不上业务的变化速度的。这是一个不可调和解决的问题,从市场变化到业务需求,到应用开发到沉淀成数据,这三者的速度是天生不一致的,这样的不一致会带来很多的问题,包括有开发效率的问题,有团队协作的问题,有技术能力的问题。比如,为什么开发一个报表需要十几个人天,并且大部分时间都是花在找数据,对数据,算数据上。为什么同样的一个数据需求,不同的项目就要开发两边,不能共用,不能做到一个数据出口?为什么一般的Java开发人员不能掌握数据处理,ETL的能力?

    数据中台就是要将这些能力都沉淀到一个体系中,变成数据开发的能力,变成可以复用,二次加工的数据服务工厂,加快数据开发和协作的速度。

    我们可以广义上来给数据中台一个企业级的定义:“聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。

    从T+N到T+0,数据中台将融合OLTP和OLAP,为前台业务提供更快的数据类业务服务

    十几年前,数据处理的流程分成两类,联机交易处理类(OLTP)和联机分析处理类(OLAP),分别对应两类业务需求:“T+0”和”T+N”,这是因为软件的计算能力有限,生产系统无法容纳历史数据的查询统计功能,否则就会导致海量数据的查询,拖垮生产系统的正常交易。所以不得已一个业务系统分成了两个:交易型系统和分析型系统,前者用来处理最新的交易业务,后者用来对历史的、集成的、多维的数据进行分析,支撑业务。

    我们举一个常见的电商价格策略调整的场景,原来的电商系统的价格是提前设置好的录入到电商系统数据库的,电商系统是OLTP也就是在线交易系统。电商系统对于实时性能要求很高,处理的并发交易量很大,为了提高数据库的处理速度,电商系统只保存一段时间内的交易数据,而把历史数据都归档到数据仓库系统也就是OLAP系统里。电商的运营部门定期会在OLAP系统里挖掘历史数据来分析不同的商品的交易数据和价格的关系,然后决定电商系统的价格是不是需要调整。所以传统电商系统,产品价格的变化需要一个比较长的周期的。到了今天,价格本身受影响的维度越来越多,市场需要电商系统的价格能够实时的根据历史数据进行变化,这样一来,传统的OLTP和OLAP分离的架构就不能够满足业务需求了。

    随着大容量高速存储技术的发展、计算能力的提升、微服务、大数据架构的出现,OLTP和OLAP在逐渐融合:应用系统能够实时的基于多维、多渠道、历史数据的分析来定制化交易流程和和行为。OLTP和OLAP从平行的关系,变成垂直的关系。

    刚才举的电商的例子是互联网时代的典型场景,而对于比较传统的金融保险行业来说,目前也正面临着这样的挑战。很多保险产品的报价需要进行信息搜集,评估,审核,而这个过程就是数据的采集,建模,评估,模拟的过程,过去这样的业务都是”T+N”,就是从接到交易申请到给出结果,需要N天,而现在市场的竞争愈加激烈,更快,更准确的给出报价,所以业务要就能够尽量做到”T+0”,实时响应市场的需求。

    这就意味着要把原来的OLAP的历史数据分析,建模,评估的过程和OLTP系统里的交易数据进行融合分析才能够做到。

    我们观察到,从金融保险到电信制造,原来传统的”T+N”的需求都在朝”T+0”演进,大家都在寻找高响应力,快速反馈的实时分析型数据数据处理架构,将数据从原来传统的经营分析领域演进到直接参与业务交易。

    所以我们认为未来的交易型系统,都会变成分析型交易系统(Analytic Transcation Processing),具有跨域、全量数据分析的支持能力,用数据分析来支持交易的动态敏捷变化,高速响应市场和用户的需求,而OLTP和OLAP也会在云计算,微服务,大数据等技术支撑下逐渐融合。

    2.数据中台和数据仓库,数据平台的关系是什么?

    下面这张图说明了企业对于数据处理需求的变化和演进:
    在这里插入图片描述
    早期,企业的数据是少量的,利用Excel等数据文件处理工具来进行统计和手工分析。

    然后,企业希望能够更快的处理比较多的数据,就有了数据仓库的出现,也希望利用数据来支撑运营和分析。接下来不仅有了结构化数据,还出现了非结构化数据,并且运营对于数据的需求越来越多,数据量也越来越大,这就出现了大数据平台,去处理各种不同格式,不同领域的数据,这个过程都是业务数据化的过程。

    到数字化的今天,企业不仅希望事后的运营能够靠数据支撑,更希望构建数据驱动的业务本身,所以,企业需要将这些数据变成一个个业务服务应用到业务本身,参与到业务流程,业务应用的过程中,去改变和驱动业务行为,这也就是”数据业务化“,我把”数据业务化“理解成是”数据业务服务化“的简称。

    这个过程,就能很清晰的解答数据中台和数据仓库,数据平台的关系。

    第一,他们不是一个维度的东西,数据仓库和数据平台是提供数据的系统,而数据中台是提供业务服务的系统,数据中台是能够直接为业务提供数据服务的。但是数据中台是需要构建在数据之上的,所以,数据中台是可以构建在数据仓库、数据平台之上的。

    第二、数据中台能够以提供数据服务的方式直接驱动和改变业务行为本身,而不需要人的介入,数据中台距离业务更近,为业务产生价值的速度更快。

    一句话来总结,数据仓库,数据平台提供的是数据本身,而数据中台提供的是有直接业务价值的数据服务,数据中台距离业务更近。

    3.数据中台建设的最大的挑战是什么

    数据中台建设的最大挑战,是如何找到有价值的业务场景。

    数据中台是一个能力平台,是将企业的数据能力封装到一个平台中,快速提供给业务前台使用的工作。那么企业需要什么样的数据能力,哪些业务需要这些能力,这些数据能力之间的关系是什么?这是一个体系化的工作,是需要进行整体规划和顶层设计的。

    数据中台从出生那一天起就承担着为业务提供更快的数据服务的使命,所以它是和业务价值紧密绑定的,不能提供业务价值的数据服务就是一种浪费。所以如何能够找到,识别出有价值的业务场景是数据中台建设的最大,也是最紧迫的挑战。但是这里就有一个矛盾,业务场景是不断被挖掘和演进的,是快速变化的,而作为能力平台是要支撑全场景的,是要相对稳定的,如何平衡这两者之间的关系呢?

    我们总结了数据中台建设的三大策略:围绕业务价值,演进式架构,要有战略耐心。

    业务价值策略:

    数据中台建设应该以"业务价值为纲,生于业务场景,高于业务场景,始于业务场景。"

    数据中台的建设需求,要围绕业务价值产生。所以所有的功能设计要有对应的业务场景需求为根源,但是数据服务是要抽象, 建模,复用的,所以数据中台在业务场景的基础上要高于业务场景,完成总体的架构设计。

    最终建设的时候,我们不建议那种传统的分层的方式,而是在总的架构设计为目标,要从某一个业务场景出发建设,从业务价值,平台能力和数据治理三个方面同步建设。

    演进式架构策略:

    数据中台的建设应该”快规划,重场景,轻标准“。

    我们所说的规划,不是那种传统意义上的很重,很细致的流程层面的IT规划,而是比较快,比较轻的,围绕业务价值的场景探索式的规划。要轻标准,不要试图去做一个放之四海皆准的企业级数据中台标准,并且定制的很细致,要充分理解市场的动态性,标准一定要轻量,越重实施起来就是枷锁,很难落地。

    战略耐心策略:

    投资方和建设方都要有战略耐心。

    投资方要清晰的认识到数据中台是一个赋能平台,是一个体系化的工作,融合了技术、组织、能力、机制等多个因素,不是一蹴而就的,所以要有一定的耐心给到数据中台的价值露出。

    建设方也要清晰地认识到数据中台是一个复杂工程,是一个演进迭代式的建设工程,是不能毕其功于一役的,要有策略,有步骤的去建设,不要试图做一个大而全,大一统的平台。要服务于业务,高于业务,要深入到业务场景当中去才能获得业务的支持,获得持续的生命力。

    在以上三个策略的基础上,我们在过去的实践中,设计和总结了一套精益数据探索方法(LDD),通过四个阶段来产出数据中台的建设路线。

    在这里插入图片描述

    5.数据中台里的数据质量应该如何保障?

    过去这么多年的经验教训告诉我们,数据质量的问题是不可能百分之百解决掉的,因为业务变化的速度快于数据变化的速度,这是一个客观存在的而且短期内不可能改变的事实。我们最应该关心的应该是数据如何能够给业务产生价值,即使只有50%的数据准确度,在治理数据质量的同时,依然要找到这些数据可以为业务产生价值的方法和场景。

    这个问题应该改成,如何治理好现有的数据为业务产生价值。

    数据治理是要服务于业务场景的,而传统的数据治理方法,更多的将数据和业务独立了出来,最后数据治理项目的成果基本上可以归纳为创造了”三个一“工程:

    一堆新岗位:传统的数据治理项目一般会产生一堆新职位,比如主数据管理员,物料管理员,数据治理委员会等。

    一摞新流程:一批新的流程和标准会发布出来,告诉所有的业务项目组,应该遵循这个流程来管理数据。

    一批新系统:会上线一批数据管理系统,将流程和规则固化到系统中。

    但是,很少有数据治理项目能根本上解决数据质量的问题,并且有些项目导致业务的速度变慢了,最后都流于形式和标准。

    这是因为传统的数据治理都是管控式治理,而不是服务式治理。他们的目标是把数据标准定出来,然后让业务服从于这个数据标准,却忽视了,数据标准是为了业务服务的。

    所以,在精益数据创新体系中,我们提倡和实践新的治理方法:精益数据治理(Lean Data Governance):服务式治理,重场景轻标准,元数据驱动

    在这里插入图片描述

    服务式原则:

    我们实践服务式的治理,轻管控,以解决业务问题为目标,而不以数据质量为唯一目标

    场景核心原则:

    数据标准越轻越好,强调与业务场景的融合,能够服务好业务场景,产生业务价值的数据标准就是好标准

    元数据驱动原则:

    原来的数据治理很多都是事前进行管控,让业务服从于数据管理,比如主数据的管理,需要有事前审批。而我们现在更多的在实践利用元数据驱动的数据管理的方式,将审批流程弱化,通过自动化数据技术,让业务无感,从事前管控变成事后归因。不影响业务交易的速度,将复杂的事情坐在后端。

    6.数据中台的典型架构是怎样的?

    数据中台是直接服务于业务系统的数据服务工厂,狭义上讲,数据中台就是可复用的数据API。

    站在企业架构的角度,从广义上来讲,数据中台(包含数据平台,数据仓库)应该提供的服务如下图所示:
    在这里插入图片描述
    1.数据资产的规划和治理

    做中台之前,首先需要知道业务价值是什么,从业务角度去思考企业的数据资产是什么。数据资产不等同于数据,数据资产是唯一的,能为业务产生价值的数据。对于同一堆数据,不同业务部门所关注的数据指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需要规划企业的数据全景图,将所有有可能用上的、所有对企业有可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。在这个时候不需要考虑有没有系统、有没有数据,只需要关注哪些数据是对企业业务有价值的。这一层不建议做得太细,太细就难以形成标准,不能适用于多个场景了。数据治理是数据中台很重要的一个领域,ThoughtWorks认为在现在业务边界消失、需求快速变化的情况下,企业需要具备精益数据治理的能力——Lean Data Governance。传统的中心化、事前控制式的数据治理方式,要改变为去中心化、事后服务式的治理方式。

    2.数据资产的获取和存储

    从广义上来讲,数据中台要为企业提供强大的数据资产的获取和存储的能力。但是这个能力不是数据中台的核心功能,很多企业可以基于原来的数据平台,数据仓库等已有的工具来提供数据采集和存储的能力。

    3.数据的共享和协作

    企业的数据中台一定是跨域的,需要让所有的人都知道数据资产目录在哪里。不能因为数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据没有办法流动起来,没有流动的话数据的价值产生的速度就会非常慢。所以在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放,要让业务人员能够做到“Self-Service”。

    数据资产目录是数据中台很核心的一个基础能力,但是往往目前很多的企业都尚未建立这个能力,这也是导致数据在企业内部不开放,不共享,不被利用的很重要的一个原因。

    4.业务价值的探索和分析

    数据中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。一个好的数据中台解决方案中需要针对不同业务岗位的用户提供个性化的数据探索和分析的工具,并且在此基础上一键生成数据API,以多样化的方式提供给前台系统。

    5.数据服务的构建和治理

    数据中台需要保证数据服务的性能和稳定性,以及数据质量和准确性,还需要具备强大的服务治理能力。数据服务要在一开始就有整体的顶层设计,从而能够将数据服务做分类,打标签,能够更方便的被搜索被调用,让好的服务浮现出来,让质量不高的服务自动的退市被销毁。

    数据中台是一个生态平台,在数据中台上面会不断生长各种数据服务,所以从一开始就构建好数据服务的治理结构是非常重要的,就想经营一个市场一样。

    6.数据服务的度量和运营

    如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色,数据中台的核心是为业务应用提供有业务价值的数据服务。所以度量和运营数据服务的能力是数据中台的业务能力。

    数据中台应该能够对提供的数据服务及相关行为做持续跟踪和记录,包括哪些数据服务被哪个部门使用、用了多少次等,通过这些去度量每一个数据服务的业务价值。

    数据中台是一个需要用互联网思维去经营的利润中心平台,数据中台的经营分析人员需要分·析务,了解为什么今天上午这个财务部门的人用了数据中台、调用了十次,下午他不用了,原因是什么,调用了这些数据服务的人通常还会调用哪些其他的数据服务。这些都需要相应地做记录、做日志、做分析,要把数据当做像电商平台一样去经营,然后实时地根据这些业务行为数据去提醒数据服务提供方,调整、改变、优化数据服务,这才是可经营的数据中台,也只有这样业务部门才能得到最快的支持和响应。

    在这样的一个功能愿景下,我们初步定义了一个数据中台的典型逻辑功能架构:

    在这里插入图片描述

    这个架构中,把数据中台比喻为数据工厂,具备数据工厂的典型功能架构。

    7.数据中台和业务中台服务有什么区别

    应该如何去界定和划分?

    在目前,与数据中台齐名的还有业务中台,但是业务中台和数据中台有什么区别呢?

    数据中台和业务中台都是为业务系统提供服务的中台层,他们的区别在于提供的服务不一样。

    我们举几个例子:

    多个电商渠道使用一个下单服务,一个订单接口同时为多个前台系统提供服务,这是业务中台提供的能力。

    多个前台系统,根据一个用户的手机号,获取对应的画像,用户的标签,这是数据中台提供的服务。

    将多个支付通道,抽象建立成一个支付API,暴露给前台业务系统,这是业务中台提供的能力。

    通过一个订单编号,来获取可能的商品推荐清单,从而做到交叉销售,这是数据中台提供的服务。

    所以,我们可以总结一下:
    在这里插入图片描述

    业务中台提供的是可复用的流程类,交易类服务,是为了让业务交易同口径,让前台系统更标准,更规范,迭代速度更快,解决效率和产生数据不一致的问题。对应到API,是业务命令式API。

    数据中台提供的是基于跨域数据的分析,洞察,训练产生的数据服务,是给前台系统提供实时决策数据。对应到API是,计算类的智能API和查询类的数据API。

    一句话总结:业务中台让前台系统更敏捷,数据中台让前台业务系统更智慧。

    8.企业数据中台的团队如何构建?绩效如何评价?

    数据中台是距离业务更近的能力平台,数据中台是一个需要持续运营的数据服务业务平台,所以数据中台的团队不仅仅是一个技术团队,应该将数据中台当做一个产品团队来构建,整体的结构如下:

    数据中台提供两类服务:

    一类是数据资产目录,数据探索,数据分析等服务,让业务和应用部门的人员能够在数据中台上协作的玩数据。

    一类是数据服务,让各个业务系统能够调用这些服务,包括决策分析类的非实时服务和实时的嵌入式交易规则服务。

    对应到这两类服务,数据中台的团队应该包括以下三组:

    中台运营团队:

    将整个数据中台的服务和功能作为产品来运营,对应的绩效是用户满意度,用户存留,这些用户相关的指标。

    中台开发团队:

    负责数据中台的功能层开发,包括平中台本身的架构,中台上的应用(客户服务,业务监控等)功能的开发,对应的绩效是功能的稳定性和客户的满意度。

    数据服务开发团队:

    负责数据中台之上的数据服务的开发,包括数据处理链的开发,服务的开发等,对应的绩效是数据服务的稳定性, 性能和客户的满意度等。

    参考这样的三个团队组成, 分别应该包括如下角色:

    数据中台架构师:进行整体数据中台的技术架构设计,保证数据中台架构的可持续性,稳定性和扩容弹性。

    DataOps工程师:从基础能力上保障数据中台的运行的稳定性和持续演进。

    数据工程师:数据处理工程师,负责数据的获取,处理,建立数据处理链。

    数据服务产品团队:数据服务的产品团队,包括产品经理(PO),业务分析师,体验设计师,还有算法工程师,和数据工程师和数据运营分析师一起协作,创新、设计、生产数据服务。

    数据运营分析师:将数据服务作为产品来运营的数据运营分析师,通过对数据服务上线后被调用的情况的分析来运营数据服务,像经营一个互联网产品一样来经营数据服务。

    数据中台某种角度上,上是一个数据服务的创新、生产、交易的数据服务市场,那么企

    业对于数据中台整体的绩效评价方法也就出来了,那就是:

    企业评价数据中台的标准:数据中台服务的客户,也就是业务系统的满意度。

    那么如何度量业务系统的满意度呢?我们认为,标准很简单,也很清晰,那就是数据中台提供的的数据服务被业务系统,被业务人员使用的频率。业务人员和业务系统调用多的服务,一定是对业务更有帮助的数据服务。

    最后,我们在回顾一下这八个重要的问题及解读:

    1.数据中台是什么,数据中台对于业务的价值是什么?

    数据中台是数据服务(Data API)工厂,打造高数据响应力的企业

    2.数据中台和数据仓库,数据平台的关系是什么?

    数据仓库,数据平台提供的是数据本身,而数据中台提供的是有直接业务价值的数据服务。

    3.数据中台建设的最大挑战是什么,应该遵循什么策略?

    数据中台建设的最大挑战,是如何找到有价值的业务场景。

    数据中台建设的三大策略:围绕业务价值,演进式架构,要有战略耐心。

    4.数据中台的数据质量应该如何保障?

    正视数据质量的问题是客观存在的,采用提倡和实践新的治理方法:精益数据治理(Lean Data Governance):服务式治理,重场景,元数据驱动

    5.数据中台的典型功能架构是怎样的?

    广义的讲数据中台是直接服务于业务系统的数据服务工厂

    6.数据中台和业务中台服务有什么区别,应该如何去界定和划分?

    业务中台让前台系统更敏捷,数据中台让前台业务系统更智慧。业务中台提供交易API,数据中台提供数据和智能API

    7.企业数据中台的团队如何构建?

    要按照运营一个互联网平台式产品的方式来组织数据中台的团队。

    8.数据中台的绩效如何评价?

    数据中台服务的用户和业务系统的满意度是数据中台的绩效

    展开全文
  • 数据中台介绍

    万次阅读 2019-09-20 10:29:34
    一、什么是数据中台 数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4...
  • 数据中台(七) 数据中台架构

    千次阅读 2020-09-23 12:59:15
    数据汇聚是把数据资源通过实时、批量的方式存储到数据中台。基本是按照数据的原始状态堆砌在一起的,是企业对过往所有IT信息化建设积累的成果的融合。 数据开发 数据开发是数据资产内容建设的主战场,是数据价值...
  • 数据中台最早是阿里提出的,但真正火起来是 2018 年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。 为什么很多公司开始建设数据中台?尽管数据中台的文章很多,...
  • 最近在读阿里数据中台的书,因为要在组内做分享,就多度了几遍。与阿里大数据实践之路配合,基本可以看到阿里建设数据中台的过程,和一些技术细节。做一件有价值的事情就是把自己觉得好的东西分享出来,那么开始内容...
  • 文章一经发布后收到了很多网友的私信和留言,针对基于数据湖的应用场景和应用前景进行讨论,并有网友提出希望聊一聊数据湖与当下热度非常高的数据中台之间的关系。这是一个很好的话题,很早就想针对这个话题写一篇...
  • 什么是数据中台?全面解读数据中台 架构师技术联盟 前天 伴随着云计算、大数据、人工智能等IT技术迅速发展及与传统行业实现快速融合,一场由数字化和智能化转型带来的产业变革正在孕育。 随着企业规模不断扩大、业务...
  • 数据中台设计方法论

    万次阅读 2020-05-24 14:00:44
    数据中台设计方法论 数据中台建设方针:横向规划,各个击破。 横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服...
  • 业务中台和数据中台

    万次阅读 2019-05-27 14:58:57
    数据中台 从后台及业务中台将数据流入,完成海量数据的存储、计算、产品化包装过程,构成企业的核心数据能力。 比如海量数据进行采集、计算、存储、加工的一系列技术集合,包括数据模型、算法服务、数据产品、数据...
  • 伴随着云计算、大数据、人工智能等IT技术迅速发展及与传统行业实现快速融合,一场由数字化和智能化转型带来的产业变革正在孕育。 随着企业规模不断扩大、业务多元化——中台服务架构的应运而生。...数据中台...
  • 浅谈数据中台

    万次阅读 2019-05-15 16:23:34
    一、什么是数据中台 数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4...
  • 当前阶段 数据应用到各个角落,除了之前可以支撑的决策分析以外,大数据与线上事务系统(OLTP...数据中台的集中化建设也更好地支撑起创新业务,比如通过大数据+分析建立起商业化数据变现产品,进行数据售卖,把数据...
  • 数据中台划分

    千次阅读 2019-10-15 17:30:57
    按照功能和角色数据中台可以划分为四个维度 1、业务中台 业务中台在前文中反复提及,就是把各个项目的共通业务进行下沉,整合成通用的服务平台: 2、技术中台 技术平台,为了避免研发人员重复发明轮子,向各个...
  • 关于数据中台的概念定义,业内有各种各样的版本,尤其是涉及数据中台与数据仓库、数据平台等相关概念的差异一直争议不断,可谓一百个人眼中,就有一百个数据中台,千百万人眼中,就有千百万个数据中台。关于概念之...
  • 数据中台可以说是当下非常火热的话题,在BATJ等互联网大厂大肆推广中台建设成果的当下,各个行业的企业似乎都想做数字化转型,建设业务中台,但是中台到底是啥,需要我们提前了解和学习,本文是我学习张旭老师《数据...
  • 数据中台到全链路数据生产力

    万次阅读 2020-11-12 18:15:35
    有必要再阐释一下什么叫全链路数据生产力平台,它跟其他的很多数据领域的技术如数据中台、BI等是什么关系。 一、全链路数据生产力 1979年,老邓画了一个圈,造就的一个信奉生产力的时代。虽然不排除某些企业逼格高...
  • 什么是数据中台

    万次阅读 2019-09-12 10:54:21
    导读:本文将阐述:为什么要建设数据中台,什么是数据中台数据中台具备什么样的能力。采用什么技术来实现 一、为什么要建设数据中台 因为在当今互联网时代,用户才是商业战场的中心,为了快速响应用户的需求,...
  • 数据中台到AI中台

    千次阅读 2019-03-11 15:58:08
    文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。...数据中台解决的是响应业务的问题,第三阶段“创造业务”,则需要AI中台。 01 数据中台的意义 ...
  • 内容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践 分享嘉宾:宜信数据中台平台团队负责人 卢山巍 导读:宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus、Wormhole、Moonbox、...
  • 数据中台的设计

    千次阅读 2019-12-18 10:30:49
    1. 数据中台的设计 数据中台的概念由阿里巴巴首次提出,它是一个承接技术,引领业务,构建规范定义的,全域可连接萃取的,智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。数据中台是涵盖了...
  • 数据中台到AI中台。 白发川 CMKT咨询圈 前天 https://mp.weixin.qq.com/s/cwtaHltF53yzV7zjZAah8g?from=groupmessage&isappinstalled=0 作者:王健 来源:健荐(微信号: gh_3b7794be56e0) 从去年开始,...
  • 数据中台与数据仓库的区别?

    万次阅读 2019-07-08 08:37:39
    数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库。但是两者的数据来源和建立数仓的目标以及数据应用的方向都存在很大差异。 首先,从数据来源来说,数据中台的数据来源期望是全域数据...
  • 最近在读阿里数据中台的书,因为要在组内做分享,就多度了几遍。与阿里大数据实践之路配合,基本可以看到阿里建设数据中台的过程,和一些技术细节。做一件有价值的事情就是把自己觉得好的东西分享出来,那么开始内容...
  • 数据中台与数据平台的关系

    千次阅读 2020-03-30 10:41:53
    想要理解数据中台和数据平台的区别,首先应该了解中台和平台的区别。我理解的平台是企业或者研发团队为了满足用户需求而建设的基于... 数据中台就是对数据能力的一个建设集合,数据平台可以通过组合数据中台的能力...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 87,820
精华内容 35,128
关键字:

数据中台