数据_数据库 - CSDN
数据 订阅
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。 展开全文
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,比如声音、图像,称为模拟数据。也可以是离散的,如符号、文字,称为数字数据。在计算机系统中,数据以二进制信息单元0,1的形式表示。
信息
性    质
计算机术语
外文名
data
意    义
信息的表现形式和载体
释    义
事实或观察的结果
中文名
数据
数据定义
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。计算机存储和处理的对象十分广泛,表示这些对象的数据也随之变得越来越复杂。 [1]  信息与数据既有联系,又有区别。数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。而信息是数据的内涵,信息是加载于数据之上,对数据作具有含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,是逻辑性和观念性的;数据是信息的表现形式,信息是数据有意义的表示。数据是信息的表达、载体,信息是数据的内涵,是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。 [2] 
收起全文
精华内容
参与话题
  • 免费数据集下载(很全面)

    万次阅读 多人点赞 2018-09-13 09:23:21
    “聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。 以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335 金融 美国劳工部统计...

    “聚数据”平台整理了网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。

    以下内容转自https://blog.csdn.net/qq_32447301/article/details/79487335

    金融

    交通

    商业

    推荐系统

    医疗健康

    图像数据

    综合图像

    场景图像

    Web标签图像

    人形轮廓图像

    视觉文字识别图像

    特定一类事物图像

    材质纹理图像

    物体分类图像

    人脸图像

    姿势动作图像

    指纹识别

    其它图像数据

    视频数据

    综合视频

    人类动作视频

    行人检测视频

    密集人群视频

    其它视频

     

    音频数据

    综合音频

    Google Audioset 音频数据【数据太大仅有介绍】

    语音识别

     

    自然语言处理

     

    社会数据

    展开全文
  • [入门数据分析的第一堂课] 这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍: Ø 什么是数据分析-知其然才...
  • 到底什么是数据中台?

    万次阅读 多人点赞 2019-07-23 02:54:47
    最近可能大家听到“数据中台”这个词越来越频繁了,有时候我跟一些朋友聊起来,也是都在说这个,但是一直不知道这到底是个什么。最近就看到这篇文章,觉得说的还挺好的,分享给大家看...
        

    最近可能大家听到“数据中台”这个词越来越频繁了,有时候我跟一些朋友聊起来,也是都在说这个,但是一直不知道这到底是个什么。最近就看到这篇文章,觉得说的还挺好的,分享给大家看看,希望大家看完能对数据中台有一些认识。


    转载来源

    公众号:AI 前线

    声明:本文由微信公众号 「AI 前线」原创(ID:ai-front),未经授权不得转载

    阅读本文大概需要 12 分钟。


    导读:数据中台被誉为大数据的下一站,由阿里兴起,核心思想是数据共享,并在 2018 年因为“腾讯数据中台论”再度成为了人们谈论的焦点。在 3 月 15 日 ThoughtWorks 技术雷达峰会上,关于数据中台的话题也获得了众多参会者的热烈关注。如今似乎人人都在提数据中台,但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要考虑的高大上的概念吗?普通企业该不该做数据中台?数据中台的出现会给现有数据从业者们带来颠覆式的挑战吗?带着上述问题,InfoQ 在技术雷达峰会上采访了 ThoughtWorks 数据和智能总监史凯,谈谈他对于数据中台的看法。
    数据中台不是大数据平台!

    首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。

    要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。

    我们可以应用 Gartner 的 Pace Layer 来理解为什么要有中间层,这样可以更好地理解中台的定位和价值。Pace Layer 里提到,可以按照事物变化的速度来分层,这样可以逐层分析并设计合理的边界与服务。

    640?wx_fmt=png

    在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。

    数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。

    数据中台解决的问题可以总结为如下三点:

    1. 效率问题:为什么应用开发增加一个报表,就要十几天时间?为什么不能实时获得用户推荐清单?当业务人员对数据产生一点疑问的时候,需要花费很长的时间,结果发现是数据源的数据变了,最终影响上线时间。

    2. 协作问题:当业务应用开发的时候,虽然和别的项目需求大致差不多,但因为是别的项目组维护的,所以数据还是要自己再开发一遍。

    3. 能力问题:数据的处理和维护是一个相对独立的技术,需要相当专业的人来完成,但是很多时候,我们有一大把的应用开发人员,而数据开发人员很少。

    这三类问题都会导致应用开发团队变慢。这就是中台的关键——让前台开发团队的开发速度不受后台数据开发的影响。

    史凯总结说,“数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。

    如下图所示:

    640?wx_fmt=png

    DData API 是数据中台的核心,它是连接前台和后台的桥梁,通过 API 的方式提供数据服务,而不是直接把数据库给前台、让前台开发自行使用数据。至于产生 DataAPI 的过程,怎么样让 DataAPI 产生得更快,怎么样让 DATA API 更加清晰,怎么样让 DATA API 的数据质量更好,这些是要围绕数据中台去构建的能力。

    数据中台和数据仓库、数据平台的关键区别

    这是现在数据行业大家经常讨论的问题,到底数据仓库、数据平台和数据中台的区别是什么。

    640?wx_fmt=png

    概括地说,三者的关键区别有以下几方面:

    1. 数据中台是企业级的逻辑概念,体现企业 D2V(Data to Value)的能力,为业务提供服务的主要方式是数据 API;

    2. 数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合,为业务提供服务的方式主要是分析报表;

    3. 数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集;

    4. 数据中台距离业务更近,为业务提供速度更快的服务;

    5. 数据仓库是为了支持管理决策分析,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景;

    6. 数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。

    数据仓库具有历史性,其中存储的数据大多是结构化数据,这些数据并非企业全量数据,而是根据需求针对性抽取的,因此数据仓库对于业务的价值是各种各样的报表,但这些报表又无法实时产生。数据仓库报表虽然能够提供部分业务价值,但不能直接影响业务。

    数据平台的出现是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题,所以先撇开业务需求、把企业所有的数据都抽取出来放到一起,成为一个大的数据集,其中有结构化数据、非结构化数据等。当业务方有需求的时候,再把他们需要的若干个小数据集单独提取出来,以数据集的形式提供给数据应用。

    而数据中台是在数据仓库和数据平台的基础上,将数据生产为为一个个数据 API 服务,以更高效的方式提供给业务。

    数据中台应该具备什么能力?

    大数据和人工智能大火之后这几年,很多人一直在提一个说法,那就是“数据是新的石油”。但史凯的观点却有些不同,在他看来,数据不等于数据资产,如果没有从业务的角度对数据进行规划,再多的数据也无法产生价值。

    史凯认为数据中台最核心的一个关键组件是数据资产目录。“我们认为,一个企业的数据要能够充分发挥价值,很重要的一个前提条件就是这个企业的数据结构和数据资产目录是对整个企业开放的。所有人都能够通过这个资产目录了解公司有哪些类别的数据、包含什么属性、源数据由谁管理,这样就可以快速搞清楚这些数据是不是自己需要的。但数据本身可以不开放,因为数据是有隐私信息和安全级别的。”

    大企业内部业务众多,不同业务可能存在很多重复数据。所谓的数据资产目录就是把数据的模型去重、归一、梳理,变成一个树状结构,这个树状结构不直接对应数据库中的字段。以航空货运为例,其数据资产可能包括货机、客运机的辅舱,一架货机就是一个数据资产目录的节点,而货机的各种属性(如货机型号、空间大小、年份等)就是这个节点下面的数据模型。数据资产目录做的事情就是从业务层面出发制定数据标准,将企业业务相关的数据资产模型抽取出来,这跟后面用什么数据库去存储、用什么结构去存储、存成结构化还是非结构化都没有关系。它相当于把企业的业务从数据层面做了一个梳理,用数据的语言把企业的业务模型还原出来。数据资产目录做好之后,后面才是用什么技术手段、从哪里提取数据来映射到这个数据资产目录。

    除了开放,数据资产目录还应该具有标签描述、可检索,这样才能最大程度地方便真正使用数据的人,以最快的速度找到他们需要的东西。

    在 ThoughtWorks 提出的精益数据创新体系中将企业所需要具备的数据能力概括为以下六种,具备了这六种能力,企业才具备成为数据驱动的智能企业的基础,而这些能力的承载平台,就是数据中台:

    640?wx_fmt=png

    1. 数据资产的规划和治理

    做中台之前,首先需要知道业务价值是什么,从业务角度去思考企业的数据资产是什么。数据资产不等同于数据,数据资产是唯一的,能为业务产生价值的数据。 对于同一堆数据,不同业务部门所关注的数据指标可能完全不同,怎么让各个跨域的业务变成统一的标准,就需要规划企业的数据全景图,将所有有可能用上的、所有对企业有可能有价值的数据都规划出来,最终梳理出企业的数据资产目录。在这个时候不需要考虑有没有系统、有没有数据,只需要关注哪些数据是对企业业务有价值的。这一层不建议做得太细,太细就难以形成标准,不能适用于多个场景了。数据治理是数据中台很重要的一个领域,ThoughtWorks 认为在现在业务边界消失、需求快速变化的情况下,企业需要具备精益数据治理的能力——Lean Data Governance。传统的中心化、事前控制式的数据治理方式,要改变为去中心化、事后服务式的治理方式。

    640?wx_fmt=png

    1. 数据资产的获取和存储

    数据中台要为企业提供强大的数据资产的获取和存储的能力。

     3. 数据的共享和协作

    企业的数据中台一定是跨域的,需要让所有的人都知道数据资产目录在哪里。不能因为数据安全,就不让大家知道企业有什么数据。没有共享和开放,数据没有办法流动起来,没有流动的话数据的价值产生的速度就会非常慢。所以在数据安全的基础上,企业的数据资产目录要对利益相关者、价值创造者开放,要让业务人员能够做到“Self-Service”。

      4. 业务价值的探索和分析

    数据中台不仅要建立到源数据的通路,还需要提供分析数据的工具和能力,帮助业务人员去探索和发现数据的业务价值。一个好的数据中台解决方案中需要针对不同业务岗位的用户提供个性化的数据探索和分析的工具,并且在此基础上一键生成数据 API,以多样化的方式提供给前台系统。

    1. 数据服务的构建和治理

    数据中台需要保证数据服务的性能和稳定性,以及数据质量和准确性,还需要具备强大的服务治理能力。数据中台是一个生态平台,在数据中台上面会不断生长各种数据服务,所以从一开始就构建好数据服务的治理结构是非常重要的,数据服务需要可以被记录、可被跟踪、可被审计、可被监控。

       6. 数据服务的度量和运营

    如果数据中台最终只是做到把数据给到业务人员,那它就只是一个搬运工的角色。数据中台还需要具备度量和运营数据服务的能力,能够对中台上提供的数据服务及相关行为持续跟踪和记录,包括哪些数据服务被哪个部门用了多少次等,通过这些去度量每一个数据服务的业务价值。

    史凯认为,数据中台是一个需要用互联网思维去经营的利润中心平台,数据中台的经营分析人员需要分析业务,了解为什么今天上午这个财务部门的人用了数据中台、调用了十次,下午他不用了,原因是什么,调用了这些数据服务的人通常还会调用哪些其他的数据服务。这些都需要相应地做记录、做日志、做分析,要把数据当做像电商平台一样去经营,然后实时地根据这些业务行为数据去提醒数据服务提供方,调整、改变、优化数据服务,这才是可经营的数据中台,也只有这样业务部门才能得到最快的支持和响应。

    为什么人人都需要数据中台?

    数据中台并非只有大公司才需要的高大上的玩意。

    ThoughtWorks 从 2017 年到现在,已经帮助多家大型国内外企业建设数据中台,其中有体量巨大的企业级数据中台,也有部门级的小数据中台。

    “未来所有的企业核心都会变成加工数据的企业,而数据中台是数据价值化的加工厂,所以所有的企业都需要数据中台的能力,数据中台一定是未来每个企业的标准配置。”

    在史凯看来,数据中台并不意味着“大而全”的数据平台。根据企业的规模和业务的不同,数据中台可大可小,规模、复杂度可能都不相同,但它对业务产生的价值是一样的。

    当企业评估自己是否应该建设数据中台时,应该从哪些方面来考虑?史凯认为,从战略角度来说,每个企业都需要建立自己的数据中台;从战术角度来说,当企业发现自己的数据开发利用的速度和应用开发的速度不匹配的时候,就需要考虑构建数据中台。

    原来很多企业在做应用系统的时候,什么都不考虑直接上单体架构,一上来就先做数据库,然后在上面建应用。ThoughtWorks 建议现在的企业,即使不做数据中台、不去立一个叫做“数据中台”的项目,但是在做应用的时候,最好把这个应用分成三层,业务层、数据中台层、源数据层,在一开始做应用的时候就把三个层次抽象出来。

    数据质量差所以做不了数据中台?No!

    历史遗留的数据质量问题经常让大家对数据的利用和价值产生质疑。2018 年,史凯在与不同企业沟通过程中经常听到的一句话就是,“我们现在还没有到利用数据这一步,因为(应用系统中的)数据质量太差”。

    每次听到这句话,史凯脑子里就好像听到了另外一句话,“还没到培养孩子的时候啊,孩子太小了”。

    不能因为数据质量差,就不去利用数据。恰恰是因为没有去做后面的事情,所以数据质量才差。而且也不能因为数据质量差就抛开业务场景、试图全面解决数据质量的问题,这样得不到业务部门的支持,也无法从数据工作中产生业务价值。所以 ThoughtWorks 建议的恰恰是利用做应用、做业务的需求,同步解决数据质量问题。

    史凯认为,数据质量问题,根本上是在构建应用之初缺乏整体数据规划和数据思维导致的问题。原来的流程类应用构建之初,只考虑了如何让流程跑起来,缺乏对这个应用在整个企业的数据全景图(Data Landscape)中的定位的分析,没有从源头上优化数据的存储、流转,从而更好地与其他的系统中的数据去对齐口径、统一语言,将流程问题抽象成领域模型问题,再将领域模型抽象成数据模型。

    建设数据中台的挑战及应对策略

    建设数据中台最大的挑战在于前期能否从业务层面梳理清楚有业务价值的场景,以及数据全景图,而不仅在于后期的技术建设。

    数据中台建设面临的挑战包括:

    • 梳理业务场景:搞清楚数据中台如何对业务产生价值。

    • 建设数据中台的优先级策略:需求可能大而全,但我们不能直接建大而全的数据中台,应该根据业务重要性来排需求的优先级。

    • 数据治理问题:和业务独立开的数据治理少有成功的,大的数据标准要有(数据资产目录),通过数据资产目录将共有的纬度、共性的业务模型提炼出来,在此基础之上数据治理需要跟业务场景紧密结合。

      数据中台的建设需要两个战略耐心

    数据中台是为了加快从数据到业务价值的产生速度,但是它的生产过程依然是需要时间、有很多复杂的工作要做的,所以对于数据中台的投资方和数据中台的建设方来讲,都需要对应的战略耐心。

    640?wx_fmt=png

    • 对于投资方来讲,要充分认识到数据中台类项目的价值和局限性。在现在的组织结构和技术成熟度下,数据中台依旧是一个技术平台,对于业务价值的产生是一个加速的过程。但是业务对于数据的需求不会因为有了数据中台就减少,数据中台也不是哆啦 A 梦,不能随心所欲地变出各种业务想要的服务。这依然是一个需要统筹规划、敏捷迭代、演进建设的系统性工程,所以需要要管理好期望,有一定的战略耐心。

    • 对于建设方来讲,要充分认识到数据中台建设的复杂度,不要操之过急,不要期待毕其功于一役。史凯的建议是要从小中台做起,围绕具体有价值的业务场景去建设,尽量不脱离场景去搞周期长、大而全的纯工具平台建设。

      数据中台也可以小而美

      建设数据中台的关键考量包括两方面。

    首先数据中台一定要与业务价值对齐。构建数据中台,最重要的不是技术,也不是数据质量好不好,而是数据思维和数据文化。数据思维就是要建立起从数据的视角去思考问题的方式;数据文化就是要把数据和业务当成一体去看,而不是只将数据当作一个支持工具。想清楚业务对于数据的诉求是构建数据中台的第一步,哪怕暂时不能想的太细,也要去想,想不清楚就先不要做。

    不要在业务场景还没有明确、优先级还不清晰、价值度量体系尚未建立起来的时候,就建立大而全的数据平台,并且把所有的数据都存起来。企业都是追求投入产出比的,大而全的数据平台往往会面临尴尬的局面,一堆功能看上去很有用,应该都能用上,但是缺乏应用场景,真的有了场景,发现也不能开箱即用,还需要众多的定制化。

    其次,数据中台应该从小数据、小场景做起。

    数据中台是面向场景而非面向技术的,这种与客户的业务、企业的结构和信息化发展阶段有着紧密的相关性的业务基础架构,是很难买一个大而全的产品来一劳永逸解决的。

    可以通过下面这个图来解释构建中台的原则:

    640?wx_fmt=png

    一开始的时候需要顶层设计,面向业务愿景制定中台的整体规划,全面的梳理数据创新全景蓝图,这就是上图左边的黑色框架部分,通过业务愿景驱动出所有的业务场景探索,从而推导出数据中台的全景架构、技术支撑。

    但是在实施的时候,要从具体的业务场景出发。从高价值数据集场景做起,然后顺着这个场景竖切,找到数据全景图中的一个或多个数据集合,从小数据场景落地,这样才能快速验证价值。大处思考,全局拉通,避免后续的数据孤岛,但是从小数据集切入,从可实现性高的场景启动。然后一个个的场景做起来,业务价值和中台能力也就同步建立起来了。

    总的来讲就是,“设计阶段横着走,落地阶段竖着切。”

    数据中台团队和技术选型

    数据中台团队通常需要包含以下角色:

    • 业务专家团队:了解业务、梳理业务场景,确定数据资产与业务场景的一一对应关系,确定业务场景的优先级,为数据中台的建设提供依据。

    • 数据工程团队:建设和维护数据中台,包括 ETL、数据采集,以及数据中台性能和稳定性保证,利用中台的工具采集、存储、加工、处理数据。

    • 数据分析团队:分析数据价值、探索场景,生产更多的数据服务。

    • 数据治理团队:梳理数据标准、构件数据安全和隐私规范,利用开源去中心化的数据治理工具(比如 atlas、wherehows)来围绕业务场景解决数据质量和安全问题。

    • 智能算法团队:为数据分析、业务探索提供智能和算法工具。

    而这样的一个团队的工作就构成了一个数据生产线,一个从数据到业务服务的数据服务工厂,这个工厂有生产车间(Data Pipeline)、研发中心(数据实验室)、管理办公室(数据治理),还有产品展示中心(数据服务商店)。

    640?wx_fmt=png

    数据工厂是一个逻辑概念,不是一个大而全的产品,ThoughtWorks 结合过去几年的实践给出了一个数据工厂组件选型的参考架构,这些推荐的架构和组件,很多都体现在过去 ThoughtWorks 推出的技术雷达中并进行了详细解释,如下:

    640?wx_fmt=png

    数据中台的出现对于现有数据团队的挑战

    前面已经提到,数据中台是企业的 Data API 工厂,用更高效、更协同的方式加快从数据到业务的价值,能够给业务提供更高的响应力。所以数据中台距离业务更近,这对于传统企业的数据业务来讲,是一个重大的变化,同时给原来的数据团队也会带来巨大的挑战。

     1. 对数据分析人员的业务要求提高了

    企业传统的数据工作和业务工作分工明确、界限清晰,业务人员负责业务需求,提出业务问题,并将业务问题拆解成一个个清晰的数据问题,然后数据工程师和数据分析师在这个清晰的问题下解题。

    但是,在数据中台出现后,数据中台是一个赋能平台,它会沉淀、提供很多数据分析工具和数据服务,能够让不具备专业数据能力的业务人员也可以进行一些简单的数据分析,产生业务的洞察。这就意味着在数据中台的支持下,相对简单清晰的业务问题会更多的由业务人员自己解决掉,那么传递到专业数据人员的问题,都会是更加复杂的问题。这对于数据人员的业务理解能力就加强了,他 / 她们必须具备快速理解业务的能力,才能够体现出专业性和优势。

     2. 对于数据人员的工程能力要求提高了

    原来的数据分析工作属于个体工作方式,每一个数据科学家、数据分析师就是一个独立的工作单元,业务部门给出业务问题,他们通过自己擅长熟悉的工具和方法给出结果。但是在数据中台出现后,他们一方面获得了更多数据分析的武器和工具,能够站在前人的基础上工作,提高了效率和准确度,另外一方面,他们也需要掌握更多的平台化的数据分析工具,比如 Jupyter Notebook,同时也被要求能够把自己分析的结果转化成数据服务,沉淀到中台。

     3. 数据团队需要具备更多的业务视角

    原来的数据分析团队是一个功能型团队,更多以数据智囊团的身份存在。大部分情况下,距离业务比较远,更不要提对业务的结果负责。而在数据中台出现后,数据中台距离业务会越来越近,甚至直接影响和参与业务的运行,数据团队将慢慢脱离数据智囊团的身份,逐渐从后台走向前台,直接负责一个个数据服务,而这些数据服务是会直接参与到业务当中、产生业务价值的。这样的定位变化,要求数据团队具备更多的业务视角,要更关注业务价值,直接对齐企业的业务目标去工作。

    所以,数据中台的出现,不仅是一个技术平台,它对于企业而言是一个系统化的工作,企业数据相关的流程、职责、分工都要有对应的调整,才能达成整体的目标。

    数据中台 VS 数据隐私

    对于数据中台来说,数据隐私和安全性也是非常重要的问题。可能很多人还记得前些日子马化腾针对“腾讯数据中台论”的回应。去年腾讯组织架构调整进程中实现了技术打通,而对数据打通保持谨慎态度。马化腾在 18 年 11 月的世界互联网大会上回应“数据中台论”:“腾讯不能套用很多其他公司的做法,把数据直接去任意打通。因为在我们的平台里面,大量全部都是人和人之间的通信、社交行为数据,如果说数据可以任意打通,给公司业务部门或者给外部的客户用,那是会带来灾难性的后果。这方面我们要更加谨慎,我们要从用户的角度来考虑,把个人信息和数据保护放在优先地位。”很多人将这解读为腾讯不做数据中台,史凯却不这么认为。

    在他看来,腾讯的回应并不是说他们不做数据中台,而是强调要在数据隐私上做更多的工作。其实所有的数据安全和隐私的保护都需要从场景出发。史凯认为,“不能从纯数据层面来看数据隐私,数据隐私是不能脱离场景的”。如果纯粹从数据层面,而不从业务场景层面去管理数据隐私,就会带来两方面的问题,要么数据被管理的非常死,阻碍了业务价值的产生;要么数据隐私管理就会有漏洞。

    史凯举了一个例子,比如我们讲的用户交易数据,如果不关联用户基本信息,交易数据本身对于用户来说是不具备隐私风险的,因为它不关联到任何一个用户个体。所以,是可以对脱敏后的用户交易数据进行分析和利用的。

    另一方面,如果脱离场景谈数据隐私,也可能会导致忽略了潜在的安全问题。有时候如果不把场景关联起来,可能两个数据看上去没有安全问题,但其实外人把这两个数据关联起来就产生价值了。这也是为什么在一开始的时候就要把所有的场景,尽可能地全部分析出来。

    另外,设置权限、数据分级审核、库级数据脱敏等都是可以提升数据安全的手段。现代数据中台必须具备数据调用行为的监控和记录机制,反过来也能增强对数据安全和隐私的保护。

    数据中台的下一步

    当前国内外已经有不少公司开始投资建设数据中台,大家比较熟悉的包括阿里、华为、联想、海航、上汽、壳牌等。

    在史凯看来,数据中台当前处于上升发展期。虽然未来数据中台未必还叫做数据中台,但它一定会成为企业必备的基础组件。

    世界正在从信息化向数字化发展。信息化是指大部分的工作都在物理世界里完成,然后用信电脑的数字化世界解决一小部分问题。数字化则是把人从物理世界搬到数字化世界。从这个角度来讲,数据中台将会变成物理世界的业务在数字化世界的一个还原。

    数据中台设计的初衷是将计算与存储分离,从狭义上来说,真正最核心的数据中台可以是没有存储的。但就当前的情况来看,广义的数据中台在未来一段时间内仍会涵盖数据仓库、数据湖等存储组件,“数据工厂”这个概念可能更适用于现在的阶段。但随着数据中台的发展,未来很有可能不再需要数据湖了。

    最后,史凯也提到了阿里中台战略中的另一个中台——“业务中台”。他表示“当前业务中台更偏实时交易,是从上往下沉淀业务;数据中台目前更偏分析、决策和洞察,为业务提供 T+N 和 T+0 的数据服务,但是再往前走,数据中台跟交易会慢慢结合得更为紧密。随着计算能力越来越强,以及微服务架构的进一步发展,未来业务中台和数据中台可能会融为一体。”

    采访嘉宾

    史凯,ThoughtWorks 数据和智能总监,精益数据创新体系的提出者,2019 年被评选为 DataIQ100 的数据赋能者,有近 20 年年的企业信息化、数字化转型架构和实施经验,为众多大型客户提供数字化转型战略略规划和咨询实施服务。

    技术雷达是 ThoughtWorks 推出的公益的、不限行业的技术选型趋势报告,至今已坚持十年,旨在以雷达的表现形式,通过清晰的解读,给技术人员提供高质量、落地性强的技术平台、工具框架方面的选型指导,助力企业数字化转型。


    推荐阅读

    1

    跟繁琐的命令行说拜拜!Gerapy分布式爬虫管理框架来袭!

    2

    跟繁琐的模型说拜拜!深度学习脚手架 ModelZoo 来袭!

    3

    只会用Selenium爬网页?Appium爬App了解一下

    4

    妈妈再也不用担心爬虫被封号了!手把手教你搭建Cookies池

    崔庆才

    静觅博客博主,《Python3网络爬虫开发实战》作者

    隐形字

    个人公众号:进击的Coder

    640?wx_fmt=gif640?wx_fmt=jpeg640?wx_fmt=gif

    长按识别二维码关注


    好文和朋友一起看~
    展开全文
  • 最全的数据查询网站

    万次阅读 2020-02-19 11:32:09
    1、国家数据——主要用户:社会情况研究人员 国家统计局开设网站,公布我国各个领域的宏观经济情况,权威度高 2、中国裁判文书网——主要用户:法律从业/学习/爱好者 中国最高人民法院开设,权威可信,可用于查询...

    1、国家数据——主要用户:社会情况研究人员

    国家统计局开设网站,公布我国各个领域的宏观经济情况,权威度高
    在这里插入图片描述

    2、中国裁判文书网——主要用户:法律从业/学习/爱好者

    中国最高人民法院开设,权威可信,可用于查询国内裁判文书,可作数据统计来源
    在这里插入图片描述

    3、中国互联网数据平台——主要用户:互联网研究人员

    经国家主管部门批准组建的管理和服务机构,经常发布一些有价值的互联网信息报告
    在这里插入图片描述

    4、中国信通院——主要用户:互联网研究人员

    针对互联网多个行业的发展趋势,发布白皮书,角度较为宏观。
    在这里插入图片描述

    5、商务数据中心

    商务部发布的权威的进出口数据,进出口贸易与投资研究
    在这里插入图片描述

    6、自然资源部

    自然资源部对外公开的信息报告,内容权威
    在这里插入图片描述

    艾瑞指数——主要用户:互联网从业者

    艾瑞旗下/包括移动APP指数、PC Web指数、影视指数、广告指数、移动设备指数五类指数查询工具。
    在这里插入图片描述

    百度指数——主要用户:营销人

    百度旗下/以百度网民行为数据为基础的数据分享平台,支持查询需求图谱
    在这里插入图片描述

    微指数——主要用户:微博营销人

    新浪微博旗下反映微博舆情或账号发展走势的数据分析工具
    在这里插入图片描述

    阿里指数——主要用户:淘宝卖家

    阿里旗下淘宝平台市场动向的数据分析平台
    在这里插入图片描述

    中国电影票房——主要用户:电影行业从业人员、爱好者

    基于国内票房数据,统计票房排行、上座率等信息。
    在这里插入图片描述

    交通数据

    交通运输部提供的全国交通信息数据
    在这里插入图片描述

    房地产——主要用户:房地产从业者及相关人士

    由国家信息中心主办的专业性信息网站,主要面向政府和社会单位提供宏观经济和房地产方面的信息和数据服务。
    在这里插入图片描述

    移动观象台——主要用户:行业从业人员

    基于移动设备用户的操作行为,提供应用、公众号排行等,此外还发布大量数据报告
    在这里插入图片描述

    CBNDdata第一财经商业中心——主要用户:商务人士

    第一财经商业数据中心(CBNData)是基于大数据进行智能化商业研究咨询与整合营销传播的战略数据平台,依托阿里巴巴和第一财经的优势资源,拥有全球最大消费数据库和中国最大的财经全媒体集群。CBNData以商业数据报告/微报告、数据指数、定制化咨询等为核心产品,输出消费行业的全景分析以及面向企业和消费者的深度数据洞察;同时通过数据可视化、原生内容、活动、视频/直播等形式拓展数据研究的业务边界,丰富数据商业化的应用场景,以数据加媒体的倍增效应,全面提升中国商业世界的运行效率。
    在这里插入图片描述

    QuestMobile——主要用户:移动互联网关注者

    中国专业的移动互联网商业智能服务商。海量数据、多元数据产品、数据挖掘能力和深刻的移动互联网研究洞察经验,汇集北京大学、人民大学等顶尖高校的智慧,围绕互联网经济、行业发展、竞争分析、全景画像等研究方向,不断推出深度洞察数据和报告、提供定向研究和咨询服务,为行业发展和企业持续迭代进化赋能。
    在这里插入图片描述

    199IT——主要用户:互联网从业者

    中文互联网数据资讯中心,汇集容纳众多互联网数据报告,其导航网站收集了众多数据相关的网站链接
    在这里插入图片描述


    展开全文
  • Python数据分析与挖掘

    万人学习 2020-08-20 10:09:26
    从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过...
  • 从2018年开始,整个互联网行业进入了寒冬,企业老板们不再像以前那样大胆的招聘,而是纷纷勒紧腰带过日子。但是却有一个行业的岗位确实一枝独秀,需求旺盛。 我们正处于一个大数据飞速发展的时代,我们所做的一切事...

    从2018年开始,整个互联网行业进入了寒冬,企业老板们不再像以前那样大胆的招聘,而是纷纷勒紧腰带过日子。但是却有一个行业的岗位确实一枝独秀,需求旺盛。

    我们正处于一个大数据飞速发展的时代,我们所做的一切事,不论是在互联网中或者是互联网之外,都会留下数字的痕迹。比如刷卡购物,网络搜索,手机上网,乃至在网上每一个小小的点击都会被一一记录下来。各行各业,大数据技术应用也越来越广泛,对于大数据人才的需求也越来越大。

    如果你学的是大数据相关专业,那么恭喜你,你的发展良机来了。你将有可能成为大数据科学家,年薪百万不是梦,走向人生巅峰。

    目前国内的数据科学家岗位,大致可分为四类:数据开发、数据分析、数据挖掘、数据产品

    如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣群:数字5221数字89307,私信管理员即可免费领取开发工具以及入门学习资料

    简单介绍些这几个岗位的主要职责

    数据开发:

    1、负责数据收集、清洗和规约等工作;

    2、提供面向业务的数据服务,完成数据指标的统计、多维分析和展现;

    3、根据业务和产品情况,抽象业务逻辑,搭建和开发大数据平台。

    数据分析:

    1、负责业务日常数据分析及监控,针对异常情况协调资源进行跟踪和深入分析

    2、能根据实际业务完成较深入的专项数据分析,并形成数据分析报告

    3、负责业务的数据体系建设和完善,挖掘业务机会,驱动业务增长

    数据挖掘:

    1. 应用机器学习,对海量数据进行挖掘,发现其潜在关系,指导业务发展;

    2. 分析和挖掘公司项目中构建的数据体系和数据模型,优化和完善业务中的数据分析体系;

    3. 统计建模、数据挖掘、机器学习等方法建立数据模型以解决具体业务的实际问题;

    4. 部署算法并定期维护相关算法;

    数据产品:

    1.负责大数据、机器学习相关的产品优化迭代,包含产品的规划、需求分析、设计及整个生命周期管理工作。

    2.负责分析多维度的用户行为数据,通过数据发现产品深层次的问题,持续优化产品。

    3.协调跨部门、跨团队资源和支持,与业务方紧密合作,主导产品落地,驱动项目有节奏落地,达成产品与业务目标。

    4.撰写维护产品及项目文档。

    看看今年的钱景

    以北京为例,我们一起来看看几个岗位2019年的薪资情况

    1)数据开发

    北京数据开发平均工资:¥ 23830/月,取自 10667 份样本,较 2018 年,增长 8.1%。

    2)数据分析

    北京数据分析师平均工资:¥ 17900/月,取自 9453 份样本,较 2018 年,减少 21.6%。

    3)数据挖掘

    北京数据挖掘平均工资:¥ 29430/月,取自 4613 份样本,较 2018 年,增长 23.3%。

    4)数据产品

    北京数据产品平均工资:¥ 24930/月,取自 6298 份样本,较 2018 年,增长 8.6%。

    展开全文
  • 目前系统整理了一些网上开放的免费科研数据集,以下是分类列表以及下载地址,供高校和科研机构免费下载和使用。 金融 美国劳工部统计局官方发布数据 上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支...
  • 浅谈对大数据的理解

    万次阅读 多人点赞 2019-04-29 12:05:06
    大数据(big data): ...容量(Volume):数据体量大,数据的大小决定所考虑的数据的价值的和潜在的信息; 种类(Variety):数据类型的多样性,包括传统数据库、图像、文件和其他复杂的记录,如果只有单一的数据,...
  • 2019大数据领域十大必读书籍

    万次阅读 2019-04-27 10:43:55
    相信身边有很多应届毕业生以及想转行大数据的,状态...不过,像《大数据时代》、《数据之巅》等这些经典到“烂大街”的书我就不一一推荐了,很多人都看过,没看过的也都听说过。 一、《Presto技术内幕》 Prest...
  • 每一个企业级的人 都置顶了 中国软件网 中国软件网 为你带来最新鲜的行业干货 ...阿里巴巴总参谋长曾鸣为智能商业...从这里就可以看出来,数据是排在第一位的,并且算法和产品都是在为数据服务。如果简单地理解
  • 漫画:什么是数据仓库?

    万次阅读 多人点赞 2018-02-05 08:52:30
    一个故事在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。如何统治这么多不同文化信仰的种族呢?...
  • Linux常用命令大全

    万次阅读 多人点赞 2018-07-05 11:06:09
    Linux常用命令大全1.Linux管理文件和目录的命令命令 功能 命令 功能 pwd 显示当前目录 ls 查看目录下的内容 cd 改变所在目录 cat 显示文件的内容 grep 在文件中查找某字符 cp 复制文件 touch 创建文件 mv 移动文件 ...
  • 随着大数据时代的来临以及互联网技术的飞速发展,在企业的日常经营管理中,数据无处不在,各类数据的汇总、整合、分析、研究对企业的发展、决策有着十分重要的作用。硕科认为数据分析不仅对企业的可持续发展有显著的...
  • 什么是数据中台?

    万次阅读 2019-09-12 10:54:36
    导读:本文将阐述:为什么要建设数据中台,什么是数据中台,数据中台具备什么样的能力。采用什么技术来实现 一、为什么要建设数据中台 因为在当今互联网时代,用户才是商业战场的中心,为了快速响应用户的需求,...
  • 1.9数据总线

    万次阅读 2017-04-04 07:44:44
    CPU与内存或其他器件之间的数据传送,是通过数据总线来进行的。数据总线的宽度,决定了CPU和外界的数据传送速度。8根数据总线一次可传送一个8位二进制数据(即一个字节)。16根数据总线一次可以传送两个字节。   ...
  • 详解大数据数据仓库分层架构

    万次阅读 2016-05-11 18:23:58
    大数据数据仓库是基于HIVE构架的数据仓库,分布文件系统为HDFS,资源管理为Yarn,计算引擎主要包括MapReduce/Tez/Spark等,分层架构如下:
  • 一文了解数据护湖架构

    万次阅读 2020-05-26 16:00:07
    数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。 数百万数据消费者使用的工具,如BI工具、数据科学平台和仪表板工具,假设所有数据都...
  • (Kettle)合并记录步骤

    万次阅读 2012-04-19 11:45:00
    该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。 需要设置的参数: 旧数据来源:旧数据来源的步骤 新数据来源。新数据...
  • 浅谈C++容器(一)

    万次阅读 2009-08-11 15:56:00
    实质上就是一组相同类型对象的集合,但是它又不仅仅像数组那样简单,它实现了比数组更复杂的数据结构,当然也实现了比数组更强大的功能。C++标准模板库里提供了10种通用的容器类,它基本上可以解决程序中遇到的...
  • 《大话数据结构》边读边感

    万次阅读 2016-12-25 15:06:50
    第一章:数据结构绪论 数据结构:是相互之间存在一种或多种特定关系的数据元素的集合。 数据:是描述客观事物的符号,式计算机可以操作的对象,是能被计算机识别,并输入给计算机处理的符号集合。 数据输入有两个...
1 2 3 4 5 ... 20
收藏数 11,446,577
精华内容 4,578,631
关键字:

数据