李彦宏对大数据的理解_李彦宏 中国人对隐私问题 - CSDN
  • 原标题:李彦宏为什么会为大数据引擎站台? 在昨天(4月24日)的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。这在百度,表明相关产品最高的重视了。 这个发布是什么意思呢?简单地讲,...



    在昨天(4月24日)的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。这在百度,表明对相关产品最高的重视了。

    这个发布是什么意思呢?简单地讲,大数据引擎将百度在大数据的数据、能力和技术开放给行业,行业可以近身距离甚远的大数据盛宴,百度则寻到了一个新的增长点。


    大数据引擎三件套

    百度大数据引擎一共分三个部分。

    开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。

    百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度开放云还拥有CPU利用率高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理器)应用在机器学习领域的公司,实现了能耗节省的目的。

    数据工厂:开放云是基础设施和硬件能力,你可以把数据工厂理解为百度将海量数据组织起来的软件能力。就像数据库软件的位置一样。只不过数据工厂是被用作处理TB级甚至更大的数据。

    百度数据工厂支持单词百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB,在业界已经是很领先的能力了。

    百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者N.Wirth(沃斯)提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。

    百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们被应用在语音、图像、文本识别,以及自然语言和语义理解方面,被应用在不少App,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来对大数据进行智能化的分析、学习、处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL)和较早的布局,在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。


    大数据引擎可以干嘛

    百度将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。同时,一些企业在没有大数据的情况下,还可以使用百度的数据以及大数据成果。

    从架构来看,企业或组织也可以只选择三件套中的一样使用,例如数据存放在自己的云,但要运用百度大脑的一些智能算法应该也是支持的。

    举几个例子可能你更加清楚百度大数据引擎究竟是什么。

    许多政府部门拥有海量大数据——大数据经典之作《大数据》也是在讲美国政府的大数据。但政府部门几乎都没有大数据处理和挖掘技术。交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,卫生部门拥有流感法定报告数据、全国流感样病例哨点监测和病原学监测数据,公安部门有大量的视频监控数据。如果这些数据与百度的搜索记录、全网数据、LBS数据结合,在利用百度大数据引擎的大数据能力,则可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安防追逃等等。

    许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力,坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。

    可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的“价值”。


    与一些类似项目的对比

    在百度之前,业界已经有一些类似的思路,即有一些大数据能力的企业视图将自己在基础能力或者软件方面的优势释放出来。

    Google:

    大数据时代的奠基者。对应到百度开放云,它有举世闻名的数据中心以及基于Colossus的云;对应到百度数据工厂,Google近年来为迎接大数据时代不断改造核心技术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus比GFS还要先进,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。对应到百度大脑,Google提供的大数据分析智能应用包括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。技术有Big Query、趋势图等。

    可以说Google与百度的思路最为接近,不过Google目前还未将它的大数据能力打包起来以一个新“引擎”的方式共享。毫无疑问,这在不久之后就会发生。


    亚马逊:

    云计算的奠基者。亚马逊是IaaS(基础设施即服务),与阿里云非常相似。亚马逊在用户交易、个人偏好、经济领域的大数据能力可能比Google还要优秀,也被一些人视作这是亚马逊与Google竞争的唯一机会。亚马逊目前更多还是在云领域做贡献,虽然也有Redshift的方案,但在数据工厂和人工智能的开放上进展慢一些。


    阿里巴巴:

    亚马逊对应回中国自然是阿里巴巴。阿里云是国内最早的独立运作的云部门。数据则是阿里三大核心战略之一,大数据也被摆到了阿里十分重要的位置,不懂技术的马云经常谈及大数据都有人调侃他应该改名Data Ma。阿里在大数据基础设施领域确实取得了突飞猛进的进展,飞天、Apsara、跨机房5K集群都是知名的大数据项目,应对双十一、余额宝规模取现预测、广告业务高速增长等业务场景也证明了阿里的大数据能力。

    阿里大数据的思路便是做大数据的集市,让阿里系之外的大数据能够跑在阿里苦心搭建的大数据机器上运转起来。不久之前阿里与东软合作,后者的业务未来都将部署在阿里云。这意味着东软客户的数据很可能会进入阿里的大数据体系。可以确定阿里将会推出类似大数据引擎的平台,将大数据能力完全开放出来。

    相比百度,阿里在“数据工厂”这块应该是各有所长,在数据基础领域以及业务理解方面有着电商领域的专注,但人工智能这块跟百度比肯定会有不小差距。语音、图像和自然语言理解,阿里并没有多少积累,它更擅长处理结构化的数据。

    其他电商玩家如京东和苏宁也有类似的云,与阿里和百度完全不在一个级别就不比较了。


    Salesforce等软件公司:

    Salesforce近两年收购了超过5家与社交大数据相关的营销公司,目的是获取更多的数据。其他的软件厂商和方案厂商也有大数据引擎方面的布局,EMC、Oracle有对应的大数据处理软件,IBM有大数据行业方案,英特尔入股大了数据初创企业Cloudera,Cloudera推出的Impala比GoogleDremel还要快。Intel还推出了基于Hidoop的“大数据引擎”,加州伯克利大学AMPLab开发了名为Shark 的大数据分析系统。

    回到国内,华为在去年发布了大数据平台产品FusionInsight,还有百分点科技这样的基于大数据的推荐服务公司。而“天河2号”等独立超级计算机也对外宣称它们的超级计算能力将会逐步开放出来。

    不过,软件公司、方案公司以及超级计算机都无法做到像百度一样将大数据作为一种云端能力打包开放出来,也无法同时具备基础设施、数据工厂和智能算法的开放能力。尤其是“百度大脑”这部分,很少有其他具备这样的“数据智能”的能力。

    百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。

    变现方式可能是增值服务、收费云、数据分析结果、技术咨询等方式,这将改变百度盈利模式过渡依赖“搜索广告”的现状。有消息称,大数据已经给Google每天带来2300万美元的收入,一年约为82亿美元。这已经远远超过百度2013年51亿美金的年收入了。因此,如果百度大数据引擎能够成功,很可能会为之带来源源不断的数据以及现金流。
    展开全文
  • 一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型,正如显微镜让我们得以认识到微观中的世界,重新定义我们的认知一般,大数据正在改变我们生活以及理解世界的方式。 “每当一个时代来临之际,总有一...

    未来已来

    ——《大数据时代》读书报告

    课程:商务数据分析 学号: 姓名:

    引言

    维克托·迈尔·舍恩伯格在其《大数据时代》中的前言开宗明义:一场生活、工作与思维的大变革,大数据开启了一次重大的时代转型,正如显微镜让我们得以认识到微观中的世界,重新定义我们的认知一般,大数据正在改变我们生活以及理解世界的方式。
    “每当一个时代来临之际,总有一部分人摩拳擦掌、一部分人随波逐流,还有一部分人茫然无措”,从互联网的大规模流行以来,智能社会、数字社会、信息社会都是我们老生常谈的话题,大数据作为其运转的根本动力和核心燃料,则是我们避免对这些事情茫然无措所难以避开的话题,而维克托·迈尔·舍恩伯格的《大数据时代》则是一本能让我们对这个时代初窥门径的书籍。

    内容概述

    《大数据时代》于2013年出版,那时正处于大数据所方兴未艾、众说纷纭的时候,为很多人仅仅认为大数据只是“数据大”的人阐述和厘清了关于大数据的基本概念和特点。舍恩伯格认为大数据是人们在大规模数据的基础上可以做到的事情——大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府和公民关系的方法。或许是在舍恩伯格成书的阶段人们对于大数据的概念认知还比较少,因而书中更多的是偏向大数据的应用性的内容,每一章都使用了大量的例子进行例证。作者首先先阐述大数据时代的三个思维变革,“更多,不是随机样本而是全体数据”“更杂 不是精确性,而是混杂性”“更好,不是因果关系,而是相关关系”,为我们平时在面对大数据所容易产生的误解方面厘清的概念;紧接着作者把聚光灯打向“数据”本身,在“一切都可量化”所带来的大数据的基础上对商业上已经或可能产生的“取之不尽,用之不竭”的数据创新加以阐述;同时作者也并不一味乐观地看向大数据的应用方面,而是对大数据所可能带来的“数据主宰一切”的隐患也加以说明,并在此基础上进一步提出了在迈向大数据时代时,社会也应对信息自我管理方面加以变革,对相关法律加以改进,提出了“个人隐私保护,从个人许可到让数据使用者承担责任”“个人动因VS预测分析”和“击碎黑盒子”这三大管理变革。
    值得一提的是,虽然作者认为大数据时代的核心在于预测,也提出了许多预测有利于经济、管理等方面的案例,但作者并没有盲目地相信预测的威力,“没有说明是上天注定的,因为我们总嗯那个就手中的信息制定出相应的对策。大数据预测结果也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结局可以改写”,作者强调要给人的自由意志给与空间,允许我们按照自己的愿望做出选择,而不是单单靠预测对一切做出解释;作者的这一观点则是使得我在敬佩作者的专业性也对作者,维克托·迈尔·舍恩伯格先生的人格也肃然起敬。
    回顾本书,不得不佩服作者所拥有的超凡的预见能力,如今大数据给全球社会和经济都产生着巨大的影响,而其中如无人驾驶以及智能医疗等许多变化则是舍恩伯格在创作此书时就已预见的,不愧为“大数据时代的预言家“

    作者简介

    维克托·迈尔·舍恩伯格,被誉为“大数据时代的预言家”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究,代表作由《大数据时代》《删除:大数据取舍之道》。

    读书笔记

    一、信息爆炸——万物皆数

    舍恩伯格先生把天文学称作信息爆炸的起源,从天文学的信息爆炸引申到现实生活的其他领域,从科学研究到医疗保险,从银行业到互联网,各种领域都在讲述这个类似的故事,我们周围的数据为何如此之多,如此之快,在给与我们无穷可利用信息的同时,也使得我们需要通过各种筛选工具来获得我们实际想要的信息,舍恩伯格先生更多的是从各种角度来向我们阐述大数据之“大”,但为何数据会如此之大,却缺乏进一步的解释,大数据之大在于其具有“多维度”“时间性”和“重复性”。
    1.多维度
    多维度代表着大数据对一个事物的多方位的描述,进而更准确,而这也在很大程度上决定了大数据之大。
    以蚂蚁金服的芝麻信用分为例,从用户的身份特质、行为偏好,到其信用历史、人脉关系,其对信用评分有着大量而全面的评估体系,从多个维度对用户的信息反馈汇总到一起,做出准确的信用评估。
    (表1:芝麻信用评分维度)

    2.时间性
    大数据是生生不息的“流”,具有时间性。这个概念很有哲理,大数据过去就不再回来,就像人无法两次踏入一条河流一样。“百度大数据实验室中有一个概念叫做“时空大数据”,原因是大数据太过巨大,无法全部存储,另一方面是大数据和人类生生不息的行动相关,瞬息万变。”
    3.重复性
    大数据的“大”表现为无尽的重复,以语音识别为例,人们每一天都会说出很多话语,而这一些话语中很大一部分和前天是相同的,明天也是如此。而语音识别技术正是基于这无穷无尽的海量重复数据中,仔细辨别,逐步完善进化的

    二、何谓大数据

    正如前面所说舍恩伯格先生认为大数据是人们在大规模数据的基础上可以做到的事情——大数据是人们获得新的认知、创造新的价值的源泉,他更多的是在应用的角度上解释的,而在这里我想多分享一些其他老师在其他角度关于大数据的阐述。
    从方法论层面看,“在方法论的层面,大数据是一种全兴的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变”,吴军老师如是说。从这个角度上看,他大数据在思维方式上的变革:强关联关系——从大量的数据中直接找到答案,更多的关注在思维方式上变革导致问题解决方法上的改变,其实也是和舍恩伯格先生的角度很相近的。
    而从大数据的来源看,根据马丁·希尔伯特的总结,今天我们常说的大数据其实是在2000年后,因为信息交换、信息存储、信息处理三个方面额能力的大幅增长而产生的数据。
    图2:大数据的三大支柱

    三、大数据变革

    《大数据时代》的内容主要是讲述一场生活、工作和思维的大变革,舍恩伯格先生从思维、商业和管理三方面对这个变革进行了阐述。
    (一)大数据时代的思维变革
    1.更多 不是随机样本,而是全体数据
    全体数据指的是利用所有的数据,而不再仅仅依靠一小部分数据。从很长的一段时间以来,受限于数据量和数据分析方法,我们更多的是希望通过最少的数据活的最多的信息。我们会听到某个组织通过很科学有效的方法仅仅采集了很小的抽样样本就准确地预测了美国总统的选举效果,因此和抽样样本的大小相比,我们认识到了随机取样是更重要的。
    但进入大数据时代,在数据收集和分析技术有了很大改进的现在,我们有足够的可能收集分析出我们所想要的信息,因而样本分析的方式重要性就逐渐下降了,正如以前网络上一句很流行的话语,“可以但没必要”。
    2.更杂 不是精确性,而是混杂性
    在小数据时代,我们在问卷调查样本分析的过程中经常强调要对数据进行预处理,将明显不合格的数据删去或修改。但进入大数据时代,我们在扩大数据规模的时候学会了去拥抱数据的混杂性。其中一个原因是做不到:在数据规模已经有了千万倍扩大的时候,去做到让每一份数据都是精确的是不可能的,总会又一部分数据会存在错误;另一个原因是没必要,在通过牺牲一部分精确性之后可以获得足够多数据的情况下,这个代价对我们来说是可以接受的。就如立法中质量和效率都很重要,但如果当我们牺牲一点质量能够使得效率大幅增加,我们是能够接受不精确的存在的。
    3.更好 不是因果关系,而是相关关系
    明白“是什么”,而不去深究“为什么”是这一思维变革所重视的一点。我们总认为有因必有果,当我们在生活中碰见的很多不一般的现象我们总会很自然地给他们加上一个原因,当我们拉肚子的时候,我们会很快地想“肯定是中午吃的那家饭店有问题,下次不去了”,这种很直接的联系方式会节省我们很多的思考时间,尽管很多时候两者并没有相关关系。
    在大数据时代则不能这样子,很多时候对于寻找因果关系找到答案的难度相当之大,因而我们会选择一种新的思维方式——从大量的数据中直接找答案,而不去探寻背后的因果关系,这为我们提供了一种有效而便捷的思维方式。
    (二)大数据时代的商业变革
    1.数据化 一切都可量化
    计量和记录一起促进了数据的诞生,奠定了数据化最早的根基,而计算机的出现带来了数字测量和存储设备,大大提高了数据化的效率,使得通过书挖掘分析挖掘出数据更大的数据变成了可能。
    舍恩伯格先生在此部分辨析了数据化和数字化的概念,数字化是指把模拟数据转换成用0和1表示的二进制码,而数据化则是一种把现象转变为可制表分析的量化形式的过程。数字化带来数据化,而数据化也使得我们意识到本质上世界上是由信息构成的,这为我们提供了一个从未有过的视角,为我们通过量化一切创造价值提供了一种新的世界观。
    2.价值 取之不尽用之不竭
    数据的价值取之不尽用之不竭的其中一个原因是数据具有“非经济性”。数据不同于物质性的东西,其价值不会随着它的使用而减少,而是可以不断的被处理,这也是经济学家所说的“非经济性”的好处:个人的使用不会妨碍其他人的使用,而且信息不hi像其他物质产品一样随着而是用而有所损耗。因此对于用户而言,不论是生成这些数据的用户或是其他用户,过去的交易数据都有着很大的借鉴意义。
    另一个原因则是数据的价值具有“冰山效应”。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。数据的价值是其所有用途的总和,当通过“数据再利用”“数据重组”以及“数据可拓展”等方式处理数据时,就可以发现数据在海面之下的真正价值。值得一提的是数据折旧值和数据废气的概念,数据折旧值指的是数据用于基本用途的价值会随着世家而减少,数据废气是指用户在先交互的副产品,包括浏览了哪些页面、停留了多久等等数据;数据的折旧值使我们认识到即使数据用于基本用途的价值会减少,但其的潜在价值仍然是无法估量的。而数据废气则使我们认识到即使是不起眼甚至是“噪音数据”仍然有着的价值。
    3.角色定位 数据、技术与思维的三足鼎立
    舍恩伯格先生依据数据提供价值的不同来源,将大数据公司划分为三种,第一种是基于数据本身的公司——拥有大量的数据或者至少可以收集到大量数据,却不一定有从数据中提取价值或者用数据催生创新思想的潜能;第二种是基于技能的公司——掌握专业技能却并不一定拥有数据湖提出数据创新性用途的才能;第三种是基于思维的公司——具有挖掘数据的新价值的创新思维。
    时至今日,许多数据拥有者已经逐步开始发展技术和专业技能,但创新思维则是很难通过发展技术而获得的,这也是许多像百度一样 的公司会定期邀请一些科幻作家到美国进行研讨的原因,正因为他们是外行人,因此思维能够不受限制,思考的只有可能,而不考虑的可行性。
    (三)大数据时代的管理变革
    1.大数据忧思
    大数据的核心思想是通过规模剧增来改变现状,其固然是我们在合理决策过程中的有力武器,但它也有可能成为权贵用来做镇压民众的工具。当大数据管理不当或者出现数据分析错误,对我们的损害导致的不良后果将比层出不穷的定制广告带给我们的不适感要严重的多。
    舍恩伯格先生提到隐私被二次利用以及大数据预测的滥用导致的人们不是因为所做而导致惩罚,而是因为将做的大数据隐患,但这仅是其中的一部分,但在我们的日常生活中,只要对数据泄露有一定敏感度,就可以发现数据泄露的案例层出不穷,相比于数据滥用,数据保管的不严密可能对我们的伤害直接的多。
    今年三月份的时候,有用户爆料5.38亿条微博用户信息在暗网出售,其中,1.72亿条有账户基本信息,售价0.177比特币,工商局约谈微博。2019年也有华住酒店1.23亿数据在暗网出售。如此之多的数据泄露案例,甚至让我已经感觉见怪不怪了。可能这一些用户信息、住房信息数据泄露的后果的对我们来说的影响可能没有那么大,但如果更进一步,是我们的身份证信息泄露呢,这就不得不使我们感到恐慌。虽然我们大多是普通人,但即使是这一些不大值钱的信息,也是我们的一生,是我们努力、勤劳、辛苦而又无可替代的一生。
    2.责任与自由并举的信息管理
    我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革,同时,这些变革也会带来社会需要维护的核心价值观的转变。舍恩伯格先生在这一部分提出了一个全新的制度,或者一些创新性的归责思想更合适些。
    (1)个人隐私保护,从个人许可到让数据使用者承担责任
    设立让数据使用者承担风险的原因主要有两个,其一是因为我们大多数人对我们的隐私保护的敏感度不强。在生活中,我们会经常碰到很多的APP同意条款,而包括我在内的大多数人基本上是没有耐心去看完的,而这种行为很可能导致我们在不知情的情况下就同意了一些不合理的隐私条款。另一个原因则可以说是直击要害,很少有用户能够认识到数据的二次利用所带来的 数据泄露,而当我们将数据使用的责任归责于数据使用者时,就能很好地规避隐私被二次利用的问题。
    (2)个人动因VS预测分析
    在大数据时代,当我们所获得的数据足够多时我们甚至可以对犯罪等行为进行预测,那么我们是否应该为我们所可能发生但还未发生的行为倾向负责呢?为我们的未发生的行为负责显然是不合理的,但一旦发生则确实可能造成极大的损害,这似乎陷入了矛盾,作者对于这一问题的解决措施是:将个人动因的保护纳入公正的理解中来,确保政府对行为的评判是是基于真实行为而非单纯依靠大数据分析,即政府可以通过大数据分析做出一定的 措施避免情况发生,但不能只因为大数据分析检测就判定其有罪。
    (3)击碎黑盒子,大数据算法师的崛起
    (4)反数据垄断大亨

    四、大数据取舍之道

    舍恩伯格先生在《大数据时代》中所关注的更多是大数据的应用、数据的潜在价值以及数据被滥用可能带来的后果,但对于数据是否应该“遗忘”却关注较少,舍恩伯格先生的另一本书《删除:大数据的取舍之道》和《大数据时代》互为补充,后者说的是在大数据时代我们应该保留什么,而前者则是讲述在大数据时代选择性遗忘的重要性。
    对于人类而言,遗忘是我们的常态,记忆是例外。但在如今的时代,由于数字技术与全球网络的发展,以往我们在互联网中留下的每一个足迹都可能被记住,记忆成了常态,而遗忘则成了例外。
    在高度数字化的现代社会,我们的私人信息不仅在今天可能被滥用,在几年甚至几十年后仍然可能被滥用,无论我们自身对自己行为的认知是怎样的,我们都不会希望有一颗定时炸弹在我们身边,因为我们不能确定是否某一天我们的私人信息是否会被滥用,舍恩伯格先生在《删除:大数据的取舍之道》中则提出了我们应该通过塑造互联网及其服务,以使得数字信息能够在一段时间后被渐渐遗忘。
    在具体对策方面,舍恩伯格提出了 数字化节制、保护隐私权、建立数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态和完全语境化六大对策。其中数字化节制和调整人类的现有认知是通过改变我们人类的自身的数字行为来消除和降低潜在风险;保护隐私权和建立数字隐私权基础设施则是从法律上保护公民的隐私权以及在维权法律的必要程序上做出变革从而支持隐私权的保护。
    五、新世纪 新未来
    每当一个新时代来临,总有一部分人摩拳擦掌,一部分人随波逐流,还有一部分人茫然无措。对于大数据的忧思不等于悲观,也只有在忧思基础上的乐观才是真正的乐观。大数据时代的到来无可避免,面对大数据时代,我们有振奋、有期待、也有惶恐,社会的变化如此之快,我们能做的只能是学习、不断地学习,方能使我们不会在新时代来领之时茫然无措,而是能够摩拳擦掌地面对未来。

    参考书籍及视频:
    《删除:大数据取舍之道》维克托·迈尔舍恩伯格
    《智能革命:迎接人工智能时代的社会、经济与文化变革》李彦宏
    《人工智能》李开复 王咏刚
    https://b23.tv/BV1K64y1u7fy【半佛】你的身份隐私是如何被卖的

    总结与感想

    首先要先感谢老师提供了这一份有史以来关于读书报告的最长字数作业,为了完成这一份作业着实令我头疼不已,但完成这一份作业确实收获很多,不仅仅是关于大数据的一些思维变革或是对大数据时代的认识,更多的可能是使我对于数据泄露的敏感度有一定提升。
    一直以来我对于数据泄露这一类的新闻是很不敏感的,或者说对于新闻是非常不敏感的,但写这一份作业的过程中会有意识地去了解有关这一方面的新闻,使我能够看到一直以来被我忽视的信息,同时也对相关的领域产生了一些些兴趣,这个可能是我之前所没有预料自己能够收获到的,非常感谢!
    大数据时代思维导图
    2020年4月6日星期一

    展开全文
  • 摘要 : 百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子...在昨天的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。简单地将,大数据引擎将百度在大数据的数据、能力...
    摘要 : 百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。

     

    百度在大数据领域迈出一大步。在昨天的百度技术开放日上,李彦宏现身并推出了百度大数据引擎。简单地将,大数据引擎将百度在大数据的数据、能力和技术开放给行业,行业尝尝距离甚远的大数据盛宴,百度则寻到了一个新的增长点。

    大数据引擎三件套

    一年前,BAT纷纷开挖大数据,一年后BAT在大数据应用上均取得了一些成绩。现在百度则率先将其大数据能力开放出来,百度大数据引擎一共分三个部分。

    开放云:百度的大规模分布式计算和超大规模存储云。过去的百度云主要面向开发者,大数据引擎的开放云则是面向有大数据存储和处理需求的“大开发者”。

    百度的开放云拥有超过1.2万台的单集群,超过阿里飞天计划的5k集群。百度开放云还拥有CPU利用率 高、弹性高、成本低等特点。百度是全球首家大规模商用ARM服务器的公司,而ARM架构的特征是能耗小和存储密度大,同时百度还是首家将GPU(图形处理 器)应用在机器学习领域的公司,实现了能耗节省的目的。

    数据工厂:开放云是基础设施和硬件能力,你可以把数据工厂理解为百度将海量数据组织起来的软件能力。就像数据库软件的位置一样。只不过数据工厂是被用作处理TB级甚至更大的数据。

    百度数据工厂支持单词百TB异构数据查询,支持SQL-like以及更复杂的查询语句,支持各种查询业务场景。同时百度数据工厂还将承载对于TB级别大表的并发查询和扫描,大查询、低并发时每秒可达百GB,在业界已经是很领先的能力了。

    百度大脑:有了大数据处理和存储的基础之后,还得有一套能够应用这些数据的算法。图灵奖获得者N.Wirth(沃斯)提出过“程序=数据结构+算法”的理论。如果说百度大数据引擎是一个程序,那么它的数据结构就是数据工厂+开放云,而算法则对应到百度大脑。

    百度大脑将百度此前在人工智能方面的能力开放出来,主要是大规模机器学习能力和深度学习能力。此前它们 被应用在语音、图像、文本识别,以及自然语言和语义理解方面,被应用在不少App,还通过百度Inside等平台开放给了智能硬件。现在这些能力将被用来 对大数据进行智能化的分析、学习、处理、利用。百度深度神经网络拥有200亿个参数,是全球规模最大的,它拥有独立的深度学习研究院(IDL)和较早的布 局,在人工智能上百度已经快了一步,现在贡献给业界表明了它要开放的决心。

    大数据引擎究竟是什么?

    百度将基础设施能力、软件系统能力以及智能算法技术打包在一起,通过大数据引擎开放出来之后,拥有大数据的行业可以将自己的数据接入到这个引擎进行处理。同时,一些企业在没有大数据的情况下,还可以使用百度的数据以及大数据成果。

    从架构来看,企业或组织也可以只选择三件套中的一样使用,例如数据存放在自己的云,但要运用百度大脑的一些智能算法应该也是支持的。

    举几个例子可能你更加清楚百度大数据引擎究竟是什么。

    许多政府部门拥有海量大数据——大数据经典之作《大数据》也是在讲美国政府的大数据。但政府部门几乎都 没有大数据处理和挖掘技术。交通部门有车联网、物联网、路网监控、船联网、码头车站监控等地方的大数据,卫生部门拥有流感法定报告数据、全国流感样病例哨 点监测和病原学监测数据,公安部门有大量的视频监控数据。如果这些数据与百度的搜索记录、全网数据、LBS数据结合,在利用百度大数据引擎的大数据能力, 则可以实现智能路径规划、运力管理、流感预测、疫苗接种指导、安防追逃等等。

    许多企业也拥有海量大数据——通信、金融、物流、制造、农业等行业。不过,它们几乎都没有大数据能力, 坐拥海量数据却一筹莫展。这时候如果能够应用百度大数据引擎,则可以对海量数据进行可靠低成本的存储,进行智能化的由浅入深的价值挖掘。在百度技术开放日 上,中国平安便介绍了如何利用百度的大数据能力加强消费者理解和预测,细分客户群制定个性化产品和营销方案。

    可以看出,大数据引擎的输入实际上是百度拥有的大数据以及行业已有的大数据,而输出则是各种行业应用成果,也就是大数据的“价值”。如果要为百度大数据引擎想一个SLOGAN,可以是“把大数据交给我们即可”。

    百度大数据引擎的出现并非一日之功。大数据技术本身已发展数年,而百度在大数据方面也进行了不少布局,例如百度云、深度学习、计算中心等等。同时与中国平安和一些政府部门此前也已进行一些大数据应用的初步尝试。

    与一些类似项目的对比

    在百度之前,业界已经有一些类似的思路,即有一些大数据能力的企业视图将自己在基础能力或者软件方面的优势释放出来。

    Google大数据时代的奠 基者。对应到百度开放云,它有举世闻名的数据中心以及基于Colossus的云;对应到百度数据工厂,Google近年来为迎接大数据时代不断改造核心技 术,包括比MapReduce批处理索引系统搜索更快的Caffeine,专为BigTable设计的分布式存储Colossus比GFS还要先 进,Dremel和PowerDrill管理和分析大数据,以及Instant和Pregel。对应到百度大脑,Google提供的大数据分析智能应用包 括客户情绪分析、交易风险(欺诈分析)、产品推荐、消息路由、诊断、客户流失预测、法律文案分类、电子邮件内容过滤、政治倾向预测、物种鉴定等多个方面。 技术有Big Query、趋势图等。

    可以说Google与百度的思路最为接近,不过Google目前还未将它的大数据能力打包起来以一个新“引擎”的方式共享。毫无疑问,这在不久之后就会发生。

    亚马逊:云计算的奠基者。亚马逊是IaaS(基础设施即服务),与 阿里云非常相似。亚马逊在用户交易、个人偏好、经济领域的大数据能力可能比Google还要优秀,也被一些人视作这是亚马逊与Google竞争的唯一机 会。亚马逊目前更多还是在云领域做贡献,虽然也有Redshift的方案,但在数据工厂和人工智能的开放上进展慢一些。

    阿里巴巴:

    亚马逊对应回中国自然是阿里巴巴。阿里云是国内最早的独立运作的云部门。数据则是阿里三大核心战略之 一,大数据也被摆到了阿里十分重要的位置,不懂技术的马云经常谈及大数据都有人调侃他应该改名Data Ma。阿里在大数据基础设施领域确实取得了突飞猛进的进展,飞天、Apsara、跨机房5K集群都是知名的大数据项目,应对双十一、余额宝规模取现预测、 广告业务高速增长等业务场景也证明了阿里的大数据能力。

    阿里大数据的思路便是做大数据的集市,让阿里系之外的大数据能够跑在阿里苦心搭建的大数据机器上运转起 来。不久之前阿里与东软合作,后者的业务未来都将部署在阿里云。这意味着东软客户的数据很可能会进入阿里的大数据体系。可以确定阿里将会推出类似大数据引 擎的平台,将大数据能力完全开放出来。

    相比百度,阿里在“数据工厂”这块应该是各有所长,在数据基础领域以及业务理解方面有着电商领域的专注,但人工智能这块跟百度比肯定会有不小差距。语音、图像和自然语言理解,阿里并没有多少积累,它更擅长处理结构化的数据。

    其他电商玩家如京东和苏宁也有类似的云,与阿里和百度完全不在一个级别就不比较了。

    Salesforce等软件公司:

    Salesforce近两年收购了超过5家与社交大数据相关的营销公司,目的是获取更多的数据。其他的 软件厂商和方案厂商也有大数据引擎方面的布局,EMC、Oracle有对应的大数据处理软件,IBM有大数据行业方案,英特尔入股大了数据初创企业 Cloudera,Cloudera推出的Impala比Google Dremel还要快。Intel还推出了基于Hidoop的“大数据引擎”,加州伯克利大学AMPLab开发了名为Shark 的大数据分析系统。

    回到国内,华为在去年发布了大数据平台产品FusionInsight,还有百分点科技这样的基于大数据的推荐服务公司。而“天河2号”等独立超级计算机也对外宣称它们的超级计算能力将会逐步开放出来。

    不过,软件公司、方案公司以及超级计算机都无法做到像百度一样将大数据作为一种云端能力打包开放出来,也无法同时具备基础设施、数据工厂和智能算法的开放能力。尤其是“百度大脑”这部分,很少有其他具备这样的“数据智能”的能力。

    百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。

    变现方式可能是增值服务、收费云、数据分析结果、技术咨询等方式,这将改变百度盈利模式过渡依赖“搜索 广告”的现状。有消息称,大数据已经给Google每天带来2300万美元的收入,一年约为82亿美元。这已经远远超过百度2013年51亿美金的年收入 了。因此,如果百度大数据引擎能够成功,很可能会为之带来源源不断的数据以及现金流。基于此,可以认为大数据引擎是百度的新大陆,是李彦宏一直在寻找的 “百度的微信”。

    作者微博@互联网阿超,微信SuperSofter

     

    http://luochao.baijia.baidu.com/article/13275

    转载于:https://www.cnblogs.com/jsunday/p/3875158.html

    展开全文
  • 在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是...

    一、一场以大数据为核心的智能盛宴

      时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20 年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心的人工智能渐露端倪。

    \
      有一天晚上准备睡觉时,听到隔壁传来女儿跟苹果智能语音助手Siri 对话的声音。我太太问我,这样正常吗?我告诉她不用担心,这是目前的趋势。根据不久前美国“用户普及率调查”的结果,语音助手的使用已经达到引爆点,并在走向大规模普及的阶段。

      前段时间,我在美国旧金山就拜访了Semantic Machines 的创始人兼CEO 丹· 罗斯(Dan Roth),这家公司的成员很多都是Siri 和Echo 的幕后功臣。如今,罗斯领导着一个汇集了自然语言处理、语义理解、会话计算等领域专家的顶级团队,目标是攻破人机对话领域这个老大难的题目。

      罗斯把他们正在研发的革命性技术称为对话式人工智能(Conversational AI)。与Siri 相比,这种技术能够更真实地了解用户本人的意图,哪怕用户从一个话题跳到另一个话题,又或者说的话不完整、不连贯,而这些正是人类对话的自然特点。这些特点正是目前这类技术的难点所在,相信了解破解自然语言难度的人都清楚,这项研究一旦成功,必然会改变世界。

      2010 年,“数据科学家”这个称谓的发明者帕蒂尔(D.J.Patil)和杰夫· 哈默巴赫(Jeff Hammerbacher)认为,一切应该以产品为中心,从数据获取、数据清洗、搭建和管理数据设施、原型开发、产品设计等方面,去实践数据的价值。我在阿里就经历了从“数据产品”到“数据作为产品”的阶段,后者其实才是大数据的真正产物,也是人工智能的源泉。

      二、谁掌握“完美信息”,谁就将拥有整个世界

      刚开始进入数据行业时,我一直秉承着这样一个理念:在“假设数据都是可获取的”基础上,思考问题。随着整个社会数据化程度的进一步加深,以及人与物之间的高度互联,以前很多信息的盲点被快速解开。由不同领域积累下的数据形成的“完美信息”渐露端倪,这其实是一个数据从量变到质变的过程。这一“完美信息”具有无限潜能,足以让人工智能所向披靡,催生各种智能场景,并让其如潮涌至。智能时代,秉承“假设数据都是可获取的”这一思维方式,才可让你比别人更胜一筹,从而做到心中有数。

      我在阿里时就曾参与设计了一款智能营销工具 “Look-Alike”。通过机器学习,我们可以利用过去积累的客户消费特征(每个客户有高达上万个标签),作出精准推送广告的决策。有别于过去的广告规划,我们不会问广告主如何描述其目标客户群,而是让广告主给出500 个喜欢某品牌的用户名单,我们就可以帮他找出5 000 个,甚至5 万个类似的客户。这种方法可以在几个小时之内快速“扫描”出最有效的营销方案。通过这项技术,我们基本可以实现让广告主喜出望外的精准广告投放效果。但问题是,这种产品真的能为广告业及阿里带来新的价值吗?这还只是大数据革命的开端,大家可以拭目以待!

      现实中,我们从数据收集、整合、判断,以至行动、再到反馈的过程并不完美,而形成数据闭环系统的阻力往往是人为因素居多。谷歌无人驾驶汽车项目的伟大之处正是给了我们重要的启发,让我们意识到自动化及智能化所需要的数据闭环系统是如何做到了既封闭又开放,其中的里应外合正是未来的发展趋势。我在阿里就经历了4 个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。

      三、从数据战略到数据治理,别让数据成为累赘

      如前所述,数据资源的积累是发展数字经济的前提。企业在向往智能时代所带来的机遇的同时,更要为企业的未来目标制定数据战略。企业不仅要关注自己现在有什么数据,更要了解未来会欠缺什么。然后,再去探讨欠缺的部分有多少可以靠自己补充,有多少需要求助他人、与他人合作以实现补充。有人把数据比喻为电能,这个比喻很生动,但与电能不一样的是,数据是可以被重复使用的。

      在阿里时,我是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。

      所以从战略意义上来说,第二使用权的合规性变得非常微妙。大数据背后的逻辑是数据积累越多越好,在过去两三年,很多企业都相信有了大量数据资源后,就能对企业的业务产生更大价值。

      但人们往往很快就会发现,除了技术能力之外,如何妥当地管理、利用这些资源并非易事:安全合规是一方面,降低数据使用的阻力及风险也是困难重重。所以我一直倡议,数据治理不是数据部门的工作,而是公司总体的战略。这意味着,“本性纯善”的大数据也容易变成一个累赘。

      四、数据是一种信仰,“善”用才是本质

      2016 年,一场围棋大战让人类引以为傲的智力顶配瞬间被AlphaGo 践踏得体无完肤。而在我看来,这场大战其实不过是一帮人赢了另一帮人,而且大部分人仅注意到了智“能”,而忽略了它与智“慧”的差别:“能”是能力的表现,而“慧”是心除杂念,将智能用在具有普世价值的地方。同样的科技能力是被善用还是被滥用只有一线之差。

      2016 年在英国伦敦召开的一场数据大会上,有人预测:英超联赛莱斯特城足球俱乐部的中场球员里亚德· 马赫雷斯(RiyadMahrez)将成为值得关注的球员。当时他在演讲中说:“根据我们的数据,目前马赫雷斯不仅是英国最好的中场球员,也是欧洲最好的中场球员之一。我敢说,在本赛季结束时,他的价值将非常巨大。”其数据显示,马赫雷斯在各类足球比赛期间,先后出场35 次,总体评分1118 分,在欧洲排名第6 位,仅次于1 635 分的“阿根廷球王”梅西等5 位球员。

      结果,莱斯特城足球俱乐部2017 年1 月爆出超级大冷门,首次获得英超联赛冠军。表现神勇的马赫雷斯不但是最大功臣,更荣膺英超联赛最佳球员,即“足球先生”,成了第一位获此荣誉的非洲球员。

      这位堪称“ 神预测” 的仁兄叫瓦莱里· 博利埃(ValeryBollier),是一家体育运营商Oulala 的联合创始人兼CEO,其公司以其复杂精妙的数学矩阵闻名。他们的系统包含了70 个取决于球员位置(守门员、后场、中场、前锋等)的不同标准,总共能够衍生出275 种或得分或丢分的方式。这些方式多种多样,从进球和助攻,到具体射中球门和成功阻截等,尽量量化了接近比赛的真实情况。

      为什么博利埃能够未卜先知,竟在年前就作出如此准确的预测?其实答案就是大数据和信息。球队的班主、教练和星探等,都被这种量化管理震惊。他们难免开始担忧,在大数据领域落后了怎么办?那就等着被淘汰吧。

      几千年来,人类习惯了生存在信息稀缺的年代,大数据与人工智能则为人们带来了曙光,同时也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰, 我们应该善用这个宝藏, 为人类创造更美好的世界。

    如果你恰好在学大数据,想要通过本篇文章就学好大数据,我建议你可以把页面关闭掉,大数据是入门学容易,达到高薪是绝对需要系统学习的,当然如果你想着通过大数据提高你的收入,可以详细阅读我推荐的文章

    推荐阅读文章

    大数据工程师在阿里面试流程是什么?

    学习大数据需要具备怎么样基础?

    年薪30K的大数据开发工程师的工作经验总结?

     

    展开全文
  • 近几年来,大数据这个词突然变得很火,不仅纳入阿里巴巴、谷歌等 互联网公司的战略规划中,同时也在我国国务院和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿。 而近期朋友圈疯转的"马云...
  • 很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货...
  • 大数据时代的到来,简单的说是海量数据同完美计算能力结合的结果。确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了海量数据的收集、存储、计算、分析的问题。大数据时代开启人类社会利用...
  • 对于传统企业而言,无需任何繁杂的技术手段,只需要接入百度大数据引擎,即可利用大数据去帮助现有业务进行升级和创新了。峰哥认为百度此举是在加大此次大数据台风的风力。换一种角度看,这也是百度为了快速丰富各...
  • 大数据专业就业前景

    2019-06-13 01:56:32
    近几年来,大数据这个词突然变得很火,不仅纳入阿里巴巴、谷歌等互联网公司的战略规划中,同时也在我国×××和其他国家的政府报告中多次提及,大数据无疑成为当今互联网世界中的新宠儿。而近期朋友圈疯转的"马云...
  • 大数据使用及现状调研报告  大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产...
  • 这篇文章主要介绍了大数据专业的就业前景与薪酬待遇,结合当前市场环境与科技发展趋势分析总结了大数据专业的就业前景、就业方向、薪资待遇等,感兴趣的朋友可以接着往下看! 近几年来,大数据一直都很火,不仅...
  • 马上就是315消费者权益日了。前阵子微博热搜“携程大数据杀熟”又闹上了热搜...很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解...
  • 我感觉很多朋友,大数据”、“机器学习”、“深度学习”等概念挺晕的,没有感官的认识,这里,我简单说一下: “大数据”、“人工智能”、“机器学习”、“神经网络”、“深度学习”。这几个词往往掺杂在一起,...
  • 毋庸置疑,大数据是当下最火的IT词汇。目前,全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,而如何掘金大数据是所有个人、企业和国家的机遇和挑战。事实上,从城市交通到空气质量,从建筑...
  • 大数据目前被公众广泛讨论,甚至成为不少商家宣传营销的卖点。毋庸置疑,智能设备的发展和普及,使海量的数据采集成为可能。但大数据并不是单纯的“数据大”,它更蕴含着一种计算和思维方式的转变,想要发挥出大数据...
  • 漫谈大数据

    2017-08-20 22:55:14
    中国最了解百姓消费习惯的,并不是什么机构或是什么协会,而是淘宝京东;...我阅读了《大数据时代》这本书,今天我来与您分享一下我的读书笔记以及我对大数据的思考。 —— 大数据是什么? ——
  • 短短五年间,大数据从浮在空中的概念成为落在实地的案例,在金融、电信、公安、工业等领域,大数据都在发挥价值。企业效率的改变,生活的便捷的迅速突破,也预示着这一块“数据金矿”将迎来越来越多的野心和变革。 ...
  • “数据多跑路、群众少跑腿”,如今,对大数据的应用已经开始切实影响到百姓的日常生活。李彦宏:数据本身不会产生很大的价值,只有共享出来跟各个行业比如教育、医疗、金融等相结合才能产生价值。 “数据多跑路、...
  • 你随便搜索一下“大数据区块链”会发现,大数据与区块链”的结合几乎是所有人都看好的。笔者并不反对这个观点,但如果从当下来看,大数据与区块链之间仍然存在着一些分歧,而这些分歧从某种意义上让大数据与区块链...
1 2 3 4 5 ... 20
收藏数 1,488
精华内容 595
关键字:

李彦宏对大数据的理解