• 华为大数据学习

    2018-07-01 15:26:47
    了解大数据技术原理和 Hadoop 的基础知识2. 熟悉 Linux 的管理和操作3. 具有数据库的基本知识,有数据库的使用经验,了解 SQL 语言。4. 具备一定软件开发能力,熟悉 Java、Python, C++等至少一种开发语言。课程内容...

    预备知识

    1. 了解大数据技术原理和 Hadoop 的基础知识

    2. 熟悉 Linux 的管理和操作

    3. 具有数据库的基本知识,有数据库的使用经验,了解 SQL 语言。

    4. 具备一定软件开发能力,熟悉 Java、Python, C++等至少一种开发语言。

    课程内容

    Linux 模块一 (12 课时)

    Linux 系统安装

    Linux 基础使用

    Linux 帮助系统和文件系统管理

    用户组及权限管理

    IO 及管道,循环语句,环境变量,shell 基础,脚本基础

    文本处理工具,grep,awk,sed,正则表达式等

    进程管理,远程管理工具

    Linux 下文件查找与压缩

    数据库模块二(12 课时)

    搭建实验环境、 虚拟机/操作系统/数据库安装/数据库应用安装、数据库基础知识

    SELECT 基本语法、过滤和排序数据、单行函数、高级子查询

    多表查询、分组函数、子查询、操纵数据、使用集合运算

    创建和管理表、内置约束、创建视图、其他数据库对象

    python 开发模块三 (24 课时)

    安装 Python,Python 解释器

    第一个 Python 程序

    使用文本编辑器,输入和输出

    Python 基础,基础语法

    变量类型,运算符

    条件语句,循环语句,While 循环语句

    for 循环语句,循环嵌套,break 语句

    continue 语句,pass 语句

    Number(数字),字符串,列表(List),元组

    字典(Dictionary),日期和时间

    函数,模块,文件 I/O,File 方法,异常处理

    内置函数,高级特性,切片,迭代,列表生成式

    生成器,函数式编程,高阶函数,map/reduce,filter,sorted

    返回函数,匿名函数,装饰器,偏函数,模块

    使用模块,安装第三方模块

    面向对象编程,类和实例,访问限制,继承和多态,获取对象信息

    面向对象高级编程

    实战

    Hadoop 模块四 (24 课时)

    Hadoop 基础

    MapReduce

    Hadoop 分布式文件系统

    Hadoop 集群

    Hive

    HBase

    ZooKeeper

    华为 FusionInsight 模块五 (60 课时)

    1. 数据仓库平台 FusionInsight LibrA

    第一章分布式数据库架构

    第二章FusionInsight LibrA 基本组件简介

    第三章FusionInsight LibrA 产品特性和关键技术

    第四章FusionInsight LibrA 配套工具集

    第五章FusionInsight LibrA 安全管理

    第六章FusionInsight LibrA 数据库管理系统并发控制

    第七章FusionInsight LibrA 数据库性能监控

    第八章 FusionInsight LibrA 数据迁移

    第九章 FusionInsight LibrA SQL 介绍

    第十章FusionInsight LibrA 数据库设计

    第十一章 FusionInsight LibrA 应用程序开发指导

    2.FusionInsight LibrA 实验

    FusionInsight LibrA 基本操作、语法

    FusionInsight LibrA 性能优化

    网络 KPI 数据栅格化处理

    重点区域数据分析

    流动人口常驻地分析

    3.大数据挖掘理论

    第十二章预备知识和数据介绍

    第十三章数据预处理

    第十四章数据仓库介绍

    第十五章分类 (Classification)

    第十六章聚类 (Clustering)

    第十七章离群点检测

    第十八章关联规则(Association Rule)

    第十九章FusionInsight Miner 和华为云机器学习服务 MLS

    大数据挖掘项目实战 (24 课时)

    银行定期存款业务预测

    客户分群

    鲍鱼生长年龄预测
    展开全文
  • 这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用...当遇到天花板时又该如何呢? 4月8日,在 ADL 第78期“深度学习:从算法到应用”的 Panel 环节,四位顶级 AI 学术大牛同台纵论驱动这一轮 AI...

    这轮 AI 热潮的很大一个特点就是底层技术方面在打通,虽然说过去对通用人工智能大家曾经有过很高的期望,但一直没有落地。这次,深度学习给大家带来了很多机会,使得我们在底层技术方面有了越来越多的共性。然而深度学习并不是万能的,那么它的局限性在哪里?当遇到天花板时又该如何呢?

    4月8日,在 ADL 第78期“深度学习:从算法到应用”的 Panel 环节,四位顶级 AI 学术大牛同台纵论驱动这一轮 AI 浪潮的底层技术,主题为“深度学习和大数据结合的红利还能持续多久”。

     

     

    从左到右分别是:山世光、颜水成、李航、俞凯

    四位分别是:

    中科院计算所研究员、博导,中科视拓创始人、董事长兼 CTO 山世光

    360副总裁、 首席科学家颜水成

    华为诺亚方舟实验室主任李航

    上海交通大学研究院、思必驰创始人兼首席科学家俞凯

    于 2017 年 4 月 7-9 日举办的中国计算机学会学科前沿讲习班(CCF Advanced Disciplines Lectures,简称 ADL)第 78 期,是由 CCF 和 KDD China 联合主办的高端学术及技术系列性品牌活动。

    下面是AI科技评论对 Panel 环节的整理(包含不改变原意的删减)。

    底层技术在打通

    --声、图、文领域相互借鉴

    山世光:今天的三位大咖里,俞凯老师做语音识别,颜水成老师主攻视觉方向,而李航老师则在自然语言的理解处理领域非常资深,而且在更加广泛的人工智能上问题上也有研究,包含了声、图、文三个领域。我们今天讨论的题目就是“深度学习和大数据的红利在 AI 领域还能持续多久”,既然不同研究领域的人都坐到一起了,那我们就先讲讲这个大家互相跨界的情况。为什么这么说呢?因为我个人觉得这一轮AI热潮很大的一个特点就是底层技术方面在打通。虽然过去我们对通用的人工智能曾经有过很高的期望,但是实际上一直没有落地,但是如今深度学习给大家带来了很多的机会,而且底层的技术有了越来越多的共性,比如说卷积神经网络不仅在语音里面有用,在自然语言处理里面也有应用,所以我想请三位从这个视角谈一下,这一轮AI在通用技术方面有什么样的进展?

    俞凯:稍微纠正一下,大家不要以为我是做语音识别的,我一定要说这句话,为什么?我所做的事情其实是口语对话系统,包括语音识别、语音合成等大家可以想得到的东西。更重要的是,我做的是对话,或者说是以交互为主要方式的人机口语对话系统。

    对话实际上是认知控制,你可以认为我做的是以口语作为主要通道的感知加上认知,在这一点上我和李航老师是有重叠的,都是交互的自然语言处理。我为什么会提这个?因为声、图、文,如果从这个角度分的话,实际上都可以看是成感知层面的东西,但是它后面所对接的都是理解、交互的控制、人的决策和推理,这些部分是在声图文领域的从业者或多或少都会涉及到的,无论是颜水成老师还是李航老师。所以我想把它分成两层,从感知上看我们做的不一样的,但是后面的东西,大家做的很多都是类似的,比如大家会做到理解这一层,而我还会做到交互这一层。

    关于这一轮的AI潮,我说一下自己的感受。我先抛一个观点,凡是在机器学习范式上一样的东西,声图文全都可以用,而且任何一个机器学习方法在这三样里面都可以用。什么叫范式?比如说分类问题,CNN之所以在语音识别里用的多,很重要的一点就是它能够处理高度非线性的映射,有非常好的分类能力。只要是面对这样的问题,就一定可用,所以我们现在也很关注图像方面的东西。

    (山世光:这个我可能会有不同意的观点,我个人觉得更多的是学Feature。)

    只要是能够归结为范式性的东西,第一是分类,第二是回归,这是最典型的两类事,第三是序列标注。只要能归属这三类的,几乎都可以通用,只是用的方法不一样。

    李航:你刚才提到深度学习和大数据的结合红利,以及人工智能在技术层面上的打通,未来在应用层面上也会有很多的机会。

    现在在UC Berkeley有一种研究,就是给机器人看一段“人开门”的视频,机器人在看完视频之后,可以学会自己用手去开门。以前这种运动和视频的理解是完全不同的领域。大家自然可以想到相关的,比如我跟你说一段话,这个机器会不会理解,能做什么事情,这种可能性在未来应该是有的。在深度学习、大数据这些技术的延长线上,假设有很多的数据,以及很强的计算能力,这种跨模态、跨领域的应用,应该是未来发展的一个增长点。

    颜水成:大部分人对于通用智能的理解,目前还停留在概念阶段。可能大家主要想的是通用人工智能是什么样的,但是对于怎么样让机器实现或者产生通用人工智能,其实讨论的不是特别多。总的来说通用人工智能暂时是遥不可及的事情。

    山世光:我把刚才这个问题换一个问法。比如说过去做人脸职别,我们可能连计算机识别领域的其他的子问题怎么做都不关心。但是现在不一样,现在要做人脸识别,只看人脸识别的论文肯定是不行了,还要看其他类似领域或者更通用的论文。从这个声图文这三个大的领域来说,它们之间的相互借鉴和技术层面的交叉,我觉得已经越来越多了。像CNN是从图像领域里面起来的,1989年就开始在做了。不知道俞凯老师是不是可以介绍一下,在语音方面的应用和图像方面的应用会有什么样的差别?

    颜水成:根据我的观察,在声图文领域里,声音的问题相对来说比较少一些,比如像语音识别、TTS、或者声纹识别,而图像领域的问题太多了,而且落地的方式比语音多很多。这也许是为什么计算机视觉领域的从业者比语音识别更多。

    山世光:俞凯老师同意这个观点吗?

    俞凯:我觉得颜水成老师是一语中的,但这个观点我肯定是不同意的(指声音领域的问题相对较少的观点),其实是语音的人看起来借鉴图像的人比较多。

    颜水成:但是深度学习在语音上是最早成功的。

    俞凯:实际上不只是深度学习,真正图像的人看语音的论文相对来说比较少的,这跟整个领域的覆盖有关,所以我觉得刚才是一语中的,主要就是对问题的挖掘,这跟整个的历史发展是相关的,这是事实。但是倒过来讲,我是不太同意的,原因很简单,语音放在那,它就是一个模态,里面涉及到环节非常多,所以就会出现一个现象,真正搞语音的人出来创业的比较少,特别难做,为什么呢?因为你必须什么都懂,包括那些学术界还没弄出来的,但是你必须弄出来,才能最终变成一个系统。

    颜水成:所以它是一个闭环的,包含麦克风阵列、降噪、语音识别等一系列问题。

    俞凯:语音最大的特点是什么呢?它不像图象,任何一个子问题马上都能看得见,你必须得绕一个圈,要么回答你了,要么看到识别的结果才可以。它的链条是非常长的,从刚才说到的硬件、软件、信号、特征、模型、再到后处理,这一系列完了之后才能看到一个结果,很难知道哪一块做的好或者做的不好,因此对后面的结果有重大的影响。如果你从中单独拎出去一块,想要直接评估它的指标并不是那么容易,所以这个是语音发展的一个特点。

    我为什么把它当做特点呢?因为它既是好处也是坏处。坏处就是说,对于整个领域的问题,大家的认识不够大,我也在联合一些语音圈的同仁,把一些问题明确的提出来。好处是什么呢?就像卖鞋一样,如果各位去卖鞋,你是会去都有鞋穿的地方去卖,还是去一个没有鞋穿的地方去卖?两个各有好处和坏处,如果都不穿鞋,你就没市场了。如果都穿了鞋,你怎么卖?市场饱和了。所以从语音的角度讲,我的感觉是,在研究问题的提出上可能是under-developed,但是在问题的解决上跟图像相比其实是over-developed。

    我举一些例子,比如刚才提到的互相借鉴的问题,大家直接就谈到了深度学习,很多人看待语音的角度,“不就是分类的问题嘛”,反正有深度学习的人,有图像领域的人,有全世界的人,大家都能解决这个事。好,我们都来借鉴,大家的成果都可以用。但是我看这个事,不是从分类的角度去看,我可能要去改它的criteria,什么意思呢?比如说,我们现在要做语音识别,我是给一定的声音,然后识别出文字,这是一个criterion,我训练的时候,在传统的语音识别模型里面,它是一个隐马尔可夫模型。我要训练的就是一个声学模型,如果我换一个特别难的criterion,就会使我的测试和训练是匹配的,就不会存在很直接的过训练的问题,因为过训练不单单是这个问题,还有一个准则不匹配的问题。

    所以我们很多时候会关注这样一类,这些角度是不一样的,实际上是在范式上有所不同。所以今天提到的大数据和深度学习这块,我的第二个观点是什么呢?我个人认为,从具体的深度学习方法中跳出来,其实在深度学习的发展历史中,它会经历范式的变化,在第一个十年,大概是06年到16年,实际上第一个八年吧,我认为深度学习和大数据的结合在传统机器学习范式上几乎达到饱和,后面还可以再研究,但是它的边际效益降低了。

    什么叫传统?比如说分类问题,比如说回归问题,它们的范式都有一个特点,我把这个特点称为开环学习。就是说你有一个模型,我有一个数据进来,你要优化一个准则,然后你出去,就这么简单,你只需要去想这个模型怎么变。但是从2013、2014年开始,出现了另外一个方向,这个方向可能跟大数据在一定程度上有矛盾,因为前面的开环学习,必须要有足够多的大数据,而且什么叫多?不是数量,一定指的是质量,要能够覆盖各种各样的可能性,完了之后你去学它,主要依靠大数据,以及模型强大的非线性运算的能力。到了后面出现了一个问题是,“我没有数据怎么办”,或者“我数据不均衡怎么办”。于是我们有了强化学习(reinforcement learning),生成对抗网络(GANs),还有微软的对偶学习(dual learning)。这些学习都有一个特点,可以归为一类,叫闭环学习,什么意思?它的数据也好,它的准则也好,它都不是一个开环的,都要有feedback signal,这个feddback signal往往是从不可预计的外部环境来的。

    在你们做了前面所有的学习的时候,比如监督学习(supervised learning),它的系统是你预先设计好的,所以你必须收集数据,必须预先设置好signal,但是到了第二个阶段,这些signal是没有设定好的,它是自己出来的。比如说强化学习,它是和环境交互,比如说生成式对抗网络和对偶学习,它是和自己交互。这个红利能持续多久,取决于这个范式的变化,这是我抛的第二个观点。

    山世光:其实我觉得视觉和语音领域,还是借鉴很多来自于自然语言理解领域的一些技术方法,比如说上一代的一些模型,已经在视觉领域里面用了好多年,在深度学习出来之前,基本上是这一套。那么除了这个之外的话,据您(李航老师)的了解,还有什么样的技术可能是在原理或者历史上,也借鉴了自然语言理解的技术?或者反过来说,自然语言的理解领域的同行们,他们会不会也关注语音或者视觉这些领域的进展?

    李航:刚才你说那个现象,以前可能在自然语言和其他的人工智能领域之间也是这样,大家不会关注视觉和语音方面的事情。现在这个界限慢慢越来越模糊了,大家会互相借鉴,这个现象可能是历史上没有发生过的。然后你们刚刚说的这个声图文,其实“文”里面有一个和声、图本质上不一样的地方,它有这个符号(symbol),它的本质的特点就是在语音识别以后,转换成了符号。在语言表达的时候,我们认为我们能够理解一些概念,传达一些概念的时候,其实是有对应的符号的,这个就是跟语音和图像不太一样的地方。

    说到深度学习,刚才俞凯老师说的我也挺同意的,2014年左右,有一个顶峰过去了,下一波从我们自然语言处理的角度来看的话,怎么样能够把深度学习的技术neural processing和symbol processing结合起来,是自然语言未来必然要去解决的问题。这里面有很多挑战,首先就是目前还不清楚人的大脑里面这种符号到底对应的是什么东西,怎么样能够像做CNN一样扩展现在的深度模型也不是很清楚。符号其实是挺硬的东西,而深度学习、神经网络是很软的东西,我们处理人的语言,包括对话的理解,从文本里面获取知识,理解文本的内容,这些应用都是需要这种软、硬处理的结合。我认为自然语言处理和深度学习未来发展的重要关键就是“怎样做neural symbolic processing”,这块是可能跟其他两类不太一样。

    声、图、文怎样落地?

    山世光:我最近其实特别羡慕做语音的,为什么这么说呢?因为语音这个领域,它处理的结果直接变成了符号,但是视觉这块,我们自己说一图胜千言,好象是说一张图可以有很多很多的符号出来,但是它其实和非常精确的命令,比如说我们去控制一个东西,和语音以及语言是直接相关的,从这点来讲的话,语音就有非常丰富的内容,可以很精确的去表达,这也是为什么说语音的应用比视觉更早了一步。特别是语音识别,跟自然语言理解的连接更加直接一点,而视觉这块就稍微弱了一点,但是最近两年有一个专门话题是vision和language(视觉和语言),大概是从2015年才开始的,之前也有人做,但是做的很烂。2015年之后看起来好像有一些声称通过了图灵测试,但是我觉得还是有点弱。从这点来讲的话,比如说做APP,我自己去创业的时候,别人都会说视觉能不能做一个单独的APP给用户用,而不是说作为一个锦上添花的东西嵌入到一个已有的系统里面去,是不是视觉会有这种缺陷?

    颜水成:现在还是有不少这种纯视觉的APP的,比如美图秀秀、FaceU,这些就是典型的视觉。我个人觉得视觉这个领域的话,因为它经常可以有不同的创新,比如说今年非常典型的热点就是短视频的生产和聚合,各大创业公司(以今日头条为代表),以及传统的IT公司(比如360、百度、腾讯),都在推动短视频,这些东西跟传统的纯粹图像分析不一样。短视频兴起后,你的计算模型的efficiency,推荐算法等,都会跟以前完全不一样。比如图文的时候,可以用surrounding text做一些事情,那么短视频出现之后的话,可能就没有什么太多的caption(字幕)或者title(标题)的东西,这个时候主要依赖的是视觉的东西。无论是学术界工业界,其实对短视频的分析的投入和研发的力度是加强了的。虽然声音还在里面,但是可能对于文本的依赖性变弱了。从视觉维度来说的话,深度学习和大数据结合红利又一波又要来了,而不是到了瓶颈期。

    山世光:就是视频的结构化、符号化和后端的搜索、应用的连接。

    李航:这是个挺好的例子,其实刚才我们提到的语音,俞凯老师做的东西跟语言相关,只不过是从语音对话的角度去看这个东西,其实语音和语言比较容易自然的结合在一起,现在已经变成一个相对比较大的领域。我对未来的预测是,真正做语音识别的人会越来越少,而做语音对话的人会越来越多,这是一个整体的大的领域,而语音识别是其中一部分。

    颜水成:对于语音对话这块,我个人的观点有点不一样,对话非常依赖于语料,这样的话,只有两类公司比较适合做这个事情。一类的话就是有search engine的公司,还有一类就是以腾讯、微软为代表的,有instant message产品的公司,比如微信、Skype。这些公司有天然的优势。

    李航:我们俩说的其实不矛盾,这个领域有这样的应用,那么自然就需要将语音、语言的处理技术融合起来。相对来说,传统的语音识别和语言处理的人会越来越少,而在更大的应用背景下,更大的技术范围内,人会越来越多,这是我的预测。

    俞凯:其实是这样,对话也分很多种类,刚才所说的open domain(开放领域),其实只是其中的一小类,而且是离商业化最远的一类。

    颜水成:但是老百姓最期待的可能是这个玩意。

    俞凯:其实不是,从投资的角度、以及技术的角度来讲的话,最集中的就是垂直领域的任务性对话,这个是一定的。

    颜水成:对,这是落地性非常好的,但是我们看到的科幻片,或者老百姓他不能区分什么是task,什么是open domain。他们想的是,可能会有一个新的机器人出现,它可以安慰我,给我提供各种各样的信息,但是我们现在真正能够提供的,还是像Alexa Skills这样的东西。

    俞凯:从这个角度来讲,其实那些比较open的语料,对于研究来说是有一定价值的,对于未来畅想也很有意思,但是从实际落地和真正的研究语义区分角度来讲,其实大公司并没有优势,原因非常简单,就是在机器学习的范式上,它不再是一个基于离线语料的学习,尤其是对话决策这一类,机器学习是需要在线和环境交互,才能真正去学的,而这样一类事情,全世界都才开始做。所以我觉得,细分下来的话,在对话的领域里面,至少有聊天、问答、任务性对话三个比较难的课题。我把open domain看成是特殊的聊天。

    这三种用的技术都不一样,而它的商业化模式区别也比较大。所以我会有一个感觉,可能细分能让大家把这件事看的更具体一点。回答刚才山世光老师提到的关于图像商业化这个问题,我也再说一个观点:不解决痛点,只解决痒点。什么意思呢?就是我一天不上微信,我简直就不行,我昨天两点钟到了宾馆,我睡觉之前一定要看微信,因为在飞机上没法看,那个是痛点,真的很痛,我如果忘了这个,比如说李老师给我发了微信,我如果不知道,这后面就麻烦了,但是如果我不打开那个对话APP,这是没事的,所以这是痒点,这一点特别关键,它到底是疼的还是痒的。而从视觉的角度上讲,其实我的感觉是有很多痛点的,而且比以前还痛,这就是为什么,虽然现在语音的发展潜力非常大,但是从现实的情况上来看,整体上视觉公司估值已经比语音这边高,而整个核心的应用是一个什么东西呢?安防。安防这件事情是非常清晰的应用。刚才提到的好几类,包括说这个APP的问题,第一要区分你做这个APP的性质是什么,到底是工具性,还是社交性的,如果连这个都不区分的话,你的方向就不清楚,你就不知道,技术在里面占多大比例,工具性的占的比例高一点,但是社交性的、游戏性的技术比例可能很低很低。而在安防领域,其实图像是完全dominant的。

    颜水成:安防其实也有个问题,其实公司都是都希望自己的技术能直接与用户做交互,而做安防的话其实是默默的在后台弄这个东西,普通老百姓不一定知道这个东西的存在,这可能是它的一个缺点。其实我觉得做视觉的人,还是希望能让用户看见,就是做2C(to customer)东西。

    俞凯:我个人感觉,如果是2C的话,也只有两种情况,一种情况就是你就是一个感知工具,这个感知工具是不可或缺的,比如输入法,这个在自然语言处理里面是完全不可或缺的东西。还有一个方向就是必须得是个系统,单独语音可能不行,单独图像可能也不行,它可能会以其中一个为主 ,但是必须是个系统。

    颜水成:我觉得可能要等到AR眼镜所有的技术都成熟了,而且用户量比较大了,才能够让视觉成为dominant的东西。

    山世光:会不会把希望寄托在了一件不可能发生的事情上?大家可以现场调研一下,有多少人愿意天天戴一个AR眼镜。

    颜水成:请问现场有多少人体验过HoloLens?(现场观众举手),看起来二十分之一都不到。我们现在在座的根本没有多少人知道AR当前的现状是怎样的,没有体验过AR眼镜目前处于什么水平。我第一次带HoloLens眼镜的时候,只是在实验室里面体验了十分钟,用起来特别麻烦,因为微软一定要把它的账号跟HoloLens绑起来,又不好输入,我又不熟,搞的非常痛苦。但是有一次我太太恰好去外边旅游,我一个人在家里,我就用了整整半天的时间,在家里把HoloLens设置好,把里面各种各样的功能体验了一遍,然后就觉得这个东西还不错,离我想象的科幻电影里的样子又近了一点,但是还是有问题,HoloLens太沉了,视野太窄,而且续航也不太给力。后来看到Lumus这个专门做光学镜片的公司,它的产品能够把信息从侧面投影出来,通过光波导这种形式把信号反射到你的眼睛里面,能把眼镜做的和真的眼镜大小差不多。这样的话,极有可能能做到一款和普通的眼镜大小差不多的AR眼镜。

    此外还有一些人在做SLAM技术,以及一些配套的手势控制的技术。特别是当我看到Lumus的那个眼镜,加上一个叫Infinity公司的SLAM技术,合在一起的时候,你就会觉得这个眼镜可以做的很小,并不是遥不可及的,我觉得AR眼镜发展的脚步比我们想象的快了一些。所以大家有机会的话,应该去体验一下。

    深度学习加大数据的模式会面临天花板吗?

    山世光:我们还是回到这个话题上来,我解读一下这个话题为什么这样去设置。其实这里面有两个问题。第一个问题是说深度学习加上大数据这样一个模式的,会不会出现天花板的情况?昨天余凯(地平线机器人创始人兼 CEO,前百度研究院执行院长)的PPT里面正好有一张图片,横坐标是数据量,纵坐标是performance,那么这个曲线的走势是会逐渐趋于平缓呢?还是会一直往上走?

    第二个问题就是天花板出现了之后怎么办,就是你有了大数据,但是达到了天花板,你还没有满足用户的需求,那你还有没有其他的技术。人很多时候并不是依靠大数据来学习,我们是不是在下一波里面会更重视这种不需要大量数据的学习算法。之前也有讨论,有多少人工智能,就有多少人工数据标注的工作,是不是可以避免这个问题?请三位从这两个角度解读一下。

    俞凯:我把我刚才说的扩展一下,先倒着来说,就是第二个问题,我的一个基本观点就是闭环的将会成为未来的一个研究主流,甚至有可能是工业界的主流,它最大的特点就是对于人工标注数据的需求大大降低,这个是我特别明确的感受。比如GAN,它是机器自己生成数据,只是这个生成方法是闭环的,所以使得它生成的数据特别好,要是强化学习的话,直接和环境进行交互,它们利用都不是一个一个正常的、离线的、大规模的人工预标注。因此从第二个问题的角度上讲,我会认为闭环学习是一个比较大的方向。另外一个事情就是,观看机器学习的整体发展进程,我特别同意李老师的观点,他说的是符号学习和深度学习,我的观点就是数据和知识双驱动,我觉得这个方向将会是未来特别特别重要的方向。

    李航:关于第一个问题,其实大数据永远解决不了长尾问题,自然语言处理的这个倾向非常明显。比如说现在的输入法、语音识别,在有专有名词、术语、或者夹杂英语单词的时候,肯定识别不好,不管你灌多大的数据。因为你收集的语料越多,新词的量也在同时增加,永远会有长尾的词出现,那么怎么样去处理?至少现在用深度学习或者自然语言处理的方法,还不能很好的解决这个问题,其实语音识别也是一样的,还没有完全解决这个问题。但是人肯定不会有这个问题,一个是语言的使用能力,你可以认为是人类几百万年进化出来的能力,让你在听到一个陌生的单词的时候,可以利用你的语言能力做推理,做联想,做判断,来弥补这些问题。我们现在的深度学习,或者整个人工智能领域都没有这样的技术去弥补这样的事情。这块的话,明显说明大数据、深度学习不是万能的。我们可以在未来短期的时间里面,解决一些问题,比如刚才说到这个输入法的问题,我可以把它变成personalised(个性化),或者是context dependent(基于上下文)来处理,可能做的更好一些。模型上,我可以嫁接在sequence to sequence learning这种大的框架里面,我可以把一些事情做的很漂亮,也很有效。但是本质上,并不是像人一样处理长尾现象,因此大数据、深度学习肯定不是万能的。

    山世光:其实之前俞凯老师讲到自动驾驶的时候,就有一个collide case,比如说车祸,它其实不是经常发生的,很难采集这样的数据,但是这个我们也有讨论,是不是可以合成这样的数据。但是如果能合成出来大量的这类数据,而且是很接近真实的,那也许就不需要深度学习了,因为你本来就知道这个事情怎么产生的。

    颜水成:其实说到长尾问题,让我想起去年在上海纽约大学,Zhang Zheng老师组织了一个关于neural science vs. computer science的讨论。人是怎么解决长尾的问题呢?当时我们就觉得人脑里面有可能有两个模型,一个叫参数模型,一个叫非参模型。其实长尾这个东西,可能就是由几个instance存在那里。参数模型或者深度学习的模型有两个能力,一个是能分类,能做prediction,同时还有一个能力,就是能判断对这个样本(能)不能prediction,(如果不能,)那么就把这个样本拉出来,用非参方法一一比较一下。

    人是怎么处理长尾问题的呢?我们当时有一个假设,其实也没有很多道理,就是听起来比较reasonable。你的学习过程中非参样本是逐渐增多的,比较多的时候就形成一个概念,参数模型就会增加一个节点。但是当你长久不看,就遗忘了,有些概念就消失了,有些样本就会退回到参数模型里面,这可能能够解释,为什么有些时候你会觉得有个东西可能认识,但是死活都想不起来,这个时候就意味着参数模型不能识别样本是么东西,但是可能在非参模型里有。在非参模型存的数据可能非常非常多,这样的话就不停地去搜,不断地想,想着想着就想出来了,有可能在非参数模型就把它匹配上了。

    李航:其实我不太同意这个观点。人是肯定是有这部分的能力,这是模式识别的思维方式。比如你第一次听“他在微信里潜水”这句话,你可能要琢磨一下这是什么意思,你第一次听,你可能会想潜水有什么特性,做一些联想,然后大概猜出这个是什么意思,这是个长尾的事情,语言理解原理有部分是联想,也有一些推理,当然你得到的结论也不一定对,有可能误解了。对这块认知科学也没有说清楚,人的推理,或者自然的联想,或者比喻的能力(理解比喻和造比喻的能力),到底有什么不同?我个人理解,有一部分能力已经超脱了模式识别的能力。让现在的计算机架构做这样的事情的话,相当于需要做穷举的全集的近似度计算,当然也不完全是这么回事儿,但是人为什么能够很快地做这样的相似度计算,判断说这个事情是这么个事。

    俞凯:我觉得刚刚颜水成老师说的这个角度我是比较同意的,他说的两种不同的方式去做,一个方式是计算的方式,另外一个方式是存储和寻址的方式。这两个方式的结合实际上是人脑的一个点,计算的方式需要存的东西比较少,但是需要在线去推理,寻址的话就相当于比较简单的映射。

    山世光:我觉得李航老师说这个,它不仅仅是一个简单的存储,而是可以去联想,可以举一反三的。

    俞凯:长尾的数据问题,其实还有另外的一件事情,目前学术界不是特别重视,但是工业界其实特别重视,未来很可能会推动大数据和深度学习的结合。由于传统问题很多被解决了,所以它会推动新问题的产生,这个新问题是什么呢?我举例子,就是刚才提到的performnce问题,这个指标,不是真实的产业界定的,是学术界在最开始定义这个问题的时候提出的,比如说我举这个例子——词错率(word error rate),但是这个指标现在看起来好像已经快达到饱和了,人们就会说,实际上99%和97%的识别率有差别吗?那么什么东西有差别呢?我们就要想,语义理解可能有差别,那么你怎么定义有效的语义理解?你定义出来以后,你的输入就不是文字的语义理解了,你现在说的是语音,现在识别的有错误,在这个错误的情况下,导致的理解是什么样,你就把它连成一个新问题,这个问题可能就会变成对于语音终极的理解的误差有多少,但是这个误差怎么定义现在没有一个共识。我觉得这会产生一系列新的问题,而这些问题会推动深度学习新的模式和新型态的大数据结构的发展。

    如何评价AI的整体进步?

    山世光:我觉得这个非常好,我在计算所经常跟一些做系统的人打交道,他们就特别不理解我们这个领域,他们认为,“你们老是说今天有进步,明天有进步,到底这个AI领域的进步是怎么评价的?”他们的评价标准很清楚,有个benchmark,新机器造出来,把这个benchmark一跑,我现在是多少,原来是多少,很清楚,但是整个AI界他们找不到能够理解的,你去年是这个指标,明年是这么一个指标,怎么评价AI整个的发展?最后大家没办法,寄希望于图灵测试,但是图灵测试不能很好的度量进步。这样一个指标是不是我们这个领域值得思考的问题?

    俞凯:我觉得指标会不断地变化。其实说白了,任何科学最关键的是先定义问题,然后才是怎么去解决它。科学的发展往往是问题导向的,我感觉现在就处在一个新问题出现的前夜,但是这种事在学术界其实很难被人承认的。根据我自己的经验,我曾经投过很多关于变一个criterion的论文,但是这种论文被接收的概率比我改一个算法被接收概率要低得多。

    颜水成:其实图像跟语音、语义还有另外一个很明显的差别。图像是一个universal problem,无论中国还是美国做的其实是一模一样的,但是语音和语义还有一个language问题,即使外国做的很好,但是那个模型并不一定能够在中文上做到非常好的效果,这个可能还是有一些差别的。

    山世光:再回到刚才的这个问题上,我想问一下俞凯老师,在语音识别的这个领域,你刚才提到词错率这个指标基本上要饱和了,这是说再增加更多的数据性能也没法上升了呢?还是说已经做的足够好了?

    俞凯:我们这个概念就是说相对错误率的下降。在语音识别历史上,相对错误率下降30%属于历史上大的进步,之前还有几个技术也是这样,相对错误率下降30%,可问题是我现在的错误率只是10%,你相对下降30%这个概念,已经变成了7%,你再相对30%,变到了多少?你会发现实际的绝对值特别小。我说的饱和就是表面上看技术还是在不断地进步,但是给人的感觉就是,对于这个问题本身,它的边际效应已经特别低了。现在比较难的是处理抗噪、俩人同时说话等问题。因为这样的东西,它的错误率特别特别的高,那样的情况,它的研究价值就大于工业价值,否则很多事就让工业去做了。之前微软将Conversational Speech Recognition的词错率做到了5.9%,和人的错误率已经一样了。从某种意义上讲,在限定的条件下,这事已经算解决了,但是在非限定条件下或者非配合条件下,这个事情才刚刚开始。

    关于无监督学习

    山世光:回到“如何在没有大量的数据情况下怎么去做学习”的这个问题。之前我们也讨论,一个思路就是做强化学习,做交互相关的这种可能。另外一个就是说贝叶斯网络和深度学习的结合形成一套新的机制,也许可以在一定程度上解决这样的问题,大家是同意还是批判?

    李航:贝叶斯网络那个不好评论。但是我觉得非监督学习一定要小心,其实非监督学习指的东西现在越来越不一样了,传统的非监督学习真的是一大堆数据,learning from the scratch,找到这个数据里的规律,没有任何指导。我们人其实无师自通能学到一些东西,听起来好像能做这个非监督学习,但是这个能力的本质是不一样的。人类进化这么长时间,我们学习的能力在DNA里面已经有了。我们生长的过程当中,学到了大量的知识,也就是说成年之前学到很多东西,在成年的时候,一般的人学任何一个东西,你也可能说小数据,或者无监督的学习,但是其实之前的那些知识、能力都会帮助你。这种意义上其实大家也在做,就是迁移学习,半监督学习,最近他们比较关注的meta learning(谷歌提出来的东西)。就是说我学各种各样的分类器,各种各样的知识,这些东西怎么样能有效的结合起来,帮助我只用小数据或者不用数据,就能把这些新的东西学好,这样学习的范式更接近人,比如Bayesian Program Learning这种新的想法,都是在朝这个方向走。要么人给的知识,要么机器自动学的各种各样的知识,如何把这些有效的利用起来,再去学新的知识,这块我觉得是很有意思的方向。

    山世光:我觉得李航老师说的这个引到了一个非常重要的话题上来。我就观察我家小孩,我感觉他在七八岁之前,学每一个技能其实都挺困难的,比如你让他系个扣子的话(这个跟智能没有什么关系),他要学蛮久的,但是你会发现他不同层面、不同角度的能力,在逐渐积累一段时间之后,在有了自学的能力时候,智力的发育不是线性的,那时候就会突然爆发性的自己去学。这个对机器来说,它可能有视觉、听觉等各种各样的能力,但是没有把这些结合在一起,去诞生一个智力,这块如果有突破话真的会是一个大的突破。

    俞凯:我的感觉其实还是反馈通道的问题。其实很多时候是因为扣子系不好无所谓,他不知道应该把扣子系好,或者说扣子系不好就没有批评他。就是他的学习能力强了,我感觉有一个很重要的问题,他无时无刻都有新的数据接触,这些数据是没有label的,但是有compact,所以他对compact感知形成了一种感知能力的时候,他有这个信号了,然后他就可以把整个的学习流程,加上好的结构,然后贯穿起来。小的时候是因为这个信号就很简单,打一下疼了,饿了就叫,这是非常简单的。当这个compact越来越丰富,而且当他越来越能理解这个compact以后,他的学习能力才能体现出来,我感觉这也是对外部认知反馈信号的能力。

    李航:这个我同意。小脑最基本的能力都像是监督学习(supervised learning),而大脑和其他海马体还不太一样。小脑的话,比如小的时候学游泳,学骑自行车,通过大量的训练,后面有一定的能力积累之后,这些动作都是一样的,还包括走路。在这个环境里面,就像俞凯老师现在说的,你有一些反馈,然后你会根据reward去调整,以组合的方式去学习。

    山世光:这好像也不不仅仅是小脑,刚开始学一加一等于二这个基础的时候也不那么容易,当然对于我们来说非常非常容易,但是他开始的时候其实不是那么容易,不过到了一定时间之后就会很快。

    李航:反正也有相似的地方吧,我也同意,好像不太完全一样。这样形容比较好,我感觉学动作这样的东西,和学知识性的东西(数学、语言),仔细观察的话也不太一样。

    现场Q&A

    问:刚才俞凯老师提到的闭环学习,像生成式对抗网络这种,虽然说它不需要很多标注数据,但是还是需要很多数据的。还有之前提到的one shot learning,它之所以能够从一个样本学出来,是因为它需要很多经验知识。所以我觉得所谓的这些小数据它还是需要很多大数据来给它提供经验知识的,所以想听听四位老师的看法。

    俞凯:我刚才在那个观点里提了两条,第一条是从开环学习到闭环学习,第二条就是从数据驱动到知识和数据双驱动,恰好就把这两条都说了。我觉得这里面有一个关键点,就是无标注的数据和有标注的数据是有本质区别的。因为无标注的数据你可以认为它的获取是没有cost的,就像一个人的成长一样,你只要在社会里面,在现实世界里面,你就会接收到这些数据,所以这件事可以认为是没有cost的。如果说可以使用比较无标注的数据,通过闭环的办法,使得无标注数据的内部结构可以被发现,这件事本身就是一个非常大的进步,你可以认为它是不需要数据的,我一般指的是不需要有标注的数据,我认为这个至少在现阶段是一个可以被认可的点。

    第二个事情就是one shot learning问题。实际上就是像人学习一样,当我们说人能够学的很厉害,不单单意味着人这个个体有学习能力,还意味着你也上学。如果你不上学,没有知识的积累,也没有办法变的很厉害。所以当你说需要这些经验知识的时候,我觉得这个不能说需要大数据,那个东西不是一般意义上的数据,更多的是某种模型结构的积累,就是刚才前面提到的有监督的、非监督的,参数、非参数的,非参数那部分就有可能是寻址,他去寻你的memory里面的址,那个memory是人类的记忆,这种记忆是结构化的记忆。所以这个东西是经过人类多年的积累已经现存的东西,它不是一个需要重新获取的东西。我的观点就是会有这个范式的变化,但是这两个模式都是未来很重要的模式。

    颜水成:人的学习并不是start from scratch,其实从父母的基因那你已经继承了很多有用的信息过来了,那个也是通过大数据积累起来的东西。至于one shot learning,其实人有一个能力就是,新的class(类别)出现之后,就可以很快对这个新的concept(概念)建立一个模型出来。早期的时候有人做了一些研究,就是说你假设有了一个一千类的模型,现在又有了一个新的类,但是我给你的数据就是三四张图片,那你怎么样可以把这个一千类模型adapt成一个一千零一类的模型。此前有人做过相关的研究,但是后来这块基本确实没有人来做了,但是我觉得这个方向其实还是有一定的学术价值的。

    李航:关于人的基因里面语言学习的能力,有很多的研究,有一个很有名的例子,就是观察小孩如何学习英语动词的过去时态。研究发现,小孩在以开始的时候是基于实例来学的,如果你说“Daddy came home”,然后他就会说“Daddy came home”,也没有generalize,过了一段时间他发现这个动词的过去时都会加ED,小孩就会困惑,有一段时间既会说“Daddy came home”,又会说“Daddy comed home”,就会出错。再过一段时间,就真正学会了过去式有特殊的变化形式。他会准确的说“Daddy came home”,同时也知道别的动词是加“ed”。从这个例子可以看出来,人在语言学习的过程中,有generalization的能力,但是开始的时候就是基于instance,比如你说“came”,他就记住“came”,后来他就会尝试有保守的去做generalization,有时候还会做over-generalization,但是又会做简单的调整,最后能够正确的把这些区分的比较好。还有很多其他的例子,这说明人还是有先天的能力的,否则很难解释怎么那么快学到这些东西,但是这个现象还是非常复杂的。

    展开全文
  • 大数据是政府的事吗?数据资源都是大数据吗?大数据应用存在哪些问题?互联网+大数据是什么关系?常讲的哪些大数据应用是片面的?企业可以从哪些方向入手大数据应用?摘要:新一代信息技术与创新2.0的互动催生了...

    大数据是政府的事吗?数据资源都是大数据吗?

    大数据应用存在哪些问题?互联网+大数据是什么关系?

    常讲的哪些大数据应用是片面的?企业可以从哪些方向入手大数据应用?

    摘要:

    新一代信息技术与创新2.0的互动催生了大数据,生动诠释了数字时代、知识社会创新形态的嬗变,进一步消融了创新的边界,推动了创新2.0时代组织形态、社会形态等的深刻变革。然而在政府大数据领域,由于概念混乱、认识偏差,也出现了肝虚火旺、舍本逐末等诸多乱象。

    近日,资深信息化专家、中国信息协会副会长胡小明在“创新2.0研究群”就政府大数据应用的效益难题、常见困难、片面认识进行了反思探讨,并就如何认识大数据的本质、脚踏实地推进政府大数据发展及其应用趋势进行了分析,引发业界对政府大数据应用的共鸣与讨论。

    一、政府大数据应用效益难题

    1.缺少利用大数据决策的成功案例

    在智慧城市建设中,以支持政府决策为名的大数据中心建设如火如荼,但利用大数据改进决策的成功案例却鲜有,与大数据中心的投资不成比例,令人质疑大数据中心遍地开花模式的合理性。

    2.行政推动大数据应用效果不好

    大数据应用本是一个经济学问题,国内大数据应用却太行政化了,地区之间的大数据应用评比给地方政府很大的压力,为了争取好的名次,只能为大数据而大数据,使大数据应用背离了实事求是的目标,大数据已沦为某些地方政府自我宣传的招牌,离实际业务需求渐行渐远。

    3.大数据概念混乱影响了常规数据

    管理大数据最初的概念是指“现有技术处理不了的大规模数据”,为了更多利用大数据的优惠政策,大数据概念被人为的扩展了,认为政府数据集中起来都是大数据,一些地方政府成立大数据局就包含政府所有的数据管理,大数据概念的扩展造成应用的混乱,传统有效的数据管理被忽视。大数据应用需要因地制宜,中小城市做好传统数据整合管理是第一位的,并不都需要推行大数据应用,更不都需要建大数据中心,大数据概念的混乱阻碍各地政府实事求是地解决本地区的数据管理问题。

    4.大数据理念需要反思

    过度宣传大数据作用必然会形成迷信,以为大数据无所不能,该迷信只会增加盲目建设的浪费,前些年为信息共享而共享的浪费已是前车之鉴,大数据应用正在蹈其覆辙,为大数据而大数据的做法正在蔓延,大数据应用有价值亦有边界,超越边界推行必然适得其反,大数据应用理念需要反思。

    二、政府大数据分析应用常见困难

    1.找不到适合的大数据资源大数据分析研究首要的问题是大数据从哪里来?

    虽然大数据中心存有不少数据,但适合解决领导急需问题的数据缺之又缺,不用的时候数据却多之又多,大数据应用是对业务积累数据的再利用,不像统计调查可以根据需要进行调查设计,因此缺乏适用的数据经常是大数据决策应用的常态。

    2.大数据分析对应不上领导的需求

    数据专家利用大数据中心的资源也能够分析出一些结论,但是这些结论业务部门早已知道,即使一些有价值的成果也会因与领导层当时的关注点不合拍而被冷落。政府工作有自己的优先级,领导层不可能放下重要的工作去落实专家提出的建议,数据导向产生的分析成果很难与领导注意力的优先级合拍。

    3.数据挖掘因人而异不可复制

    从大数据中提取信息不是IT技术自己能完成的工作,计算机并没有信息抽象能力,这种能力专家才有,同样的数据不同人看到的信息是不一样的,同样的信息决策分析的结论也不相同,信息提取与决策分析依赖于专家的智慧,这种认知决策的过程IT难以复制,难以形成规模,难以形成稳定的效益。

    4.决策的不确定性超出IT能力

    利用大数据改进决策的难题是决策本身的不确定性。确定性问题的信息是完备的,IT处理只是一种计算,信息技术很容易发挥其优势;但是信息技术不会处理政府决策不确定性问题,这是人脑擅长的领域,解决此类问题的信息和分析能力主要来自决策者的头脑。

    决策问题的不确定性是大数据决策应用效益不好的根本原因。

    三、流行的大数据应用观点的片面性

    1.大数据作用不只是改进决策

    流行的大数据观点将政府大数据应用局限于改进决策,改进决策固然重要,但这并不是信息技术擅长的领域,信息技术擅长的领域是在数据层次上的操作,而不是在信息层次上分析。

    政府数据更大的作用是提高政府公共服务的效率,政府提倡的“只跑一次”、“一号、一窗、一网”式服务都是数据层次上的大数据应用,应用并不是改进决策而是提高服务效率,是公众最能够产生获得感的领域。

    2.对大数据的局限性缺乏认识

    流行观念认为科学决策依赖的只是数据,数据越多信息越多,决策越正确,大数据将成为获取信息的主渠道,政府决策可以建立在大数据基础之上。然而实际情况并非如此,政府决策信息来自诸多方面,不只是数字化信息,很多重要的信息难以数字化,决策者需要综合考虑,大数据产生于相对狭窄的业务领域,适合于具体业务的改进,并不适合政府的宏观决策。

    3.并非所有数据都是资源

    “数据都是资源”的观念是错误的,数据是否资源要由使用者因具体环境而定,正是在“数据都是资源”的误导下,一些大数据中心积极囤积数据,以囤积的数据规模显示大数据工作的成绩,使许多数据中心堆满大量数据垃圾,笔者认为大数据中心应当以应用为导向,整合有用数据,清理无用数据,数据使用效益会更好。

    4.仅靠大数据不能实现科学决策

    过度的大数据宣传已形成乌托邦式梦想,以为只要有充分的大数据资源就可以实现政府的科学决策,就可以建设完备的城市大脑,实现政府决策的科学化、智能化,建成智慧政府。其实大数据资源有其优点也有其片面性,大数据的规模是以其关注面的狭窄性为代价的,政府决策需要全面均衡,仅靠大数据资源是做不到的。况且对于不确定性问题的很多信息是不可预测的,靠大数据自动决策没有可行性。

    四、企业大数据业务的另类思路

    1.企业大数据应用成为流程型服务

    企业大数据应用与政府有很大不同,企业是效益导向的,成功的大数据应用首先是一项流程型服务业务,如网上搜索、地址导航、网上支付、电子商务、摩拜单车、移动通信等,企业的大数据业务被设计为长远的可持续业务,惟此才能有更大的效益和更大的社会影响力,才能建立起公众的信任,流程型服务业务本身是核心的大数据业务,大数据分析是辅助性业务。

    2.直接处理实时数据

    企业的大数据业务核心是直接利用实时数据进行操作,移动通信的实时数据是为了联通基站以便完成通信,网上支付利用实时数据是为了完成准确的支付,搜索服务利用客户发来的搜索要求进行查询,总之,这些大数据服务业务是直接使用业务流实时产生的数据进行操作,活跃的大数据业务建立在实时数据的基础之上,对沉淀的业务数据的分析研究只是为了改进主流业务,如亚马逊利用历史数据分析向用户推荐新书。

    3. 排除人脑参与的智能系统会更快

    在企业流程化的业务中,全过程是智能化自动化处理,流程化业务是数据层次上的业务,没有人脑的参与没有信息抽象的过程,排除人脑的参与是提高系统运行效率的关键,也是保证服务结果一致性的关键。人脑直接参与业务流程不仅会拖延业务效率还会造成业务的中断。政府利用大数据分析决策是信息层次上的业务,无法避免人脑参与,因而无法形成连续性服务业务,效率不可能高。

    4. 大数据业务的两个层次

    企业的大数据应用分两个层次进行,一个是数据层次上的应用,系统直接使用实时数据进行操作处理,系统是流程型自动运行的,直接对外服务。这是企业的主营业务,效益由该业务产生。例如移动通信的主营业务就是实现用户的通信服务。

    企业大数据业务的另一个层次是信息层次上的大数据应用,其使用的是流程型业务积累下来的数据,以数据挖掘、数据分析获取数据集中包含的信息来改进主营业务的效率。这是在信息层次上的业务,是业务数据的再利用。通常信息层次上的大数据分析业务是公司的辅助性业务。对移动通信业务积累的数据进行分析,挖掘出用户的需求特点,向用户推荐套餐,增加公司收益。

    五、“互联网 + ”都是大数据业务

    1. 效率来自组织化,互联网重组

    世界城市提高生产力的基本措施是推动社会经济合作的组织化,效率来源于更好的资源配置与业务的合作。有效的合作关系沉淀下来就成为相对稳定的组织,城市生产力大发展是不断组织化的结果,互联网是优化重组的新式武器,近几十年全球生产力大发展主要来自互联网对社会组织化的贡献。

    2. 信息技术推动万事万物的连接

    社会生产力的重组与合作包括人与人、人与物、物与物的连接与重组,重组是提高效率的主要渠道,信息技术是生产资源组织的通用工具。信息技术之前的自动化技术不规范,它们是利用物理、化学、机械等机理专门设计的,设计复杂且难以规范化,使得自动化推广复制异常困难,信息技术的出现把自动化设计变成硬件基础与软件开发两大过程,极大提高自动化开发的效率,带来创新的繁荣,信息技术成为实现事物重组的核心工具。

    3. 数字化设备之间靠数据实现连接

    信息技术对物体的连接需要被连接的物体实现数字化,物体需要装上芯片,实现数字化,能够理解数字信号。信息技术只能连接已被数字化的物体,摩尔定律的伟大贡献在于使万事万物数字化的成本降到几乎为零,数以亿计的芯片、传感器、移动手机都能够通过网络与数据进行重组,数字化设备靠传递数据实现连接,大规模数字化设施的连接构成大数据爆炸的物理基础 。

    大规模数字化设施的有效连接依赖的就是数据,“互联网 + ”连接的设施规模越来越大,发送与接收的数据量越来越多,互联网连接设施爆炸使连接交换的数据也随之爆炸性增长,因此所有“互联网 + ”业务都是大数据业务。

    六、拓展政府大数据应用理念创造效益

    1.大数据的应用不再局限改进决策政府要从认知型大数据应用理念中解脱出来,从更广阔的大数据视野出发,更开放更创新看待大数据应用。政府大数据应用既要为领导决策服务,又要为基层工作人员改进操作服务,通过数据挖掘、统计分析为领导层提供决策建议是一种重要的大数据应用,认真整合微观的数据,为基层业务服务,提高公共服务效率同样是重要的大数据应用,而且是更有效的大数据应用。

    2. 面向基层确定性业务应用易有成效

    大多数政府建立的数据应用系统依然把对上服务作为重点,对基层服务重视不够,当前对基层的服务更为迫切,基层业务工作的确定性更强,更容易取得效益,对基层服务也是信息技术更容易发挥作用的领域,将政府大数据服务向基层倾斜,对提高数据操作效率为主的应用更容易产生效果。

    目前政府对公众服务碰到的问题是效率低,主要原因是对当事人办事的相关资料组织的不好,连不上、调不出且把麻烦推给办事人,数据整合可以改善这种服务,让用户“只跑一次”是数据层次上的大数据应用,也是更容易见成效的大数据应用。

    3.城市大脑更适合做小脑型业务

    城市大脑由大数据中心及城市运行管理中心构成,人们期望利用大数据来改善城市的自动化管理。城市的管理很复杂,有确定性任务与不确定性任务,信息技术并不都能胜任,有些任务必须由专家来承担。

    不确定性的工作是信息层次上的业务,无法用自动化程序来胜任,这些工作主要还是要靠人脑来完成,称之为大脑型业务,需要组织专家来承担。

    确定性的业务是在数据层次上操作,可以建成智能化的业务流程,让信息技术直接对数据进行处理,此类业务不需要对数据进行信息抽象,不需要形成概念,称之为小脑型业务。

    信息系统适合做的是小脑型业务,城市大数据中心和城市运行中心要定位在小脑型业务上才更容易看到成效。

    4.推动公共服务智能化、业务分析专业化

    一切智能化业务都是大数据业务,政府大数据业务的重要方向是推动公共服务的智能化,政府应当学习企业的服务模式,充分利用企业对外服务的经验改进政府工作,通过政企合作将政府的服务能力达到企业级的服务水平。

    政府的大数据分析研究工作要以政府专业化部门为中心,越是专业化的部门,大数据分析越能够发挥作用,专业化的大数据搜集更容易做,专业化的大数据中心更容易生存。

    七、政府大数据应用趋势

    1.政府公共服务效率全面提升

    政府提出的口号“只跑一次”、“一号、一窗、一网”目标明确易于检查,提高数据处理效率的业务是确定性的任务,只要认真做好数据整合,目标容易实现,提高公共服务的用户满意度是国家推动的重点,各地区都会努力跟进,全国公共服务的效率会迅速提高,跨地区的公共服务会逐渐增加。

    2.政府公共服务向智能化发展

    政府公共服务进一步提高是向智能化服务发展,在大数据、云计算、物联网、人工智能技术大发展的环境下,智能化系统建设会越来越快,IT企业将在智能化方面开展竞争,将更多进入政府系统的长期运行维护领域,政府公共服务业务的智能化是最容易产生效果的领域,公共服务智能化最能够激发公众的获得感,会成为智慧城市亮点,竞争必将全面提高公共服务智能化的水平。

    3.大数据分析向专业化、集中化发展

    政府大数据分析主要依赖专家的智慧,专家的稀缺使这项工作无法各地普及,大数据分析研究工作会向专业化、集中化发展,会形成一些高水平的研究机构,承接大型的大数据分析任务,该机构会通过云平台向社会提供多样化的分析软件工具,供各地政府使用,地方的大数据分析业务会以政研室为主与外部专业化机构合作推进。大数据中心热会随之降温,将重点业务转向常规业务数据的精细化管理。

    4.可视化应用成为热点

    隐私保护难以解决及数据价值难以评估,大数据交易热不会产生,而可视化数据发布会成为热点。拥有大数据资源的企业可以制作可视化数据产品向社会发布,以显示企业的能力,政府向企业定制采购可视化数据了解有关趋势,可视化数据不仅能绕过隐私保护的困难且能加快信息沟通,必将成为大数据时代信息传递的重要方式,政府数据、企业数据向社会开放都会大量采用该模式。

    5.政企合作大势所趋

    互联网巨头企业的信息技术能力、创新能力、大数据处理能力远远超越政府,阿里、腾讯、百度、华为等企业越来越多投入智慧城市建设,政府与企业竞相签订协议,利用企业的资金与技术点燃政府公共服务的新亮点,大型IT企业与政府合作是提高政府智能化水平、大数据应用水平的捷径,政企合作模式会加剧智慧城市建设的竞争,改变智慧城市的创新节奏,使智慧城市建设进入全面创新的新时代。

    展开全文
  • 本次分享嘉宾彭靖田来自华为,他的分享题目是《华为在深度学习平台上的优化实践》。实录将从深度学习平台的架构、优化等几个方面,介绍华为在深度学习平台上的实践。本文由才云科技供稿。 彭靖田:华为中软大数据...

    “Kubernetes Meetup 中国 2017”——北京站3.18落幕啦!本次分享嘉宾彭靖田来自华为,他的分享题目是《华为在深度学习平台上的优化实践》。实录将从深度学习平台的架构、优化等几个方面,介绍华为在深度学习平台上的实践。本文由才云科技供稿。

    彭靖田:华为中软大数据工程师。2016年毕业于浙大竺可桢学院求是科学班,加州大学圣迭戈分校访问学者。毕业加入华为后,主要从事深度学习平台的设计和研发工作,专注开源社区。先后在 TensorFlow 社区独立贡献了 Mnist 分布式模型、VariableAsGradients、InitWithoutInitializer 等特性。同时,从 Kubernetes v1.3开始,参与维护 Kubernetes 社区 CentOS 平台相关脚本。

    今天第一部分主要讲华为在深度学习方面的应用需求以及华为在深度学习平台遇到的一些挑战。第二部分是讲华为深度学习平台的架构、优化以及经验。

    图片描述

    这两年,深度学习取得了突破性发展。尤其是在语音识别和图像识别这两方面。

    在 ImageNet 图像分类任务上,AI 现在的错误率2.9%已经超越人类5%了。去年的 AlphaGo 又一次在围棋领域打败了人类顶尖高手李世石。今年年初的时候,AlphaGo 2.0 Master 大败中日韩三国高手,围棋领域也被 AI 突破。最近深度学习还被应用在在图像风格迁移 Prisma 和皮肤癌诊断。

    图片描述

    那么华为面临的是一个怎样的深度学习应用需求呢?答案是,要做业务的智能化。

    华为多年来积累了大量宝贵的数据和行业经验。虽然大家这么多年来接触的可能就是华为手机,华为终端,华为路由器,但是其实华为主营的是运营商业务。大家可以看到,华为有一个达到万亿美元的网络存量,服务全球三分之一的人口,业务开展范围辐射到全球170多个国家。那么如何通过 AI 技术来提升我们的服务质量?

    图片描述

    搭建深度学习平台会遇到哪些挑战呢?我觉得可以分下面4部分来讲:

    1.深度神经网络本身具有模型复杂,计算量大,训练数据多,通信密集的困难
    2.支持大模型(更深更宽的网络)
    3.支持多框架(TensorFlow,MXNet等)
    4.支持大规模 GPU 集群的调度
    从这四个角度可以描述遇到的挑战。

    图片描述

    我们对外提供智能服务,内置了 CNN,RNN,RL 等模型。同时支持数据并行,模型并行,混合并行和任务并行四种并行模式。并且,我们在平台上实现了计算加速,通信加速和模型压缩等优化技术。底层我们实现了自己的一套作业调度引擎,对接 Kubernetes 的资源调度。硬件平台兼容 CPU/GPU/ARM 和我们华为的麒麟芯片,网络兼容 Ethernet 和 InfiniBand。

    图片描述

    Normalization 是深度学习领域常用的优化技术,Batch Normalization 已经在 CNN 领域取得了广泛应用。ICLR 2017 Hinton 提出的 Layer Normalization 则有效解决了 RNN 的计算加速问题,两者本质都是在解决深层网络梯度弥散/爆炸的问题。

    图片描述

    接下来讲讲基于剪枝和量化的模型压缩。

    通常,在训练结束后,全连接层和卷积层有大量参数值是接近于0的,对于 inference 的贡献很少。我们可以设置一个接近0的 threshold,将小于它的值设为0。这样可以将稠密参数矩阵中大量0值点剪掉,转换为稀疏的参数矩阵,这一步剪枝可以实现9倍左右的压缩。但是压缩完之后,我们还是觉得不够,我们还可以做量化,虽然我们用32bit 的单精度去存储每一个 weight,但是这个 weight 真正的值的分布类型其实比较少。大部分的 weights 是比较靠近的,这个时候我们想做量化。我们把 32bit 的变成一个 2bit 的 Unit,整个参数的值,比如这个是I类,这个类型附近的值都用它来代替,其它也是一样的,那这样的话,我们就把 32bit 的 weights 变成了 2bit 的 weights。这样的压缩效果是16倍,但是后来发现,这样虽然压缩效果很好,但是对于准确率的影响是比较大的。所以我们就采用了8bit一个量化,压缩效果是4倍。

    图片描述

    接下来讲的是 SVD 分解。

    当参数很大的时候要怎么办呢,这个时候可以使用 SVD 分解,比如说我有一个大矩阵,换成三个小矩阵,进行瘦身,这样的好处是,被压缩了,因为存储变小了;第二个是量变小了,小了之后可以进行加速,SVD 分解,所以模型压缩也是一个很直观的方法。大家可以看到,经过5倍的压缩之后,损失几乎没有。

    图片描述

    通信加速我们选择在高性能计算领域广泛使用的 MPI,我们开发了 MPI 版 TensorFlow,使用 MPI 传输数据,控制面仍然走 gRPC。我们用 MPI 的方式进行通信,在 VGG 上面,我们看到它提速了2.7倍,计算速度明显提升;加速比增长幅度也很大。

    图片描述

    这个是我们自主研发的协议栈,大家看到,TensorFlow 在分布式的时候,如果要发送到另一个节点,减少了内核态向用户态的数据拷贝,仍然使 TensorFlow 的 gRPC,大概有40%的性能提升。

    图片描述

    简单讲下我们在深度学习平台上的应用,神经机器翻译。大家知道,现在官方的神经机器翻译只有一个单机单卡版本的,训练速度比较慢。

    我们以英语到法语的翻译为例,它其实先建立了英语和法语的语言模型,每一个词在它的语言模型里面都有一个对应的 embedded vector,比如我输入的是一个单词,再到 LSTM 里面,它会把所有的句子之类都存下来,这个信息的多少跟参数是有关系的,然后放到 decoder 那里,最后再放到 RNN 的网络,然后这边对应的也是一个个的单词,这些单词会被映射到法语里面。

    图片描述

    这一块的话,我们实现分布式神经机器翻译,2个节点,8个 GPU,处理速度提升4倍多,达到23316(words/s)。

    图片描述

    这个是在我们华为应用商城上线的伏羲推荐系统。现在大概有百万级的 App 在各大应用市场,同质化很严重。比如我想选用一个好用的 App,同类型的APP有好几十种,用户选择成本非常高。

    现在的话,我们就去学习用户搜索和浏览习惯,做到真正去了解用户想要什么。第二个方法是抽取百亿规模的用户特征,画一个用户画像,实现华为有亿级的注册用户,千万级日活用户,所以点击转化量是非常高的。

    图片描述

    总结一下,华为有着广泛的深度学习应用需求和优势,我们在为全球170多个国家提供服务,拥有万亿美元的网络存量和上亿终端用户数据,我们希望通过深度学习等技术将这些高价值数据利用起来,加速华为业务智能化转型。

    第二,我们兼容原生的 TensorFlow 和 MXNet 接口。
    第三,我们拥有自主研发的 MPI 版 TensorFlow 和自研协议栈。

    图片描述

    展开全文
  • 华为宣布开源了CarbonData项目,该项目于6月3日通过Apache社区投票,成功进入Apache孵化器。CarbonData是一种低时延查询、存储和计算分离的轻量化文件存储格式。那么相比SQL on Hadoop方案、传统NoSQL或相对Elastic...

    华为宣布开源了CarbonData项目,该项目于6月3日通过Apache社区投票,成功进入Apache孵化器。CarbonData是一种低时延查询、存储和计算分离的轻量化文件存储格式。那么相比SQL on Hadoop方案、传统NoSQL或相对ElasticSearch等搜索系统,CarbonData具有什么样的优势呢?CarbonData的技术架构是什么样子的?未来有什么样的规划?我们采访了CarbonData项目的技术负责人为大家解惑。

    InfoQ:请问CarbonData是什么时候开始进行的项目?为什么现在向Apache孵化器开源呢?开源发展历程和项目目前状态是怎么样的?

    CarbonData:CarbonData项目是华为公司从多年数据处理经验和行业理解中逐步积累起来的,2015年我们对系统进行了一次架构重构,使其演化为HDFS上的一套通用的列式存储,支持和Spark引擎对接后形成一套分布式OLAP分析的解决方案。

    华为一直是面向电信、金融、IT企业等用户提供大数据平台解决方案的供应商,从众多客户场景中我们不断提炼数据特征,总结出了一些典型的对大数据分析的诉求,逐步形成了CarbonData这个架构。

    因为在IT领域,只有开源开放,才能最终让更多的客户和合作伙伴的数据连接在一起,产生更大商业价值。开源是为了构建E2E生态,CarbonData是数据存储层技术,要发挥价值,需要与计算层、查询层有效集成在一起,形成完成真正的生态发挥价值。

    又因为Apache是目前大数据领域最权威的开源组织,其中的Hadoop,Spark已成为大数据开源的事实标准,我们也非常认可Apache以Community驱动技术进步的理念,所以我们选择进入Apache,与社区一同构建能力,使CarbonData融入大数据生态。

    目前CarbonData开源项目已经在6月3日通过Apache社区投票,成功进入Apache孵化器。

    相关社区信息如下:Apache CarbonData github地址:https://github.com/apache/incubator-carbondata

    欢迎大家参与到Apache CarbonData社区:https://github.com/apache/incubator-carbondata/blob/master/docs/How-to-contribute-to-Apache-CarbonData.md

    InfoQ:请问是什么原因或机遇促使您们产生做CarbonData这个项目的想法的?之前的项目中遇到什么样的困难?

    CarbonData:我们一直面临着很多高性能数据分析诉求,在传统的做法里,一般是使用数据库加BI工具实现报表、DashBoard和交互式查询等业务,但随着企业数据日益增大,业务驱动的分析灵活性要求逐渐增大,也有部分客户希望有除SQL外更强大的分析功能,所以传统的方式渐渐满足不了客户需求,让我们产生了做CarbonData这个项目的想法。

    需求一般来源于几方面。

    第一,在部署上,区别于以往的单机系统,企业客户希望有一套分布式方案来应对日益增多的数据,随时可以通过增加通用服务器的方式scale out横向扩展。

    第二,在业务功能上,很多企业的业务都处在从传统数据库逐渐转移到大数据平台的迁移过程中,这就要求大数据平台要有较高兼容老业务的能力,这里面主要包含的是对完整的标准SQL支持,以及多种分析场景的支持。同时为了节约成本,企业希望“一份数据支持多种使用场景”,例如大规模扫描和计算的批处理场景,OLAP多维交互式分析场景,明细数据即席查询,主键低时延点查,以及对实时数据的实时查询等场景,都希望平台能给予支持,且达到秒级查询响应。

    第三,在易用性上,企业客户以往使用BI工具,业务分析的OLAP模型是需要在BI工具中建立的,这就会导致有的场景下数据模型的灵活性和分析手段受到限制,而在大数据时代,大数据开源领域已经形成了一个生态系统,社区随时都在进步,经常会冒出一些新型的分析工具,所以企业客户都希望能跟随社区不断改进自己的系统,在自己的数据里快速用上新型的分析工具,得到更大的商业价值。

    要同时达到上诉要求,无疑对大数据平台是一个很大的挑战。为了满足这些要求,我们开始不断在实际项目中积累经验,也尝试了很多不同的解决方案,但都没有发现能用一套方案解决所有问题。

    大家首先会想到的是,在涉及到低时延查询的分布式存储中,一般常用的是KV型NoSQL数据库(如HBase,Cassandra),可以解决主键低时延查询的问题,但如果业务的查询模式稍作改变,例如对多维度灵活组合的查询,就会使点查变为全表扫描,使性能急剧下降。有的场景下,这时可以通过加入二级索引来缓解该问题,但这又带来了二级索引的维护和同步等管理问题,所以KV型存储并不是解决企业问题的通用方案。

    那么,如果要解决通用的多维查询问题,有时我们会想到用多维时序数据库的方案(如Linkedin Pinot),他们的特点是数据都以时间序列的方式进入系统并经过数据预聚合和建立索引,因为是预计算,所以应对多维查询时非常快,数据也非常及时,同时具备多维分析和实时处理的优点,在性能监控、实时指标分析的场景里应用较多。但它在支持的查询类型上也有一定限制,因为做了数据预计算,所以这种架构一般无法应对明细数据查询,以及不支持Join多表关联分析,这无疑给企业使用场景带来了一定的限制。

    另外一类是搜索系统(如Apache Solr,ElasticSearch),搜索系统可以做多维汇总也可以查询明细数据,它也具备基于倒排索引的快速布尔查询,并发也较高,似乎正是我们希望寻找的方案。但在实际应用中我们发现两个问题:一是由于搜索系统一般是针对非结构化数据而设计的,系统的数据膨胀率一般都比较高,在企业关系型数据模型下数据存储不够紧凑,造成数据量较大,二是搜索系统的数据组织方式和计算引擎密切相关,这就导致了数据入库后只能用相应的搜索引擎处理,这又一定程度打破了企业客户希望应用多种社区分析工具的初衷,所以搜索系统也有他自己的适用场景。

    最后一类系统,就是目前社区里大量涌现的SQL on Hadoop方案,以Hive, SparkSQL, Flink为代表,这类系统的特点是计算和存储相分离,针对存储在HDFS上的文件提供标准SQL功能,他们在部署性和易用性上可以满足企业客户需求,业务场景上也能覆盖扫描,汇聚,详单等各类场景,可见可以将他们视为一类通用的解决方案。为了提高性能,Spark,Flink等开源项目通过不断优化自身架构提升计算性能,但提升重点都放在计算引擎和SQL优化器的增强上,在存储和数据组织上改进并不是重点。

    所以,可以看出当前的很多大数据系统虽然都能支持各类查询场景,但他们都是偏向某一类场景设计的,在不是其目标场景的情况下要么不支持要么退化为全表扫描,所以导致企业为了应对批处理,多维分析,明细数据查询等场景,客户常常需要通过复制多份数据,每种场景要维护一套数据。

    CarbonData的设计初衷正是为了打破这种限制,做到只保存一份数据,最优化地支撑多种使用场景

    InfoQ:能否具体谈谈CarbonData的技术架构?有何特征和优势呢?

    CarbonData:整个大数据时代的开启,可以说是源自于Google的MapReduce论文,他引发了Hadoop开源项目以及后续一系列的生态发展。他的“伟大”之处在于计算和存储解耦的架构,使企业的部分业务(主要是批处理)从传统的垂直方案中解放出来,计算和存储可以按需扩展极大提升了业务发展的敏捷性,让众多企业普及了这一计算模式,从中受益。

    虽然MapReduce开启了大数据时代,但它是通过纯粹的暴力扫描+分布式计算来提升批处理性能,所以并不能解决客户对所有查询场景的低时延查询要求。

    在目前的生态中,最接近于客户要求的其实是搜索引擎类方案。通过良好的数据组织和索引,搜索引擎能提供多种快速的查询功能,但偏偏搜索引擎的存储层又和计算引擎是紧耦合的,并不符合企业对”一份数据,多种场景”的期望。

    这给了我们启发,我们何不为通用计算引擎打造更一个高效的数据组织来满足客户需求呢,做到既利用计算和存储解耦架构又能提供高性能查询。抱着这个想法,我们启动了CarbonData项目。针对更多的业务,使计算和存储相分离,这也成了CarbonData的架构设计理念

    确立了这个理念后,我们很自然地选择了基于HDFS+通用计算引擎的架构,因为这个架构可以很好地提供Scale out能力。下一步我们问自己这个架构里还缺什么?这个架构中,HDFS提供文件的复制和读写能力,计算引擎负责读取文件和分布式计算,分工很明确,可以说他们分别定位于解决存储管理和计算的问题。但不难看出,为了适应更多场景,HDFS做了很大的“牺牲”,它牺牲了对文件内容的理解,正是由于放弃了对文件内容的理解,导致计算只能通过全扫描的方式来进行,可以说最终导致的是存储和计算都无法很好的利用数据特征来做优化。

    所以针对这个问题,我们把CarbonData的发力重点放在对数据组织的优化上,通过数据组织最终是要提升IO性能和计算性能。为此,CarbonData做了如下工作。

    CarbonData基础特性

    1. 多维数据聚集:在入库时对数据按多个维度进行重新组织,使数据在“多维空间上更内聚”,在存储上获得更好的压缩率,在计算上获得更好的数据过滤效率。
    2. 带索引的列存文件结构:首先,CarbonData为多类场景设计了多个级别的索引,并融入了一些搜索的特性,有跨文件的多维索引,文件内的多维索引,每列的minmax索引,以及列内的倒排索引等。其次,为了适应HDFS的存储特点,CarbonData的索引和数据文件存放在一起,一部分索引本身就是数据,另一部分索引存放在文件的元数据结构中,他们都能随HDFS提供本地化的访问能力。
    3. 列组:整体上,CarbonData是一种列存结构,但相对于行存来说,列存结构在应对明细数据查询时会有数据还原代价高的问题,所以为了提升明显数据查询性能,CarbonData支持列组的存储方式,用户可以把某些不常作为过滤条件但又需要作为结果集返回的字段作为列组来存储,经过CarbonData编码后会将这些字段使用行存的方式来存储以提升查询性能。
    4. 数据类型:目前CarbonData支持所有数据库的常用基本类型,以及Array,Struct复杂嵌套类型。同时社区也有人提出支持Map数据类型,我们计划未来添加Map数据类型。
    5. 压缩:目前CarbonData支持Snappy压缩,压缩是针对每列分别进行的,因为列存的特点使得压缩非常高效。数据压缩率基于应用场景不同一般在2到8之间。
    6. Hadoop集成:通过支持InputFormat/OutputFormat接口,CarbonData可以利用Hadoop的分布式优点,也能在所有以Hadoop为基础的生态系统中使用。

    CarbonData高级特性

    1. 可计算的编码方式:除了常见的Delta,RLE,Dictionary,BitPacking等编码方式外,CarbonData还支持将多列进行联合编码,以及应用了全局字典编码来实现免解码的计算,计算框架可以直接使用经过编码的数据来做聚合,排序等计算,这对需要大量shuffle的查询来说性能提升非常明显。
    2. 与计算引擎联合优化:为了高效利用CarbonData经过优化后的数据组织,CarbonData提供了有针对性的优化策略,目前CarbonData社区首先做了和Spark的深度集成,其中基于SparkSQL框架增强了过滤下压,延迟物化,增量入库等特性,同时支持所有DataFrame API。相信未来通过社区的努力,会有更多的计算框架与CarbonData集成,发挥数据组织的价值。

    目前这些特性都已经合入Apache CarbonData主干,欢迎大家使用。

    InfoQ:在哪些场景推荐使用呢?性能测试结果如何?有没有应用案例,目前在国内的使用情况和用户规模?

    CarbonData:推荐场景:希望一份存储同时满足快速扫描,多维分析,明细数据查询的场景。在华为的客户使用案例中,对比业界已有的列存方案,CarbonData可以带来5~30倍性能提升

    性能测试数据及应用案例等更多信息,请关注微信公众号ApacheCarbonData,及社区https://github.com/apache/incubator-carbondata

    InfoQ:CarbonData能和当前正火的Spark完美结合吗?还能兼容哪些主流框架呢?

    CarbonData:目前CarbonData已与Spark做了深度集成,具体见上述高级特性。

    InfoQ:您们的项目在未来有什么样的发展规划?还会增加什么功能吗?如何保证开源之后的项目的持续维护工作呢?

    CarbonData:接下来社区重点工作是,提升系统易用性、完善生态集成(如:与Flink,Kafka等集成,实现数据实时导入CarbonData)。

    CarbonData开源的第一个月,就有几百个commits提交,和20多个贡献者参与,所以后续这个项目会持续的活跃。10多个核心贡献者也将会持续参与社区建设。

    InfoQ:在CarbonData设计研发并进入Apache孵化器的过程中,经历了哪些阶段,经历过的最大困难是什么?有什么样的感受或经验可以和大家分享的吗?

    CarbonData:CarbonData团队大多数人都有参与Apache Hadoop、Spark等社区开发的经验,我们对社区流程和工作方式都很熟悉。最大的困难是进入孵化器阶段,去说服Apache社区接纳大数据生态新的高性能数据格式CarbonData。我们通过5月份在美国奥斯丁的开源盛会OSCON上,做CarbonData技术主题演讲和现场DEMO演示,展示了CarbonData优秀的架构和良好的性能效果。

    InfoQ:您们是一个团队吗?如何保证您们团队的优秀成长?

    CarbonData:CarbonData团队是一个全球化的(工程师来自中国、美国、印度)团队,这种全球化工作模式的经验积累,让我们能快速的适应Apache开源社区工作模式。

     

    http://carbondata.apache.org/

    展开全文
  • 携程大数据平台负责人张翼分享携程的实时大数据平台的迭代,按照时间线介绍采用的技术以及踩过的坑。携程最初基于稳定和成熟度选择了Storm+Kafka,解决了数据共享、资源控制、监控告警、依赖管理等问题之后基本上...
  • 一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高...
  • 华为宣布开源了CarbonData项目,该项目于6月3日通过Apache社区投票,成功进入Apache孵化器。CarbonData是一种低时延查询、存储和计算分离的轻量化文件存储格式。那么相比SQL on Hadoop方案、传统NoSQL或相对Elastic...
  • 大数据到底是什么?我们为什么需要大数据技术?从本质上来说,大数据就是曾经被称为数据仓库的逻辑延伸。顾名思义,大数据就是一个大型的数据仓库,一般有一个能支持业务决策的业务重点。但是,它和传统数据库不同的是...
  • 一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高...
  • 大数据时代已经到来,社区最近组织了“大数据时代企业的精准化和个性化管理及服务实践线上交流探讨”,并邀请专家陈星星撰写了《大数据时代背景教育企业的精准化和个性化管理及服务实践》(点击标题可阅读),为广大...
  • 2017年,大数据这把火烧了六年,依然没有减弱的征兆。过去一年,话题的热点已经不再是大数据概念和定义,而是集中在大数据的应用。大多数企业老板已经明白什么是大数据,开始关心数据如何与业务结合,提升企业盈利...
  • 飞速发展的大数据产业除了改变人们生活的方方面面、促进社会快速进步之外,也为企业这个社会主体带来了更为直观和有效的影响。 近年,企业级大数据应用逐渐普及,消费者行为分析、精准营销、新业务新产品推广、广告...
  • 一、大数据中的数据仓库和Mpp数据库如何选型? 在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高...
  • 2017年,大数据这把火烧了六年,依然没有减弱的征兆。过去一年,话题的热点已经不再是大数据概念和定义,而是集中在大数据的应用。大多数企业老板已经明白什么是大数据,开始关心数据如何与业务结合,提升企业盈利...
  • 互联网数据时代,构建数据...2011年,阿里巴巴遇到了前所未有的困难与麻烦,并且发生了一系列不可预测的变化。尽管在电子商务领域阿里一枝独秀,但面对淘宝的假货风波、支付宝股权变更以及十大网商评选过程被质疑等...
  • 俗话说“一个好汉三个帮”,在当今这个多样的世界,指望凭借...华为当然清楚的明白这一点,这不,新年刚刚过去,华为就在厦门举行第二届华为IT分销合作伙伴大会。在大会上,华为宣布将联合IT分销合作伙伴继续打造...
  • 2020大数据面经整理

    2020-03-28 14:34:15
    一、快手大数据开发工程师面经 作者:恶魔木魅妈妈咪 链接:https://www.nowcoder.com/discuss/392528 来源:牛客网 一面(40min) 1、自我介绍? 2、Spark任务调度(源码)? SparkDeploySchedularBackend :   ...
  • 今天分享的是学习群的一个研二女生,她在国企电网工作两年后读研,随后零基础开始接触开发的学习,在春季实习的时候拿了一些大厂的大数据开发offer。 自我介绍 我原来是电气专业的,工作了两年,转的软件...
  • 大数据是企业服务市场中的新兴领域,短短几年时间,大数据概念从兴起到落地,开始在各行各业发挥作用,行业政策频出,技术飞速发展,受到资本追捧。 整个大数据行业可大致分为三层,底层基础平台,中间层通用技术,...
1 2 3 4 5 ... 20
收藏数 1,548
精华内容 619