订阅云计算RSS CSDN首页> 云计算

张东:大数据开启行业化应用浪潮

发表于2014-12-13 16:50| 次阅读| 来源CSDN| 0 条评论| 作者刘亚琼

摘要:浪潮云计算产品研发部总经理张东结合中国大数据产业发展的现状指出,行业市场是中国大数据产业发展的关键,中国要发展自己的大数据核心技术加速行业应用。

【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

浪潮云计算产品研发部总经理张东通过对互联网和传统行业的对比,结合中国大数据产业发展的现状指出,行业市场是中国大数据产业发展的关键,中国要发展自己的大数据核心技术加速行业应用。张东特别指出,大数据已经逐渐发展成为一个极具潜力新兴产业,将成为解决中国经济、政治转型期的重要手段,发展中国大数据产业必须首先掌握大数据的关键技术,为大数据的行业化应用奠定基础。云海大数据一体机是国产化软硬件一体的创新数据处理平台,针对重载应用、通用数据挖掘、海量并发数据处理及对高安全、高可靠有极端要求的四类应用处理场景,实现了全环节覆盖。


浪潮云计算产品研发部总经理 张东

以下为演讲实录:

各位领导、各位嘉宾大家下午好,今天非常高兴有机会在这里跟大家分享一下浪潮在大数据里面的工作,前面学校里来的教授讲了很多技术层面的工作,从浪潮来讲,我们做的更多的是在产业里面如何把大数据技术在用户端用起来,今天讲讲目前整个大数据在中国的认识以及浪潮做的一些工作。

本次演讲有三个方面,首先是从云计算怎么到大数据;第二,介绍浪潮在行业大数据的解决方案;最后是一些案例,我们这方面给大家举两个具体在行业方面大数据应用的案例。这个数字可能大家看得有很多了,左边这个大家会强调的非常多,互联网行业确实在中国发展很快,在世界上发展确实也是不错,在中国在传统的行业里面这里面举几个例子,都是金融、电信、电力,这些行业实际上已经成为中国最大的市场,中国人多,大家每个人去银行开一个户这个数字相当庞大了。在传统行业里面其实也积累了相当多的数据,这里面我们跟其他人聊的时候,总是感觉中国现在一下子进入了大数据时代,在国外是从有数据做数据分析,从小规模开始,小样本采集逐步到大样本,中国一下子蹦到大样本,相对来讲它的基础都是比较薄弱的,大数据在中国机会是非常多的,如果我们看大数据在这些行业的应用,可能在这里面还没有说我们特别需要很高深的技术在这里用起来,我们解决很多问题,数据归结问题,数据收集整理以及一些基本的数据模型问题才能把大数据的技术用起来。

在行业里面我们这个图其实画很多年,为什么这里展示给大家,我们觉得从我们一开始讲行业信息化,到后面出现云计算,热炒云计算现在开始出现大数据大家好像又在热炒大数据,原来都是手工操作到最后建立自己的信息化系统,这些系统都是孤立的,到一步一步把系统聚集起来形成集中式的数据中心,慢慢形成云的数据中心,再后面我们深层次思考这些行业聚集起来的行业数据是不是反过来推动行业的发展,以前我们说业务系统推动它的发展,这些行业积累数据是不是反过来可以促进它的发展,然后对数据的加工应用实现现代化。

前面最原始的状态我们不讲了,行业整体状况,我做一个业务,这个业务怎么做好,这个业务处理流程怎么样的,可能用到哪些数据,把数据搞过来然后存下来,这种处理最后结果造成业务孤岛,每个每个之间的数据没办法融合,最后走到融合阶段,把融合起来的数据然后做成数据。绝大部分中国应用处于以业务为中心构建信息化的系统,我们一直讲信息孤岛,为什么形成孤岛?因为它考虑这个业务就是考虑自己,他用到的数据有可能是别人的,但是我也要存一份我要搞数据库,掌握在我自己手里,数据孤岛、格式孤岛非常严重的。现在我们如何推动这些行业逐步逐步由业务驱动走向数据驱动,怎么让我们行业应用走到数据融合这一步,开始融合组织内部、行业内部的数据,基于这些数据能够创造一些价值,让我们客户看到你数据融合起来是有用的。这一点可能现在很多人都做这一部分的工作,我怎么样让行业用户认识到数据的作用。最后我们真正以数据为中心构建的信息系统。我考虑信息化系统首先想我在我组织里面我有哪些数据,我能收集哪些数据,我怎么进行存放和处理,这些数据怎么为我业务服务,怎么反过来指导我业务做得更精细,把你整个的工作做得更好,节省人力,提升你的效力,使我们信息系统未来成为智慧城市,或者智慧的金融等等像这样的系统发展。

可能刚才说了半天在行业里面的大数据大家可能很多人有疑问,大数据有很多数据,为什么像浪潮这样公司或者我们很多公司盯着这一部分,我们有互联网的数据,可能还有一些数据在科技计算里面产生的,在现在HPC的系统,或者天气预报的系统里面也有庞大的数据。但是行业里面具有行业很多的特点,首先一个特点是说这个也是我们在跟很多行业用户接触的过程中发现的,就是说在整个的数据最开始的采集阶段就会面临很多很多问题,我们经常说这个数据可能需要做清晰,数据质量不行,我们发现很多行业里面数据质量非常高,因为数据都是定量采集,公安行业有所有人的户籍信息,它那里面没有什么不正确的数据,这些数据相互之间共享做得非常差。共享差可能有各方面的原因,比如说有政策原因,制度原因,这些人主观方面不愿意共享的原因,从我们搞技术的人来讲我们也会分析,从技术上面我们是不是有办法能够消除这些人的顾虑,能够让他们愿意把这些数据共享起来。即使在一个行业里面公安里面可能户籍信息跟刑侦信息交通队的信息他们互相之间也是不通的,如果把信息泄露出去,看到某一个人所有亲属关系在网上找谁去,在以前肯定搞户籍的人出问题了,如果互通变成一个大平台可能很多人追查责任都找不到。在这个层面上对于技术层面那就要采取一些措施要能够让他们相信这些数据是可以有一个很有效的方法而且是很安全的方法能够共享给大家。能够让需要这个数据的人只看到他需要的那一小部分数据而不是得到所有数据,这个是摆在我们行业大数据里面首先面临的一个相当大的问题,应用系统最后做着做着做不下去了因为拿不到数据是一个很大的问题。

在分析处理阶段我们觉得在行业用户里面相当大的困难就是现有的我们讲大数据的系统,既然讲大数据的系统肯定跟以前的数据处理系统或者我们简单拿一个文件用一个系统很大的区别,现有系统目前为止做的比较差,整个开发友好性非常差的,这一点我们整个的推广过程中深有体会,我们找ISV,发现传统行业的ISV确实在这个平台上面开发的难度远远大于我们用数据库用中间件,在那个领域有很成熟的开发接口,很成熟开发工具大家来用,在Hadoop平台或者Spark平台上面可能需要完全不同由另外一帮人做这个程序,而且做的这个过程可能很复杂。我们任何一个应用的迁移从原有平台迁移过来要花费的时间都是以月为单位,以年为单位的。这个很大程度上妨碍了大数据很多新技术在行业里面应用,这些行业用户没办法像互联网那样养那么多人,没有办法做这个事情。

最后一个就是说我们觉得还是在展现阶段,同样现有的技术在数据展现方面做得不够好,特别是大数据的展现,数据多到一定的时候可能不是我给你一个很简单的结果,每个人希望看到很直观的结果,这种很直观的结果很多时候呈现不出来,你需要立体可视化的结构才能让大家看到很直观的结果。

还有行业里面,大数据用到行业里面,很多人说有很好硬件,有很好软件平台,有Hadoop和Spark等等,但是没有人帮你把经验翻译成数学上的语言,也没有人给你建这个模型,也没有人把这个模型转化成程序,最后跑到大数据平台上去,结果你建一个大数据的平台还是不会用。

针对我们前面讲到从数据采集共享的阶段,处理阶段没有一个好的平台,我们现在也是在这方面做了一些尝试,我们知道浪潮现在主要客户还是在行业里面,我们帮助行业用户提升他的信息化水平,同样我们在大数据方面,这是我们现在整个大数据的处理平台,从底层的硬件,这块大家知道这是浪潮的优势,我们在硬件方面从计算、存储,当然也包括一部分网络方面做了一些优化,能够为大数据处理提供高速可靠的基础设施。同时在软件层面我们也是针对前面提到这些问题尝试去建立一个能够让我们ISV用起来更方便的软件平台。这里面其实列到很多技术都是开源的技术,我们也没有办法说一个一个把这些技术都优化很好,只能说是尽量把这些技术组合起来,让我们应用开发商能够做得更舒服一点。

下面我可能会讲到一些技术,有一些现在已经在我们大数据平台里面用到的,有一些是面向未来可能一两年两三年,甚至三五年的时候出现的一些新技术。首先在硬件基础设施里面,第一个硬件架构,第二个异购计算单元,第三个大容量内存,最后一个高速互联。

融合架构在硬件这个层面提了好几年,在这之前有不同的融合架构的产品出来,这里我们做了一个梳理,我们觉得以前很多融合可能只要讲的是说我怎么把更多硬件,把服务器、存储、网络塞到一个柜子里去,我们做的是下一代的融合架构。一个机壳可能有IT部分,有计算,有存储,有网络,有IO,也有非IT部分,我们现在把非IT部分剥离出来,整个柜子里面所有风扇电源都是统一的,单一节点只有计算、存储、IO,实现硬件设施很高的这样一个密度和高利用率。最后讲到高速互联的技术,这是我们正在做的下一代产品,将存储硬件、IO首先从我们单一的硬件里面把它拿出去做池化,未来实现我们板子上只有CPU和内存,我所有存储节点、IO形成统一的资源池你可以实行任意分配,实现初步的融合。下一点还要继续拆解,把CPU和内存再拆开,形成CPU池和内存池,硬件重构加上软件定义就是未来发展模式,你要一个CPU,我可以在资源池动态给你组建一个机子出来,我任意一台机器你想要多大IO,在我柜子能放得下的空间之内都能满足你,硬件进一步走向把计算、存储、网络都放在一起。

第二个趋势就是在异购计算方面,前面我们讲云计算大数据,我们对于用户云计算大数据策略上面一直坚持这一点,不同的应用,不同的计算类型其实需要不同节点来支撑的。这里面可能有计算密集型的,可能有存储密集型的,实际上即使对于大数据来讲也有不同的需要,我们可能有用户买了一套系统主要作用是为了存储,上面做的处理很简单,这里面更偏重我给更大的硬盘,计算能力可以差一点,对有的用户来讲计算量很大实际上存储量没有那么大,就需要更高计算的能力。针对处理密集型采用更强计算能力单元加速整个的计算这是异购计算这一方面。在未来可以根据你不同的需要,我给你搭配不同的计算单元。比如说每个CPU给你配上两个GPU这样你整个计算能力更强。

第三讲大容量内存,前面孙元浩他们也有人提到关于内存计算方面,包括用SSD替代硬盘,我们讲的大容量内存这是我们正在下一代机器里面做到,用非易失存储替代部分易失存储,内存你要做得特别大,对整个作用提升还是非常明显,整个内存计算也好,都是依赖高速存储和比较大的内存。你要把内存做得大,你从硬件成本来讲可能承受不了,现在一个两路机器做到上T,可以做10个T,20个T但是非常贵,这就用一部分非易失的存储,用Flash等,容量比原来大很多,大10倍20倍都可以,这依赖相关技术的发展,我们近期把传统Flash绑在一起,但是对于硬件来讲是内存不是硬盘,在大数据里面可能应用存储还是硬盘,但是前端你计算部分可以实现完全没有硬盘,你是用易失存储和非易失存储搭建的机群处理你整个的业务。

最后关注高速互联方面,整个计算里面考虑到性能无外乎CPU的速度,内存的大小,CPU和内存之间的通道加上你IO。你CPU跟存储器的带宽,节点和节点之间的带宽,最终都会影响到你整个系统的性能,在高速互联也有很大发展,首先是PCIe互联,这个已经比较成熟,这是我们下一代用到节点之间用到PCIe的互联,一定范围之内提升整个互联的效率。

下一代基于硅光点,实现两个机柜、三个机柜不同范围之内的接连,我怎么把IO从我板子上面全部剥离出来,在一个柜子里面IO都在一起了,你传统在板子上互联,你达不到一定带宽做不到这一点,而硅光点解决我怎么实现池化,池子和池子之间非常好的高速互联技术,可能在两三年之内就会在新硬件下面使用,它可以实现在板子和板子之间400GB高速度的互联,比现在至少提升20倍以上。

前面讲到我们在硬件方面正在做的一些工作,在软件方面刚才提到了对于我的SQL来讲我希望底下处理平台是多样的,我不同数据需要不同东西处理,但是我不想搞得那么复杂,首先第一个对于混合处理,面向多样性的场景里面,我们在大数据管理平台内置不同的模块,有的来自开源软件,有的来自我们第三方软件,有Hadoop、有Spark、有SQL数据库等等都会搁在同一个系统里面。你东西多了对于写编程的人很头疼,我们会在上面给大家提供一个接口。

这个在优化和增强方面前面其实很多学者都已经讲过了,在自身应用算法,在热点数据均衡感知等等方面做了一些工作,对现有平台的优化会比原来性能提升很多。同时我们也会在这个平台里面集成易用增强的工具方便大家数据导入进来,方便大家对平台管理。

第三个在安全方面,安全是妨碍现在大家愿意把数据共享非常重要的一个原因,很多人觉得我把数据共享出去可能控制不了,所以他不愿意把数据共享出去,这个里面我们建立面向大数据的安全体系,硬件层面不讲了,主要是在大数据的现有几个平台里面,最终能够建立一个基于Hadoop、Spark这样一个多租户平台,让大家真的能够在这个平台实现多个租户使用,而不是说这个平台放在这里面以后谁想看都可以看,把传统操作系统里面用到防务控制策略用到我们大数据平台里。

大家举两个例子,这两个例子从底层平台到上面的应用都是浪潮集团做的。首先第一个是公安的例子,这个刚才说了在公安系统里面数据确实很多,大家每个人很多数据在它那都能找到,再加上摄象头越来越多,数据量对它来讲是很大的问题。一个地级市现在一年给它建几个PB的存储,完全满足不了需要,它原有系统都是孤立的,系统放在那查违章找人一张一张去看,现在查违章可以自动通过照片识别出来,这离我们真正的平安城市智慧城市差距很大的。这里面结合我们浪潮整个云计算的平台,给它建立这样一个平台,首先把它所有业务云化,比如说一个城市级市级公安有几百台服务器,变成一个云计算的系统比它原来规模小很多,然后把它现有所有的数据全部从原有业务系统里面归置到同一个系统里面,我们一期还是以Hadoop为主,后期很多新的业务都在大数据平台上,它的业务还在跑在老的平台,通过业务整合形成很大数据的资源池,除了自己内部数据以外也从外部引入一些数据这个上面做一些创新应用,以前业务主要都是管理为主,管理户籍,出入境,还有旅馆信息就是备案,这里面做了多点联控的系统。

另外在税务里面大数据平台,因为税务原来以前大家报税的信息在税务局不是那么完整,慢慢随着所有信息归拢到税务信息里面,实际上可以从税务信息分析出很多数据来,每一笔交易最后都可以在税务系统查得到的,而且他们现在把各省的数据集中到全国,通过税务信息其实可以分析出很多新的结果。

这个就是整个综合治税数据平台,从整合到形成数据仓库,最后查到你经营情况跟你报税情况一直不一致,我们相关业务部门其实他们会去除了用税务数据以外,在网上找到一些相关的数据,比如说淘宝上的记录,可能在上面的交易数据和报给这边数据就会是不一样的,这里面就会找到一些相关的线索。同时这些数据也是通过这个平台给一些第三方机构来使用,比如说银行可以用你纳税的记录为它的征信系统进行服务。谢谢大家!

更多精彩内容,请关注直播专题2014中国大数据技术大会(BDTC) ,新浪微博@CSDN云计算,订阅CSDN大数据微信号。

0
0