订阅云计算RSS CSDN首页> 云计算

中国移动研究院孙少陵:大数据实时处理技术发展趋势及中国移动实践和展望

发表于2013-12-05 11:03| 次阅读| 来源CSDN| 0 条评论| 作者周小璐

摘要:12月4日工信部正式向三大运营商发布了4G牌照,2013中国大数据技术大会首日全体大会上,中国移动通信有限公司研究院业务支撑研究所所长孙少陵发表了“大数据实时处理技术发展趋势及中国移动实践和展望”的演讲。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会——2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

中国移动通信有限公司研究院业务支撑研究所所长孙少陵发表了题为“大数据实时处理技术发展趋势及中国移动实践和展望”的演讲,随着移动互联网用户流量激增,手机数据化、宽带化趋势明显,4G、M2M也大大加快了移动网络数据业务和流量增长。面对巨大流量,移动运营商面临巨大的挑战。借助云计算技术和运营商优势,发挥管道优势,促进业务创新,将大数据信息转化为商业价值是电信运营商目前的当务之急。


中国移动通信有限公司研究院业务支撑研究所所长 孙少陵

以下为演讲实录:

非常高兴有这样一个机会跟业界的专家,分享我们中国移动在大数据这方面的一些观点,以及我们中国移动的一些实践。这次本来黄晓庆非常想亲自来跟大家互动,但是由于公司有一个很紧急的决策会,他也是让我在这里向大家表示歉意。中国移动是全球最大的运营商,这里我们其实很关注整个互联网在移动方面的发展。目前IT发展最热门三个词,第一个就是移动互联网、第二云计算,第三个大数据。

首先我们看一下移动互联网目前的发展趋势:昨天工信部正式向中国移动、中国联通、中国电信三家发布了4G的牌照,也意味着中国正式启动了4G无线宽带的时代。全球移动互联网用户数的增长非常快,比传统互联网增速高三倍。

第二我们看一下流量增长的情况,移动互联网流量增长速度也非常快,到2012年底移动互联网流量占比超过整个互联网的13%。在现代手机端移动通信里面现在出现了一个2/8的分布:现在用户使用移动互联网上网的业务和传统的通信业务(打电话和发短信)这个时间比变成了8比2的关系。对于运营商来讲最主要的变化是,我们变成了一个主要提供流量的运营商。从提供流量和从提供话音短信的价值来看这个我们做了一个测算,也就是说移动通信网它的话音投入产出比大概是流量数据投入产出比的5到6倍,所以对移动运营商来说直接的挑战,就是我用什么样方式,弥补我原来在电话和短信上流失的价值。我觉得不管是云计算还是大数据还是移动互联网某种意义上来说给移动运营商都带来了一个机遇,如何抓住这个机遇运营商还有很多事情要做。

4G和我们所说的物联网对整个移动通信数据的增长带来了非常大的促进作用:首先,移动通信4G的带宽基本上可以达到50到100兆,不久的将来我们诸位在任何地方使用手机,使用移动网络的感觉就跟你在家里使用wifi是一样的。所以说移动通信带宽迅速放大实际上给整个流量的增长带来了很大的推动作用。

第二就是说M2M,从某种意义上来说,通过物联网可以社会信息化触角延伸到任何一个角落。过去的通信主体更多是人,现在很多东西包括我们平时在生产过程当中使用的一些装备,包括我们监测交通、监测天气等等,都是有M2M的设备不断地采集各种各样的信息。这里也有一个预测数据就是说到2014年物联网的终端设备跟智能终端的设备将在数量上持平,这两个趋势为大数据带来的一些变化值得大家去关注。

谈到大数据实际上我觉得大部分公司首先想到互联网公司,实际上互联网公司实质上就是数据公司。根据百度前两天给我的数据,它的数据量现在大概有一千个PB的规模,每天处理几十个PB,互联网公司在数据利用上面走得很快,它真正通过数据的利用产生价值,颠覆了很多传统产业,某种意义上不是和传统行业在既有商业模式下竞争,通过对数据的把握,数据的挖掘通过变通的方式获取价值。程学旗老师发布的今年几大趋势,其实大家第一大关注是网络趋势,整个业界正在意识到这一点:我们网络里面有什么样的数据?对于一个运营商来说我们有什么网络?我们有传输网络,有有线和无线的接入网络,我们叫四网协同,中国移动WIFI的数量全国三四百万的水平,WIFI每天传输非常多的数据,这些数据是不是有价值,确实值得我们研究和挖掘,这些数据对我们网络优化、业务创新、精准营销,还有一些决策支持做出一些工作。

电信运营商具有很大的数据挖掘潜力,目前来说运营商数据的商业利用主要有三个大方面:一、改善用户体验。二、助力市场决策。三、优化网络质量。用户体验运营商要向互联网学习,运营商都在提供增值业务,中国移动有飞信、有音乐,还有139邮箱等等,我们在传统的产品设计、系统优化和UI交互式的优化方面,其实我们还有一些比较传统的手段,比如说找客户做市场调研之类的。互联网公司我发现他们很少做这个事情,用户每天对你的访问,能发掘社会很多的特征,挖掘出他的消费取向,这个为你产品设计能带来最真实的第一手资料。这一点运营商也在变化,我们通过对于数据的统计、分析、挖掘来进行我们的业务推荐、客服、建立知识库为整个产品的创新提供支撑。

第二个比较大的方面就是市场营销的支撑。我们运营商有几类数据,首先是用户帐号,现在基本上手机都是实名制,用户在运营商登记的帐号信息有年龄性别等等,是比较真实的最基础的数据。第二是协议类型,例如你使用什么套餐,什么业务,你是使用流量高的还是话音高的,你每月消费量多少,其实这里面可以体现出很多东西,比如说你的消费能力,一个月消费10块钱和一个月消费1000块钱的用户,消费能力肯定不一样,这种消费能力延伸开了可以帮助你做其他方面业务营销的支撑。第三是业务类型,比如说这个用户选择中国移动的游戏类或者阅读类、音乐类,都代表他个人的一些兴趣爱好、特点和取向。

第四,访问的URL,用户经常看什么网站?比如说经常看体育类的网站,这里我们就会发现这个用户可能对体育类的产品和相关服务会有兴趣。还有终端信息,因为我们实际上在网络上可以通过各种渠道获取用户在使用什么样的终端。这个终端信息一方面来说对我们自己做业务来说非常重要,因为每个终端的能力不一样,每个终端的特征不一样,就是每个终端适合使用的业务不一样。第二我们中国移动也有自己的终端公司,什么样终端好卖?用户喜欢终端什么样的功能?什么样的特征?对我们自己使用开发终端也有价值。还有上行下行的流量,通过这些数据首先我们可以分析流量,就是说我所有的业务在所有网络当中流量流向变化情况,这里面也许蕴藏着某种信息。比如说什么地方发生了一个比较大的事件。举个例子,前一段时间四川的地震,我们四川那边电话局立马负荷飞速的往上涨,流量流向可以通过这个发现。用户行为的分析,移动通信有位置信息、地理信息,手机号码可以知道你的注册地,我既知道你常驻在什么地方,又知道你经常漫游在什么地方,所以这方面数据非常有意思。第三就是流量,一些帐单的查询,用户对流量消费非常关注,他希望有详细的上网记录可以查询之类的,为了提供用户透明消费支持,我们做这方面的工作。

第三个比较大的方面是优化网络质量,作为运营商我们一直强调我们的服务是电信级,全年我们的可靠性在五个九。对中国移动来说李总说过一句话质量就是生命线,实时发现网络故障并解决是我们很重要的工作。中国移动很大一部分员工在做线网的监控,线网监控一方面比较耗人,第二目前网络结构越来越复杂,层次越来越多,一旦发生故障到底出在什么地方很难查找。大规模的数据挖掘其实我们可以帮助我们做网络的故障定位和故障排查。IP网和无线网送来大量的日志数据,这个日志数据通过我们模型建立做分析确实对网络运营成本有比较大的降低。

在运营商的实践过程当中,我们对数据挖掘,数据处理,数据分析的实时性需求越来越迫切。在这我们对实时处理有个广义的定义。

第一个实时这种流式数据的处理,数据有动态产生的特征,这是大数据的特点。这种数据动态产生,我不能等到批量产生、批量处理,很多数据稍纵即逝,跟位置和时间的关联性非常强,我必须及时处理,来了数据处理,处理完马上送上去,也许我马上使用,流式处理在解决这样的问题。

第二对于海量数据的快速处理。要实现这种交互式。我们现在有些省公司实际上做整个公司的生产分析的时候,不再依赖花好几天时间整一个报告把数据报上来,而是说它有一套系统,这个系统里面你可以看到当月所有生产的数据,KPI数据,他的收入,用户增量,流失量,可以挖掘到每个小区带来多少收入,每个地市、县区、每个基站带来多少收入,流量是多少。这个需要一个快速海量处理。对于大量的IO操作限制了对于交互式的快速反应。现在图计算更多是通过消息而不是通过IO的文件方式做数据处理。像内存式的计算结合很多新的系统,像SLD、CSIO这些东西,可以在这方面做很大提升。

我们内部把云计算和大数据放在一块说的,在中国移动我们传统体系架构里面,我们很大程度上依赖于昂贵商用的硬件和软件,我们现在交易数据库还有分析型的数据库大量使用甲骨文、DB2等商业数据库。使用小型机服务器,像EMC昂贵盘阵的系统。这种架构实际上存在几个问题:第一个在非结构化处理方面能力不足,第二系统成本非常高,中国移动小机的数量可能比PC数量还高。第三硬件平台的兼容性很差,惠普的硬件跟IBM的系统,没有办法做无缝的跨平台。第四个扩展性,传统的系统都是属于TB级系统,支持PB级分析交易能力是有限的。所谓云计算,中国移动认为你要把这种商用的硬件尽量用消费级的产品,就是说我们像X86、还有RM等等这样一些PC服务器用它代替,把整个系统的架构改成横向扩展的方式。

在Hadoop正式发布之后,半年时间我们启动了相关研发工作,在国内介入Hadoop比较早,后面我们也在不断的进行跟踪,也参与每年在美国的Hadoop会议,同时我们在Hadoop社区这种开源社区积极提交。为了支持云计算和大数据的研究和开发,目前我们实验室里把这个系统扩到了一千多个节点。

中国移动的大云产品,融合了云计算和大数据两方面的工作,大数据方面我们同时关注分析型的产品和交易型的产品。我们分析型产品目前主要基于Hadoop,在Hadoop这块我们目前结合自己需求做中国移动的分支BCHadoop,我们现在把BCHadoop也做了一个开源,在今年CCF的创业大赛上,我们中国移动出的这两道题基本上在中国移动BCHadoop上进行实现。另外我们在Hadoop基础之上做了做了一个数据仓库和一个数据挖掘系统,主要基于中国移动自己的经营需求做了分类规则等等的方法,在社区文本挖掘方面做了相关算法和工具,在搜索引擎方面也做了一些工作。

在交易类的产品目前我们在内存的数据库上,内存的KIH还有流式计算,还有分布式的交易数据库等方面我们都在开发,也在线网做了试点,这方面我们借鉴像淘宝等互联网公司的经验。我们昨天在中国移动互联网国际研讨会说我们正式发布了大云2.5版本,当时江西分公司做了一个应用案例的分享:如何用大云RDM并行分布式交易数据库解决我们线网综合查询和终端的精准消息存储的支持。

运营上在大数据的使用上面我们都会做一些什么样的工作?第一个在网络优化方面,前面也说了一些,在移动互联网,或者说宽带移动通信的时代,线网的需求很重要,你随时要把握线网流量和流向的变化。比如说现在2G网络承载了我们目前最主要的数据流量,但是2G网络数据承载的能力比较差,是窄带宽的通信系统,同时造价很昂贵,现在主要承载我们的语音业务。所以整个系统规划、系统维护,怎么把网络引到成本最低,价值最高的网络上,实现综合价值的最大化。这个要求我们实时对全网百万个以上的基站和几百万的AP进行快速的监控,我要监控每天的变化,有些基站变成热点基站,流量压力非常大,采取扩容或者采取网络参数调整的方式,把流量做一些引导。其实目前我们通常把整个一个城域去划成方格,然后定期采集和分析。这里需要我首先数据采集要快,要用到流计算的技术,刚才专家们提到一些内存,还有高性能分布式计算的技术要把网络的拥塞情况和各种状况尽快形成报告,报给我们的运维部门。这个主要是我们网络方面的应用。

第二精准营销方面,实际上随着现在在移动通信和移动互联网方面的市场竞争是很激烈的。现在移动运营商,像中国移动提出来一个微营销,微营销就是要关注你每一个用户的特点。营销动作要根据每一个不同用户进行差异化。我们基础必须有一个大数据,对用户进行精确的画像,对线网发生动作及时采集快速反映。这里举几个案例,像位置类的业务,我们运营商经常有时候会在某一些营业厅有特定终端的优惠套餐,这样回馈用户的营销活动。比如说有一个用户移动到离营业厅比较近的小区,从我们市场部门希望给用户推送一个消息,告诉你说我营业厅正在做某一个业务的推荐。当然做这个事情的前提你不能没事去给用户推送这些消息,因为现在大家对垃圾短信很反感,所以你怎么知道这个用户对你终端和套餐感兴趣,这需要有后台处理和挖掘的工作。比如说这个用户目前使用终端类型是什么?过往几年使用的终端是什么?某种意义上可以透露这个用户是不是特定某一个品牌的忠实粉丝。还有最近这个用户是不是在网上游览跟这个特定手机相关的网站,所有这些东西其实有可能让我们了解这个用户会不会对三星和苹果的手机感兴趣。同时它要发现这个用户经过我的小区在很好时机把这个消息推送下去,他要走到别的地方这个消息最佳时机就失去了,这是实时分析实时采取动作一个典型的案例。

还有一个案例比如说像有一些用户他经常出差去某一个地方,我们有两城一家的套餐,你定这个套餐整个漫游费长途费没有了,对这些用户你要有识别。这个用户经常到某一个城市,他在机场开机你可以推送一个消息告诉他说这个套餐可以为你省钱。我们还有很多新的业务,比如说中国移动去年推出的灵犀,实际上是用户人机对话的系统,某种意义上有点像自动化的客服系统,这个系统用了云识别,实际上后台有一个比较大的数据库,这个需要我们把很多知识结构化,然后在后台能够快速为用户提出的问题找到相关的答案。

还有物联网,物联网刚才我们说了它实际上每天都在送大量的信息。比如说我们在无锡那边做过太湖蓝藻的监测物联网应用,它需要对数据实时的采集、实时的处理。中国移动在国内国外开源和标准化方面做了很多工作,就是跟Hadoop相关主要我们现在建立了一个开源社区。最主要原因是什么?运营商在使用Hadoop的时候往往有它自己的一些特点。我们首先把一些线网急需的需求在我们自己的分支里面实现,同时推动主线逐渐把它移植进去。

最后我们对大数据的展望,其实大数据的未来是机器智能,也就是说目前机器更多是解放了我们手和脚,未来怎么样让它更多帮我们思想,是真正大数据未来发展的终极目标。现在像谷歌等在deep learning方面做了很多的公司,像人机交互、语音识别也是大数据广义的范畴,通过机器来学习知识,把数据形成知识,知识变成智能,真正给我们社会信息化做出推动的作用。以上是我们这边分享的一些观点,不成熟还是希望跟大家探讨批评指教。

更多精彩内容,请关注直播专题2013中国大数据技术大会(BDTC)  ,新浪微博@CSDN云计算

0
0