订阅云计算RSS CSDN首页> 云计算

大数据应用论坛(上):现场直击百度、腾讯、eBay等大数据应用实践

发表于2014-12-15 15:40| 次阅读| 来源CSDN| 0 条评论| 作者魏伟

摘要:2014中国大数据技术大会第二日上午大数据应用论坛上,包括华盛顿大学终身教授,中国联通研究院大数据/云计算首席科学家陈一昕、百度研究院大数据实验室数据科学家沈志勇等专家分享大数据在各个行业应用的实际案例。

【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

2014中国大数据技术大会第二日上午的大数据应用论坛上,包括华盛顿大学终身教授,中国联通研究院大数据/云计算首席科学家陈一昕,Co-Creator of Apache Kylin, eBay高级产品经理韩卿,百度研究院大数据实验室数据科学家沈志勇,中国移动苏州研发中心大数据项目总监徐萌,腾讯数据平台部精准推荐中心深度学习方向负责人邹永强在内的一线专家就大数据应用相关研究发表了主题演讲。

1. 陈一昕:电信运营商大数据应用实践


华盛顿大学终身教授,中国联通研究院大数据/云计算首席科学家 陈一昕

华盛顿大学终身教授,中国联通研究院大数据/云计算首席科学家陈一昕发表了题为“电信运营商大数据应用实践 ”的主题演讲,他表示,运营商现在面临激烈竞争,大数据时代想要点石成金,关键是大数据挖掘,那么当下面临的主要挑战是通信行业缺乏专业化数据挖掘技术、支持海量数据的高性能算法、保护用户隐私的数据交互模式以及高素质的大数据团队。

他表示现在电信运营商内部包括自己做的都是一些比较简单对数据统计简单的分析,缺乏的是对大数据的深度挖掘探索和创新,所以在中国联通研究院目前的主要任务就是全面提高中国联通大数据研发能力,可以概括为两个方面:一方面是大数据核心技术的支撑,另外一方面大数据的产品服务,通过一系列的研发对内更好的提供应用支撑,对外提供产品服务。


期间,他还详细介绍了联通目前正在进行的大数据技术和产品方面的研发。包括基于高性能计算的海量数据挖掘工具箱、超大规模用户社交网络分析、模型库组合与优化、用户搜索引擎 、基于联通大数据的金融征信。在他看来,联通想要拥有行业领先的大数据对内及对外开放能力,抢占大数据战略制定高点,极大的依赖于联通自身的大数据分析和挖掘能力。建立一套有效、安全、高质量的,针对通信领域的大数据挖掘分析工具无疑能够帮助联通提升大数据产业的竞争力。最后,他还就运营商大数据、用户搜索引擎、用户征信系统展开叙述。

2. 韩卿:Apache Kylin introduction


Co-Creator of Apache Kylin, eBay高级产品经理 韩卿

Co-Creator of Apache Kylin, eBay高级产品经理韩卿发表题为“Apache Kylin introduction”的主题演讲,他表示Kylin是一套由eBay公司打造的开源分布式分析引擎,其突出特性在于能够为Hadoop支持下的庞大数据集带来标准SQL接口与多维分析(OLAP)能力。

他首先介绍了什么是Kylin以及开发这个项目的初衷,并且分享了Apache Kylin的背景以及想要解决的业务问题,还有所采用的技术。之后,他介绍了产品与技术的一些特性,同时还详细介绍了 Kylin性能的一些数据。


该项目已经在今年10月1号开源,并且在今年11月25日已经成为Apache的孵化项目。关于Kylin的整体架构以及Kylin技术亮点,他都做了详细解读,谈到性能方面,他将Kylin和Hive作了对比。最后他们希望打造的Kylin的生态系统能够和Hadoop等系统合作,将整个系统联系起来。

3. 沈志勇:从数据到智能——百度大数据智能分析应用实践


百度研究院大数据实验室数据科学家 沈志勇

百度研究院大数据实验室数据科学家沈志勇的演讲主题为“从数据到智能——百度大数据智能分析应用实践”,他的演讲从三个方面展开:大数据时代与百度大数据引擎、百度大数据智能分析、百度大数据智能应用案例。

在他看来,大数据时代给行业带来的挑战主要是企业最基础数据存储和计算能力缺乏;数据管理以及数据挖掘这块对数据积累要求比较高也会存在挑战;另外,现在各行各业都的数据很多时候是孤岛,没有打通起来达到更大的价值。


对应上面的挑战,他分享了百度提出来的大数据引擎,它也是分为三个层次,跟刚才说的三个挑战对应的。最底层我们叫做开放云,它承担的是存储能力,开放云基础上有一个数据工厂,数据工厂就是数据仓库,再上层叫做百度大脑。最后,他重点介绍了百度大脑和BDL,关于BDL大数据智能分析案例,他分享了在旅游、体育、运维/运营、金融等方面的应用。

4. 徐萌:中国移动“大云”大数据产品及应用


中国移动苏州研发中心大数据项目总监 徐萌

中国移动苏州研发中心大数据项目总监徐萌发表了题为“中国移动‘大云’大数据产品及应用”的主题演讲,谈到中国移动“大云”大数据产品整体规划,她表示大云大数据产品线为中国移动大数据应用提供三大领域的基础能力:数据采集和处理、数据挖掘及可视化、运营管理。

接着,她重点分享了目前他们做的大数据产品,主要由“大云”大数据平台BC-Hadoop,“大云”大数据仓库系统BC- HugeTable,“大云”分布式关系数据库BC-RDB,“大云”数据挖掘和ETL工具BC-PDM。


关于“大云”大数据应用实践,她强调对内支撑精细化运营,包括支撑客户体验提升、精细营销、产品创新、网络优化、企业管理水平提升;对外寻求新业务增长点,包括支撑行业大数据解决方案、数据变现及社会化洞察等对外服务模式。

5. 邹永强:Mariana:腾讯深度学习平台进展与应用


腾讯数据平台部精准推荐中心深度学习方向负责人 邹永强

腾讯数据平台部精准推荐中心深度学习方向负责人邹永强发表了题为“Mariana:腾讯深度学习平台进展与应用”的主题演讲,他首先介绍了腾讯深度学习的应用需求。在谈到腾讯深度学习平台的挑战时候,在他看来主要包括:

  • 深度神经网络模型复杂,训练数据多,计算量大
  • 深度神经网络需要支持大模型
  • 深度神经网络训练中超参数多,需要反复多次实验


基于以上的挑战他们构建了腾讯深度学习平台Mariana,它的目标首先是通过并行加速计算;第二通过模型拆分支持大的模型;第三构建通用的框架简化代码的编写加速实验。对Mariana提出三大框架,第一个MarianaDNN,这是深度神经网络GPU运行的框架;第二个是MarianaCNN;第三个MarianaCluster,它们主要应用就是语音识别、图像识别和广告推荐。

更多精彩内容,请关注直播专题2014中国大数据技术大会(BDTC) ,新浪微博@CSDN云计算,订阅CSDN大数据微信号。

0
0