订阅云计算RSS CSDN首页> 云计算

大数据核心技术与应用论坛:容量、智能、带宽,前行路上的攻坚战

发表于2014-05-26 15:05| 次阅读| 来源CSDN| 0 条评论| 作者仲浩

摘要:以大数据核心技术为着手点,深入探讨大数据在各行业中的应用,2014年5月22日,第六届中国云计算大会“大数据核心技术与应用论坛”如期拉开帷幕,参与分享的嘉宾包括中国工程院院士高文、百度大数据部总监李钢江等。

【CSDN现场报道】第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕。本次会议以技术、应用、创新、标准、国际交流为方向,共设置了近20个分论坛,特邀了十大院士与百余位企业一线实践者,共同技术把脉云计算及大数据发展趋势,深入探讨云计算大数据在生产环境中的核心技术、实践经验、革新方向与国际标准等。

2014年5月22日下午,第六届中国云计算大会“大数据核心技术与应用论坛 ”如期召开,中国电子学会云计算专家委员会副主任委员中国大数据专家委员会副主任委员、中国工程院院士高文,百度大数据部总监李钢江,中国移动研究院云计算系统部总经理助理、大云项目系统首席架构师钱岭,中科院计算技术研究所研究员何清,HGST亚太地区产品营销总监黄庆民,LinkedIn商业分析部资深主管张溪梦,Spark创始团队公司Databricks工程师连城,软件工程国家重点实验室教授、武汉大学软件工程研究所所长何克清出席并分享了所在机构对大数据的实践经验。

主持人:北京航空航天大学计算机学院副院长胡春明 

大数据核心技术与应用论坛在北京航空航天大学计算机学院副院长胡春明的主持下开启,胡春明首先为我们介绍了本论坛参与分享的嘉宾。

中国电子学会云计算专家委员会副主任委员、中国大数据专家委员会副主任委员、中国工程院院士 高文

首先进行分享的嘉宾是中国电子学会云计算专家委员会副主任委员、中国大数据专家委员会副主任委员、中国工程院院士高文,他分享的主题是“大数据挑战–视频监控数据挑战及其解决方案”,高文院士首先指出视频监控数据处理的挑战主要在存储和搜索两个方面;其中存储主要依赖高效的监控视频编码,检索主要靠体现视频数据索引特征,检索的准确性则要依赖模式识别等一些专业的技术。期 间,高院士具体分享了视频编码中的摩尔定律(视频编码每十年会有一个质的提升,所需传输带宽减半)、数据增长vs.压缩比(剔除视频中的空间冗余、时域冗余及编码冗余)、混合视频编码(变换、预测和商编码)等相关问题。


百度大数据部总监 李钢江

百度大数据部总监李钢江给我们带来主题为“百度大数据工厂及其应用”的演讲,他指出了大数据对行业提出的新挑战——存储、有效的分析及智能的挖掘、预测学习和推荐。随后,他结合了百度大数据引擎的实践经验进行了分享:

1. 开放云,解决数据存储与计算规模瓶颈。超大的规模:拥有并管理数据达EB级别;单集群百亿文件数;数据处理能力100GB/S,毫秒级响应;单集群离线计算规模数万台,达到上百PB/天的处理能力;单集群CPU利用率高达90%。

2. 百度的数据工厂,提供数据管理与挖掘技术。支持单次百TB级别异构数据查询,大查询、低并发分析情况下数据扫描能力达到百GB/s,高并发、小查询报表情况下,集群并发查询能力更达到十万QPS,单表数据规模更达百TB级别。

3. 百度大脑,实现数据智能。无时无刻的学习与演进,目前已拥有200亿个参数。


中国移动研究院云计算系统部总经理助理、大云项目系统首席架构师 钱岭

中国移动研究院云计算系统部总经理助理、大云项目系统首席架构师钱岭的演讲主题是“电信运营商大数据研发和应用”,在他看来,和另一项新技术云计算相比,大数据更为复杂多变,商务模式更灵活。而2017年,全球4G终端产生的数据流量是非4G终端的8倍,每月数据流量超过10EB。同时,虽然结构化的业务数据价值含量很高,但是管道数据却提供了用户的数据消费、社交网络、行为轨迹、内容偏好等业务数据中无法提供的重要信息,而这将对BIT及用户体验提升有巨大帮助。

中科院计算技术研究所研究员 何清

中科院计算技术研究所研究员何清分享的主题是“大数据的挑战性问题及关键技术”,何清主要从数学方面对大数据进行剖析。  他首先使用数学归纳法证明了“大数据悖论”——有限条数据是小数据,之后又从模糊逻辑角度解释了这个悖论产生的原因,并指出了现实中的大数据概念是在数据规模超出现有数据存储、计算、处理能力而产生的。随后从多个方面对当下大数据行业进行了深度的剖析:

1. 从数学上看大数据。在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据,计算机中的所有数据集都是有限集合,计算机中不存在无限集合;计算机中的大数据集不具有无限可分割性,没有比一个比特更小的数据单元;计算机中的所有数据表达都有精度的限制,这种限制导致了算法精度的受限,计算机无法对无理数进行运算得到精确结果。

2. 大数据的特征。稠密与稀疏共存,局部稠密与全局稀疏;冗余与缺失并在,大量冗余与局部缺失;显式与隐式均有,大量显式与丰富隐式;静态与动态忽现,动态演进与静态关联;多元与异质共处,多元多变与异质异性;量大与可用矛盾,量大低值与可用稀少。

3. 目前大数据的外延。大数据规模大小是一个不断演化的指标,当前任务处理的单一的数据集,从数十TB到十几PB级的数据规模,TB«PB«EB«ZB;处理大数据的可等待的合理时间依赖任务的目标
地震数据预测要求在几分钟内才有效,气象数据应该在小时级别,失联飞机数据处理要在7天之内,数据挖掘一般要求在12小时内。

GST亚太地区产品营销总监 黄庆民

HGST亚太地区产品营销总监黄庆民为我们带来名为“市场趋势和创新推动云存储增长”的专题分享,他主要从服务器和存储密度、海量存储、高效运行和设备、功耗与冷却成本方面分析了现代数据中心面临的挑战,他认为大数据、社交网络、云和企业级应用促进数据爆发。HGST致力发展高端硬盘和企业级固态硬盘存储解决方案,现拥有4700多项专利,全球共拥有41000名员工。随后,他还介绍了该公司出品的全球第一款氦气密封硬盘、业界首款6TB 3.5英寸硬盘,可以显著的降低数据中心的总拥有成本。

LinkedIn商业分析部资深主管 张溪梦

LinkedIn商业分析部资深主管张溪梦带来的专题名称为“如何利用‘数据科学与大分析’催生产业革命”,期间他为我们分享了大数据分析革新路程的四个现代化:基础设施化、规模化、产品化和生态化。在数据分析的基础设施化阶段他提到了6个注意点:1,首先要了解和使用产品;2,实施数据标记,保证数据质量;3,数据部署应充分发挥软硬件效能;4,做好核心分析工作;5,仅仅“有趣”是不够的,必须要注重执行性;6,商业价值!

Spark创始团队公司Databricks工程师 连城

Spark创始团队公司Databricks工程师连城的专题演讲为“Spark一体化大数据分析流水线”,连城首先解释了什么是Spark以及为什么使用Spark的原因——快、兼容性、易用。随后,连城更对Spark和RDD进行了深入解析。

连城认为,虽然在成熟度上Spark远逊于Hadoop,但是在速度、兼容性、易用性及多种分析范式串接和混合上,Spark更具优势。首先,Spark很快,在迭代型类似于机器学习这样的数据分析上,Spark在内存中运行速度比Hadoop MapReduce快100倍,在磁盘上快10倍;其次,兼容性上,Spark几乎兼容HDFS上的所有流行存储系统,新用户部署Spark时不必要使用ETL;接着,易用性上,支持Scala、Java、Python API,代码减少2-5倍。

软件工程国家重点实验室教授、武汉大学软件工程研究所所长 何克清

软件工程国家重点实验室教授、武汉大学软件工程研究所所长何克清的演讲题目为“大数据科研第四范式的方法论、架构、方法及案例”。他重点介绍了大数据科研第四范式,以及其中的信息学流程、推送和软件服务生命期:面向领域主体知识的理解、软件服务需求分析;面向主题知识的需求协同建模与设计、开发;面向领域主体知识、大数据特征及其关系的标注于简化,需求涌现;大数据分析服务AaaS,情境与策略约束的评判。

随后,何克清在大数据驱动的软件架构BDDA一节中提到,模型驱动的架构MDA,是OMG用于解决传统软件技术集成与协同的工作标准,BDDA是我们用于解决大数据分析与价值发现、云计算、众包、数据科学等软件技术集成与协同工作的技术。

更多精彩内容,敬请关注 第六届中国云计算大会专题报道,关注新浪微博直播  @CSDN云计算

0
0