订阅云计算RSS CSDN首页> 云计算

大数据生态系统论坛(下):关系数据库借内存计算强势进军大数据

发表于2014-12-15 17:57| 次阅读| 来源CSDN| 0 条评论| 作者仲浩

摘要:2014中国大数据技术大会第二日下午大数据生态系统论坛上,OpenStack基金会董事杜玉杰、LinkedIn 软件工程师王国璋、阿里巴巴资深技术专家蒋志勇、中国移动集团公司业务支撑系统部项目经理何鸿凌等专家发表精彩演讲。

【CSDN现场报道】2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研、应用与产业发展为主旨的 2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕。

2014中国大数据技术大会第二日下午大数据生态系统论坛上,OpenStack基金会董事杜玉杰,国科学院软件研究所工程师、C3核心成员李明宇,中国移动集团公司业务支撑系统部项目经理何鸿凌,LinkedIn 软件工程师王国璋,柏睿数据科技有限公司董事长兼CTO刘睿民,阿里巴巴资深技术专家蒋志勇,云人科技联合创始人兼CEO吴朱华等专家主要就关系型数据库的内存实践展开讨论。

1. 杜玉杰:OpenStack在大数据方面的思考——技术、应用、生态系统


OpenStack基金会董事 杜玉杰

杜玉杰表示,就像Swift等项目一样,随着OpenStack生态圈的发展,在2014十月的Juno的集成发布中,Hadoop已通过Sahara(数据处理组建)集成到OpenStack生态圈。而在不久后,相信有更多的计算框架会被集成到OpenStack,比如Spark。“开放的数据自然需要开放的云”,杜玉杰毫不吝啬对OpenStack的看好。杜玉杰为我们分享了两个观点:

1.开放是网络内在的精神;没有开放,就没有网络。但由于网络上各个局部的发展很不平衡,因此会出现各种各样的带围墙的花园。从某种意义上说,这种封闭恰恰是开放带来的结果:由于开放,网络的规模变大;而任何一个大而复杂的系统,内部都不可能是匀质的,必然会出现各种自治的子系统。这些自治的子系统能够在其内部进行更灵活的调整,从而使得网络可以更好地包容区域间的不平等。

2.大数据时代,当所有数据、所有信息都汇聚和共享到云中时,传统的基于所有权的模式(Ownership Model)就会被基于访问权的模式(Access Model)所取代。这也是以物质为基础的经济和以信息为基础的经济的不同之处。在以物质为基础的经济中,当你买下一件物品时,你就成为这件物品的所有者;但在以信息为基础的经济中,你很难成为一份信息的所有者,因为信息是可以无限次复制的,而且它始终存在于云中。与其说你拥有一份信息,不如说你有这份信息的访问权。

随后,杜玉杰以从OpenStack的发展入手,为我们分享了OpenStack在大数据方面的思考——技术、应用、生态系统。

2. 李明宇:Sahara架构及项目进展


中国科学院软件研究所工程师、C3核心成员 李明宇

李明宇为我们详细的介绍了OpenStack Sahara项目:在OpenStack上快速创建Hadoop集群、利用IaaS上空闲的计算能力、Analytics as a Service。随后,李明宇从使用模式、使用方法上对Sahara进行了详细介绍,并分享了OpenStack在Spark上的发展情况——目前已经能够支持Spark,能够和Heat集成。

3. 何鸿凌:并行数据库技术分析与发展展望 


中国移动集团公司业务支撑系统部项目经理 何鸿凌

何鸿凌的演讲围绕MPP数据库展开,覆盖MPP数据库的架构特点、技术要点分析和未来展望。在架构特点讲解中,何鸿凌表示,并行数据库是大数据基础设施中的重要组成部分之一,Hadoop、 MPP DB、NoSQL、流处理、内存数据库等技术各有适用范围。主要适用场景有:

  • 适合结构化数据。半结构化和非结构化数据不符合关系理论,用RDBMS并不合理和优化。
  • 适合不是简单存和取,而是有大量库内分析的场景。例如:多表关联的复杂查询和处理。
  • 适合临时、灵活的任务。例如:自助分析和即席查询等一次性任务、交互性要求较高的。
  • 适合一次写多次读的操作。并行数据库需要在数据分布(计算Hash)和存储格式(比如列存、压缩、索引、页面统计信息等)方面进行较多的处理以便为查询进行优化。

然而,并行数据库也有着它的缺点,比如存储和计算紧密耦合,扩展受限,节点故障情况下性能下降严重,大规模集群可用性。


在技术要点分析中,他从执行引擎(查询分析和执行器、分布式事务、分布式锁、并发控制)、存储引擎(副本管理、数据分布、数据存储格式)、管理功能(元数据管理、3A)等多个方面进行解析。


最后,他使用4点总结了本次的讲话:如有您有大量的结构化数据,并行数据库将是您大数据工作箱中不可或缺的部分;无论在公有云还是私有云,并行数据库可能会发展得越来越大,专业性更强,经济上的考虑也将变得不一样;天下武功,唯快不破。随着趋势的发展,内存可能会成为数据存取的主要发生地,将有效解决当前计算和存储紧密耦合的并行数据库难题;软件定义的架构是未来趋势。从设计上必须考虑灵活地配置各个组件的位置和数量,任何环节皆可以并行,各个组件间通过zookeeper之类软件实现高可用和松耦合。 

4. 王国璋:Apache Kafka at Linkedin 


LinkedIn 软件工程师 王国璋

王国璋分享了Kafka的建立原因、Kafka的设计、LinkedIn的使用、Roadmap等。王国璋表示,LinkedIn是一个基于数字的公司,他们有大量的数据,他们也在大量的使用数据:做用户行为的跟踪,比如PV广告效果等;服务器日志和度量,Syslogs、request-rates等;估算用户活跃性、连通性等等。在设计上,Kafka履行着3个核心理念:使用数据级并行增加扩展性;使用连续读写策略来利用磁盘;使用批处理来尽可能的利用网络IO。


在Kafka在LinkedIn的使用一节中,王国璋表示Kafka主要用于用户行为和度量数据的跟踪,使用的程度如下:每个集群16 - 64 brokers,总结615+brokers;每天5270条消息;7500+ topics,270k+ partitions;写入,每天 97 TB,读出,每天430TB。

在最后,王国璋还分享了Kafka在0.9版本的重要提升:客户端改写,移除ZK依赖性,获得更高的吞吐量;安全,增加可操作性,支持多租户;Transactional Messaing,从至少一次到只执行一次。

5. 刘睿民:海量并行(MPP)内存数据仓库的发展阶段及实现探讨 


柏睿数据科技有限公司董事长兼CTO 刘睿民

刘睿民在演讲中表示,现有的数据存储方式(SAN,NFS)已经不能承载大数据的数据量,而现代企事业对大数据分析的要求靠批处理的方式已经很难满足了,其中单节点的内存处理不能为用户提供足够的处理容量,无法横向扩展很致命。


基于这个情况,企业对内存数据仓库有了新的需求:简单、快速、即需地监控数据集群;允许混合负载;利用虚拟机来提供隔离(如:多租户);通过虚拟拓扑来优化数据处理性能;通过虚拟拓扑来优化平台稳定性。


因此,刘睿民认为虚拟化的Hadoop才是大数据处理的未来,其中主要涉及:可伸缩的扩展性能;依靠高可靠性来保护关键服务,如Hadoop的Name Node及Job Tracker;资源控制和共享,重用低利用率的内存及CPU;对负载进行优先级控制,在混合环境中优化及限制资源的使用。

6. 蒋志勇:OceanBase,支撑支付宝交易的分布式数据库系统 


阿里巴巴资深技术专家 蒋志勇

蒋志勇表示,OceanBase是一个分布式关系数据库,也是第一个用于金融核心系统的非商业数据库。对比传统商业解决方案,它提供了很多互联网公司急需的特性:基于PC服务器,可在线水平扩展;无共享存储;性价比高于商业数据库。


最后,蒋志勇还对比了互联网领域和传统业务中数据库不同特性的需求:事务(ACID):互联网 = 传统业务;可用性:互联网 = 传统业务性能:互联网 >>传统业务;性价比:互联网 >>传统业务;扩展性:互联网 >>传统业务。

为了保证数据的完整性,在使用灰度升级之外,阿里还会对数据进行校验:磁盘读写,每条记录带64位checksum;网络传输,每个网络包带64位checksum;每个文件多副本(3~6),每个文件都有64位checksum;修改增量多副本,带64位累积checksum;Redo log,每条都带checksum及对应于UpdateServer内存的checksum;每个表每个列都带64位checksum。

7. 吴朱华:内存技术哪家强


云人科技联合创始人兼CEO 吴朱华

云人科技联合创始人兼CEO吴朱华的演讲主题是“内存技术哪家强”。他首先对产业内的多种内存技术进行总结,其中包括TimesTen、Spark、HANA、YunTable 等。

TimesTen

Oracle 内存数据库 TimesTen 是一个优化内存的关系数据库,提供了响应时间极短且吞吐量极高的应用程序,可满足各行业应用程序的需求。


TimesTen (TimesTen) 通过改变数据在运行时驻留位置的假设来提供实时性能。通过在内存中管理数据,并相应地优化数据结构和访问算法,数据库操作能够以最大效率执行,从而大大提高响应速度和吞吐量。TimesTen 是一个可嵌入到应用程序中的数据库,通过消除了进程间通信和网络开销,进一步提高数据库操作的性能。

Spark

现在Apache Spark可以说是最火的开源大数据项目,就连EMC旗下专门做大数据Pivotal也开始抛弃其自研十几年GreenPlum技术,转而投入到Spark技术开发当中,并且从整个业界而言,Spark火的程度也只有IaaS界的OpenStack能相提并论。


Spark核心机制:RDD(Resilient Distributed Datasets)、灵活并且有多种类型的算子、常见数据结构Key-Value(Sequence File)等。 

HANA

从2010年开始的内存计算技术产品,在开源界最火的可能,在商用界,最有代表性的莫过于SAP的旗舰级内存技术平台HANA。


充分利用INTEL最新的CPU特性,并且设计Cache友好的数据结构;有公共L语言,并通过LLVM来进行动态编译;使用SSD做快照,对性能的压榨不遗余力;同时支持行列存。

YunTable

YunTable MPP内存计算数据库,采用MPP(大规模并行处理),列存2.0,动态数据分发,In-Memory Computing(内存计算)等多项创新技术,现在版本是4.0版本,发布日期为2014年11月底。在内存计算设计方面,YunTable比较接近HANA做法,使用SIMD指令集,以及基于LLVM的动态编译技术来进行提速,即使数据不缓存在内存中。


核心特性:支持MPP,自动线性动态扩展至数百台集群;提供全面的SQL支持,并提供多平台的SQL驱动;在大数据情况下,对数据进行秒级的实时分析,包括复杂查询,已经多个大表之间的Join;数据保存在HDFS上面,保证数据可靠性;采用通用的x86硬件,降低使用成本。

最后,吴朱华还总结了内存计算领域的3大现状:内存计算这个概念很类似云计算,很难用学术语言去界定;多个内存技术都在很多方面有了突破,新的基于SIMD和LLVM的计算引擎,新的基于内存的数据结构,以及多种新的计算模型;用户在选择内存计算时候,可以根据自己的需求来选择。

更多精彩内容,请关注直播专题 2014中国大数据技术大会(BDTC)  ,新浪微博 @CSDN云计算 ,订阅CSDN大数据微信号。

0
0