订阅云计算RSS CSDN首页> 云计算

流计算与批处理同现:畅享大数据时代的开源实践

发表于2013-12-06 17:54| 次阅读| 来源CSDN| 0 条评论| 作者王殿进

摘要:在2013中国大数据技术大会第二天“大数据技术”专题论坛的下午时段,大数据先锋们主要针对Tachyon、SequoiaSQL、Spark、HBase、iStream等主题进行了分享。

【CSDN现场报道】中国最具影响、规模最大的大数据领域盛会—— 2013中国大数据技术大会(Big Data Technology Conference,BDTC)于2013年12月5-6日在北京举行。数十家领军企业,近七十场主题演讲,不仅覆盖Hadoop生态系统与流式计算,实时计算与NoSQL、NewSQL等技术方向,还对互联网、金融、电信、交通、医疗等创新案例,大数据资源的法律法规、大数据商业利用的政策管制等有深入讨论。

在2013中国大数据技术大会第二天的“大数据”技术专题论坛的下午会议时段,分别由UC Berkeley AMPLab博士&Tachyon创始人李浩源、巨杉数据库CTO王涛、英特尔亚太研发有限公司大数据部门构架师夏俊鸾、奇虎360技术经理赵健博和阿里搜索事业部高级技术专家王峰为我们带来了精彩演讲。下午会议由ChinaHadoop社区负责人谢磊主持。


ChinaHadoop社区负责人 谢磊

李浩源:Memory Processing: How Far CanWe Go? 


UC Berkeley AMPLab博士、Tachyon创始人 李浩源

下午场,首先进行分享的是李浩源。他着重分享了Tachyon项目的几个主要特性:

  • 无需更改即兼容Spark和Hadoop
  • 提供Java式的文件API
  • 为raw table提供原生支持。

同时,它还提供了一个PinList功能,可以保证程序即使在内存不足的情况下也可以永远运行在内存之中。

  涛:基于Cloudera Impala的非关系型数据库SQL执行引擎


巨杉数据库CTO 王涛

第二位分享嘉宾王涛带来的则是Impala实践:SequoiaDB是一种文档类的NoSQL数据库,SequoiaSQL则是基于开源项目Cloudera Impala开发的SQL执行引擎。SequoiaSQL不仅仅是“SQL-on-Hadoop”、支持JDBC、兼容Hive驱动,相对Cloudera Impala而言,在下面4点进行了功能增强:

  • 加入SequoiaDB与关系型数据库的读写接口
  • 将metastore嵌入SequoiaDB
  • 增加Update/Delete/Merge语句
  • 查询谓词下压,利用数据库索引提升性能

测试数据表明,SequoiaSQL相对Hive的性能来说,能够达到10倍以上的提升。最后,他也分享了未来的产品计划,如支持聚合下压、排序下压、支持嵌套类型、支持数组类型等,最终将进行基于成本的性能优化。

夏俊鸾:Spark:基于内存的下一代大数据分析框架


英特尔亚太研发有限公司大数据部门构架师 夏俊鸾

随后进行分享的是夏俊鸾,通过他我们了解到,早在2011年Intel就开始贡献Spark项目。当下Intel中国已拥有Spark项目的3个提交者、7个贡献者,其贡献的patch已有70+。在详细介绍Spark之前,夏俊鸾举了一个很有意思的例子,如果把大数据系统比作是手机,那MapReduce只能算是个功能机,而随后出现的Drill、Impala、S4、Storm则是在MapRedcue上各种功能的增强。


他重点对用户在使用Spark时经常关心的几个方面进行了解释:

  • 性能:Spark基于内存,硬件条件足够,可以满足高性能的要求
  • 学习成本:Spark相对Hadoop MapReduce、Impala等来说非常轻量,代码学习成本较低
  • 稳定程度:Spark虽然处于开源社区状态,文档没有Hadoop齐全,但release版本非常稳定
  • 假如内存不足:Spark在遇到内存不足的情况下自动降级运行,减少内存占用
  • 容错:高
  • 兼容性:Spark完全兼容Hadoop

在最后的现场互动环节,被问及Intel为什么这么大力发展Spark项目时,夏俊鸾解释说,Intel会挑选部分发展趋势良好的开源项目并加入进去,这样做能让Intel在未来竞争中保持一定的话语权。当下Intel在中国的合作伙伴已包括阿里巴巴、优酷及爱奇艺。

赵健博:奇虎360超大规模HBase集群增强与改进


奇虎360技术经理 赵健博

赵健博带来了下午场第四个分享,通过他我们了解到,目前360如搜索业务(网页库、链接库、快照库)、安全业务、监控业务等都已应用了HBase集群。

他重点从7个方面对奇虎360近一年来在HBase上作出的改进进行了详细介绍:

  • 专属MetaServer
  • 启动优化
  • Scan
  • Compaction
  • 保护模式
  • 客户端超时保证
  • 索引预加载

如启动优化方面,他们面临着影响集群启动时间的问题:集群大、region多。在集群启动时间消耗中,region打开的过程占了大头。比如,对搜索集群而言,40万个region,启动时间长达3小时,region打开时间需要2小时45分钟。对此,他们给出了对应改进:多线程并行化region检查、减少单个RS region分配时的持锁时间、去除重复的NN访问等。应用这些改进后,搜索集群的启动速度得到了4倍提升。

根据奇虎360的HBase使用经验,他给大家提出了4条有帮助的建议:

  • 根据预期规模,预先创建region
  • 控制region的数量与大小
  • 控制compaction时机与数据: 低峰时操作、避免重复IO
  • 实时监控region健康情况,保持In meta与on server的一致性

未来他们仍继续结合业务在减少region的数量、随机读优化(减少读数据量)、二级索引、服务可用性等方面对HBase进行功能改进。

王峰:阿里搜索实时流计算技术


阿里搜索事业部高级技术专家 王峰

本届BDTC “大数据技术”专题论坛的最后一个分享来自王峰,他介绍了阿里搜索流计算技术iStream诞生的业务背景,其中商品搜索的时效性(秒级)要求是非常高的,比如全网商品降价后需要实时通知给订阅用户、全网商品出现优惠打折需要实时在首页推荐、全网商品抓取后需要实时处理并推送到搜索引擎等。

本次分享中,他重点从下面5个方面对iStream的计算模型进行了详解讲解,这也是一淘首次对外展示iStream计算模型:

  • 基本概念
  • 拓扑结构
  • 消息管理
  • 进度管理
  • 编程接口

iStream的设计遵循了“计算和存储分层、计算之间解耦”、“计算层间采用持久化分布式消息队列进行消息传递”的理念,上下游计算解耦、不互相阻塞进度,使得新业务更加方便接入;持久化的消息流,也方便了多业务共享数据以及问题的追查。 目前,iStream已经广泛应用到一淘和淘宝的大部分生产线上,产生了良好的效果:


最后,被问到未来iStream是否有开源计划时,王峰解释说:公司有自己的淘代码项目,但是这个项目(iStream)做的不是特别久,也正处于生产的上线观察阶段,目前还不合适开源;如果iStream系统获得足够稳定后,包括概念、算法上都没有问题后,可以对iStream进行开源。

更多精彩内容,请关注直播专题 2013中国大数据技术大会(BDTC)   ,新浪微博 @CSDN云计算

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注