订阅云计算RSS CSDN首页> 云计算

六届中国大数据技术大会PPT精粹(二)

发表于2013-10-28 09:29| 次阅读| 来源CSDN| 0 条评论| 作者包研

摘要:2008年至今,中国大数据技术大会伴随着席卷全球的大数据浪潮不断给我们带来前沿的应用与实践。回顾过去六届大会,CSDN将其中精华的演讲PPT整理汇总分三期发布,以飨读者。本期为第二部分。

 【CSDN报道】Hadoop不仅帮助Yahoo!、Facebook、阿里巴巴、百度这类互联网企业实现了大规模数据的处理任务,并催生了一批创业公司,Hortonworks、Cloudera、MapR便是其中的代表。Hortonworks和Cloudera的大部分骨干都是从Yahoo!公司的Hadoop团队分离出来,这两家公司也提供了Apache Hadoop社区中大部分核心贡献者。

以下为历届中国大数据技术大会PPT精粹第二部分(第一部分见这里):

Hortonworks首席技术官 Eric Baldeschwieler:Hadoop的当下与未来
PPT下载

Hortonworks的首席技术官Eric Baldeschwieler曾是Inktomi公司Web服务引擎的技术领导者,雅虎Web搜索总设计师,雅虎Apache Hadoop项目的负责人。在他看来,如今Hadoop已经发展为一个庞大的体系,包含各类企业级应用部署。2015年,全球数据中将有一半都是通过Hadoop来处理的。 

华为Hadoop Committer Maheshwara Rao G:HDFS NameNode高可用性研究 PPT下载 

在2011年,Uma Maheshwara Rao G所在的团队对Hadoop 0.20.1基于备份实施了HA。其中包括Namenode(BNN)和ZooKeeper;智能端可以主动连接NN(NNs);BNN的Streaming edits;连接NN和BNN发送分组报告;定期检查BNN;实现双机热备和自动转换等。但是,BNN并没有彻底达到既定目标。尤其是从NN1到NN2备份节点之间如何积极有效解决等问题一直困扰着他们。为此,Uma Maheshwara Rao G考虑了采用更多方案来彻底解决这些问题。 

阿里集团核心系统研发部技术专家 王琤:Hadoop NameNode性能诊断及优化 PPT下载 

王琤向与会者分享了题为“Hadoop NameNode性能诊断及优化”的演讲,主要介绍了目前淘宝Hadoop集群在现实中遇到的NameNode性能问题。针对这些性能问题,王琤介绍淘宝进行profiling的方法、相关工具及最终定位等。

QIHOO 360系统部工程师 赵健博:HBase系统在搜索网页库的应用
PPT下载

赵健博带来的议题是《HBase系统在搜索网页库的应用》。为什么是HBase?他表示这是因为搜索网页库数据规模巨大,而且网页通常会有多个版本,而HBase非常擅长解决这些问题,并且扩展性、可靠性高。

雅虎北京全球研发中心资深研发总监 朱金生:Hadoop的模式与实践
PPT下载

朱金生介绍了Hadoop的目前在雅虎进展,以及自己对Hadoop的看法。他重点谈到了Hadoop在未来的发展问题,尤其是在高性能计算方面、HPC方面以及Hadoop和HPC之间的关系。他强调了雅虎在Hadoop社区的定位:完全开放地拥抱整个社区,同时支持Hadoop的工作。

阿里巴巴核心系统研发高级工程师 王玉法:Tair存储引擎之路
PPT下载

王玉法介绍了Tair存储引擎的大概背景以及Tair三种引擎MDB、RDB以及LDB。

俄亥俄州立大学计算机系主任教授 张晓东:DOT——一个开发处理大数据软件的分析模型 PPT下载

D:distributed data sets(分布式的数据集);O:concurrent data processing operations(并发的数据处理操作);T:data transformations(数据转换)。DOT模型由这三个部分一起完成大数据分析的工作:一个基本的DOT模块,一个可扩展的复合的DOT模块,和一个描述执行或者数据流的方法的DOT模块。

百度基础架构部高级工程师 陈晓鸣:DISQL2.0—— 一种海量数据处理语言
PPT下载

DISQL2.0 是一种轻量级语言,具有简约的类SQL逻辑,封装了所有SQL算子的M/R分布实现。支持PHP自定义函数。支持C++自定义函数,和C-Runtime。具有全自动高效内存管理(RAII+内存池)。

新浪云计算高级技术经理 丛磊:新浪云计算SAE数据存储的演化
PPT下载

SAE做为国内领先的PaaS,在新浪及合作第三方的支持下,具有计算类服务,存储类服务,云应用商店,云服务商店等产品。

阿里巴巴高级专家/搜索和实时计算领域负责人 强琦:分布式流数据实时与持续计算平台 PPT下载

阿里巴巴从设计理念上,提出了负责任,实时,成本,有所为和有所不为的观点。通过IProcess将这一观点落实,实现了通用的分布式流数据实时与持续计算平台。 

eBay Hadoop工程及平台总监 Juhan Lee:eBay Hadoop Stack的发展和改革 PPT下载

2009年,eBay有10-28个node cluster;2010年到了数百个node cluster,数据达到了PB级别;2011年有了数千个node cluster,达到了万PB的级别。面对这个现状,eBay用新的搜索引擎Cassini从过去的离线批处理转到了如今的在线平台。同时开发了社会化应用,移动应用和爬虫系统(Crawler)等新的功能。

(文/ 包研  审校/仲浩)

欢迎关注 @CSDN云计算微博,了解更多云信息。

以“应用驱动的架构与技术”为主题的第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013)将于2013年12月5日-6日在北京世纪金源大酒店举行。大会共设“大数据架构与系统”、“大数据技术”、“大数据应用”、“大数据的研发趋势”,“大数据基准测试(Benchmark)”,以及“智能交通与大数据” 六个分论坛,大牛坐而论道,专家实践分享。 最低票价!预购从速!

0
0
  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章