订阅云计算RSS CSDN首页> 云计算

董西成:Hadoop将在高速发展和完善中扩大优势!

发表于2014-04-28 11:31| 次阅读| 来源CSDN| 0 条评论| 作者刘亚琼

摘要:目前Hadoop发展迅猛,尤其是Hadoop 2.0出现后,HDFS和YARN两个系统均有多个重大特性得到了实现,进而推动了上层计算系统的发展,包括Tez的出现使得Hive和Pig有了更大的性能提升,出现了各种基于YARN的新型框架等。

2014年05月20日,CSDN携手ChinaHadoop小象社区将打造一场涵盖分布式在线存储系统HBase、数据仓库Hive、Hadoop在电信运营商的应用实践等内容的“Hadoop在企业中的应用实战”高端技术培训。
         

此次“Hadoop在企业中的应用实战”培训的起因很简单,时下数据已经成为当今企业的核心竞争力,拥有大数据并智慧地使用和运营数据成为企业不可缺少的成功要素。Hadoop生态系统提供了一种实用的、经济有效的、可扩展的架构,帮助企业存储、管理和处理海量数据。业界在Hadoop上的兴趣和投资形成了包括开源软件和商业化软件的整个生态系统,Hadoop迅速成为大数据处理方面的业界事实标准。越来越多的企业急需引入Hadoop技术人才!于是CSDN携手ChinaHadoop小象社区共同打造了此次“Hadoop在企业中的应用实战”

在本次培训开始前,我和本次培训的讲师董西成做了一次简单的沟通,他表示将会在5月20日“Hadoop在企业中的应用实战”和大家分享一些Hadoop一些典型的应用案例,主要包括HDFS、YARN和MapReduce三个系统,包括产生背景、基本的架构及使用方法,典型的应用案例等。报名点击!

董西成         ChinaHadoop小象社区核心成员
嘉宾介绍:《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者。资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。

以下是记者采访原文:

-什么原因吸引你钻研Hadoop技术?
我最初开始研究Hadoop是在研究生阶段。当时刚进入实验室做项目,第一个项目就是Hadoop优化相关的,之后Hadoop一直伴随着我,它的开放性、架构设计巧妙、参与者众多、更新速度快等优点吸引着我,是我一直持续研究Hadoop的动力。目前绝大部分互联网公司在使用Hadoop,它已经成为一个“公共标识”或者“公共语言”,让不同背景、不同经历的技术人员饶有兴致地交流和沟通,且在交流中一起成长,一起收获成就感。

-对于解决哪些问题Hadoop独具优势?
目前Hadoop已经涵盖了大部分互联网应用场景,尤其是Hadoop YARN出现之后,很多系统可以跟Hadoop友好地结合起来,共同完成之前难以完成的任务。总起来说,目前Hadoop涵盖了从数据收集、到分布式存储,再到分布式计算的各个领域,在各领域都有自己独特优势:

  • 数据收集:Hadoop提供了分布式收集工具,包括Flume、Sqoop等,可以从分布式离散的数据源(WEB服务、传统关系型数据库等)中收集数据,导入中央化的存储系统中。
  • 分布式存储:包括无结构化存储HDFS、半结构化存储HBase等,满足大部分离线存储和在线存储需求,随着HDFS本身的完善(比如新特性HDFS Cache、支持异构存储介质等)和新型存储文件格式的出现(包括ORCFile、Parquet等),HDFS将越来越强大。
  • 分布式计算:在Hadoop 1.0时代,Hadoop主要还是面向离线批处理计算的,随着Hadoop 2.0的出现及稳定,它已经逐步开始支持交互式计算和实时计算,尤其是Hadoop YARN出现后,可以允许多种类型的计算任务运行在一个集群中,用户也可以根据自己需要开发适合自己的计算框架。总之,Hadoop在高速发展和完善中,它在不断扩展自己的优势。

-目前企业应用Hadoop最大的困难是什么?
不同类型的企业遇到的困难不一样,对于一些中小型互联网公司由于它们的Hadoop技术人员数量有限,当需要运维Hadoop生态系统中多个系统且要对它们进行升级时,会遇到较大的困难。这主要是Hadoop更新速度过快,会不断有新特性和新功能出现,而这些新特性和功能往往缺乏文档说明,通常需要平台维护和开发人员通过追踪代码了解新增特性的实现细节和配置方法,这是一件极具挑战和极耗精力的事情。
对于传统非互联网公司,它们遇到的困难可能有:

  • 根据自己的应用类型选择相应的Hadoop解决方案 。
  • 如何将现有架构迁移到Hadoop上 。
  • 如果之前使用的商用软件替换为Hadoop后,自己如何维护和管理Hadoop等。

-根据您的了解,目前Hadoop发展的情况如何?
目前Hadoop发展迅猛,尤其是Hadoop 2.0出现后,HDFS和YARN两个系统均有多个重大特性得到了实现,进而推动了上层计算系统的发展,包括Tez的出现,使得Hive和Pig有了更大的性能提升,出现了各种基于YARN的新型框架等。

-请谈谈你在这次Hadoop培训上即将分享的话题。
在这次Hadoop培训上,我主要分享一些Hadoop基础知识和一些典型的应用案例,主要包括HDFS、YARN和MapReduce三个系统,介绍这几个系统的基础,包括产生背景、基本的架构及使用方法,典型的应用案例等,当然,还会介绍它们最近发展动态和趋势,对于把握Hadoop技术发展趋势有一定指导作用。

-哪些人群应该来参加本次培训?会对他们有哪些帮助?
这次培训主要面向正准备试用Hadoop的公司和Hadoop初中级学者。该培训可以为那些想了解Hadoop是什么、可以做什么、有哪些成功案例的人群,在Hadoop技术选型、Hadoop技术架构设计特点、Hadoop应用等方面给予指导。

更多精彩尽在2014年5月20日“Hadoop在企业中的应用实战”培训,目前报名可享受三人成团优惠价!马上报名

往期采访:

冼茂源:HBase在垂直搜索业务以及数据存储中的应用!


以“ 云计算大数据 推动智慧中国 ”为主题的 第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。 需要购买的朋友,请抓住这最后的机会,点击报名!

0
0