订阅云计算RSS CSDN首页> 云计算

飞天5K:开放比开源更有意义

发表于2013-11-08 16:49| 次阅读| 来源CSDN| 0 条评论| 作者周小璐

摘要:2013年8月,阿里集团的云梯2单集群规模从1500台升级到5000台,同时实现了跨集群扩展;云梯1实现了空间优化与跨机房集群扩展。如此大规模的计算能力开放出来,是亚马逊、Facebook、谷歌都没有做的事情。

10月24日,这个对开发者来说略显特别的日子(1024=2的10次方,坊间传说的“程序员节”),”飞天5K”的标志在青山绿水间揭开了面纱。阿里云资深总监飞天负责人唐洪接受了CSDN的采访,为我们带来了关于“飞天5K”的最新消息。


飞天5K纪念碑,背后是已经部署了5K的机房

目前,只有Google、Facebook这样的顶级技术型IT公司,其集群规模有能力按照5000来划分。今年8月,历时4个月,阿里集团涵括云梯1空间优化与跨机房集群扩展、以及云梯2单集群规模从1500台升级到5000台,同时实现跨集群扩展的5K项目顺利取得阶段性成果。据悉,云梯1和云梯2都是阿里集团处理海量数据储存与计算的系统,前者底层为Hadoop,后者底层为阿里云自主研发的飞天平台。今年上半年,云梯遭遇了机房容量的限制。业务规模增长迅速,预计离线计算集群将从现在的2个集群6000多台,增长到6个集群共21000台服务器,单集群规模要达到5000台。


飞天

飞天是由阿里云开发的大规模分布式计算系统。飞天负责管理数据中心Linux集群的物理资源,控制分布式程序进行,隐藏下层故障恢复和数据冗余等细节,有效的提供弹性计算和负载均衡的服务。

据悉,飞天5K单点集群拥有超过10万核计算的能力、100PB存储空间,可处理15万并发任务数,承载亿级别文件数目。同时,飞天5K单点集群的100TB排序能在30分钟完成,两倍于今年7月1日Yahoo在Sort Benchmark排序测试Daytona Gray Sort所创造的世界纪录——100TB排序完成时间约71分钟。

ODPS

ODPS作为离线数据处理平台,在整个5K的架构上起到了承上启下的作用。 许多新的技术也是第一次应用到5K项目,并且经受了准生产环境的检验,同时也为未来数据业务长期发展打下了坚实的基础。跨集群数据复制为例:

  • 突破了单集群的数据存储上限。由于目前主流分布式系统master-slave的结构,单集群受限于master的内存和处理能力上限。而现在数据可以存储在多个集群上,不再受单集群的限制;
  • 可以实现多机房数据容灾。目前云梯1上大量非再生数据正在备份到其他集群上,将来可以动态的跨机房备份重要数据。
  • 实现跨数据中心动态负载均衡,将热点集群上的数据和作业动态迁移到空闲集群,缓解热点集群的压力,提高空闲集群的使用率;
  • 对于响应速度要求比较高的请求,可以在多个集群同时调度这个作业,将响应最快的请求返回给用户。

集团内部数据业务发展的需求

对于云梯这样的大规模分布式离线存储和计算集群来说,扩展性一直是其生命线,如果某一天云梯集群不能通过加机器来增加存储空间和计算能力时,那么云梯将无法继续支撑集团的离线计算业务。目前,阿里集团基本所有的重量级应用都会用到阿里云,据唐洪估计阿里内部采用云平台的部门比例已超过一半以上。淘宝每天的日交易量、双十一百万亿交易量的压力,以及新增的余额宝业务,都令云梯遭遇了机房容量的限制。为了突破集群存储的瓶颈,阿里云飞天团队、集团核心系统部、集团技术保障部、CDO数据平台等多个团队紧密协作,成功实现单集群超越5000台、多集群跨机房计算,并完成集群业务的大腾挪。


阿里云资深总监飞天负责人 唐洪

开放比开源更有意义

飞天5K可以说是国内自主研发技术的一次飞跃,但是唐洪认为单单技术实现到一个东西是没有影响力的,唐洪认为这件事最大的意义是“任何一个开发者,当他有一个需求,想要用 5000台机器,跑一个小时,做一些事情的时候。今天我们把这个计算能力提供出去,这件事情是亚马逊、Facebook、谷歌都没有做的事情。在我们看来,我们希望的终极状态大家不要买机器,不要布机器,你就把应用跑云上来。这些工具对这些开发者来说是没有意义的,这点意义上来说,我们觉得开放比开源对他们的帮助更大。”

据唐洪介绍,阿里云现在已经部署了三个5K集群,某种意义上5K是个基础,不是根本的目标。5K作为整个云服务的基础,一方面能提供大规模计算的能力;另外,5K可以帮助开发者做成本的节省、资源调度。5K最关键的是要做共享,比如有些应用是 CPU,有些应用是内存,有些应用是 IO,只有池子大了才能在几个应用之间进行互补。

最大的挑战

在计算能力的开放上,首先要考虑的是安全的问题。其次企业用户和互联网的量级是不一样的,用户管理上有不一样的架构。很多美国的互联网公司也基于Hadoop做了很多的东西,为什么从来没有公司可以把Hadoop这种能力作为功能服务弄出去,这个本身需要做很大的工作才有可能变成一个公共服务的。

唐洪说:“当你把一个服务从企业内部一个应用的人群变成了一个互联网人群时,只有逐一解决了各个问题,才可以给外面的人去用。这也是我们之前为什么会走自主研发道路的原因。”

运维

运维的任务是维护5K平台稳定,为开发提供平稳的开发测试环境,为5K验收提供一个可靠的验收环境,由于集群版本的快速迭代给运维带来很多额外的挑战。而验收测试标准同样异常严格,阿里巴巴进行了10倍数据极限压力测试以及历史上规模最大的机房断电演习,一组数字或许可以更直观的看到这些测试结果:

  • 100T数据TearSort 30分钟完成,比世界纪录快了2倍;
  • ODPS作业10倍测试压力连续7天无人工干预跑过;
  • 高并发12,000 Job全部运行成功,单Job并发100,000 worker成功运行,并发5,000 Job时master在80秒完成故障恢复无作业失败。

唐洪介绍说:“在阿里巴巴,维护淘宝主站的团队和维护阿里云是一个团队,从硬件防断电这个角度来说,我们有设几级的保护措施,比如我们在每一个机房会有柴油机发电机,当市电断电之后柴油发电机可以切换进来,确保它有足够多的能量供给72小时的临时供电。”

“从软件方面说,我们的云服务器很多会提供异地架构的一些方案,但是需要客户去做一些配合。比如说你可以在两个不同的数据中心购买我们的云服务器,这样发生故障的话你可以切换到另一个那边去。”

国内外竞争

去年的阿里云开发者大会上,唐洪曾说过阿里云就是Google + Amazon模式的集成。提到与这俩家互联网巨头的竞争,唐洪表示:“其实,和亚马逊和与谷歌的竞争不完全在于技术,更在于产品与服务。构建云服务,我们有阿里巴巴集团多年的技术积累,我们有非常好的网络资源,而亚马逊在中国自己建骨干网走起来会比较艰难。以谷歌为例,它也有云服务,但或出于保持自己核心竞争力的原因,在云方面一直羞羞答答地没有大踏步向前走。”

而谈及对手亚马逊,唐洪自信地表示可以比亚马逊做的更好。“亚马逊没有类似飞天ODPS这样的大规模计算服务,并且我们对中国的云计算或者是移动互联网市场,可以有第一手精确的了解,这样有利于我们产品的本地化以及贴近用户的使用习惯。”

关于国内的竞争,唐洪认为阿里云作为一家提供通用服务的公司,最大的特点就是不挑客户。”我自己觉得,我们在搞一个长跑,今天的状态是领跑者,有两个人在后面,在这种情况下,你跑步的过程当中,看的是终点在哪里,这个市场还没有完全成熟起来,我们占有的在未来市场可能1%都不到,我们要瞄准更大的市场,不是看现有我们占了多少,但是时不时的要往后看一下,其它的产品有什么好的地方我们可以借鉴。我们部署瞄准市场去打的,而不是竞争对手。前景很光明,道路还是很艰苦的,马拉松才跑了5公里。还有很长的路,还有很多人要跑。”

唐洪将会出席第七届中国大数据技术大会(Big Data Technology Conference 2013,BDTC 2013),并在主会中分享“阿里巴巴飞天数据平台架构”。本次大会以“应用驱动的架构与技术”为主题,将于2013年12月5日-6日在北京世纪金源大酒店召开。欢迎参加讨论! 

  • CSDN官方微信
  • 扫描二维码,向CSDN吐槽
  • 微信号:CSDNnews
程序员移动端订阅下载

微博关注

相关热门文章