订阅程序员杂志RSS CSDN首页> 程序员杂志

Server SAN:云计算时代的弄潮儿

发表于2014-07-28 15:17| 次阅读| 来源《程序员》| 0 条评论| 作者刘爱贵

摘要:Server SAN为何一时间能成为了高大上的东西?分布式存储说来并不新奇,2000年诸如GPFS、Lustre、Panasas及PVFS就出现了,但之后发展不温不火。说到底还是实际应用需求的推动,当前的繁荣源于数据在爆炸式增长。

云计算时代,IOE适应不了云计算的弹性横向扩展。于是,计算与存储又重新统一,美其名曰软件定义存储。研究机构Wikibon将其定义为Server SAN。

4月30日,Red Hat宣布1.71亿美元收购Ceph开发商Inktank,加上2011年收购的Gluster,Red Hat已经将两大著名开源分布式文件系统纳入旗下。Nutanix和VSAN在虚拟化中大行其道,更是把分布式存储推到了风口浪尖,Server SAN一时间成为了高大上的东西。为什么会出现这番场景?分布式存储说来也不是新奇玩意,2000年诸如GPFS、Lustre、Panasas及PVFS就出现了,但之后十年发展一直不温不火。其实说到底还是实际应用需求的推动,当前的繁荣源于数据在爆炸式增长。

分布式存储的发展演变

回顾发展简史,大致可以把分布式存储分为四个发展阶段。

第一阶段是20世纪80年代的网络文件系统。这一时期历史背景是以太网技术蓬勃发展,主要研究重点是实现网络环境下的文件共享,解决客户端与文件服务器的交互问题。这一阶段的主要成果包括CMU/IBM合作研制的AFS文件系统和SUN公司推出的NFS文件系统。

第二阶段是20世纪90年代的共享SAN文件系统。这一时期存储系统开始独立于计算机系统快速发展,存储网络SAN兴起,研究重点转变为解决存储系统的可扩展性和面向SAN的共享文件系统。这一阶段重量级的产品是IBM研制的GPFS,以及由Red Hat支持的开源项目Global FS。

第三阶段是21世纪前十年间的面向对象并行文件系统。计算机技术不断发展,尤其是高速网络技术的发展,这对存储系统扩展性提出了更高的需求,急需突破容量和性能方面的瓶颈。研究重点主要集中在对象存储技术,如何进行高效的元数据管理和提高数据访问的并发性。这一阶段可谓是百家争鸣,尤其是开源系统异常繁荣,包括PVFS、Panasas、Lustre、Ceph、Google FS等。

第四阶段是2010年之后的云文件系统。云计算和大数据现在已开始真正落地。在这样的背景下,数据呈爆炸式增长。据研究,2020年数字宇宙将达到40ZB。云存储要求弹性扩展、高可用、高性能、多租户和QoS,大数据则有4V特征,这对数据存储和管理提出新挑战。在这一阶段,研究重点是EB级大规模存储系统、数据高可用性方法、高效智能存储技术,以及新型的计算存储融合系统和应用感知存储。目前很多分布式文件系统都在朝云方向发展,诸如GPFS、ISILON、OceanStor 9000、GlusterFS、Ceph等。

Server SAN——云计算时代的弄潮儿

存储和计算分离后,IOE基本垄断了IT企业应用市场。然而IOE却适应不了云计算时代要求的弹性横向扩展,要么无法满足应用需求,要么构建和维护成本过高。于是,标准x86服务器+存储软件这种融合系统出现了,计算和存储又重新统一,美其名曰软件定义存储,Wikibon还给出了一个Server SAN的定义。简单地说,Server SAN是由多个独立服务器存储组成的一个存储资源池,有着良好的性价比和扩展性。按照这个定义,Nutanix、VSAN、Nexenta、Ceph及Gluster等都属于Server SAN。Server SAN存储目前主要是互联网公司研发使用,即Hyperscale Server SAN,这占据了Server SAN存储的绝大部分份额,但Server SAN已经逐渐进入了企业的数据中心。

Nutanix目前是风头正劲,它在应用层面对计算和存储进行超融合,主要针对虚拟化应用,甚至连自身的控制器都是VM。VSAN更是当下大潮,刚刚发布第一个版本,就有大量用户迫不急待地测试和上线。根据Wikibon的调查结果,Server SAN 五年后将超过传统企业存储,成为市场主流;十年后传统存储只有10%的份额。虽然这个预测有点太过乐观,但大的趋势没错,Server SAN已经成为云计算时代的新宠儿。那么,为什么 Server SAN会如此受到市场热捧呢?

究其缘由,归结于Server SAN生得逢时。运行于标准x86服务器或虚拟机之上的软件定义存储概念已经深入人心。x86服务器架构的可靠性和性能已经得到充分验证,Server SAN可以利用服务器的大量Core。存储软件和服务独立于硬件,性价比高而且管理简便,可以提高竞争力。传统存储网络主要基于FC,传输带宽和延迟远远优于千兆以太网,但随着10Gb/40Gb以太网和Infiniband RDMA网络技术的引入,反而成了系统性能瓶颈。而采用Server SAN,计算和存储网络统一,就没这个问题。最为重要的一个因素是闪存SSD技术,高I/O性能、极低延时和高带宽是闪存的显著特点。闪存这种革新性的存储技术使得Server SAN可以具有超高性能,完全可以和高端存储相媲美。正是由于x86服务器、高速网络、闪存和软件定义存储等技术的发展和广泛应用,才造就了Server SAN的生态环境,使其在恰当的时候成为了云计算时代的弄潮儿。

分布式存储的发展展望

存储技术发展日新月异,从来都不缺少新的概念和名词,但铅华褪去,真正留下来的才是精髓。五年或十年后,分布式存储到底会是一个什么样子?这里不妨大胆展望一下。

  • 超高Scale-Out扩展能力:单一EB级存储系统,支持万级集群规模,可全球范围内全局部署;
  •  CompuStor超融合:类似Nutanix架构,计算、存储,甚至应用高度融合;
  • 闪存技术应用:从主存、Cache到Tier分层,闪存无处不在;
  • 高速网络互联:四/十万兆以太网和Infiniband网络得到普及;
  • 应用感知:I/O更加智能,性能和效率动态自适应和优化;
  • 纠错码技术:基于纠错码提供可用性,复制技术作为辅助;
  • Online消重/压缩:成为系统标准配置,提高存储效率;
  • 统一存储:池化存储,同时支持对象、块和文件存储。

作者刘爱贵:中科院博士,专注于存储技术的研究与开发,分布式文件系统资深理论研究与实践者,GlusterFS技术专家。

0
0

近期活动

更多

2015中国大数据技术大会

为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司及CSDN共同协办的2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。

微博关注

程序员移动端订阅下载

相关热门文章