订阅云计算RSS CSDN首页> 云计算

分析:绿色能否让高性能计算更快 更便宜

发表于2009-03-24 13:38| 次阅读| 来源IT专家网| 0 条评论| 作者黄然

摘要:高性能计算机已经让绿色计算的观念更加深入人心。但是,绿色计算是否能给你提供一个更快、更好、更便宜的高性能集群呢?

高性能计算机已经让绿色计算的观念更加深入人心。但是,绿色计算是否能给你提供一个更快、更好、更便宜的高性能集群呢?

绿色已经成为了今年的热门词汇。用绿色的墨汁来打印你的小册子、在你的产品描述中加入绿色概念以及“更快地为绿色做好准备”就是很好的例子。但是,一旦牵扯到高性能计算机(HPC),就没有那么简单了。实际上,在一个性能至上的市场中,其它的任何因素看起来都居于次要位置。直到数据中心的电费帐单到你眼前时,你才领悟到其它因素的重要性。为了获得更好性能的数据中心,也就意味着需要更多的空间、电能,散热就变得更加难了。

绿色HPC是真正地优化过的HPC。除非你不考虑你的预算,否则,性价比通常是用于衡量不同硬件解决方案的标尺。尽管计算机的性能可以很容易地衡量,但是价格组成部分却有一些模糊。通常情况下,价格组件包括基本的硬件采购成本,但是忽略了操作费用。在当前火热的竞争激烈的服务器市场中,这一分析很少被人们所注意到。下面的这个例子就可以很好地说明这个问题。

目前,1U双槽集群节点需要大约300瓦的电能。散热和电源传输中的损失可能会让这个数字翻一倍,也就是600瓦。因此,通常情况下,一年一个单一的集群节点会需要5256千瓦时的电能。以0.1美元/千瓦时的成本来计算,一个单一集群节点每年的电能和散热费用大约是526美元。

而当你把整个集群都考虑进去的话,这一数字可能会增加到你难以置信的程度。考虑一个当前市场上典型的集群价格,一个节点可能需要花费3500美元(这包括机架、交换机等等)。如果使用标准的四核技术,一个节点拥有两个处理器共八个核。使用我们的平均节点价格,一个标准的128节点的集群(带有256个处理器和1028个核)就需要耗费448000美元。基于上述的猜想,每年的电能和散热预算就需要67300美元。那么如果以三年为一个周期,那么所需要的花费就是201900美元,大概占到整个系统的45%。

计算价格可能由于市场条件和地理位置有所变化,但上述的分析也表明,三年数据中心的电能和散热花费也接近于整个集群硬件的40-50%的成本。

因此,相比于性价比来说,更加确切的衡量标准应当是架构/操作比。忽略掉这些成本就会导致一个变形的、理想的性价比衡量标准。操作成本通常反映在所有权成本(TCO)标准中,但是高性能计算机则更期望使用性能标准。

绿色就是性能

基于上述的分析,任何减少电能和散热成本的估计都会自动地减少价格/性能比率(越低越好)。这个结论是相当让人感到震惊的,因为绿色计算通常和低电能(例如低时钟频率)系统联系在一起。在高性能计算机中,绿色则意味着变慢。它同时意味着更具效率。在本篇文章的余下部分,我们来看一下不同的针对HPC系统提高效率的办法以及一些绿色HPC的新思路。

让服务器更加绿色

由于很多当前的机架服务器都使用相同的处理器、内存以及硬盘,我们就暂且不讨论这些组成部分了。换句话说,我们使用那些市场提供的以及厂商所作的可以让这些组件更具效率的硬件。通过使用新的处理器,有一些新的节能特性可用;集群也展示了一个独特的环境,通过任务调度来更好地管理(参考以下部分)。

电源供应

如果你使用标准的机架式服务器,那么你可以控制的部分就是电源供应。确认你当前使用了带有电源利用率修正(PFC)功能的电源。一个超过0.8的带有PFC的电源是更具效率的。不幸地是,一个没有修正的电源,它的电源使用率因子可能是0.70-0.75,这样就会浪费电能。一个好的PFC电源可以得到0.95-0.99的电源使用率因子。除了PFC,电源的效率也不能不提到。在过去,一个典型的电源可能效率只有60-70%,这也就意味着30-40%的电能都以热能的形式浪费了。而好的电源可以达到80%以上的效率。

平衡你的调度

就像上面所说的那样,大多数的厂商都在采用更具效率的供电策略。比如,Intel和AMD都在很多的处理器上提供了动态频率控制方法,通过使用Intel的SpeedStep和AMD的Cool’n Quiet特性。使用了这些特性,就可以动态地改变一个处理器的时钟频率,这主要是通过在一个给定节点上修改/sys/devices/system/cpu/cpu_/cpufreq/文件系统来完成。一个处于闲置状态的处理器应当在它不使用时降低频率(通过cpufreq-selector命令来检测)。除此之外,如果你在你的节点上使用硬盘,那么当前的硬盘都提供绿色节点。使用命令hdparm –S就可以设置一个计数器,也就可以让硬盘进入到低电能模式。你可能需要调整内核将磁盘缓存写入到硬盘的间隔(设置/proc/sys/vm/dirty_writeback_centisecs)。Syslog守护进程可能需要被修改,它可以直接写入到磁盘上。可以通过在/etc/syslog.conf文件中的每一个条目上附加一个“-”符号来使用缓存。

最具效率地控制上述电源节省特性的办法就是通过调度。基本上,任务调度可以知道每一个节点的状态。当没有任务指派到节点上以及在性能状态下一个任务正在运行,书写一个前工作脚本和后工作脚本以让CPU和硬盘进入到一个低电能状态并不是一个很难的事情。改变这些状态并不会真正招致实际的负担,并且这个对于调度来讲也是微乎其微的。

一个更加节能的办法就是让所有没有使用的节点完全断电。Sun Grid Engine以及SLURM都有一些计划来提供这种能力。Moab和AFS也具有相似的特性。这种能力在那些无磁盘的节点上尤其有用,因为快速的启动和节点供应在网络上完成。一般情况下,在电源提供后,60秒之内一个节点就可以操作了。

另外一个办法就是使用调度来控制物理任务的放置。思想就是放置/移走任务到机房相对温度低的地方,惠普公司写的一篇文章中给出了这种方法的一些结论。

让机架更加绿色

更好的机架映射对于集群的绿色也是一个好的办法。典型的1U服务器就有至少10-12个风扇以及一个供电系统。基于刀片的系统可以让一些设计改变并且在节点间共享风扇的供电。如果你考虑一下,带有1U服务器的一个典型机架具有42个1.7x18x26英尺的通道(通风道),它们中的每一个必需保持充足的空气流来散热整个服务器。通过巩固一定量的风扇和供电,大量的电能都可以节省下来。一个很好的绿色机架的例子就是IBM的新iDataPlex。除此之外,还有一些小的子机架系统(适合于标准机架的刀片系统)提供了绿色的特性。这其中的例子包括Supermicro Office机架、IBM BladeCenter S-Series以及Dell的M-Series。

另一个由Rackable Systems公司引领的技术就是基于DC的服务器。在这个设计中,每一个服务器和存储系统都配备了一个高效率的48VDC电源,取代原来的标准交流供电。每一个机架柜都可以有效地将标准的交流电(AC)转化为直流电(DC),在这个机架中。这种在节点上去掉AC到DC的转换就意味着具有更高的电源效率(92%)以及从节点上更少的散热需要。

Intel的实验

时常,有一些人决定测试一个由来已久的假设。这些假设在某些时间点上是有效的。但是,当经济条件或者系统设计有时需要重新考虑已经建立好的设计时,那么就需要作出改变。最近,Intel就决定测试一个基本的假设。这就是,你的数据中心需要冷却的空气来工作。当然,这听起来像一个正确的假设。

为了测试这一想法,Intel调查了空气节约器的使用,以优化数据中心的电能和冷却设施。通过10个月的一个周期,使用一个100%空气交换的方法完成一个测试数据中心的散热,而无论温度、湿度以及空气质量的条件。而且,更重要的是,它们报告,并没有增加太大的组件失效状况。

一个更加详细的描述可能会让你更清楚。两个数据中心在一个相对比较低湿度的环境下(亚利桑那州)建立。每一个都拥有448个刀片服务器。控制数据中心使用传统的冷却空气(空调方法)。而第二个或者测试数据中心则使用外部的空气。而操作的温度范围则是65-90F。如果进入的空气温度高于90F,那么就使用冷却的空气来让它保持在90F。如果进入的空气低于65F,那么,暖的废气就被回收利用以保持温度在65F以上。标准的家庭过滤系统被使用,而没有任何针对湿度的调节。那么,在节能数据中心失效率为4.46%;在控制中心则是2.45%。很重要的一点是,系统都要保持在推荐的98F操作温度之下,因为它并不是一个测试或者服务器的温度限制。从数据来看,在测试端得服务器上的温度在70-80F之间变动,而控制端的温度则设定在68F。

这个实验的结论就是,数据中心的能量估计节省了67%,也就是对于一个10-MW的数据中心来讲,省去了287万美元的费用。一个研究概况会包含更多的细节,并且,这看起来该假设值得一试。可能在不远的未来,你可以听到关于这个想法的更多内容。

Green500

Top500列表是那些世界上最快计算机的排名(通过运行一个测试基准来决定速度)。很长时间以来,这一列表的追随者都希望能够知道这些系统的电能耗费情况。确实,很多人都希望能够看到每瓦的性能指标,也就是架构成本可以计算到性价比的系统之内。

幸运的是,对于这些用户来讲,当前有一个Green500列表,它给出了MFLOPS/Watt的计算机排名。最近,这个列表的第三个版本已经给出。有趣的是,Top500上最快的计算机是IBM基于Cell的Roadrunner,来自于Los Alamos国家实验室。Roadrunner在Green500列表中排名第三,也就意味着速度和绿色两者并不完全排斥。除此之外,排名前三的超级计算都史无前例的超过了400MFLOPS/watt这一高度。同样,还传来了一个好消息,基于Intel 45纳米的低功耗四核Xeon处理器的系统和IBM的BlueGene/L机器已经等同。

更少的热量,更低的失效

Intel的试验是站不住脚的,更热也就意味着更高的失效率。请注意,在Intel的试验中,测试端平均的温度比起控制端的温度并高不了多少。一个很好的定律就是,当温度每升高10摄氏度,失效率就会加倍(Intel的试验似乎很好的支持了上述定律)。当集群增长时,失效的数字就会变得越来越重要。很显然,对于小的集群,低于5%的是效率是可以接受的;但是对于大的集群,这可能就会导致大量的服务器被取代。规则就是让它保持低温,并且持续时间更长。因此,除了节省成本以外,降低你的价格/性能比,系统可以持续的时间就长一些。

在过去的几年里,高性能计算机已经变得更具效率,但并不绿色。随着时间的推移,更多的老系统将退出,而新的更加绿色的硬件和软件将进入到新的系统中,从而推进绿色系统的发展。并且当你计算价格/性能比时,更加绿色就会意味着我们把更快、更好、更便宜放在首位。

0
0
分析:绿色能否让高性能计算更快 更便宜