订阅云计算RSS CSDN首页> 云计算

云计算一周热文回顾:打破雅虎纪录——微软60秒处理1401GB数据

发表于2012-06-01 16:51| 次阅读| 来源CSDN| 0 条评论| 作者csdn

摘要:上一期中,我们回顾了过去一周云计算频道里的热点新闻,本期将继续给大家回顾上周的热点新闻。 打破雅虎纪录微软60秒处理1401GB数据 Microsoft研究院近日打破了之前由Yahoo保持的数据整理速度记录。Microsoft研究院的9人小组成功在短短的60秒内完成了对1401GB的数据整理工作。他们的测试基于MinuteSort基准。...

上一期中,我们回顾了过去一周云计算频道里的热点新闻,本期将继续给大家回顾上周的热点新闻。

打破雅虎纪录——微软60秒处理1401GB数据

Microsoft研究院近日打破了之前由Yahoo保持的数据整理速度记录。Microsoft研究院的9人小组成功在短短的60秒内完成了对1401GB的数据整理工作。他们的测试基于MinuteSort基准。MinuteSort是比较在一分钟内所排序的数据量大小。Microsoft采用了的一种新分布式计算系统(Flat Datacenter Storage)以加快数据处理

值得一提的是Microsoft的系统使用了250台主机(1033块磁碟),而Yahoo之前创造纪录的系统则使用了1406台主机(5624块磁碟)。

Microsoft认为Flat Datacenter Storage可利用其技术优势帮助Bing提高性能,在未来Microsoft认为Flat Datacenter Storage可在机器学习领域有所作为。目前在大数据处理领域热门的处理技术显然是Hadoop和MapReduce,但现在看来,Microsoft的Flat Datacenter Storage技术则更加优越。

Apache Hadoop 2.0 Alpha 发布

Apache Hadoop 2.0 今天发布了首个 alpha 版本,该版本还不能用于生产环节,还有一些很重要的开发没完成。该版本包含很多新的很重要的功能:

HDFS HA (manual failover)

NextGen MapReduce a.k.a YARN

HDFS Federation

Performance

Wire-compatibility for both HDFS & YARN (via protobufs)

除了新功能以外还有一些重要的改进,例如HDFS Snapshotsauto-failover for HA NameNode, 另外在稳定性和性能方面都有提升。

数据中心内存颠覆性创新:HMC技术传输率可达1TB/s

近日,Hybrid Memory Cube联盟宣布Microsoft正式加入,Hybrid Memory Cube组织主要是由Micro和三星牵头。Hybrid Memory Cube联盟制定并实施了一种新的内存技术,同时具有新的开放接口标准。

Hybrid Memory Cube技术是由Intel、Micro联合开发设计的。Hybrid Memory Cube技术在内存带宽和性能上具有质的提升,同时减少能耗和存储器阵列和处理器内核之间数据传输所需的内存延迟。

Intel曾在去年九月IDF上有所展示,Hybrid Memory Cube技术相比于当今主流的DDR3在能源效率上有至少7倍以上的优势。Hybrid Memory Cube技术使用堆叠技术将内存芯片压缩成一个紧凑的“立方体”,并配有新的高速传输接口。新的数据传输接口传输率可达到1TB/s。

戴尔正式宣布基于ARM架构服务器

此外,体积小巧也是ARM服务器的重要优势,戴尔表示,传统的PC机架里可以放进4个ARM计算节点,总共48计算节点的服务器集群可以塞进一台单一的3U

ARM架构的CPU一般出现在我们的手机、平板、机顶盒或者电视里面,但在不久之后,它们会大踏步迈入一个新的领域服务器、计算中心、甚至超级计算机。

早在2月份,戴尔就暗示自己正在和ARM一起,测试基于ARM架构的服务器。今天,戴尔正式宣布,它已经推出了基于ARM架构的服务器,代号“Copper”。

我们知道,x86 CPU的性能要远远超过ARM CPU,而且服务器软件基本都是基于x86架构,ARM在这方面几乎是空白,戴尔为什么要用这么一种看起来很弱小的CPU来搭建服务器呢?答案只有一个字:钱。

x86服务器的搭建成本已经越来越高,一颗英特尔Xeon志强处理器价格就高达数千美元,它的能耗可能高达上百瓦,与之相称的电源、主机板、散热器价格都不会便宜。用这样的处理器来搭建服务器,最终肯定价格不菲。

而ARM CPU在这方面就要好得多,戴尔“Copper”单个计算节点(包含CPU、内存、主机板等所有配件)的典型热功耗仅为15瓦特,一个完整的服务器集群功耗很可能小于750W。“Copper”也具备自己的高速总线,节点之间互联性能很强,在戴尔提供的视频里,“Copper”很轻易就构建了一个48节点的计算集群。

超级计算机通过以太网连接400PB存储系统

正在建设中的Blue Waters超级计算机

美国国家超级计算应用中心(National Center for Supercomputing Applications)正计划推出一个包含380PB磁带存储容量和由17000个SATA驱动器组成的25PB在线磁盘存储的存储基础设施。

这个大规模存储基础设施将用于支持世界上最大的超级计算机之一,被称为Blue Waters。由美国国家科学基金会(NFS)委托制造的Blue Waters预计峰值性能将达到11.5 petaflops,虽然NFS对其的要求是提供1 petaflop的应用程序持续计算能力。

美国伊利诺伊大学运行的NCSA已经与Cray公司签署了一份合同来建设这个超级计算机,该系统将运行一个Lustre并行文件系统,到其后端存储的吞吐量将超过1TB每秒。

这台超级计算机将包含超过235个使用380000个AMD Opteron 6200系列X82处理器的Cray XE6机柜,和超过30个最新推出的Cray XK6超级计算机(拥有3000个NVIDIA CPU)未来版本的机柜。该系统将包含来自19万个内存DIMM的1.5PB聚合内存。

为了支持所有这些计算能力,NCSA使用Cray Sonexion存储系统部署了25PB磁盘存储。Sonexion原本被称为Zyratex存储阵列,该系统通过40Gbps以太网从Extreme Networks提供高达1TBps聚合带宽。

麻省理工学院与英特尔强强联手致力大数据领域

麻省州长Deval Patrick周三在麻省理工学院宣布将建立大数据研究中心。麻省理工学院计算机科学和人工智能实验室(CSAIL)宣布一项名为bigdata@CSAIL的新计划,这将使更多金融、医疗、社交媒体和安全领域产生的大数据变得具有意义。这些领域通常需要处理庞大的数据集。

Deval Patrick表示将组织资源给麻省理工学院以便培养下一代的数据科学家。到2018年将增加50000个大数据相关的职位。

英特尔公司宣布将在麻省理工学院人工智能实验室(CSAIL)建立致力于大数据的英特尔科学和技术中心(ISTC),麻省理工学院将获取为期5年共1250万美元经费。英特尔首席技术官Justin Rattner表示目前Web上非结构化数据进入了前所未有的增长时期,这将促进移动设备的快速增长和更多的数据连接。

第三方调查报告:近半数人认可Hadoop和NoSQL技术

独立企业数据集成软件提供商Informatica公司近日对600名IT和业务专业人员进行了调查,调查的结果表明大数据更多带来的是商机而非挑战。

调查显示当今将近70%的企业都希望利用大数据技术的优势改善自身业务。44%的企业正在考虑使用大数据技术、22%企业正在规划、13%的企业已进入测试阶段,而20%的企业已经在部署运行大数据项目。

Google寻求安全标准 努力成为 “数据银行”

鉴于现在越来越多的公司和政府机关开始依赖Google公司的云服务,该公司也开始极力向广大用户证明其安全性,比如Google Apps。在一次采访中,Google安全部门的主管就把他们公司跟早些年的银行系统进行了比较,“它就像几百年前的银行运行模式。银行说服人们把钱存到他们那里,然后人们就从床垫下把钱拿出来存到银行里。”

0
0
云计算一周热文回顾:打破雅虎纪录——微软60秒处理1401GB数据