北冥多样性计算融合架构系列解读之 一文读懂华为多瑙统一调度器
发表于 2021-09-29 18:14:28

调度器,作为集群计算的大脑,主要负责为任务分配相应的系统资源。好的调度器,可以充分发挥集群资源的有效算力,为用户带来极致的性价比;反之则会导致严重的资源浪费,甚至是集群瘫痪。

  1. 新时代,新挑战

21世纪是多样性计算爆发的时代。随着人工智能、大数据、云计算等新一代信息技术的不断发展和突破,应用跨领域融合、算力架构创新等现象层出不穷,多样化的趋势给传统的调度技术领域带来了新的挑战。

从横向看,集群缺少支持HPC、AI、大数据的跨场景统一调度器,各集群分散建设,给开发者和集群运维人员带来了很大的难题:

  • 融合应用找不到合适的调度入口。
  • 集群之间资源无法共享,资源利用率低。
  • 多套集群,多套软件栈,硬件成本、管理成本高。

从纵向看,面对多样应用、多样算力,传统调度算法无法基于应用差异化的特征,实现系统化的性能调优。如对于通信密集型应用,传统调度器既不感知应用,也未感知网络拓扑、带宽、时延等因素,不合理的调度容易形成通信瓶颈,降低计算效率。同时,据数据显示,我国数据中心年耗电量超过全社会用电量的1.5%,数据中心“耗能高”的问题也一直无法得到有效解决。

从跨数据中心看,不同数据中心分散建设,不同区域算力使用存在波峰波谷效应,由于缺乏数据中心间的协同调度,资源无法共享,全局资源利用率低。

  1. 拥抱变化,重拳出击

为了应对多样性计算时代给资源调度技术领域带来的挑战,华为给出了自己的解决方案--多瑙统一调度器。

多瑙调度器,谐音“多脑”,象征智慧、统一,是华为自主研发的一款统一调度器。目标是支持融合应用跨多样性算力资源的统一调度和管理,实现大规模、高资源利用效率、高调度性能,为多样性计算集群提供应用和资源的最佳匹配。

多瑙统一调度器基于前沿的架构设计理念进行设计开发,横向支持HPC、AI、大数据多场景统一调度;纵向支持应用、算力、存储、网络、能耗深度感知和多维度智能调度;跨数据中心支持数据中心间资源协同,全局调度。

  1. 初露锋芒大放异彩

华为于2020年首次推出多瑙统一调度器,并于2020年底如期发布Donau 1.0版本。Donau 1.0版本支持多场景统一调度,解决了多样性计算环境下,融合应用开发部署难的问题,同时,在集群规模、调度性能、资源利用率等核心调度指标方面实现了竞争力突破,业界领先:

  • 大规模:30万作业并行运行。
  • 高性能:作业调度5K/s,完成4M/h(作业吞吐量)。
  • 高利用率:90%+。

多瑙统一调度器一经推出,受到了广大客户的青睐。当前,多瑙客户包含国内多家知名企业,业务领域覆盖广泛,不仅包含半导体、制造、气象气候、高能物理、材料化学等行业应用,也包含超算等公共算力平台。

在今年9月份刚刚召开的华为全联接2021大会上,华为分享了在智能调度领域方面的思考,计划将于今年年底正式发布Donau 2.0版本。Donau 2.0版本支持多维度智能调度,通过深度感知应用特征和算力、网络、存储、能耗等多维度资源,并结合专家系统、跨域联动、智能调度算法创新,充分发挥集群有效算力、降低能耗,为客户带来更高的投资回报。在典型场景下,实现了集群25%的作业吞吐量提升和30%的节能。

  1. 持续演进,未来可期

2022年,华为计划发布Donau 3.0版本。据悉,Donau 3.0版本将通过元调度技术,支持跨数据中心全局调度,同时,会基于开放的接口,提供兼容第三方调度器的能力,为算力网络的构建提供关键技术支撑。

多瑙统一调度器作为华为北冥多样性计算融合架构的关键组件,围绕着统一、智能、全局的技术方向稳步演进,不但能够解决当下计算产业面临的难题,未来还将催生出更多的智能计算解决方案,值得期待!

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】