昇腾AI开发者峰会2025: 技术升级与产业共振 共赴AI新征程
发表于 2025-05-24 13:43:19

2025年5月23日,在鲲鹏昇腾开发者大会2025期间,昇腾AI开发者峰会在北京正式召开。会上,华为昇腾计算业务总裁张迪煊发表了《一起昇腾,共绽光芒》的演讲。他表示,昇腾打造了业界最大规模的昇腾384超节点,同时发布CATLASS算子模板库、MindIE Motor推理服务加速库、推理微服务MIS,持续升级分层开放CANN的能力、MindSpeed RL强化学习套件、大规模专家并行推理解决方案,使能每一位开发者,算子开发更简单,应用部署更便捷,模型训练和推理更高效,共建产业生态。

以下是张迪煊的演讲全文

各位开发者朋友们,大家好!

这一周,我们每天都组织一场关于昇腾技术解密的直播。看了大家的评论后,我有个深刻感触,就是开发者对于昇腾技术如此纯粹和痴迷。同时,也涌现出了一批对于昇腾深入了解的开发者,自发成为了“昇腾课代表”,解答直播中的各种问题,谢谢大家! 

昇腾这6年,从华为的百人团队发展到百万开发者生态,这一路以来取得的成绩,都离不开各位的支持与相伴,再次感谢每一位客户、伙伴以及广大开发者。随着昇腾产品的演进、技术的深度开放、易用性的持续提升,昇腾产业的发展迸发前行。目前,超过5万名开发者,能够对昇腾性能深度挖潜,做出突破性创新,并进行开源贡献;累计培养了40多万学昇腾、懂昇腾的学生,他们开始逐步进入社会、进入企业,成为了推动AI发展的中坚力量。与高校打造“卓越中心和孵化中心”,针对前沿创新课题,孵化世界级科研项目,引领AI产业发展。

640.png

华为昇腾计算业务总裁 张迪煊

CANN分层开放,使能每一位开发者

CANN始终致力于使能每一位创新者,深度贡献的开发者已经从1000多人迅速增长到6000多人。在操作系统、算子算法、整图优化及加速库等各个层面,持续创新。互联网、运营商、金融等30多个伙伴,开发了260多个高性能算子,在实际应用场景中带来业务性能提升。

清华大学计图团队正是CANN创新的中坚力量。基于昇腾构建起MoE专用的算子体系,实现INT4量化,MLA矩阵吸收等技术创新,达成性能与内存的双重突破,率先在昇腾单台Atlas 800 服务器上,部署满血版DeepSeek R1模型,实现推理性能翻番。

CANN始终坚持分层开放,我们开源了Ascend C、算子加速库、集合通信库等组件,并在Gitee上提供了丰富的参考样例。同时还深度开放了Runtime运行时、毕昇编译器等接口,满足发烧友极致开发的需求。过去,大家只能通过GE图引擎才能做整图调度优化。现在,可以利用aclGraph整图下沉接口,可直接调用最底层能力,大幅提升优化效率。基于开放的运行时接口,灵活组合,挖掘更极致的硬件性能。

今天,我为大家带来了昇腾AI的毕昇编译器。毕昇提供了端到端昇腾算子编译和调优能力。

在前端表达层,借助其混合编程编译能力,实现Host、Device异构编译,支持Ascend C高性能算子开发。

在中端编译层,利用亲和昇腾微架构技术,自动完成指令调度与合并消减,减少多余的访存,让算子性能提升20%以上。在后端生成过程中,不仅能自动优化寄存器分配,还可基于动态二进制插桩技术,分钟级定位内存异常,通过源码回溯,可快速确认异常代码行,大幅缩短算子调试周期;同时,我们还将毕昇编译器里的AscendNPU IR接口开放出来。联合智源人工智能研究院等伙伴,实现无感对接Triton、FlagTree等Python算子编程框架;

伴随AI技术持续突破,优化技术从模型层面的算法优化 逐步下探到底层硬件资源的极致利用。CANN是充分释放处理器极致性能的核心,我们在计算、通信、内存三个维度,加速AI技术引领。

首先,在计算上,MLA前处理涉及十三个小算子串行计算,多达20多次的数据搬入搬出,计算耗时占整体 25%以上。CANN通过Vector 和 Cube计算单元的并行处理、流水优化技术,非常好的掩盖了Vector计算耗时,将13个小算子融合成一个级算子 MLAPO,一次下发即完成计算,耗时从109ms降至45ms。目前,该技术已上线并广泛应用在互联网、运营商等客户场景,带来20%以上的业务性能提升。

其次,在通信上,传统的RDMA异步通信,一次消息的传输,需要三次信号同步,涉及至少七步的数据读、写、校核的过程,导致HostBound问题凸显,严重影响通信效率。大规模专家并行推理涉及专家间的大量小包通信,通过NPUDirect通信算法创新,直接下发指令到NPU的Vector核,实现一个消息,一次同步,将小包通信耗时降低90%,整网通信耗时降低50%,大幅降低推理时延,提升用户体验。

最后,在内存极致优化上,针对搜索、推荐等典型动态shape场景,内存被频繁的申请、释放,产生内存碎片。以往在数据读写中,物理内存与虚拟内存需一一映射,当部分内存一直被占用时,导致可用内存不足。为了将碎片内存充分利用起来,在NPU上,通过多重地址映射技术,物理内存可根据实际需求,动态切分并适配虚拟地址,将不连续的空闲内存拼接使用,带来内存利用率20%以上提升。

去年发布的Ascend C 2.0提供了丰富的开发接口及调测能力。今天,我正式发布CATLASS昇腾算子模板库。CATLASS按照计算粒度自上而下分层设计。Device层是算子在CPU端的调用接口,提供完整算子能力;Kernel层则体现算子在NPU上的完整实现,涉及多个计算核的并行计算;进一步拆解到Block层,里面包含单个AI核的计算过程;Tile层则由数据搬入、数据计算、数据搬出等步骤组成,可通过最底层的指令组装实现。当前CATLASS模板库已在Gitee社区开源上线,并提供20个典型算子样例。以Matmul算子为例,基于模板库开发,可以将开发周期从4人周缩减到2人周。同时,还可以通过调整接口参数,自定义优化算子切分策略,实现算子性能最优。 

640 (1).png

昇腾384超节点,业界最大规模超节点

目前,MoE凭借其模型效果成为了主要模型结构,然而MoE却涉及最复杂的混合并行策略。其中,TP、SP、EP的通信量高达百GB的级别,且通常无法掩盖。随着并行规模的增长,传统服务器的跨机带宽成为训练核心瓶颈,需要通过计算架构的创新,满足未来训练的需求。传统服务器之间通信通过以太网络互联。这意味着,当模型切分超过8卡时,跨机通信带宽,就成为了主要瓶颈,导致系统性能急剧劣化。

我们打破了以CPU为中心的冯诺依曼架构,创新提出了对等计算架构,并把总线从服务器内部,扩展到整机柜、甚至跨机柜,定义了超节点。在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍,真正让集群像一台计算机一样工作,突破性能边界!

基于超节点架构,我们打造了业界最大规模的昇腾384卡超节点。昇腾384超节点由12个计算柜和4个总线柜组成,最大算力可达300 PFLOPS,48TB高速内存。同时,结合华为在ICT领域的技术积累及工程经验,可以将多个384超节点组成十万卡级的 Atlas 900 SuperCluster 超节点集群!以支持更大规模的模型训练需求。在客户的昇腾超节点实测中,LLaMA3等千亿稠密模型性能可达传统集群的2.5倍以上。DeepSeek、Qwen等多模态、MoE模型上,可以达到3倍以上的提升。

640 (2).png

MindSpeed RL 强化学习开发套件训练精度达业界商用水平,性能持续引领

深度思考已经成为必备能力,强化学习是深度思考模型的必经之路。相较于单纯的SFT微调,增加强化学习训练后,模型在逻辑、数学、编码等专业领域上能够得到超过10%的精度提升,表现出令人惊艳的自我思考、自我验证的能力。然而,强化学习训练并非易事。传统的SFT微调仅需输入行业数据,完成模型权重的更新即可。而强化学习则涉及训练和推理系统的反复转换,面临着系统级挑战:

首先,训练推理任务互相串行等待,带来严重的资源空泡,资源利用率低;

其次,训练推理转换所带来的权重更新,导致大量跨节点通信,通信时延较高;

最后,多模型部署中,权重参数与KV Cache会占用大量内存,容易出现内存溢出。

为了让开发者能够快速构建强化学习训练能力。我们吸取并沉淀业界丰富的开源算法 和加速能力,打造了MindSpeed RL强化学习套件。同时聚焦发挥底层工程创新能力,提供大规模训推共卡、权重Reshard和调度优化等多场景加速技术,训练精度达到业界商用水平,性能持续引领,所有的能力都在Gitee上进行了开源。训推共卡是强化学习的主流部署模式,但受限于通信时延高、内存不足等问题,业界方案当前只支持较小参数的模型。昇腾提供了训推参数同步、动态权重转换、内存调度控制等关键技术,支持千亿规模大模型。在训推转换的内存调度控制上,通过内存在NPU和CPU侧的加载和卸载,实现推理可用内存高达90%,提升推理性能;

同时,在Response生成阶段,参差不齐的样本序列长度,会造成资源空泡,我们通过对超长样本提前截断,截断的样本在后续step重组后进行推理,大大降低资源空泡率,在训练效果保障的同时,资源利用率提升20%以上。为了让开发者快速上手套件能力,提供一站式开发指导,支持一键式脚本直调和乐高式灵活定制。

昇腾率先实现大规模专家并行使能千行万业极致推理

Tokens已成为AI产业发展的新量纲。随着深度思考模型普及,每次逻辑推理,都会带来20倍的额外Token生成,在2024年年初,中国日均Token消耗量为1千亿,而如今,每日Token的消耗量已达到了十万亿级,1年增长了100倍。Token的爆发,随之而来的是百倍的推理需求,这对推理系统提出了更大的挑战。用户首先关心应用体验,也就是时延;不同的应用场景有不同的时延需求,在满足时延的情况上,系统追求单卡的更大吞吐,实现更高的经济性。同时,时延和吞吐,需要高可靠性的系统来保障。只有系统长期稳定提供推理服务,才能带来优质体验。所以,如何构建一个好的推理系统?这是我们一直在探索和实践的命题。

随着MoE成为主流模型,我们通过不断实践,最终构建了一种更好的推理系统,一种针对MoE推理的最优解——大规模专家并行。相比常规服务器堆叠,大规模专家并行可实现2到4倍的单卡吞吐提升,降低50%系统时延,在相同卡数下获得更大的收益,实现“一份投入,多份输出”。

在3月份,我们联合科大讯飞发布了昇腾大规模专家并行方案,在2k输入、2k输出时,Atlas 800 A2单卡Decode吞吐从80 TPS提升到了240 TPS。大规模专家并行,我们工程师们叫“大EP”,是指把模型权重分布到更多的卡上,通过降低单卡内存权重占用,释放更多内存,用于用户并发所需的KV Cache,最终实现更大的单卡吞吐能力;同时,每张卡专家数的减少,意味着权重加载时间更短,这可以让模型Decode更快,系统时延更低。

从算子优化到服务调度,从极致加速到可靠设计,昇腾大规模专家并行方案是一个系统性工程。在让用户获得更好体验的同时,还要满足系统的可靠性。基于这样的需求,昇腾推理解决方案持续升级。全新推出MindIE Motor,推理服务加速库,提供AutoPD分离、精细异步调度、高阶RAS等特性,Motor将在6月底与大家见面。

过去的一个月,昇腾大EP的单卡Decode吞吐从 240 TPS 提升至 320 TPS,时延也从100ms降低至50ms。

640 (3).png

其中最核心的几个特性:

MoE模型涉及多专家协作,专家负载不均的情况时常发生。可以通过冗余专家备份,缓解热点专家的负载。但传统的静态方式无法根据负载的变化动态匹配冗余专家。我们通过专家热点信息的在线采集,实时调整冗余专家的部署方案,让冗余专家部署与业务负载实现最佳匹配,降低热点专家在单卡上的通信拥塞,实现了动态专家冗余。另外,传统的专家调度方案没有将专家亲和性考虑在内。所谓亲和专家,就是在请求中经常被同时激活的专家。我们通过动态调整专家布放顺序,使得同节点、同平面的专家尽可能是高亲和的,从而减少卡间、机间的通信量,进一步降低推理时延。

推理的不同阶段,对资源要求是不同的,Prefill阶段是计算密集型,Decode阶段是访存密集型。去年9月份,我们率先支持了稠密模型的PD分离,目前已经实现了MoE模型的PD分离。6月底,还将进一步实现AutoPD分离部署。MindIE Motor将内置负载感知算法,实时监控PD节点负载率,并动态调整PD的比例。比如,当输入为超长序列时,Prefill负载增加,Motor会自动调度Decode实例变换成Prefill实例,缓解Prefill压力,使整个系统的资源利用率达到最佳。

实际业务中,用户感受的是服务化吞吐,然而服务化涉及多轮推理间的调度、CPU-NPU线程之间的流水线,吞吐与模型峰值之间存在“GAP”。为弥补这一“GAP”,我们对服务化过程中资源调用做了深入的分析,发现CPU和NPU并不总是同时在工作。因此,对任务调度,做了更精细化的切分。首先,增加了CPU与NPU的线程并行,让CPU的预处理与NPU的推理同时执行;其次,让NPU与NUMA亲和的CPU结对工作,降低CPU与NPU间通信开销。基于MindIE,服务化能力已达到模型峰值的93%以上,后续也会将这些优化集成到Motor中,让大家在vLLM上也能够使用到同样的能力。服务化效果的最终呈现,取决于上层软件优化,希望与开源社区一起持续协同创新。

训练面向开发场景,推理则面向生产场景,一旦出现问题,不仅影响体验,还可能带来经济损失。华为扎根ICT硬件可靠性30多年,以苛刻的标准锤炼设备,AI服务器的研发过程中就有超过上千次的碰撞测试,在7倍压强下做极限热测试,各器件达到电信级可靠。单机可靠只是起点,系统级容错才是真正的挑战。昇腾支持从集群管理、冗余设计到实例切换,三重RAS防护,保障系统长稳运行。第一,通过CCAE集群管理平台,实现亚健康检测和故障预测,保障集群硬件可靠;第二,大EP方案支持配置冗余节点,当出现故障时,MindIE Motor支持故障节点的自动替换,保持系统不降级;第三,如果没有配置冗余节点,出现了实例级故障,导致系统降级,Motor还可通过AutoPD算法,根据故障位置切换PD分配,自动恢复故障实例,保障系统性能损失最小。通过这套组合拳,推理实例MTTR从原来依赖人工的小时级缩短至7分钟。

昇腾384超节点是业界唯一实现一卡一专家的方案。Deepseek为例,单个超节点在部署256个路由专家后,可以再部署32个共享专家,再增加96个冗余专家,整整384个专家,放入384卡超节点中。昇腾384超节点支持所有专家都通过高速总线通信,专家负载更均衡。解决了传统集群在专家域增大时,跨节点通信瓶颈、专家负载不均,导致性能劣化问题。昇腾384超节点也是业界唯一突破15ms时延的方案,追求实时深度思考下的用户极致体验的需求;另外,同样在50ms decode的时延下,单卡Decode吞吐达到业界服务器集群的4倍以上能力。

MindSDK凝聚行业实践沉淀行业经验

随着AI智能体的成熟,今年将迎来真正的AI应用元年,应用将以AI为中心进行重构,AI Agent将成为交互中枢,以实现各类功能的规划、调用、甚至决策。为了更好支持应用开发,这几年我们持续沉淀行业经验,打造了视觉分析、特征检索、搜索推荐、知识增强、自动驾驶等多个场景SDK,并在持续升级;

随着多模态应用开发需求的普及,今天,我为大家带来了全新的多模态理解SDK,支持视频关键帧抽取,数据预处理压缩等能力。

SDK只是应用开发的起点,要让应用上线,还离不开敏捷的部署。传统的应用部署需要下载各类软件、配置环境、部署模型、启动服务等7个大步骤。在实际部署时容易出现兼容性问题和性能瓶颈,影响应用的易用性和扩展性。昇腾推理微服务MIS(Mind Inference Service),只需下载镜像、启动容器这两步,即可快速部署推理应用。此外,昇腾微服务支持一键切换模型以快速适应业务变化。推理微服务简化了部署流程,让开发者能够更加专注于应用的开发和创新。

640 (4).png

昇腾社区进一步升级提供丰富、友好、活跃的开发者创新阵地

昇腾一直致力于为大家提供一个丰富、友好、活跃的创新阵地,结合各位开发者对社区的反馈,我们进一步升级了社区。场景化统一入口,让资源更易获取,大家在昇腾社区,能够看到我们全新设计的架构图,匹配了技术特征的ICON设计,只需一次点击,进入对应场景化开发页面,你就能获取到与之配套的开发资源。

针对不同开发场景重新组织了文档编写,让开发者可以按场景聚焦核心内容。通过对人机交互习惯的研究,优化文档的呈现方式,让文档更易理解。大家也可以通过社区工单、论坛等多种渠道反馈你们的真实声音,方便我们更好的提升文档质量。

我们还提供了丰富的社区访问形态,通过响应式布局,支持PC、手机、平板等多个终端的体验,让大家更好的随时随地了解昇腾。

昇腾持续开源开放与开发者共建中国最具活力开源项目

除了昇腾社区,我们更以开放的姿态共建昇腾生态。开放昇腾模组、板卡及参考设计,使能多样硬件创新。通过开源模型的0day支持,开发者可以第一时间基于昇腾享受业界最新模型;同时,随着PyTorch和vLLM等加速框架的支持,意味着当前所有训练和推理上的创新都可以基于昇腾快速实现;昇腾也积极参与与魔乐、启智、Gitee、GitCode等生态社区的共建,让开发者能够快速获取,昇腾适配的模型、算法、工具等能力和源码。

生态的繁荣离不开每一个开源贡献、每一行代码,MindSpore自20年开源以来得到了各位开发者的喜爱,累计收到25k个Star数、PR合入请求11万条。Gitee指数2.0中,从创新力、稳健性、生产力等各维度综合评价第一,成为中国AI最佳开源贡献项目。今年,我们在CANN的代码仓上,提供了18个开源项目,目前已经收到230多个贡献,为算子开发提供了更多创新思路。

昇腾持续关注开发者成长与伙伴生态构建。今年,开发者计划3.0将全新启航,为大家提供更丰富的成长体系和激励。希望大家能够在社区中分享并成长,解锁丰富权益。同时,面向伙伴,昇腾围绕5大创新方向,从技术、政策、生态及激励几个维度提供支撑,赋能伙伴打造更有竞争力的产品和解决方案。

最后,我总结一下今天技术发布的核心内容:

第一, CANN分层开放,提供aclGraph等细粒度Runtime接口。毕昇编译器开放接口支持Triton、FlagTree,全新发布CATLASS昇腾算子模板库。

第二, 为大家提供业界最大规模的昇腾384超节点。昇腾超节点突破了互联的瓶颈,让一个集群像一台计算机一样工作,典型模型训练性能达到传统的节点的3倍。

第三, 全新发布了MindIE Motor,聚焦推理服务层的加速,提升大EP的能力,在昇腾384超节点,decode时延突破15ms,吞吐性能达业界的4倍,成为标杆。

第四, 提供多模态理解SDK和昇腾推理微服务MIS,希望简化应用的部署流程,更好的让每位开发者聚焦应用本身的开发和创新。

这十年,我们一直在被AI技术的飞速迭代所刷新认知。然而,AI的角逐才刚刚开始,不是百米冲刺,而是一场考验耐力的长跑。在这场长跑中,比的不是一时的技术突破,而是生态构建的厚度、基础研究的深度、还有人才储备的浓度。

让我们不断向上,以坚定的信念,持续创新,跑赢智能时代的长跑,谢谢大家!


「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。 

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】