2025年5月22日,在鲲鹏昇腾开发者大会2025(KADC 2025)上,趋境科技CEO艾智远与华为鲲鹏计算业务总裁李义联合发布“鲲鹏+xPU 解决方案”,深度融合趋境科技领先的异构协同推理技术与鲲鹏基础软硬件平台,推出面向大模型推理场景的一体化解决方案。
该方案兼容昇腾等主流 xPU,覆盖数据中心到边缘场景,提供鲲鹏推理工作站、鲲鹏推理服务器等多样化的产品形态,适配 DeepSeek、Qwen 等主流大模型,搭载趋境科技异构推理优化技术显著降低大模型推理门槛,助力企业构建高性能、低门槛的智能算力基础设施。
同时趋境科技也在大会分论坛上分享了基于“鲲鹏+xPU解决方案”中的具体技术实现与当前的性能指标。
技术架构:异构协同突破推理性能极限
在“鲲鹏+xPU 解决方案”中,搭载了趋境科技业界首创的异构协同推理技术,同时根据鲲鹏技术软硬件做了深度适配:
1、NUMA亲和优化。NUMA 众多,需要对算子进行 NUMA 亲和改造,以减少跨 NUMA 的访问和同步,以此降低访问延迟,提升推理吞吐。
2、鲲鹏计算加速。使用了 KML 鲲鹏数学库进行加速,算子性能提升100%;通过鲲鹏工具链中的毕昇编译器编译,性能提升50%。
3、并行计算加速。开启 MTP (多 tokens/s 预测),大约提升 40% 的性能;采用新技术“Expert 延迟计算”,完全隐藏 NPU CPU 运行空泡,性能最高提升2倍。
基于趋境科技与清华大学 KVCache.AI 团队开源的异构推理框架 KTransformers 当前完成两种方案的性能调试:
1、昇腾+鲲鹏 KTransformers 方案(AK+K),在单机单卡的环境中,能够运行 DeepSeek R1 671B 8bit 满血版,prefill 和 decode 速度是 llama.cpp 的 4-6 倍。
2、鲲鹏 CPU+ KTransformers 方案(K+K),在单机零卡的环境中,CPU MoE 算子带宽利用率达到 70 %,运行 DeepSeek R1 671B 8bit 满血版,prefill 和 decode 速度是 llama.cpp 的 4-6 倍。
趋境科技在梦想启航·鲲鹏昇腾种子计划加持下,计划与鲲鹏进一步推动“鲲鹏+xPU 解决方案”深化,推出更多的产品形态,将大模型拓展到端侧,推动AI普惠化。
趋境科技始终秉承“生态共赢”的理念,一方面通过部分开源的技术来推进技术社区建设和技术普惠,其高性能异构推理框架 KTransformers 自开源以来,已吸引全球超万名开发者关注;另一方面通过与各生态合作伙伴合作,推出多样化的推理解决方案,致力于解决大模型落地的实际问题,推动企业真正低门槛用上大模型,并解决业务中的实际问题。
「免责声明」:以上页面展示信息由第三方发布,目的在于传播更多信息,与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担,以上网页呈现的图片均为自发上传,如发生图片侵权行为与我们无关,如有请直接微信联系g1002718958。
