趋境科技与鲲鹏联合发布“鲲鹏+xPU解决方案”，革新大模型推理算力基础设施-CSDN.NET

CSDN首页> 业界

订阅业界RSS

趋境科技与鲲鹏联合发布“鲲鹏+xPU解决方案”，革新大模型推理算力基础设施

发表于 2025-05-30 17:37:40

　2025年5月22日，在鲲鹏昇腾开发者大会2025（KADC 2025）上，趋境科技CEO艾智远与华为鲲鹏计算业务总裁李义联合发布“鲲鹏+xPU 解决方案”，深度融合趋境科技领先的异构协同推理技术与鲲鹏基础软硬件平台，推出面向大模型推理场景的一体化解决方案。

　　该方案兼容昇腾等主流 xPU，覆盖数据中心到边缘场景，提供鲲鹏推理工作站、鲲鹏推理服务器等多样化的产品形态，适配 DeepSeek、Qwen 等主流大模型，搭载趋境科技异构推理优化技术显著降低大模型推理门槛，助力企业构建高性能、低门槛的智能算力基础设施。

　　同时趋境科技也在大会分论坛上分享了基于“鲲鹏+xPU解决方案”中的具体技术实现与当前的性能指标。

　　技术架构：异构协同突破推理性能极限

　　在“鲲鹏+xPU 解决方案”中，搭载了趋境科技业界首创的异构协同推理技术，同时根据鲲鹏技术软硬件做了深度适配：

　　1、NUMA亲和优化。NUMA 众多，需要对算子进行 NUMA 亲和改造，以减少跨 NUMA 的访问和同步，以此降低访问延迟，提升推理吞吐。

　　2、鲲鹏计算加速。使用了 KML 鲲鹏数学库进行加速，算子性能提升100%；通过鲲鹏工具链中的毕昇编译器编译，性能提升50%。

　　3、并行计算加速。开启 MTP （多 tokens/s 预测），大约提升 40% 的性能；采用新技术“Expert 延迟计算”，完全隐藏 NPU CPU 运行空泡，性能最高提升2倍。

　　基于趋境科技与清华大学 KVCache.AI 团队开源的异构推理框架 KTransformers 当前完成两种方案的性能调试：

　　1、昇腾+鲲鹏 KTransformers 方案（AK+K），在单机单卡的环境中，能够运行 DeepSeek R1 671B 8bit 满血版，prefill 和 decode 速度是 llama.cpp 的 4-6 倍。

　　2、鲲鹏 CPU+ KTransformers 方案（K+K），在单机零卡的环境中，CPU MoE 算子带宽利用率达到 70 %，运行 DeepSeek R1 671B 8bit 满血版，prefill 和 decode 速度是 llama.cpp 的 4-6 倍。

　　趋境科技在梦想启航·鲲鹏昇腾种子计划加持下，计划与鲲鹏进一步推动“鲲鹏+xPU 解决方案”深化，推出更多的产品形态，将大模型拓展到端侧，推动AI普惠化。

　　趋境科技始终秉承“生态共赢”的理念，一方面通过部分开源的技术来推进技术社区建设和技术普惠，其高性能异构推理框架 KTransformers 自开源以来，已吸引全球超万名开发者关注；另一方面通过与各生态合作伙伴合作，推出多样化的推理解决方案，致力于解决大模型落地的实际问题，推动企业真正低门槛用上大模型，并解决业务中的实际问题。

「免责声明」：以上页面展示信息由第三方发布，目的在于传播更多信息，与本网站立场无关。我们不保证该信息(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实，不对您构成任何投资建议，据此操作，风险自担，以上网页呈现的图片均为自发上传，如发生图片侵权行为与我们无关，如有请直接微信联系g1002718958。

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】