OmniNeural-4B与NexaML：基于高通Hexagon NPU的多模态AI创新模型-CSDN.NET

CSDN首页> 业界

订阅业界RSS

OmniNeural-4B与NexaML：基于高通Hexagon NPU的多模态AI创新模型

发表于 2025-09-25 16:43:13

高通技术公司与Nexa AI公司联合推动基于NPU优先的创新，实现无处不在的自然、本地化与可扩展智能

高通技术公司始终位于端侧AI的最前沿，不断拓展技术可能性的边界。每天我们都在见证全球范围内富有远见的AI企业在端侧智能领域取得突破性的进展。

在这些行业开拓者中，Nexa.AI公司凭借其革命性的多模态AI模型OmniNeural-4B脱颖而出。该模型从底层架构开始便专为在Hexagon NPU上本地运行而设计，这种强大的协同效应正在开启设备端智能的新纪元，为各种设备赋予前所未有的边缘能力。

OmniNeural-4B是世界上第一款具有NPU感知的多模态模型，可以无缝地理解和处理文本、语音和视觉。与仅依赖云连接的传统AI模型不同，OmniNeural利用Hexagon NPU的设备端AI性能，开创了AI既本地化又深度集成的新现实。

无论您使用的是笔记本电脑、智能手机、汽车、扩展现实还是物联网设备，该模型都可以在您需要的地方提供最先进的AI性能 – 并兼具终端侧AI的所有优势，如即时性、成本效益、可靠性和隐私性。

解锁设备端的多模态AI性能

OmniNeural-4B专为高质量的自然语言、视觉、和音频理解而设计，具有先进的文本生成功能，同时针对设备端性能进行了优化。原始设备制造商与开发人员能够借此实现以下功能：

更智能的移动应用程序：私人设备端代理，可以观察、聆听和理解个人情境 – 支持聊天、翻译、和创意工具，无需云即可提供即时响应。
智能物联网设备：从智能家居到工厂车间、设备可以实时进行信号推理，以检测各种模式，指导行动，并在边缘实现自然适应。
新一代汽车体验：语音副驾驶可以识别驾驶员和周围环境，实现座舱体验个性化，并协助完成各项任务 – 所有这些功能均直接在车辆的计算平台上实现。
PC端的生产力和创造力：本地AI能够基于更丰富的上下文并依托更强的隐私保护，实现工作流的总结、创建与自动化，同时借助骁龙X系列计算平台，以更低延迟交付结果。

NexaML简介：革命性的端侧AI推理

NexaML是为端侧AI新时代设计的一款突破性解决方案，它融合了云API的简易性与本地AI模型推理的强大性能，提供无缝体验。通过直接在NPU上运行各种模型，NexaML实现了最先进的性能，并与AI方面的最新进展完全兼容。

通过Qualcomm® AI Stack的全部功能，NexaML旨在利用Qualcomm® AI Engine direct(QNN) 直接访问Hexagon NPU，从而为您的设备解锁前所未有的性能。借助NexaML，开发人员可以在本地部署复杂的AI应用程序，从而受益于最先进的速度、效率和对最先进可用模型的支持。

以下是NexaML的一些亮点：

易用性：下载Nexa SDK后仅需一行代码，即可在搭载骁龙平台的笔记本电脑上即时体验Hexagon NPU的加速性能。
多模态支持：支持多图像和多音频输入。
结构化解码：支持JSON输出，从而确保能够针对AI智能体工作流进行功能调用。
量化：使用NexaQuant可以降低10%的困惑度
扩展情境长度：2倍长度，无速度损失
跨平台：支持搭载高通技术公司平台、移动设备、汽车平台和物联网的电脑。
兼容OpenAI API：可实现插入式集成

附图1：nexaML界面

除OmniNeural-4B外， NexaML现已支持以下前沿AI模型在Hexagon NPU上运行：

Qwen3系列 → 支持最新Qwen3-4B模型及其微调版本
YOLOv12 + PaddleOCR v4→最新的SOTA视觉模型

OmniNeural的影响远不止于个人用户。其架构可扩展到各行各业，从预测需求的个人数字助理，到需要实时智能自动化的企业和工业工作流程。其潜力之广阔，仅取决于采用该模型人员的想象力。

为了展示OmniNeural的功能，目前已经提供了真实场景演示范例。在搭载骁龙平台的的智能手机上，助手既能听到你的声音，也能看到你看到的东西，能够自然、迅速地做出反应，同时直接在Hexagon NPU上运行，从而获得持续的电池寿命和闪电般的交互速度。

与此同时，在搭载骁龙X Elite处理器的完整PC演示中 OmniNeural展示了多图像推理和AI智能体功能，所有这些功能都在设备的Hexagon NPU上本地执行。

搭载骁龙平台的AI PC → OmniNeural 副驾驶本地推理（“发现差异”图像，海报 +文本函数调用和音频比较）
搭载骁龙平台的智能手机 → 观察和聆听你周围世界的助理，确保完全私密性。在移动设备上，直接对着麦克风说话，同时显示图像，OmniNeural+nexaML会本地处理这两种输入。
骁龙数字底盘解决方案 → 由Qwen3驱动的车内副驾驶，响应时间以毫秒为单位。
高通物联网与高通机器人 → 搭载高通跃龙RB3第2代HDK的边缘机器人支持Qwen3决策。

在未来几周，Nexa AI将扩大其支持范围，新增Parakeet、Gemma等模型等。

基于高通技术公司与Nexa AI公司紧密合作，此项扩展将开启设备端AI用例的新浪潮，从而确保开发人员和原始设备制造商能够创建更快、更高效、更私密的AI解决方案。

此项创新将无缝扩展到电脑、智能手机、汽车平台和物联网设备，为无处不在的更智能、更安全的技术体验铺平道路。

准备体验了吗？OmniNeural 4B已经对开发者开放。 您可以将模型直接拉到任何支持Hexagon NPU的设备上，并以端到端方式运行。

直接在Hugging Face上试用该模型

在所发布内容中表达的观点仅为原作者的个人观点，并不代表高通技术公司或其子公司（以下简称为“高通技术公司”）的观点。所提供的内容仅供参考之用，而并不意味着高通技术公司或任何其他方的赞同或表述。本网站同样可以提供非高通技术公司网站和资源的链接或参考。高通技术公司对于可能通过本网站引用、访问、或链接的任何非高通技术公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。

骁龙与高通品牌产品均为高通技术公司和/或其子公司的产品。

关于作者

维内什·苏库马尔，高通技术公司人工智能/生成式人工智能产品经理副总裁

杰瑞·张，高通技术公司市场营销高级经理

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注