高通跃龙AI本地设备解决方案与高通AI推理套件中的软件和服务相结合,支持从近边缘到云的AI推理。它们共同为中小型企业、大型企业或工业组织提供了在本地运行定制和现成的AI代理和应用程序的能力,包括生成式AI工作负载。在本地运行推理可以降低运营成本、确保数据隐私、减少功耗并显著降低延迟。
开发者可以利用高通跃龙AI本地设备解决方案和高通AI推理套件开发各种应用程序,例如聊天机器人、店内助手、员工培训、特定场景信息、安全合规以及销售支持。此外,如果制造商和设计师正在寻找在本地AI中增加价值的新方法,会发现这种硬件与软件的组合非常适合开发和实验。理想的应用场景包括零售店、快餐店、购物中心、经销商、医院、工厂和车间。
硬件部分:高通跃龙AI本地设备解决方案
高通跃龙AI本地设备解决方案搭载了高通云AI系列加速卡,适用于工业物联网和嵌入式物联网。
附图1:高通跃龙AI本地设备解决方案
该硬件是一种即插即用的解决方案,设计为从独立的桌面产品扩展到壁挂式设备,无需专用的基础设施。该硬件为原始设备制造商 (OEMs) 、原始设计制造商 (ODMs) 和系统集成商 (SIs) 提供了基于多种配置选项将新产品推向市场的灵活性:
- 基础版(现已推出)– 适用于参数高达100亿的AI模型,以及使用计算机视觉和小型语言模型 (SLMs) 的应用程序。
- 增强版(现已推出)– 适用于参数高达300亿的AI模型,以及使用大型语言模型 (LLMs) 的应用程序。
- 旗舰版(即将推出)– 适用于参数高达700亿的模型,以及对高性能和高精度要求较高的大型语言模型应用程序。
这种本地AI推理计算能力的规模和灵活性意味着,您现在可以将工作负载保留在自己的本地环境中。您可以在内部执行各种模型 – 无论是开源模型还是专有模型 – 用于生成式人工智能、自然语言处理和计算机视觉。
高通技术公司生态系统的各位成员均已经在帮助客户基于该解决方案进行内部部署。如下图所示,高通技术公司提供技术栈的底层部分,为原始设备制造商、原始设计制造商、系统集成商和软件供应商在上层添加价值留出了充足的空间。
附图2:高通跃龙AI本地设备 – 软件技术栈
软件部分:高通AI推理套件
利用高通AI推理套件,软件供应商以及原始设备制造商/原始设计制造商/系统集成商均能够在AI本地设备解决方案的基础上开发生成式AI应用程序。该推理套件提供了一个SDK 以及与OpenAI兼容的API,可用于处理各种AI模型。
借助高通AI推理套件和高通跃龙AI本地设备解决方案,您现在可以在本地运行许多熟悉的AI应用程序,其中包括:
- 盒装语音助手
- 基于小型语言模型、大型语言模型和多模态模型的聊天机器人
- 用于智能索引搜索和摘要的检索增强生成 (RAG) 功能
- 定制化AI助手和代理
- 跨多种语言的智能搜索
- 自动草稿生成和笔记记录
- 图像生成
- 代码生成
- 摄像头AI,用于处理图像和视频,以支持安全、员工安全和场地监控
通过易于使用的API端点,您可以访问用户管理、聊天、图像生成、检索增强生成、OpenAI API兼容、以及音视频生成AI等功能。该套件允许您使用熟悉的框架,例如:LangChain、CrewAI和AutoGen来创建 AI代理。所有组件均可作为 Kubernetes 或裸容器运行,并在 Kubernetes 上部署时支持自动扩展。
该套件还包含完整的API文档和教程,帮助您快速启动并运行支持AI的应用程序。
示例应用程序和实验平台
为了帮助您快速上手,我们提供了一套可在示例硬件上运行的示例应用程序包。
在高通云AI实验平台上,您可以在高通云AI加速卡上直接运行来自高通AI推理套件的应用程序。如下图所示,您可以使用实验平台中提供的示例应用程序和API端点,实现图像生成、翻译、转录、嵌入、代码生成、通用聊天、检索增强生成以及摘要生成等功能。
生成图像 根据文本说明生成图像。 | 翻译 在各种语言之间进行内容翻译。 | 转录 将音频/视频转换为文本。 |
嵌入 嵌入图像/文本。 | 生成代码 通过输入文本生成代码。 | 通用聊天 与智能聊天机器人互动。 |
检索增强生成 使用语言模型与您的文档对话。 | 总结 总结您的文本/文档。 | 您的AI代理 您的下一个企业用例。 |
附图3:高通云AI实验平台
(请注意,并非所有功能都能同时运行。)
您还可以利用实验平台中包含的教程和文档,从头开始构建自己的应用程序和AI代理。
在高通云AI实验平台上,您可以在高通云AI加速卡上运行来自高通AI推理套装的应用程序 – 与高通跃龙AI本地设备解决方案中部署的加速卡相同。为了最大限度地提高响应速度和性能,已经将该实验平台部署到全球多个区域。
用一行代码导入您的模型
您也可以导入自己的模型,而不仅限于实验平台中的模型。
通过高通高效转换器库,您可以加载和部署来自Hugging Face的各种流行模型,或者用一行代码导入自己的模型。该库会编译并优化您的模型,使其能够在高通云AI加速卡和高通跃龙AI本地设备解决方案上运行。包括纯文本语言模型和嵌入模型的许多模型,已经过验证并添加到库中。
我们设计整个解决方案的目的是要让您专注于创建应用程序和代理,而不是修改和转换模型。设计高通高效转换器库的目的是确保您可以在任何地方训练模型,并使用以开发者为中心的工具链轻松地在高通云AI加速器上进行推理。您只需提供Hugging Face的模型卡(或本地模型的路径),高通高效转换器库就会对您的模型进行转换和优化,从而在高通云AI加速器上实现高性能。
后续步骤
无论您是专注于设计、编码和维护软件应用程序的软件开发者,还是对设计、构建和销售硬件感兴趣的硬件设计师,我们的高通跃龙AI本地设备解决方案中都有您的位置。您在下图中处于哪个位置呢?
高性能AI加速器 + AI推理套件= 硬件、软件、和生态系统的正确组合可以为所有人解锁AI | |||||||
硬件 | AI推理服务 | 软件 | |||||
高通云AI系列加速器 | AI代理 | 代码开发 | 聊天机器人 | 平台SDK (安全固件) | 应用程序SDK (编译器,AI工具) | 完整IaaS软件解决方案 | |
AI本地设备解决方案 本地设备 | AI应用程序 与服务 | GitHub模型 | 为企业推理使用优化模型 | 容器与部署软件 | |||
服务器 | 检索增强生成 | 转录与翻译 | 文本到图像 | ||||
生态系统合伙伙伴 原始设备制造商、原始设计制造商、系统集成商和模型制作商 |
附图4:高通跃龙AI本地设备解决方案 + 高通AI推理套件
软件供应商、模型制作商以及开发者:
从现在开始,只需要五分钟,您就可以根据实验平台中的高通跃龙AI本地设备解决方案对高通AI推理套件进行试用。您可以通过简单易用的端点,尝试生成式AI应用程序,例如聊天、转录、翻译和摘要等。
我们尽可能地简化了您的使用流程,只需点击“使用 Google 登录”按钮即可进入实验平台。无需信用卡,无需个人信息,无需等待。我们相信,您会对所看到的性能印象深刻。
您可以查看该套件的文档和教程,然后访问我们的Developer Discord,从我们的专家那里获得更深入的见解,并与其他开发者进行实时交流。
原始设备制造商、原始设计制造商以及系统集成商:
这个市场中有您公司的位置。您可以轻松地将高通跃龙AI本地设备解决方案和高通AI推理套件集成到您为客户提供的下一代产品中。
本公司硬件生态系统的多位成员正在努力将高通跃龙AI本地设备解决方案作为其商业产品推向市场。如需了解关于MegaEdge AIP-FR68 AI工作站(如上图所示)的更多详细信息,请联系Aetinas。
同时,请联系本公司的销售团队,以了解如何开始使用我们的现成解决方案,为客户提供高性能、经济高效的本地AI推理服务。
在所发布内容中表达的观点仅为原作者的个人观点,并不一定代表高通技术公司或其子公司(以下简称为“高通技术公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通技术公司或任何其他方的赞同或表述。本网站也可能提供非高通技术公司网站和资源的链接或参考。高通技术公司对于可能通过本网站引用、访问、或链接的任何非高通技术公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。
高通品牌产品均为高通技术公司和/或其子公司的产品。
关于作者
罗伯特·莫里森
工程主管
叶甫根尼·古谢夫
高级董事,研发
