我们打造了一款个性化的多模态人工智能智能眼镜体验
发表于 2025-07-24 12:05:23

我们的演示展示了终端侧AI的强大能力,以及为何智能眼镜是理想AI用户界面。

基于人工智能眼镜的个性化健身推荐

点击观看

加比 (Gabby) 带着智能手机和一副智能眼镜走进健身房。她并不确定从何开始,环顾四周她在健身区发现了瑜伽垫、壶铃和阻力带。不用拿起智能手机,只需对智能眼镜发出一个简单的语音指令让智能眼镜拍摄这些器材的图像,并向数字助理要求提供锻炼建议。

数字助理利用存储在她手机上的个性化数据和偏好,提出针对性推荐方案。

舒缓的瑜伽运动对孕期女性十分安全。相关指导会以画中画的形式显示在她的眼镜上,提示她走向瑜伽垫。这不是一种假想的运动。相反,它是智能眼镜与智能手机和生成式AI数字助理协同工作的典型真实案例,即利用其综合处理能力来运行较小的大语言模型 (LLMs) 大型多模态模型 (LMMs) 

以上视频展示了高通技术公司 (Qualcomm Technologies) 于2025年3月在巴塞罗那举行的世界移动通信大会 (Mobile World Congress) 上演示的运动体验场景。请继续阅读本文,以了解更多关于演示的信息,以及为什么这标志着智能眼镜和AI结合的开始。

什么是大语言模型和大型多模态模型?

大语言模型 (LLM) 是一种用于处理和生成文本的AI模型。该模型通过海量文本数据训练而成,可以执行翻译、问答和内容生成等任务。大型多模态模型 (LMM) 不仅能够处理和生成文本,还能够处理和生成多种数据类型,包括文本、照片、音频和视频。与仅依靠文本数据进行训练和推理相比,大型多模态模型具有整合多个数据源的能力,有助于产生更具准确性和相关性的输出。最终产生针对特定用户量身定制的、与背景相关的个性化建议,远超简单的健身应用程序所能提供的功能。

什么是RAG

检索增强生成 (RAG) 是生成式AI (GenAI) 的一项技术,结合了基于检索和生成模型的优势。该项技术的工作原理是,首先从根据用户输入建立的知识库中检索相关信息,然后使用该信息生成更准确且与背景相关的响应。这种方法提高了AI输出的准确性和个性化水平,降低了生成不正确或不相关信息的风险。

深入解析这一体验场景

在世界移动通信大会 (MWC) 期间,步入高通技术公司(Qualcomm Technologies) 的展台的观众,戴上搭载第一代骁龙AR1平台的RayNeo X3 Pro智能眼镜,配合搭载骁龙8 Elite平台的智能手机,即可完成演示体验。

体验开始时,观众可以选择一个角色,从孕妇加比 (Gabby) 到膝盖有问题的老年男性亨利 (Henry) 。观众使用RayNeo X3 Pro眼镜拍下健身房的场景,并询问助理:“今天我应该用以下器材做什么锻炼?”这款眼镜根据对用户的了解和他们选择的角色,提供个性化的回应。

但它是如何实现的呢?用户提问的音频和RayNeo X3 Pro拍摄的照片都被发送到智能手机,大量计算在此完成,借助大语言模型llva -llama-3-8b,该大语言模型可以处理多种输入,例如语言和图像。

与此同时,手机采用了检索增强生成 (RAG) 技术,这种技术可以从知识库中获取特定信息并将其输入大语言模型,以获得更具针对性的响应。在这种情况下,检索增强生成技术从每一个角色中获取诸如年龄、健康状况、日常生活、爱好、最喜欢的食物等数据,从而确保助手能够提供更个性化的推荐。

为了实现这些结果,需要一款功能强大且为特定场景设计的处理器,既能适应轻量级设计,又能在设备上处理AI。第一代骁龙AR1处理器搭载了Hexagon NPU,该处理器专为处理生成式AI而设计,同时接收来自高质量摄像头ISP的输入,无论光线条件或动作状态如何,都能够以最高质量处理图像。

端侧AI的优势

此项体验的一个关键点是展示了如何能够在本地完成AI工作,其中一些数据预处理在眼镜上完成,其余部分则由智能手机进行。

在边缘侧运行推理有很多优点,首先是个性化。在您的眼镜和智能手机上运行的生成式AI助手,可以根据存储在设备上的详细个人信息,提供更加量身定制的回答和建议。

由于是在本地处理,个人敏感数据以及个人偏好保留在智能手机上。端侧处理服务的运行成本也更低,而持续的实时交互,在云上运行的成本可能更高。无需不断与云端通信,可以获得响应更快的体验和更低的延迟。如果您在医院或银行等企业环境中运行应用程序或查询,这一点尤为重要。

与此同时,大语言模型 (LLMs) 和大型多模态模型 (LMMs) 在不影响结果质量的前提下正朝向轻量化发展,这使其更加容易在终端设备上运行。

本地扩展生成式AI的可能性

·即时性·可靠性·个性化·隐私性·可持续性

智能眼镜,理想的AI接口

该演示说明了为什么智能眼镜是AI助手的理想载体。配有摄像头和麦克风的智能眼镜可以看到和听到你周围的视觉与听觉信息。它们可以处理多种输入信息类型,无论是语音命令、照片,甚至是手势。

目前,搭载骁龙AR1处理器的智能眼镜可以在不依赖手机或云的情况下,在眼镜上运行多模态模型,可以进一步增强个性化并打造无缝的用户体验。此外,如果该款眼镜需要更强大的处理能力,只需连接蓝牙或Wi-Fi快速连接智能手机。

我们已经在着手探索在AR眼镜或智能手机上运行更多的使用场景和不同的应用程序,因为我们离最终愿景越来越近。

毕竟,这两款设备均配备了功能强大的骁龙处理器,而且会变得愈加智能。随着时间的推移,我相信此项演示将成为几乎人人都可以日常利用的功能。

了解高通技术公司如何重新构想我们所知道的现实

在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通技术公司或其子公司(以下简称为“高通技术公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通技术公司或任何其他方的赞同或表述。本网站同样可以提供非高通技术公司网站和资源的链接或参考。高通技术公司对于可能通过本网站引用、访问、或链接的任何非高通技术公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。

骁龙品牌产品均为高通技术公司和/或其子公司的产品。

关于作者

齐亚德·阿什加尔,高通技术公司扩展现实高级副总裁兼总经理

阅读更多

CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
微博关注
【免责声明:CSDN本栏目发布信息,目的在于传播更多信息,丰富网络文化,稿件仅代表作者个人观点,与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件有任何怀疑或质疑,请立即与CSDN联系,我们将迅速给您回应并做处理。】