订阅业界RSS CSDN首页> 业界

应用人工智能进行物联网音频和视频使用案例

发表于2018-04-13 10:39| 来源未知| 作者Qualcomm

摘要:如果您尚未开始在物联网中探索AI并创建创新设备和应用程序,现在可以下载NPE SDK,文档和示例代码。

您是否开始使用Qualcomm®Snapdragon™神经处理引擎(NPE)SDK?我上次发布了关于物联网设备边缘的深度学习,并介绍了如何使用SDK在GPU,DSP和CPU上执行人工智能(AI)工作负载。

从那以后,我们增加了我们在SNPE SDK中支持的深度神经网络(DNN)的数量和强度。为了帮助您找到创新之轮,在本文中,我将介绍如何使用这些DNN将AI应用于各种物联网设备和使用案例,包括情景感知AI。

如何在物联网的使用AI

首先,我们发现,虽然不少开发商希望在物联网使用AI,没有全面的资源,告诉他们如何能够使用它。他们可以找到一次性的案例研究和应用案例,但不是一个统一的视图,所以这里有一个表格,从我们的角度来看有一个完整的概述:

 

顶部的列标题是AI成熟的边缘设备的类型。沿着侧面的行显示用例的多样性,按照视觉和音频排序。在它们交叉的地方,您会发现可以使用NPE SDK中支持的神经网络构建的应用程序。简而言之,人工智能有望加速物联网机器人,家庭中心,智能助理或耐用智能助理追踪器在物联网领域的应用,通过视觉和音频分析引入情感维度。

在网络边缘的设备上快速高效地运行推理工作负载将成为物联网设备间的重要区别。培训和推断通常都在云端运行,但是当您在Qualcomm Technologies的物联网平台上构建时,您不再需要依靠云进行推断。您可以通过运行DNN在DSP上优化Snapdragon计算核心:CPU,GPU和Qualcomm Hexagon™矢量扩展(HVX)来推断设备上的高能效异构计算。

在HVX上运行DNN不仅可以为您提供音频和可视化分析,而且还可以释放GPU的4K和1080p相机功能,如交错式高清晰度分辨率(sHDR),时间降噪(TNR)和多个视频流。

随着推理和人工智能转移到智能手机等设备,隐私成为消费者和企业的首要任务。在边缘运行AI通过​​保持数据离开网络并离开云来优先解决这个问题。您的用户会感谢您尊重他们的隐私,提供可靠性并减少延迟。

在边缘部署可视化分析

首先,我们来探讨边缘的可视化分析。家庭监控系统使用摄像头为家庭成员提供家庭内正在发生的事情。机器人和无人机使用视觉分析来绘制其环境并在障碍物周围导航。

要在上述表格中的边缘设备上运行可视化分析,您需要具有合适大小的DNN,并具有恰当的推理和准确性平衡。考虑这些可视化分析的用例:

· 对象检测和分类 - 除YOLOv2模型外,更新的模型(如SSD和MobileNets)基于较轻的神经网络。根据您的应用程序(消费者,家庭,企业,智慧城市),您可以每秒获得5到20次推理。

· 人脸检测和识别 - 更快的R-CNN可获得50或100个感兴趣区域(ROI)的最高准确度。还有VGG-16,单次探测器(SSD)和MobileNets。

· 场景分类 - MobileNets。

· 视频摘要 - 长短期记忆(LSTM)可用于概括体育视频等内容,也可用于图像字幕。

· 食品检测和分类 - ImageNet。

在边缘

设备(如智能家居助理和语音控制扬声器)部署音频分析时,需要在边缘进行音频分析以获取语音用户界面(VUI)和会话界面。

为什么在边缘而不是云端运行这些分析?可穿戴设备,家庭中心,伴侣机器人和智能家电的采用持续增长,因此,保持VUI和设备上的目标声音检测有助于让消费者关注隐私。在设备上运行它们也有助于通过将分析工作负载排除在云之外来帮助减少延迟。

与可视化分析一样,音频分析非常适合异构计算以及在Snapdragon移动处理器上运行卷积神经网络(CNN)和递归神经网络(RNN)。Snapdragon上DSP核心的高能效计算能力还能够在边缘嵌入自动语音识别(ASR)和自然语言处理(NLP)或音频分类。

考虑这些用于音频分析的DNN用例:

· 音频分类 - RNN

· 自动语音识别 - CNN / LSTM

· 语音激活 - 高斯混合模型(GMM)

NPE SDK中的新神经网络支持

之前,NPE SDK提供了对AlexNet,Inception v1,Inception v3和ResNet50的支持。在我上一篇文章发布后的几个月里,我们已经扩展了对几个可用于构建视觉和音频分析应用程序的网络的支持:

· 更快的R-CNN - 基于使用py-faster-rcnn的区域提案网络提高检测的准确性。

· MobileNets - 用于对象检测,面部属性和大规模地理定位的更小和优化的网络,其精度较低。

· SSD - 为传统SSD网络提供支持。

· VGG-16 - 用于高度精确的对象分类基准模型。

· LSTM - 提供对音频分析的支持,包括嵌入式ASR / NLP。

部署Snapdragon神经处理引擎

下图说明了NPE在云中和设备上的作用。

NPE SDK包含用TensorFlow和Caffe / Caffe2在云中训练的网络转换工具。您将经过培训的网络作为.dlc文件迁移到Qualcomm Technologies SoC运行时环境。

 

对于设备上的执行和推理,SDK还为每个计算核心CPU,GPU和Hexagon DSP提供调试和性能优化工具。借助SDK,您可以优化应用程序,以便在最适合其用例的内核上运行工作负载。

下一步行动

如果您尚未开始在物联网中探索AI并创建创新设备和应用程序,现在可以下载NPE SDK,文档和示例代码。


 

 更多Qualcomm开发内容请详见:Qualcomm开发社区 

0
0