搭载高通跃龙平台的AI设备提高了凯捷公司平交道口监测应用程序的工作效率,并减少了对云的依赖性。
- 凯捷公司从之前的硬件解决方案转向使用搭载高通跃龙™ QCS6490平台的边缘AI设备。
- 通过使用高通® Hexagon™ NPU,凯捷公司将内存利用率降低了近三分之一,CPU利用率降低了5%,AI推理时间达到每帧18毫秒。
- 跃龙QCS6490解决方案的优点包括较长的生命周期支持以及针对多达五个并行摄像头的输入。
当车辆在铁路道口熄火时,有多少秒的时间可以避免发生火车事故?
在现代铁路通信系统中,重要的因素是检测出车辆熄火所需要的时间。所需时间越短,就能越早向列车工作人员、铁路安全管理人员和急救人员发出警报。
在开发铁路安全应用程序的过程中,凯捷工程公司寻求提高其人工智能 (AI) 模型生产力和执行力的方法,以便更快地发现危险情况。通过与高通技术公司开展的集成项目,凯捷公司从以前的硬件解决方案转向使用搭载高通跃龙™ QCS6490平台的边缘AI设备。
结果,该公司将内存利用率降低了32.92%,CPU利用率降低了5%,AI推理时间达到每帧18毫秒。通过提高边缘计算的效率,该公司减少了对于网络传输和云计算的需求,并将解决方案的工作效率提高了40%。
本文详细介绍了这一项目。AI解决方案架构师和开发者可以了解如何将其他硬件产品顺利集成到高通技术公司的工业嵌入式物联网处理器。
利用移动通信和AI提高铁路安全
凯捷公司为一家美国一级货运铁路客户开发了视频分析解决方案和路边硬件设备,用于监控公路铁路平交道口 (HRGC) 和干线铁路区段。铁路运营商不断寻求降低与车辆和其他障碍物相撞风险的方法;仅在美国,公路铁路平交道口事故每年就发生约2,000次。这类事件除了对财务和业务造成影响外,其中40%以上还会造成人员伤亡。
凯捷公司的设备包括一个AI模型和算法,可用于监控交叉路口和干线轨道,并在算法识别出潜在危险情况时通过数据网络发送警报。相应的铁路工作人员通过指挥受影响的火车交通、清除堵塞、让公共当局参与或采取其他必要措施处理警报。
为了创建AI模型,凯捷公司使用了PyTorch框架以及可以公开获得的YOLOv8目标检测模型。该公司利用一组选定的图像数据来训练模型,这样算法就能准确地预测即将发生的碰撞。该公司用一组实时数据和图像验证了所得出的模型。确定模型的准确性达到要求之后,该公司就将模型部署到一个专门用于AI推理的本地设备上,并将其连接到云。
转为使用高通技术,以提高生产力和效率
但是,该解决方案在多个方面存在局限性:
- 对云的依赖性 – 虽然本地设备对视频流进行推理并将结果传输到云,但其使用云来发送警报和存储数据。这意味着整个解决方案依赖于云 – 通信延迟、网络流量、计算资源、处理时间 – 均超出了凯捷公司的预期。
- 内存使用 – 操作系统、Python、YOLOv8模型和后台应用程序的组合使用了设备上的大部分运行内存。凯捷公司想要一个内存占用更小的解决方案。
- 摄像头输入 – 该设备能够在来自摄像头的视频流上同时运行推断。但是,凯捷公司还希望在铁路客车、火车站和铁路基础设施的其他安全用例中使用相同的软硬件组合。这就需要一种可以扩展处理多个并行视频流的设备,并同时对多个AI模型进行推理。
- 处理 – 设备在GPU上运行推理,这是单独在CPU上运行的改进项目。但是,凯捷公司想要一种围绕神经处理单元 (NPU) 构建的软硬件组合,以提高运行效率,达到相同或更高的精度。
为了克服这些限制,凯捷公司的工程师们转为使用英业达AIM-Edge QC01设备中内置的高通技术。该设备搭载了专为工业和商业物联网应用而设计的跃龙QCS6490平台。跃龙QCS6490平台提供企业级Wi-Fi 6/6E无线网络,最多可支持五个并行摄像头和高通® Hexagon™ 处理器 (NPU) ,可实现加速。
工程师们通过概念验证测试确信,在骁龙QCS6490平台上的性能会比在现有硬件上更好。他们着手将其平交道口监测应用程序建立在搭载骁龙QCS6490平台的英业达设备上。
将模型与高通硬件集成
附图1显示了凯捷公司在集成项目中遵循的步骤。没有必要修改基本模型,因此不需要重复该公司在训练、验证、冻结和将其转换为开放神经网络交换 (ONNX) 格式方面所做的工作。
训练数据集 | 凯捷公司Pytorch模型 | 模型验证 | 模型是否符合要求? | 冻结模型,转换为ONNX |
测试数据集(实时/旧数据) | ||||
模型部署 | 构建环境 | |||
凯捷公司处理后模型 | SNPE-启用应用程序 量化模型 | 生成图像/缓存 | 量化(INTB、uFxP16) | 将ONNX转换为DLC |
显示器 | NPU运行时 | 量化数据 |
附图1:与高通® 芯片组集成的步骤
为了利用高通技术公司NPU上的硬件加速,工程师们修改了模型的数据管道,首先是在其构建的环境中,然后在其模型部署中。
1. 构建环境
定制模型,以便在NPU上运行用于量化和缓存的数据管道所需要的更改。凯捷公司的工程师们利用高通® 神经网络处理SDK以及高通技术公司提供的其他软件包为其构建过程添加步骤。
将ONNX转换为DLC
工程师们首先将模型从ONNX转换为高通技术公司专用的DLC(深度学习容器)文件,以供骁龙® 神经网络处理引擎管道和NPU运行时使用。转换工具生成统计数据,包括关于不支持或非加速层面的信息,以确保工程师们能够调整初始模型的设计。
量化
该团队利用骁龙神经网络处理引擎管道以及snpe-dlc-quant等SDK工具输入校准数据并设置参数,包括所需要的量化水平。他们利用INT8量化进行的第一次尝试就产生了一个工作模型,但是精度并未达到最佳。
该团队对模型进行调整,以使用FP16激活值以及INT8权重和偏差,从而获得了更为准确的模型,并成功进行了部署。
在确定了最佳设置后,工程师们能够使用单个骁龙神经网络处理引擎命令简化模型量化过程。
生成图形/缓存
跃龙QSC6490平台包含可以进行本地AI处理的高通Hexagon NPU。高通神经网络处理SDK中的NPU运行时专为离线图形缓存而设计。在执行模型的同时,图形直接将缓存加载到设备上,从而有助于减少初始化时间。
凯捷公司的工程师们使用snpe-dlc-graph-prepare生成一个模型图形(缓存记录)。该工具将生成的缓存添加到DLC中,并且不需要重复量化步骤。
2. 模型部署
一旦对模型进行了转换和量化,并且准备和添加了离线缓存,就可以对DLC进行部署(执行)。
进行初步测试
为了验证模型是否正常工作,工程师们首先使用了snpe-net-run的命令行界面 (CLI) 对单个映像运行DLC。他们保存了一张车辆在平交道口的图像,并将其路径以文本文件的形式提供给命令行界面。
初步测试的原始输出令人满意,因此工程师们继续针对样本视频流运行模型。
针对目标执行模型
如附图1所示,软件堆栈包含一个支持骁龙神经网络处理器引擎的应用程序,该应用程序在具有NPU运行时的量化DLC模型上运行推理。执行该软件的硬件是在英业达AIM-Edge QC01设备内部运行Ubuntu的跃龙QCS6490平台。
工程师们使用了SNPE-Helper(针对高通神经网络处理SDK所提供的C++ API接口的Python API封装器),并编写了整个程序,包括管道输入代码。骁龙神经网络处理引擎助手旨在帮助开发人者使用Python在搭载骁龙平台的设备上针对DLC模型运行推理。骁龙神经网络处理引擎是为Linux设计的开源软件,因此凯捷公司的工程师们能够修改路径和移动文件,以便在Ubuntu上运行。
他们不需要修改英业达设备上的任何内容;他们在开发工作站上构建了支持骁龙神经网络处理引擎的应用程序并量化了DLC。然后,他们通过无线网络将软件刷写到设备上,以部署他们的组件和NPU运行时。除了Ubuntu,该设备还运行一个足以进行AI推理的Python虚拟环境。
评估集成结果
附图2:铁路道口解决方案 – 概述
凯捷公司在搭载跃龙QCS6490平台的英业达AIM-Edge QC01设备上运行平交道口应用程序,从而克服了以前所使用硬件的局限性。
- 减少对云的依赖性 – 除了在本地执行推理和进行决策外,骁龙QCS6490平台还利用高通WCN6856 Wi-Fi无线网络配套片上系统,以高达3.6 Gbps的速度通过Wi-Fi 6和Wi-Fi 6E无线网络传输警报。
利用该平台的板载资源形成的解决方案可以产生更少的云间网络流量,并且在进行通信和存储时对云的依赖性更低。凯捷公司估计,在边缘侧AI设备上执行视频分析可以将整体解决方案成本降低30%。
- 更小的内存占用 – 对于单个实时视频流,跃龙QCS6490平台能够以每帧18毫秒的速度执行推理,而使用的内存比以前的设备减少了32.92%。
- 更多的摄像头输入 – 跃龙QCS6490平台配备了三重图像信号处理器 (ISP) ,最多可以支持五个并行摄像头,视频编码/解码速度高达4K30/4K60。这一特性适用于所有铁路安全用例。
- 在NPU上处理 – 通过在Hexagon NPU(AI算力可达12稠密TOPS)上运行模型,凯捷公司实现了多项优点。在全新解决方案中,CPU使用率降低了5%。计算密集型工作负载在NPU上运行,从而释放CPU和GPU的容量用于一般功能。
此外,凯捷公司充分受益于跃龙QCS6490平台提供的长生命周期支持优势。作为企业级硬件,该平台长期支持Android、Linux、Ubuntu和Windows 11物联网企业版等操作系统的升级,包括安全更新。
后续步骤
凯捷公司工程师们对其流程进行改进之后,随后的集成项目在几天内就已完成。他们对移动平交道口应用的积极成果感到满意,并将新获得的知识应用于其他铁路安全用例,如人群监控、武器检测、和暴力行为检测。这些额外的模型是在几天内开发出来的。
在成功完成集成项目之后,凯捷公司预计将很快开始在铁路运营商的生产环境中部署英业达AIM-Edge QC01设备。
所获得的经验表明,将AI推理解决方案与搭载高通技术公司工业嵌入式物联网处理器(特别是跃龙QCS6490平台)的边缘侧AI设备集成既有可行性,还可以带来利益。除了工作效率的提高,其优点还包括:
- 减少对云的依赖
- 更小的内存占用
- 更多的摄像头输入
- 在NPU上处理
- 长生命周期支持
高通芯片组实现了CPU、GPU和NPU范围内的异构计算,而高通® AI运行时 (QAIRT) 编译器可以在这些单元之间灵活并行部署神经网络模型。与共享计算和内存资源(限制并行性)的竞争平台不同,高通Hexagon NPU使用本地化的紧密耦合内存,减少了内存总线负载并提高了性能。
了解更多信息
寻求在节省内存的同时在NPU上进行推理的AI解决方案架构师和开发者可以通过联系高通物联网销售部了解更多信息。
请联系凯捷公司工程部,以了解有关其在重新构想铁路 – 铁路数字化转型 – 凯捷方面的更多工作内容。
在所发布内容中表达的观点仅为原作者的个人观点,并不代表高通技术公司或其子公司(以下简称为“高通技术公司”)的观点。所提供的内容仅供参考之用,而并不意味着高通技术公司或任何其他方的赞同或表述。本网站同样可以提供非高通技术公司网站和资源的链接或参考。高通技术公司对于可能通过本网站引用、访问、或链接的任何非高通技术公司网站或第三方资源并没有做出任何类型的任何声明、保证、或其他承诺。
骁龙与高通品牌产品均为高通技术公司和/或其子公司的产品。
关于作者
纳迪姆·费兹利,部门经理
维杰·阿南德,高级总监 / 首席物联网架构师
