精华内容
下载资源
问答
  • 特别是,本文对多传感器数据融合技术进行了综述,包括其优势和具有挑战性的方面。 基于推理,估计和分类,讨论现有多传感器数据融合技术的局限性; 尽管有一些关于数据融合的特定和一般文献评论。
  • 论文研究-基于Bayes估计的多传感器数据融合方法研究.pdf, 对多传感器数据融合方法进行研究 ,以 Bayes估计理论为基础得到了多传感器最优融合数据 ,并将它与其它方法得到...
  • 两种异步多传感器数据融合算法的比较,肖溪子,卢耀舜,多传感器数据融合目前已经广泛应用于多个领域,其能够使测量更加准确,提高系统的可信度和可靠性。Kalman滤波和最小二乘滤波是数据
  • 毕业论文设计,多传感器数据融合研究,传感器,数据处理,自动化
  • 摘要 多传感器数据融合是一种多层次的多方面的处理过程是对多源数据进行 检测结合相关估计和组合以达到精确的状态估计和身份估计以及完整 及时的态势评估和威胁估计本文对多传感器数据融合估计算法和威胁估计算法 ...
  • 文中建立了功能完整的多传感器数据融合模型,使用最邻近数据关联(NNDA)算法提取目标航迹,采用三次样条插值实现时间配准,并将传感器性能作为权重应用到航迹对的融合中,使用加权平均的方法融合航迹对.引用回声...
  • 基于多传感器数据融合的移动机器人六自由度姿态估计,戚传江,温程璐,本文在移动机器人的2D SLAM解决方案的基础上,采用多传感器数据融合方法,利用扩展卡尔曼滤波器将惯性测量单元(IMU)数据与2D SLAM系�
  • 基于DS证据的多传感器数据融合技术,曹爱华,,针对单侦察平台对目标参数测量数据单一、不确定性较高的缺陷,分析了DS-证据在多侦察平台中的应用。由于侦察平台对目标参数测量具
  • 针对传感器对某一特性指标进行测量实验的数据融合问题,根据多元统计理论,提出了一种基于主成分分析的融合方法。该方法把各传感器的测量数据作为一总体,定义总体的各主成分,利用测量值与主成分的相关关系,给...
  • 基于超声传感器数据融合技术的血压测量系统,刘宾,于红雷,本文将超声传感器数据融合技术应用于电子血压测量中,详细分析了利用个超声波传感器组成传感器阵列测量血压的原理。在DSP平台
  • 对文献[5]提出的Cao方法进行了改进,提出一种新的嵌入延迟相空间重构方法,不仅能够判断最小嵌入维数,还能够确定最佳时间延迟矢量。Cao方法的应用领域得以扩展,使得相空间重构问题可以在一个判断标准下完成。...
  • 多传感器数据融合技术在汽轮机排汽湿度监测系统中的应用,庞智,杨善让,蒸汽湿度对于汽轮机运行的安全性和经济性都有着重要影响,其中用双区加热法 来实现在线汽轮机排汽湿度监测有一定实效性,双区加��
  • 一种阵列式传感器数据融合方法的研究,杜胜雪,孔令富,提出了一种基于支持度和自适应加权的阵列式传感器数据融合方法,通过关联融合组测量信号序列以降低静态数据的随机测量误差。对
  • 针对目前多传感器数据融合过程中,传感器观测噪声不易确定,提出了一种基于LMS算法的多传感器自适应加权数据融合方法。该方法将传感器最优加权系数的求解,转化为估计值的均方误差性能表面的最优解搜索,通过加入...
  • 论文研究-多传感器数据的聚类融合方法.pdf,
  • 关于航迹关联 及 数据融合方面的论文
  • 多传感器标定 2.1 标定场地 2.2 相机到相机 2.2 相机到多线激光雷达标定 2.3 相机到毫米波雷达标定 2.4 相机到IMU标定 2.5 论文总结 3. 数据融合 3.1 融合的传统方法 3.2 深度学习方法 4. ...

    文章目录

     

    1. 引言

    自动驾驶感知和定位中传感器融合成了无人驾驶领域的趋势,融合按照实现原理分为硬件层的融合, 如禾赛和Mobileye等传感器厂商, 利用传感器的底层数据进行融合;数据层, 利用传感器各种得到的后期数据,即每个传感器各自独立生成目标数据,再由主处理器进行融合这些特征数据来实现感知任务;任务层, 先由各传感器完成感知或定位任务, 如障碍物检测,车道线检测,语义分割和跟踪以及车辆自身定位等, 然后添加置信度进行融合。

    在这里插入图片描述

    2. 多传感器标定

    传感器标定是自动驾驶的基本需求,良好的标定是多传感器融合的基础, 一个车上装了多个/多种传感器,而它们之间的坐标关系是需要确定的。

    这个工作可分成两部分:内参标定和外参标定,内参是决定传感器内部的映射关系,比如摄像头的焦距,偏心和像素横纵比(+畸变系数),而外参是决定传感器和外部某个坐标系的转换关系,比如姿态参数(旋转和平移6自由度)。

    摄像头的标定曾经是计算机视觉中3-D重建的前提,张正友老师著名的的Zhang氏标定法,利用Absolute Conic不变性得到的平面标定算法简化了控制场。

    另外在自动驾驶研发中,GPS/IMU和摄像头或者激光雷达的标定,雷达和摄像头之间的标定也是常见的。不同传感器之间标定最大的问题是如何衡量最佳,因为获取的数据类型不一样:

    • 摄像头是RGB图像的像素阵列;
    • 激光雷达是3-D点云距离信息(有可能带反射值的灰度值);
    • GPS-IMU给的是车身位置姿态信息;
    • 雷达是2-D反射图。

    另外,标定方法分targetless和target两种,前者在自然环境中进行,约束条件少,不需要用专门的target;后者则需要专门的控制场,有ground truth的target,比如典型的棋盘格平面板。

    这里仅限于targetless方法的讨论,主要利用Apollo中的标定工具对标定各个传感器进行研究

    2.1 标定场地

    我们的标定方法是基于自然场景的,所以一个理想的标定场地可以显著地提高标定结果的准确度。我们建议选取一个纹理丰富的场地,如有树木,电线杆,路灯,交通标志牌,静止的物体和清晰车道线。下图是一个较好的标定环境示例:
    在这里插入图片描述

    2.2 相机到相机

    智能车一般会有多个相机, 长焦距的用来检测远处场景(视野小), 短焦距检测近处(视野大).以Apollo的标定方法为例:
    基本方法:根据长焦相机投影到短焦相机的融合图像进行判断,绿色通道为短焦相机图像,红色和蓝色通道是长焦投影后的图像,目视判断检验对齐情况。在融合图像中的融合区域,选择场景中距离较远处(50米以外)的景物进行对齐判断,能够重合则精度高,出现粉色或绿色重影(错位),则存在误差,当误差大于一定范围时(范围依据实际使用情况而定),标定失败,需重新标定(正常情况下,近处物体因受视差影响,在水平方向存在错位,且距离越近错位量越大,此为正常现象。垂直方向不受视差影响)。
    结果示例:如下图所示,图2为满足精度要求外参效果,图3为不满足精度要求的现象,请重新进行标定过程。

    • 良好的相机到相机标定结果,中间部分为融合结果,重叠较好:
      在这里插入图片描述
    • 错误的相机到相机标定结果,,中间部分为融合结果,有绿色重影:
      在这里插入图片描述

    2.2 相机到多线激光雷达标定

    基本方法:在产生的点云投影图像内,可寻找其中具有明显边缘的物体和标志物,查看其边缘轮廓对齐情况。如果50米以内的目标,点云边缘和图像边缘能够重合,则可以证明标定结果的精度很高。反之,若出现错位现象,则说明标定结果存在误差。当误差大于一定范围时(范围依据实际使用情况而定),该外参不可用。

    • 良好的相机到多线激光雷达标定结果:
      在这里插入图片描述
    • 错误的相机到多线激光雷达标定结果:
      在这里插入图片描述

    2.3 相机到毫米波雷达标定

    基本方法:为了更好地验证毫米波雷达与相机间外参的标定结果,引入激光雷达作为桥梁,通过同一系统中毫米波雷达与相机的外参和相机与激光雷达的外参,计算得到毫米波雷达与激光雷达的外参,将毫米波雷达数据投影到激光雷达坐标系中与激光点云进行融合,并画出相应的鸟瞰图进行辅助验证。在融合图像中,白色点为激光雷达点云,绿色实心圆为毫米波雷达目标,通过图中毫米波雷达目标是否与激光雷达检测目标是否重合匹配进行判断,如果大部分目标均能对应匹配,则满足精度要求,否则不满足,需重新标定。

    • 良好的毫米波雷达到激光雷达投影结果:
      在这里插入图片描述
    • 错误的毫米波雷达到激光雷达投影结果:
      在这里插入图片描述

    2.4 相机到IMU标定

    虽然Apollo中没有, 但这是视觉slam中的常见传感器标定, 本人在近期会写一个相关的博客。
    利用Kalibr 对 Camera-IMU 进行标定

    2.5 论文总结

    最近相关的标定方面的论文也出现了不少, 奇点的黄裕博士的知乎专栏有总结

    3. 数据层融合

    有些传感器之间很难在硬件层融合,比如摄像头或者激光雷达和毫米波雷达之间,因为毫米波雷达的目标分辨率很低(无法确定目标大小和轮廓),但可以在数据层层上探索融合,比如目标速度估计,跟踪的轨迹等等。
    这里主要介绍一下激光雷达和摄像头的数据融合,实际是激光雷达点云投影在摄像头图像平面形成的深度和图像估计的深度进行结合,理论上可以将图像估计的深度反投到3-D空间形成点云和激光雷达的点云融合,但很少人用。原因是,深度图的误差在3-D空间会放大,另外是3-D空间的点云分析手段不如图像的深度图成熟,毕竟2.5-D还是研究的历史长,比如以前的RGB-D传感器,Kinect或者RealSense。

    相机和激光雷达的数据层融合原因:
    在无人驾驶环境感知设备中,激光雷达和摄像头分别有各自的优缺点。
    摄像头的优点是成本低廉,用摄像头做算法开发的人员也比较多,技术相对比较成熟。摄像头的劣势,第一,获取准确三维信息非常难(单目摄像头几乎不可能,也有人提出双目或三目摄像头去做);另一个缺点是受环境光限制比较大。
    激光雷达的优点在于,其探测距离较远,而且能够准确获取物体的三维信息;另外它的稳定性相当高,鲁棒性好。但目前激光雷达成本较高,而且产品的最终形态也还未确定。

    3.1 融合的传统方法

    • bayesia filter
      在这里插入图片描述
    • guided image filtering

    在这里插入图片描述
    在这里插入图片描述

    • 传统形态学滤波法

    3.2 深度学习方法

    (1) “Propagating Confidences through CNNs for Sparse Data Regression“, 提出normalized convolution (NConv)layer的改进思路,训练的时候NConv layer通过估计的confidence score最大化地融合 multi scale 的 feature map, 算法如下图:

    在这里插入图片描述
    (2)ICRA的论文High-precision Depth Estimation with the 3D LiDAR and Stereo Fusion
    只是在合并RGB image和depth map之前先通过几个convolution layer提取feature map:
    在这里插入图片描述
    (3)法国INRIA的工作,“Sparse and Dense Data with CNNs: Depth Completion and Semantic Segmentation“
    作者发现CNN方法在早期层将RGB和深度图直接合并输入性能不如晚一些合并(这个和任务层的融合比还是early fusion),这也是它的第二个发现,这一点和上个论文观点一致。算法流程:
    在这里插入图片描述
    前后两种合并方式的结果示意:
    在这里插入图片描述

    4. 任务层融合

    对于摄像头和激光雷达摄像头的感知任务来说, 都可用于进行车道线检测。除此之外,激光雷达还可用于路牙检测。对于车牌识别以及道路两边,比如限速牌和红绿灯的识别,主要还是用摄像头来完成。如果对障碍物的识别,摄像头可以很容易通过深度学习把障碍物进行细致分类。但对激光雷达而言,它对障碍物只能分一些大类,但对物体运动状态的判断主要靠激光雷达完成。任务级融合:障碍物检测/分类,跟踪,分割和定位。有时候融合可能在某一级的特征空间进行,这个也会随任务不同而变化。

    4.1 传统之障碍物检测跟踪

    • 双目和激光雷达融合

    法国INRIA利用做十字路口安全驾驶系统的障碍物检测[1]。
    在这里插入图片描述
    双目算法:
    在这里插入图片描述

    • 激光雷达和单摄像头融合
      用一个Bayesian分类器合并两个检测器的结果送进跟踪器[2], 算法流程:
      在这里插入图片描述
    • 单目和激光雷达融合
      图像数据的检测器用DPM算法,激光雷达点云数据检测采用自己提出的3D Morph算法,融合方式如加权和[3], 算法流程:
      在这里插入图片描述
    • 激光雷达,摄像头和毫米波雷达融合
      把激光雷达,摄像头和毫米波雷达的数据在障碍物检测任务进行融合, 基于D-S证据理论[4]
      在这里插入图片描述

    4.2 传统之多传感器定位

    • 激光雷达64线,雷达,摄像头,GPS-IMU(RTK),还有HD Map

    百度Apollo传感器融合用于车辆定位, 传感器配置有激光雷达64线,雷达,摄像头,GPS-IMU(RTK),还有HD Map。整个融合框架是基于EKF(扩展卡尔曼滤波器):估计最优的position, velocity, attitude (PVA)[5]。
    在这里插入图片描述
    在这里插入图片描述

    -视觉里程计和激光里程计
    该方法是在VO的基础上增加激光雷达点云信息[6]。这是系统框架:
    在这里插入图片描述

    4.3 深度学习之障碍物检测跟踪

    • 最常见的是利用激光雷达和相机进行障碍物检测:

    采用激光雷达点云的鸟瞰图和前视图像两个方向的投影和RGB图像共同构成目标检测的输入,检测器类似两步法,其中region proposal被3D proposal导出的bird view/frontal view proposal和2D image proposal结合所取代[7]。
    在这里插入图片描述

    • 利用激光雷达和相机进行障碍物跟踪层融合:
      还是采用tracking by detection思路,训练了三个CNN模型,即detectionnet,matchingnet和scoringnet[8]。
      在这里插入图片描述

    4.4 深度学习之定位

    • 定位
      激光雷达灰度图像(反射值)和点云定位进行融合, 两种定位方法都用了卷积网络进行搜索
      采用激光雷达扫描(利用卷积网络)的地面反射图来定位车辆,下面可以看到这种灰度图的样子。
      在这里插入图片描述

    引用文献
    [1] Intersection Safety using Lidar and Stereo sensors.
    [2] LiDAR and Camera-based Pedestrian and Vehicle Detection.
    [3] 2D/3D Sensor Exploitation and Fusion for Detection.
    [4] Multiple Sensor Fusion and Classification for Moving Object Detection and Tracking.
    [5] Robust and Precise Vehicle Localization based on Multi-sensor Fusion in Diverse City Scenes.
    [6] Real-time Depth Enhanced Monocular Odometry.
    [7] Multi-View 3D Object Detection Network for Autonomous Driving.
    [8] End-to-end Learning of Multi-sensor 3D Tracking by Detection.
    [9] Learning to Localize Using a LiDAR Intensity Map.

    展开全文
  • 针对具有个特征指标的目标识别问题,提出了一种基于Theil不均衡指数的融合方法。该方法根据Theil不均衡指数来定义熵权,通过三角隶属函数获得各传感器的局部决策支持度,采用熵权得到全局综合支持度,从而给出...
  • 针对目前分布式航迹融合算法中鲁棒性和实时性问题,基于充分利用多传感器测量数据中互补和冗余信息的思想,通过局部航迹估计间模糊支持度函数的建立和支持度矩阵的求解,动态地实现各局部航迹估计在融合中心权重的...
  • 为了提高红外与毫米波雷达双模制导系统的目标跟踪精度,提出了将UKF用于红外和毫米波雷达的数据处理,采用分布式融合结构,通过对两传感器的滤波协方差矩阵的相关估计,将滤波协方差矩阵和状态估计进行融合。...
  • 一篇关于多传感器目标跟踪检测数据融合的博士论文,有兴趣的可以下载学习参考
  • 探讨类型数据融合面临的新问题, 从分析相关性出发, 探讨类型数据中可供融合的关系, 提出数据类型属性相关的概念, 并综述基于相关性的数据融合研究现状。给出了类型数据融合研究的一般流程, 按流程综述了相关...
  • 问答服务系统的一个重要功能是问题检索,即根据用户的提问,在已有的问答对数据中查找与用户提问相似的其他问题,将这些问题的答案直接返回给用户。问题检索任务所面临的主要困难是如何计算两个问句之间的语义相似度...
  • 因此针对同类多传感器测量数据中含有的噪声和传输中包含大量冗余信息,通过多次实验对几种算法进行仿真比较,文中提出了一种基于递推估计的数据融合和自适应加权时空融合算法.该算法利用空间位置中多传感器的方差...
  • 为实现多传感器数据的有效融合,首先需要实现多传感器的高度集成,同时采用一定的技术手段实现各传感的多源数据统一于同一时间和空间基准,保证各传感器数据同步,从而才能更有效的、准确的实现对自动驾驶车辆的精...

    前言

    阅读硕士论文《自动驾驶中多传感器集成同步控制器设计与实现》,该论文为自动驾驶设计了一套时间同步控制器,涉及到的细节非常丰富,可以为多传感器融合中的时间同步提供设计思路。

    主要内容

    为实现多传感器数据的有效融合,首先需要实现多传感器的高度集成,同时采用一定的技术手段实现各传感的多源数据统一于同一时间和空间基准,保证各传感器数据同步,从而才能更有效的、准确的实现对自动驾驶车辆的精确定姿和定位。其中空间基准的统一可以通过标定技术得到各个传感器的相对位置关系,从而根据高精度地图中的初始坐标推算出各个传感器在特定坐标系统中的确切位置,时间基准的统一则是需要在保证采集系统绝对时间精度在一定误差范围内并能够对多传感器数据进行超低时延的同步采集。

    传统传感器硬件同步方案:

    1.直接使用工业控制计算机或者采用单片机作为主控芯片进行同步授时的系统,在进行多任务处理操作时,由于工作模式为多线程串行工作,因此不能精确的估计出任务处理所需时长,进而不能保证各传感器授时的实时性,故此方案不适合用在高精度时间同步控制。
    2.存在部分传感器自身集成了与GPS通信接,可以接收GPS的pps秒脉冲和对应的GPRMC数据实现自我授时。一方面不同的传感器在读取和解析时间数据过程中存在着不尽相同的相对授时误差;另一方面,主控芯片对传感器的控制以及数据采集是由不同的串行时序协议实现的,即使在主程序中使用同一个基准时间,对采集信息进行标识也无法保证数据的实时性。

    论文中时间同步方案

    自动驾驶涉及到的传感器包括相机、激光雷达、惯导、轮速计,GNSS等。论文中的系统采用FPGA,根据其低延时与高并发特点,通过严格的自定义逻辑设计,配合高精度和高稳定性的石英晶体,可将系统逻辑时延控制在ns级别的水平,同时以GPS的秒脉冲与NMEA数据对系统时间进行校准,可以确保系统时钟达到us级别的同步精度。
    大多数激光雷达的输入接口都提供了pps脉冲和NMEA时间的输入接口,如下是禾赛40线机械扫描式激光雷达提供的输入接口说明。另外像Velodyne的激光雷达也提供了这样的接口,详细内容可以查看其数据手册。
    在这里插入图片描述

    在这里插入图片描述
    该论文设计的同步控制器框图如下所示:
    在这里插入图片描述
    该设计则采用以FPGA为主控芯片,利用高稳石英晶体为同步控制系统提供工作时钟,高稳石英晶体的输出时钟信号被FPGA中的锁相环捕捉,FPGA将对信号进行累加作为系统的参考时钟,同时抓捕GPS输出的pps脉冲信号上升沿作为绝对整秒的开始,在连续接收到两个pps脉冲时,将上一pps对应时间加一秒进行授时,同时清零FPGA内部累加计数器,保证FPGA内部秒脉冲与GPS的PPS秒脉冲的信号边沿对齐,从而实现两者之间时间统一,建立高精度的时间基准。高精度时间基准建立与同步如下图所示:
    在这里插入图片描述

    我的理解

    我的理解是GNSS提供的pps脉冲和GPRMC时间是一种长时间的精准时钟,pps脉冲来自于原子钟,精度一般可以达到10ns,它对同步控制器来说相当于一个真值校准。因为pps脉冲是一秒触发一次,只能保证这一秒是很准确的,对应GPRMC时间的绝对整秒时刻,但是很大传感器的输出频率都是大于1Hz的,像一般的惯导都是几百Hz的,每一个数据都是要有一个时间戳的,那怎么办呢?如何保证每个传感器打上的时间戳的精度可以达到us级,这就需要系统内部也要建立一套自己的精确的时钟,这套时种满足短时间高精度。打个比方,假设内部时钟在1s的误差是x,那么在n秒之后,如何没有GNSS的校准,误差就是nx,如果有GNSS的校准,最大误差不超过x,即为没有累积误差。
    论文FPGA采用的晶振信息如下所示:
    在这里插入图片描述
    根据GPGGA语句中的状态信息确定当前GPS处于何种状态,再结合GPS卫星数量判断GPS信息是否有效。当检测到GPS收星数不满3颗且定位状态为“未定位”或“无效GPS”时,不使用GPS进行校准;当判断结果为GPS信息有效时,读取GPRMC语句中的UTC时间信息。为了提高时间基准建立的精度,利用GPS发出的PPS信号对时间进行校准,pps脉冲的上升沿表示全球时钟的标准零秒时刻。pps秒脉冲信号与NMEA信息的时序图如下所示:
    在这里插入图片描述
    由于GPS信号的建立需要一段时间,部分时间可能因为周围环境影响或者是恶劣的天气原因导致长时间不能搜索到GPS信号,这样只依靠GPS授时的系统是不能保证系统时间的准确性。因此在本设计中增加了DS1302外部时钟计时器作辅助。FPGA以外部高稳晶振作为时钟源自发进行微秒计时,这样可以保证多传感器集成的自动控制器正常工作。与此同时,系统将不断检测GPS通信接口是否有信号输入,当FPGA接收到GPS传来的NMEA协议数据时,将会根据数据信息对GPS信息是否有效进行判断,若判断有效则读取NMEA协议数据中的时间信息(包括年、月、日、时、分、秒),同时根据GPS发送的pps秒脉冲对系统当前时间校准。在GPS信号有效期间,系统会以一定的频率刷新DS1302芯片内部是时钟信息,以保重下次系统启动时初始时钟的准确性。

    参考文献

    1. 自动驾驶中多传感器集成同步控制器设计与实现 鄢胜超 华中师范大学
    展开全文
  • 多传感器导航信息融合研究,陈宁,汪坤,针对组合导航系统信息处理时存在故障数据和计算量大的问题,研究了一种基于信息融合的最优估计滤波方法。首先介绍了信息融合的基
  • 无线传感器网络基于参数估计的数据融合算法分析,吴巍,邱爽,数据融合技术作为无线传感器中的一项关键技术,目的是减少节点的传输数据量,减少网络中总能量的消耗。为提高多传感器数据融合
  • 点上方蓝字计算机视觉联盟获取更干货在右上方···设为星标★,与你不见不散编辑:Sophia计算机视觉联盟 报道 |公众号CVLianMeng转载于 :黄浴知乎,已获授权h...

    点上方蓝字计算机视觉联盟获取更多干货

    在右上方 ··· 设为星标 ,与你不见不散

    编辑:Sophia
    计算机视觉联盟  报道  | 公众号 CVLianMeng

    转载于 :黄浴知乎,已获授权

    https://zhuanlan.zhihu.com/p/90773462

    【人工智能资源(书籍+视频)全网收集,附下载!

    推荐文章【点击下面可直接跳转】:

    如何快速下载不同网站文档!

    AI博士笔记系列推荐:

    博士笔记 | 周志华《机器学习》手推笔记“神经网络”

    最近讨论过数据层传感器融合问题,特别是最近采用深度学习方法估计深度图的方法。主要是激光雷达等深度传感器的数据比较稀疏分辨率低(特别是便宜的低线束激光雷达),好处是数据可靠性高;而摄像头传感器获取的图像比较致密并分辨率高,缺点是获取的深度数据可靠性差。下面介绍一下最近看到的深度学习方法。


    “HMS-Net: Hierarchical Multi-scale Sparsity-invariant Network for Sparse Depth Completion ”2018

    密集的深度线索对于各种计算机视觉任务很重要。在自动驾驶中,激光雷达传感器用于获取车辆周围的深度测量值以感知周围环境。然而,由于其硬件限制,激光雷达的深度图通常是稀疏的。最近深度图完整吸引了越来越多的关注,其目的是从输入的稀疏深度图生成密集的深度图。

    为了有效利用多尺度特征,这里提出3种稀疏性不变(sparsity-invariant)操作。基于此,稀疏不变(sparsity-invariant)分层多尺度编码器/解码器网络(hierarchical multi-scale encoder-decoder network,HMS-Net)用于处理稀疏输入和稀疏特征图。可以合并其他RGB特征,以进一步提高深度完整系统的性能。

    如图所示:(a)稀疏不变卷积的CNN只能逐渐对特征图进行下采样,在以后阶段失去大量分辨率;(b)提出的稀疏不变编码器-解码器网络可以有效地融合来自不同层的多尺度特征做深度完整。

    以下依次是三个稀疏不变操作:(a) 稀疏不变双线性上采样、(b) 稀疏不变叠加、和 (c) 联合稀疏不变的联结和卷积。

    (a)
    (b)
    (c)

    之前用于密集像素分类的多尺度编码器-解码器网络结构有U-Net、特征金字塔网络(FPN)和全分辨率残差网络(FRN)。将稀疏不变卷积直接集成到这些多尺度结构不可行,因为那些结构还需要其他操作做多尺度特征融合,如稀疏不变特征上采样,加法和串联。

    如图是基于上述三个稀疏不变操作的的分级多尺度编码器-解码器网络(HMS-Net)结构,用于深度图完整化,(a)是不带RGB引导的架构,(b)是带RGB引导的架构。

    图(a)提出两个基本构建块,一个2-尺度块和一个3-尺度块,由稀疏不变操作组成。2-尺度块具有一条上路径,通过k×k稀疏不变卷积非线性地变换全分辨率低层特征。而一条下路径将下采样的低层特征作为输入,通过另一个k×k卷积学习高层特征(k = 5)。然后,对生成的高层特征进行上采样,并添加到全分辨率低层特征。与2-尺度块相比,3-尺度块将特征从两个较高层融合到上低层特征路径中,利用更多辅助的全局信息。这样,全分辨率的低层特征可以有效地与高层信息融合在一起,并经过多次非线性转换学习更复杂的预测函数。最终网络在第一层运行5×5稀疏不变卷积;生成的特征经过3-尺度块,然后做稀疏不变最大池化,再进行三次上采样生成全分辨率特征图。最终特征图通过一个1×1卷积层转换生成最终的逐像素预测结果。

    图(b)输入图像首先由RGB子网络处理得到中层RGB特征。子网的结构遵循ERFNet的前六个模块,由两个下采样模块和四个残差模块组成。下采样块有2×2卷积层(步幅为2)和2×2最大池化层。输入特征同时馈入到两层,其结果沿着通道维联结在一起,获得1/2大小的特征图。残差块的主路径有两组:1×3 conv → BN → ReLU → 3×1 conv → BN → ReLU。由于中层RGB特征下采样至原始大小的1/4,因此它们会被放大到输入图像的原始大小。通过一系列卷积对上采样RGB特征进行转换,充当附加的引导信号,并与不同多尺度块的低层稀疏深度特征图相连。

    如图是HMS-Net和其他方法的实验结果比较:(a)输入稀疏深度图示例,(b)相应的RGB图像,(c)ADNN(基于压缩感知)的结果,(d)稀疏不变卷积的结果,(e)手工制作的传统(形态)图像处理方法得出的结果,以及(f)HMS-Net的结果。


    “Sparse and noisy LiDAR completion with RGB guidance and uncertainty”2019.2

    这项工作提出了一种新方法,可以精确地完整化RGB图像引导的稀疏激光雷达深度图。对于自动驾驶车辆和机器人,必须使用激光雷达才能实现精确的深度预测。大量的应用程序取决于对周围环境的了解,并使用深度线索进行推理并做出相应的反应。一方面,单目深度预测方法无法生成绝对且精确的深度图。另一方面,基于激光雷达的方法仍然明显优于立体视觉方法。

    深度完整(depth completion)任务的目标是从稀疏、不规则、映射到2D平面的点云生成密集的深度预测。这里提出了一个框架,同时提取全局和局部信息生成适当的深度图。简单的深度完整并不需要深度网络。但是,该文提出一种融合方法,由单目相机提供RGB指导,利用目标信息并纠正稀疏输入数据的错误,这样大大提高了准确性。此外,利用置信度掩码考虑来自每种模态深度预测的不确定性。

    注:原代码在github.com/wvangansbeke

    如图所示,该框架由两部分组成:位于顶部的全局分支和位于下方的局部分支。全局路径输出三个图:引导图,全局深度图和置信度图(guidance map, global depth map,confidence map)。局部图通过全局网络的引导图预测置信度图)和局部深度图(local depth map)。该框架在后期融合方法中基于置信度图融合了全局和局部信息。

    全局网络是基于ERFNet(实时分割网络模型)的编解码器网络,而局部网络是堆叠的沙漏网络(hourglass network)。后者由两个沙漏模块组成,获得原始深度预测的残差,总共只有350k参数。每个模块由六层组成,小感受野,通过跨步卷积(strided convolutions)做两次下采样。在第一个卷积层和第一个沙漏模块的编码器中,没有批次归一化(BN),因为零的数量会使该层的参数产生偏差,尤其是在输入稀疏度变化的情况下。

    以利用全局信息,全局引导图与稀疏的激光雷达框架融合在一起,类似于前融合对局部网络的引导。将置信度图与其深度图相乘并添加来自两个网络的预测,可以生成最终预测。置信度图的概率用softmax函数计算。该选择过程,从全局深度图选择像素,或者从堆叠的沙漏模块中选择调整的深度值。因此,最终的深度预测dˆ开发置信度图X和Y。

    如图看结果。


    “3D LiDAR and Stereo Fusion using Stereo Matching Network with Conditional Cost Volume Normalization”2019.4

    主动和被动深度测量技术的互补特性促使激光雷达传感器和立体双目相机融合,以改善深度感知。作者不直接融合激光雷达和立体视觉模块来估计深度,而是利用带两种增强技术的立体匹配网络:激光雷达信息的输入融合和条件成本容积归一化(Conditional Cost Volume Normalization,CCVNorm)。所提出的框架是通用的,并且紧密地与立体匹配神经网络中成本容积组件集成。

    如图是3D 激光雷达和立体视觉融合方法的插图。立体匹配流水线的概念包括立体图像对2D特征提取、像素对应以及最终视差计算。与立体匹配网络紧密集成的(1)输入融合和(2)条件成本容积归一化(CCVNorm)。通过利用激光雷达和立体视觉模块的互补性,该模型可以生成高精度的视差估计。

    3D LiDAR和立体融合框架的概述如图所示:(1)输入融合,将稀疏的激光雷达深度的几何信息与RGB图像结合起来,作为成本计算阶段的输入,学习联合的特征表示;以及(2)CCVNorm代替批量归一化 (BN)层,在立体匹配网络的成本正则化(Regularization)阶段以激光雷达数据为条件调制成本容积特征F。

    在立体匹配网络的成本计算阶段,立体双目对的左图像和右图像都经过卷积层以提取特征。在输入融合(Input Fusion),通过深度变成视差的三角化原理,将激光雷达扫描重新投影到左右图像坐标转换为深度,从而形成与立体图像相对应的两个稀疏激光雷达深度图。

    而将稀疏的激光雷达深度点信息纳入立体匹配网络的成本正则化阶段(即3D-CNN),学习去减少匹配的搜索空间并解决多义性问题。

    受条件批量归一化(Conditional Batch Normalization,CBN)的启发,这里条件成本容积归一化(CCVNorm)将稀疏的激光雷达信息编码为4-D成本容积的C×H×W×D特征。由于以下三点考虑,在立体匹配网络中直接将CBN直接应用于3D-CNN可能会引起问题:(1)设置的条件输入是一个稀疏图,其像素间的值一直变化 ,这意味着归一化参数按像素进行;(2)需要一种替代策略来解决稀疏图中包含的无效信息;(3)稀疏图中的有效值对成本容积的每个视差级有不同的贡献。因此,CCVNorm根据成本特性更好地协调3D激光雷达信息,以解决上述问题。

    这里采用两种不同的方法构造CCVNorm:

    1) 分类CCVNorm(categorical CCVNorm):构造一个Dˆ-条目查找表,每个元素作为D×C向量,将激光雷达值映射到不同特征通道和视差级别的归一化参数{γ,β},其中激光雷达深度值离散化为Dˆ 级的条目索引。

    2) 连续CCVNorm(Continuous CCVNorm):用CNN将稀疏激光雷达数据与D×C通道的归一化参数之间连续映射建模。这里用ResNet34的第一个块编码激光雷达数据,然后分别在不同层对CCVNorm进行一次1×1卷积。

    为了减小模型大小,文中提出CCVNorm的分层扩展,即HierCCVNorm。如图是CCVNorm的示意图。每个像素(红色虚线框),基于相应激光雷达数据的离散视差,分类CCVNorm从Dˆ条目查找表中选择调制参数γ,而无效值的激光雷达点采用附加参数集单独处理(灰色表示)。另一方面,HierCCVNorm通过2步分级调制生成γ。

    如图显示的是,该方法与其他基准方法及其变型相比,通过利用激光雷达和立体视觉模块的互补特性来捕获复杂结构区域(白色虚线框)中的细节。


    ”Deep RGB-D Canonical Correlation Analysis For Sparse Depth Completion”2019.6

    完整关联网络(Correlation For Completion Network,CFCNet)是一种端到端的深度模型,用RGB信息做稀疏深度完整化。2D深度规范相关性分析(2D deep canonical correlation analysis,2D2CCA),作为网络约束条件,可确保RGB和深度的编码器捕获最相似语义信息。

    该网络将RGB特征转换到深度域,并且互补的RGB信息用于完整丢失的深度信息。完整的密集深度图被视为由两部分组成。一个是可观察并用作输入的稀疏深度,另一个是无法观察和恢复的深度。

    同样,相应深度图的整个RGB图像可以分解为两部分,一个称为稀疏RGB,在稀疏深度可观察位置保留相应的RGB值,另一部分是互补RGB(complementary RGB),即从整个RGB图像中减去稀疏RGB的部分。在训练期间,CFCNet会学习稀疏深度和稀疏RGB之间的关系,并用所学知识从互补RGB中恢复不可观察的深度。

    如图所示,输入的0-1稀疏掩码表示深度图的稀疏模式。互补掩码(complementary mask)与稀疏掩码互补。通过掩码将整个图像分为稀疏RGB和互补RGB,然后将它们与掩码一起馈入网络。CFCNet接受稀疏深度图,稀疏RGB和互补RGB。在类似VGG16的编码器中使用稀疏-觉察注意卷积(Sparsity-aware Attentional Convolutions,SAConv)。

    SAConv受到局部注意掩码(local attention mask,LAM)的启发,LAM引入了分割-觉察掩码(segmentation-aware mask),使卷积“聚焦”在与分割掩码一致的信号上。如图是SAConv架构图。⊙Hadamard积,⊗卷积, +逐元加法。对于卷积和最大池化,其内核大小3×3,步幅(stride)1。

    为了传播来自可靠来源的信息,用稀疏性掩码(sparsity masks)使卷积操作参与来自可靠位置的信号。与局部注意掩码LAM的区别在于,SAConv不应用掩码归一化,它会影响之后2D2CCA的计算稳定性,原因是多次归一化后它产生的数值较小的提取特征。此外,在SAConv之后对掩码使用最大池化操作以跟踪其可见性。如果卷积核可见至少一个非零值,则最大池化将在该位置处计算得到值为1。

    规范相关性分析(canonical correlation analysis ,CCA)是一种标准的统计技术,学习跨多个原始数据空间的共享子空间。对于两种模态,从共享子空间来看,每个表示形式对另一个的预测最强,而另一个的可预测性也最高。在小样本高维空间(high-dimensional space with small sample size,SSS)情况下,单向CCA(one-directional CCA)方法会遇到协方差矩阵的奇异性问题。所以,现在的方法已将CCA扩展为双向(two-directional)方式,以避免SSS问题。

    大多数多模态深度学习方法只是联结或逐元添加瓶颈特征。但是,当元素之间提取的语义和特征数值范围不同时,多模态数据源的直接联结接和添加不会比单模态数据源产生更好的性能。为避免此问题,这里用编码器从两个分支提取更高级别的语义,2D2CCA确保从两个分支提取的特征具有最大的相关性。

    直觉告诉我们,从RGB和深度域要捕获相同的语义。接下来,用变换器网络(transformer network)将提取的特征从RGB域转换为深度域,使不同来源提取的特征共享相同的数值范围。在训练阶段,用稀疏深度和相应的稀疏RGB图像特征来计算2D2CCA损失和转换器损失。

    双向CCA的协方差矩阵为:

    其中

    而正则化常数r1和单位矩阵I的协方差矩阵为

    这样,图像和深度特征之间的相关性,为

    2D2CCA的损失即为−corr(FsD , FsI ) 。而整个损失函数是:

    如图是一些结果例子:(a)RGB图像,(b)500点稀疏深度作为输入,(c)完整深度图。(d)MIT方法的结果。


    “Confidence Propagation through CNNs for Guided Sparse Depth Regression“ 2019.8

    通常,卷积神经网络(CNN)可在规则网格(例如网格)上处理数据,即普通相机生成的数据。设计用于稀疏和不规则间隔输入数据的CNN仍然是一个开放的研究问题。

    本文有几个特点:

    1) 提出的代数约束归一化卷积层,针对稀疏输入数据的CNN,相对来说网络参数量较少。

    2) 提出从卷积运算确定置信度并将其传播到后继层的策略。

    3) 定义一个目标函数,可同时最小化数据误差最大化输出置信度。

    4)为了集成结构信息,提出融合策略,可以在标准化卷积网络框架中结合深度和RGB信息。5)使用输出置信度作为辅助信息来改善结果。

    如图是示例图像的场景深度完整化的流水线。流水线的输入是一个非常稀疏的投影激光雷达点云、一个输入置信度图(在缺失像素处为0,否则为1)以及一个RGB图像。输入稀疏点云和置信度被馈送到多尺度无引导(unguided)网络,其作为数据的通用估计器。然后,将连续输出置信度图与RGB图像连接起来,并馈入特征提取网络。来自非引导网络和RGB特征提取网络的输出联结在一起馈送到融合网络,生成最终的密集深度图。

    CNN框架的标准卷积层可用少量修改的归一化卷积层代替。首先,该层同时接受两个输入,即数据及其置信度。然后修改前向传递(forward pass),并修改后向传播(back-propagation)加入非负强制函数(enforcement function)的导数项。为了将置信度传播到后继层,已经计算的分母项被滤波器元素之和归一化。如图所示,归一化卷积层接受两个输入即数据和置信度,并输出一个数据项和一个置信度项。

    下图是非引导场景深度完整任务中采用归一化卷积层的多尺度体系结构。用最大池化对置信度图下采样,池化像素的索引用于今后从特征图中选择置信度最高像素。上采样较粗尺度特征并将其与较细尺度特征连接起来,可以融合不同尺特征。然后,基于置信度信息归一化卷积层融合特征图。最后,1×1归一化卷积层将不同通道合并为一个通道,并生成密集深度图和输出置信度图。

    对于引导场景深度完整任务,和两个常用的架构进行比较。如图所示:(a)一种多流体系结构(multi-stream architecture),其中包含一个深度流和一个RGB +输出置信度特征提取流。之后,融合网络将两个流合并产生最终的密集输出。(d)一种多尺度编码器-解码器体系结构,其中将深度馈入非引导网络,然后是编码器,随后将输出置信度和RGB图像连接起来,馈入相似编码器。两个流在对应尺度之间的解码器设置跳连接。(c)与(a)类似,不过算早期融合,(b)与(d)类似,但是早期融合。

    第一个体系结构是早期融合(EF)的多流(MS)网络,称为MS-Net [EF],其变型为MS-Net [LF](后期融合)。第二种架构是编码器-解码器架构,其早期融合表示为EncDec-Net [EF],其变体是后期融合的EncDec-Net [LF]。如图是实验结果:(a)RGB输入,(b)MS-Net [LF] -L2方法(gd),(c)Sparse-to-Dense(gd)方法,和(d)HMS-Net(gd)方法。对每个预测,方法MS-Net [LF] -L2(gd)的性能略好,而“Sparse-to-Dense”由于使用平滑度损失而产生了更平滑的边缘。



    END

    声明:本文来源于知乎

    如有侵权,联系删除

    联盟学术交流群

    扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

    最新热文荐读

    GitHub | 计算机视觉最全资料集锦(含实验室、算法及AI会议)

    Github | 标星1W+清华大学计算机系课程攻略!

    Github | 吴恩达新书《Machine Learning Yearning》

    收藏 | 2020年AI、CV、NLP顶会最全时间表!

    收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

    笔记 | 深度学习综述思维导图(可下载)

    笔记 | 深度神经网络综述思维导图(可下载)

    内推 | 4399小游戏

    内推 | 无人驾驶~小马智行Pony.ai 2020

    内推 | 虎牙直播2020校招

    内推 | 字节跳动内推

    前沿 | 阿里达摩院发布2019十大科技趋势!未来无限可期!

    点个在看支持一下吧

    展开全文
  • 点上方蓝字计算机视觉联盟获取更干货在右上方···设为星标★,与你不见不散编辑:Sophia计算机视觉联盟 报道 |公众号CVLianMeng转载于 :黄浴知乎,已获授权h...

    点上方蓝字计算机视觉联盟获取更多干货

    在右上方 ··· 设为星标 ,与你不见不散

    编辑:Sophia
    计算机视觉联盟  报道  | 公众号 CVLianMeng

    转载于 :黄浴知乎,已获授权

    https://zhuanlan.zhihu.com/p/90773462

    【人工智能资源(书籍+视频)全网收集,附下载!

    推荐文章【点击下面可直接跳转】:

    如何快速下载不同网站文档!

    AI博士笔记系列推荐:

    博士笔记 | 周志华《机器学习》手推笔记“神经网络”

    最近讨论过数据层传感器融合问题,特别是最近采用深度学习方法估计深度图的方法。主要是激光雷达等深度传感器的数据比较稀疏分辨率低(特别是便宜的低线束激光雷达),好处是数据可靠性高;而摄像头传感器获取的图像比较致密并分辨率高,缺点是获取的深度数据可靠性差。下面介绍一下最近看到的深度学习方法。

    Learning Guided Convolutional Network for Depth Completion”2019.8

    密集深度感知对于自动驾驶和其他机器人应用至关重要。因此,有必要完整稀疏激光雷达数据,通常同步的引导RGB图像促进此完整化。受著名的引导图像滤波(guided image filtering)方法启发,引导网络(guided network)可以从引导图像(guidance image)中预测内核权重。然后将这些预测核用于提取深度图像特征。

    以这种方式,一个网络生成内容相关和空间变化的内核,用于多模态的特征融合。此外,动态生成的空间变量内核可能导致GPU内存消耗过大和计算开销,而卷积分解可减少计算和内存消耗,这样GPU内存的减少使特征融合可以在多步方案中运行。

    如图所示,该网络体系结构包括两个子网:橙色GuideNet和蓝色DepthNet。在GuideNet和DepthNet的开头以及DepthNet的末尾添加卷积层。浅橙色和浅蓝色分别是GuideNet和DepthNet的编码器步,而对应的深橙色和深蓝色是GuideNet和DepthNet的解码器步。ResBlock是两个连续3×3卷积层的基本残差块结构。

    下图是引导卷积模块架构图:(a)引导卷积模块的整体流水线,在给定图像特征输入的情况下,滤波器生成层动态地生成引导核(guided kernels),将其用于输入深度特征并输出新的深度特征;(b)引导核与输入深度特征之间卷积的细节,其分解为两步卷积,即逐通道卷积和跨通道卷积。

    内容相关和空间变化内核的优点是双重的。首先,这种内核允许网络将不同的滤波器用于不同的目标(和不同的图像区域)。因此,根据图像内容和空间位置动态生成内核将很有帮助。其次,在训练期间,空间不变核的梯度计算为下一层所有图像像素的平均值。这样的均值更可能导致梯度接近于零,甚至觉得学习的内核对于每个位置而言不是最优,这可能会产生次优结果。相比之下,空间变化的内核可以缓解此问题,并使训练表现得更好,从而获得更好的结果。

    最后是KITTI测试集上最新方法的结果定性比较,如图所示:选择的方法有‘Sparse-to-Dense’, ‘DDP’ , ‘DeepLiDAR’, ‘CSPN’和‘NConv-CNN’,以及本文的方法。


    ”DFineNet: Ego-Motion Estimation and Depth Refinement from Sparse, Noisy Depth Input with RGB Guidance“ 2019.8

    深度估计是自动驾驶汽车了解和重建3D环境以及避免障碍的一项重要功能。精确的深度传感器(例如机械式激光雷达)通常很笨重和昂贵,并且只能提供稀疏深度,而较轻的深度传感器(例如,立体双目相机)则相对含噪。

    DFineNet是一种端到端的学习算法,能够用稀疏、含噪的输入深度进行细化和深度填充。该模型输出摄影机姿势作为副产品。如图所示,稀疏、含噪的深度输入(第一行),真实深度的3D可视化(第二行)和模型输出的3D可视化(底部)示例。为了可视化,RGB图像(第1张)和有稀疏、含噪的深度输入叠在一起。

    再看一个DFineNet实例,如图所示:它细化稀疏含噪的深度输入(第三行),并输出高质量的密集深度(下一行)。

    下图是DFineNet的架构图。该网络由两个分支组成:一个CNN学习估计深度(ψd)的函数,另一个CNN学习估计姿势(θp)的函数。其将图像序列和相应的稀疏深度图作为输入,并输出变换以及密集深度图。在训练过程中,训练信号会同时更新两组参数。它是MIT深度网络的修正,称为Depth-CNN,而Pose-CNN改编自Sfmlearner。

    训练中整个损失函数表示为

    其中平滑损失记为Lsmo,而监督损失定义为:

    光度损失定义为:

    掩码光度损失定义为:

    最后是结果:左边是本文方法结果,中间是关于RGB引导(第二行)及其不确定性(第三行)的方法结果,最右边是MIT方法的结果。


    “PLIN: A Network for Pseudo-LiDAR Point Cloud Interpolation”2019.9

    激光雷达可以在低频(约10Hz)下提供可靠的3D空间信息,并已广泛应用于自动驾驶和无人机领域。但是,实际应用中具有较高频率(约20-30Hz)的摄像机必须降低,以便与多传感器系统中的激光雷达匹配。

    伪激光雷达内插网络(Pseudo-LiDAR interpolation network,PLIN),用于增加激光雷达传感器的频率。PLIN旨在解决相机和激光雷达之间的频率不匹配问题,同时生成时空高质量的点云序列。为此,它采用连续稀疏深度图和运动引导的粗内插阶段,以及由真实场景引导的精细内插阶段。这种从粗到细的级联结构,可以逐步感知多模态信息。

    如图是PLIN的总体流程图。该方法将三个连续彩色图像和两个稀疏深度图作为输入,内插一个中间密集深度图,然后根据相机内参将其进一步转换Pseudo-LiDAR点云。

    伪激光雷达内插网络(PLIN)概述图如下:整个架构由三个模块组成,即运动引导(motion guidance)模块、场景引导(scene guidance)模块和变换(transformation)模块。首先有一个基准网络(一个编码器-解码器架构)从两个连续稀疏深度图来生成内插图。然后,为了构造更合理的慢动作结果,用双向光流包含的运动信息来指导内插过程(基于LiteFlowNet网络)。此外,对输入的深度图进行扭曲(warping)操作得到中间的粗略深度图,其中包含了显式运动关系。最后中间彩色图像在场景引导下细化粗略的深度图(基于一个轻型U-Net网络),从而获得更准确、更密集的中间深度图。

    下面是实验展示。如图所示是PLIN获得的内插深度图结果:对每个示例,显示彩色图像、稀疏深度图、密集深度图和PLIN结果。该方法可以恢复原始深度信息并生成更密集分布。

    如图显示的结果:从上到下是内插的密集深度图、生成Pseudo-LiDAR的两个视图以及放大的区域。完整网络生成更准确的深度图,并且Pseudo-LiDAR的分布和形状与真实点云的分布和形状更相似。


    ”Depth Completion from Sparse LiDAR Data with Depth-Normal Constraints“ 2019.10

    深度完整旨在从稀疏深度测量中恢复密集的深度图。它对自动驾驶的重要性日益增加,并引起了视觉界的越来越多的关注。大多数现有方法直接训练网络学习从稀疏深度输入到密集深度图的映射,这比较难利用3D几何约束,以及处理实际传感器噪声。

    为了规范化深度完整解法并提高抗噪能力,作者提出一个统一的CNN框架:1)在发散模块(diffusion module)中模拟深度和表面法线之间的几何约束,2)预测稀疏激光雷达测量的置信度以减轻噪声的影响。具体而言,编码器-解码器主干网同时预测激光雷达输入的表面法线、粗深度和置信度,然后将其输入到扩散细化模块(diffusion refinement module)获得最终深度完整的结果。

    如图所示:从稀疏的激光雷达测量和彩色图像(a-b),该模型首先推断出粗深度和法线图(c-d),然后强制深度和法线之间约束反复细化初始深度估计。此外,为了解决实际激光雷达测量的噪声(g),用解码器分支预测稀疏输入深度的置信度(h),实现更好的正则化。

    在介绍该统一框架之前,需要简单提一下定义的平面原点距离空间(plane-origin distance space)。X为3D空间点,x为其在像平面的2D投影点。在3D点X处的表面法线N(x) 定义为垂直于切平面F的向量,其法平面方程为N(x)·X−P =0。如图所示,切平面方程建立了深度和法线之间关系。P=N(x)·X,称为平面原点距离。

    下图是整个框架的概览:预测网络是共享权重编码器和独立解码器,其预测表面法线图N、粗深度图D和稀疏深度输入的置信度图M。然后,将稀疏深度输入D̄和粗略深度D转换为平面原点距离空间,分别为P̄和P。接下来,细化网络,一个各向异性发散(anisotropic diffusion)模块,在平面原点距离子空间中细化粗略深度图D来强制深度和法线之间的约束,并合并置信稀疏深度输入的信息。在细化期间,发散引导度(diffusion conductance)取决于引导特征图G的相似性。最后,当发散结束,细化距离P逆变换获得细化深度图Dr。

    如图是可微分扩散块(Differentiable diffusion bloc)架构图。在每个细化迭代中,引导特征图(guidance feature map)G中的高维特征向量(例如,维数为64),通过两个不同的函数f和g(建模为两个卷积层,然后进行归一化)独立地进行变换。然后,计算从每个位置xi(在平面原点距离图P中)到其相邻的K个像素(xj∈Ni)的引导度。最后,发散经一个卷积运算操作,其内核由先前计算的引导度所定义。通过这种发散,深度完整的结果由深度和法线之间约束而规范化。

    这里训练的损失函数定义为:

    其中重建损失定义为

    细化重建损失定义为

    法线预测的损失定义为

    深度损失定义为

    如图是结果展示例子。实际上是与其他三个方法的定量比较:对每种方法,深度完整的结果以及细节和误差的放大图,还有法线预测和置信度预测的结果。

    END

    声明:本文来源于网络

    如有侵权,联系删除

    联盟学术交流群

    扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

    最新热文荐读

    GitHub | 计算机视觉最全资料集锦(含实验室、算法及AI会议)

    Github | 标星1W+清华大学计算机系课程攻略!

    Github | 吴恩达新书《Machine Learning Yearning》

    收藏 | 2020年AI、CV、NLP顶会最全时间表!

    收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

    笔记 | 深度学习综述思维导图(可下载)

    笔记 | 深度神经网络综述思维导图(可下载)

    内推 | 4399小游戏

    内推 | 无人驾驶~小马智行Pony.ai 2020

    内推 | 虎牙直播2020校招

    内推 | 字节跳动内推

    前沿 | 阿里达摩院发布2019十大科技趋势!未来无限可期!

    点个在看支持一下吧

    展开全文
  • 基于多传感器融合的移动机器人SLAM,李金良,孙友霞,针对移动机器人同时定位与地图创建(SLAM)系统在复杂特殊环境中应用时,单一传感器存在漏检且难以解决数据关联的问题,在多维匹��

空空如也

空空如也

1 2 3 4 5 ... 7
收藏数 137
精华内容 54
关键字:

多传感器数据融合论文