精华内容
下载资源
问答
  • 本文主要是对之前关于视觉SLAM方案和硬件选型调研的总结,文中有关的视频是从youtube上收集的,上传到了百度网盘,有需自取。 网盘链接: https://pan.baidu.com/s/1-5B4q1rtL3XcCEIDzou0JA 密码:lfm1 01 SLAM的...

       编辑丨智东西公开课

    本文已获CSDN博主「Mega_Li」授权发布,如需转载请与原作者联系。原文链接:https://blog.csdn.net/lwx309025167/article/details/80257549

    SLAM是机器人、自动驾驶等应用重要的基础技术,如果离开了SLAM,相当于人类失去了双眼。SLAM可分为激光SLAM和视觉SLAM,视觉SLAM主要是基于相机来完成环境的感知工作,相对而言,相机成本较低,容易放到商品硬件上,且图像信息丰富,因此视觉SLAM也备受关注。本文主要是对之前关于视觉SLAM方案和硬件选型调研的总结,文中有关的视频是从youtube上收集的,上传到了百度网盘,有需自取。

    网盘链接:

    https://pan.baidu.com/s/1-5B4q1rtL3XcCEIDzou0JA 

    密码:lfm1

    01

    SLAM的引入

    1.1定义

    SLAM 是 Simultaneous Localization and Mapping 的缩写,中文译作“同时定位与地图构建”。它是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动。如果这里的传感器主要为相机,那就称为“视觉 SLAM”。

    1.2开发背景

    图1-1 SLAM中建图的分类与作用

    引入SLAM的主要目的如下:

    1)建图。使用SLAM可在传感器具有良好表现的环境下建立精度较高的全局地图,建立好的地图会为后面的定位、导航等功能提供服务。

    2)定位。视觉SLAM中可通过帧间数据匹配计算相机的相对变换,对应的就是机器人的位姿信息,不过该计算结果中存在累计误差的影响;利用SLAM建立的全局地图,通过相机采集到的环境信息与地图进行匹配可以减小累积误差的影响,获得更加精准的机器人位姿。

    3)导航。如果我们建立的地图中包含了“哪些地方可以通过,哪些地方不能通过”的信息,那么我们可以以此实现机器人在地图中从某一起点到某一终点的路径规划与跟踪,并能够对地图中固定障碍物实现避障。但这对我们能够建立的地图有要求,需要是“稠密”地图。

    02

    视觉SLAM

    2.1 经典视觉SLAM框架

    SLAM至今已历经三十多年的研究,这里给出经典视觉SLAM框架,这个框架本身及其包含的算法已经基本定型,并且已经在许多视觉程序库和机器人程序库中提供。

    图2-1 经典视觉SLAM框架

    我们把整个视觉 SLAM 流程分为以下几步:

    1)传感器信息读取。在视觉 SLAM 中主要为相机图像信息的读取和预处理。如果在机器人中,还可能有码盘、惯性传感器等信息的读取和同步。

    2)视觉里程计 (Visual Odometry, VO)。视觉里程计任务是估算相邻图像间相机的运动,以及局部地图的样子,VO 又称为前端(Front End)。

    3)后端优化(Optimization)。后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图。由于接在 VO 之后,又称为后端(Back End)。

     4)回环检测(Loop Closing)。回环检测判断机器人是否曾经到达过先前的位置。如果检测到回环,它会把信息提供给后端进行处理。

    5)建图(Mapping)。它根据估计的轨迹,建立与任务要求对应的地图。

    某些使用场合中,我们只截取SLAM的部分功能应用到实际场景中。举例来说只使用VO部分我们可以得到连续的相机相对运动信息,虽然该运动信息存在累计误差,但应用中对此要求不高甚至不做要求,譬如VR头显中计算头显设备运动时的位姿。

    不过一般在机器人应用场景中,个人认为建图功能也是不可或缺的。因为前端包括后端优化得到的运动信息始终包含累积误差,该累积误差在SLAM中只能通过回环检测(机器人回到某一处曾经经过的地方且系统识别出来)或者与事先建立好的具有较高精度的全局地图匹配来消除。但是机器人在实际运动中,不能保证全局路径一定会有重叠处,也就是说在SLAM计算中很可能出现不存在回环的情况,此时累积误差只能通过与全局地图匹配来消除,因此SLAM的建图功能也不可或缺。

    图2-2 回环检测消除累积误差

    这一点在VINS开源项目(香港科技大学团队基于单目+IMU开发的开源SLAM方案)中的测试视频(见“视频/VINS/[Open Source] VINS-Mono_ Monocular Visual-Inertial System in EuRoC MAV Dataset (MH_05 V1_03).mp4”)中也有体现。在回环检测前,SLAM计算得到的位姿与真实位姿之间已经产生了很大的偏差,如图2-3所示;该偏差只有在相机回到了曾经经过的地方且SLAM成功执行了回环检测后才得到了消除,如图2-4所示。

    图2-3 未进行回环检测前的位姿累积误差

    图2-4 回环检测消除累计误差

    2.2视觉SLAM方案的分类

    视觉SLAM方案可按照传感器的不同(单目、双目、RGBD、与IMU的组合等)、前端方法的不同(主要分为直接法和特征点法)、后端优化方案的不同(滤波或者非线性优化)、生成地图形式的不同(稀疏地图、稠密地图等)具有不同的划分。这里主要以传感器的不同对slam方案进行简单的介绍。

    1)单目slam。只使用一个摄像头采集信息,在尺度完成初始化的情况下(即相机初始阶段进行了一段位移且确定了该段位移的实际大小作为参考),能够完成连续图像间相机位姿的计算与建图。优点在于设备简单,成本低。缺点在于存在尺度漂移现象;图像的深度信息只能通过三角测量计算得到,对环境适应性差;在相机位移较小时计算误差较大,建图精度不高。

    2)双目slam。使用双目相机采集信息,双目相机可以通过立体视觉原理计算得到像素深度,这样就不存在单目slam中深度未知的情况。优点在于对环境的适应性要高于单目slam,且能够计算得到像素真实深度;缺点在于像素深度计算量较大,一般通过FPGA或者GPU加速实现实时计算输出。

    3)RGBD SLAM。RGBD相机是指能够同时输出RGB图像和对应的深度图的相机,其测量像素深度不再通过耗时的被动双目匹配计算,而是通过激光散斑增加图像纹理加速计算或者硬件测量(结构光、TOF等)实现。因此它可以看做减小了计算量的双目SLAM,但是RGBD相机普遍在室外表现效果不佳,更多用于室内环境。

    4)近年来有学者提出单目/双目+IMU的slam方案,其中IMU主要起到的作用包括(1)解决单目slam的初始化尺度问题(2)追踪中提供较好的初始位姿(3)提供重力方向(4)提供一个时间误差项以供优化。理论上来说IMU提供了冗余的运动信息,通过数据融合可以得到更加精确的运动估计。

    从实现难度上来看:单目SLAM>双目SLAM>RGBD SLAM。

    2.3 开源视觉SLAM方案汇总

    目前比较流行的开源视觉SLAM方案如表2-1所示:

    表2-1 开源SLAM方案汇总

    03

    视觉SLAM设备选型

    3.1 设备选型的重要性

    说了这么多,终于到了设备选型这一部分。设备选型的重要性不言而喻,毕竟“好模型架不住坏数据”,SLAM模型建立得再好,如果设备采集的数据本身误差过大,计算结果必定也不够理想。先以VINS项目为例,根据论文内容他们的设备型号和具体信息如下。

    相机模块:单目相机,型号为MatrixVision的mvBlueFOX-MLC200w,具有全局快门;cmos型号为MT9V034,单色,分辨率为752X480,帧率20Hz

    IMU:该模块使用的是大疆的集成飞控模块A3的内置IMU模块,芯片型号为ADXL278和ADXRS290(都为工业级IMU芯片);可以确定A3内置对IMU的校准去躁等处理算法。

     图3-1 VINS中设备型号

    由此看来VINS选用的硬件是具有一定要求的,其采集数据的精度也对SLAM算法最终的效果产生正向作用。所以如果我们选用了精度没那么高的消费级IMU配合单目相机采集数据时,VINS的输出结果就不一定能够达到论文中的精度了。

    3.2 设备类型选择

    我们的项目中工作环境为室外,对传感器选型提出了较高要求。以RGBD相机为例,很多基于结构光或者TOF方案的深度摄像头在室外表现不佳,主要原因是室外自然光的影响。个人初步倾向于选用双目或者RGBD(双目某些情况下可视为RGBD)+IMU的方案,主要理由如下:

    1)双目/RGBD+IMU的硬件,可在此基础上尝试基于单目/双目/RGBD/单目+IMU/双目+IMU等多种开源SLAM方案;反之单目+IMU的设备对开源方案的限制较大(只能是单目/单目+IMU)

    2)单目SLAM在建图方面,尤其是深度估计方面,对场景适应性不好且精度较差。双目/RGBD因为可以计算得到深度,在建图方面相对具有优势,更容易建立“稠密”地图

    3)SLAM定位实现中,基于单目的方案其计算量也要比基于双目/RGBD要大,且因为引入了三角测量部分,对于环境适应性较差

    所以在选型方面,我主要聚焦在双目/RGBD类型;同时为了加快开发进程,若选择能够提供开发SDK等工具的厂家,可以省去对于相机的标定、数据同步等开发工作。

    经过一些筛选后,个人列出如下备选设备。有关设备的参数信息在下方链接中都有详细说明,我只列出一些重要参数。

    3.2.1 ZED

    图3-2 zed双目相机

    1)官网:https://www.stereolabs.com/zed/

    2)基本参数:基于双目原理匹配计算深度信息,分辨率最高可达2.2K@15fps(4416X1242);Field of View: 90°(H) X 60°(V) X 110°(D);室内外最远20m深度感知;使用GPU加速运算(支持TX1、TX2)

    3)SDK:提供SDK,支持包括Windows、Linux、ROS等开发平台;使用SDK能够获得双目图像和深度图像、机器人位姿跟踪(官网称频率可达100Hz,位置精度达到1mm,角度精度达到0.1°)、3D重建等功能

    4)应用:在网上搜到一些评测和应用视频,主要内容总结如下。

    A.视频1(见“视频/zed/Realtime depth test using ZED stereo camera.mp4”)表明zed在深度计算方面室外表现较好,距离方面应该可以达15m以上;测距精度方面官方未给出参数,从双目原理上来说深度测距精度与测量距离的平方成正比,仅从zed输出的深度图上来看,深度图数据比较连续,未出现明显的误差情况。

    图3-3 zed在室外测量深度的表现

    B. 3D重建也是SLAM的一种应用,使用SLAM输出的全局世界坐标结合RGB信息可实现真实世界中场景的三维绘制,所以3D重建的效果好坏能够在一定程度上代表设备的深度计算精度与SLAM效果。从官方视频和youtube上视频(见“视频/zed/Introducing ZED for Live 3D Mapping.mp4”,“视频/zed/Outdoor Test for Graph-based RGB-D SLAM using ZED camera on UGV and UAV.mp4”,“视频/zed/ZEDfu - Real-time 3D Mapping using ZED stereo camera.mp4”)的测试效果来看,3D重建效果还是不错的,物体轮廓比较连续,未出现明显的边界不重合的情况。

    图3-4 使用zed进行三维重建

    C.有研究人员在室外汽车上使用zed采集信息接入ORB-SLAM2计算车辆的位姿(见“视频/zed/Evaluation of ORB-SLAM2 in outdoor urban scenes using ZED stereo camera.mp4”)。测量结果表明(1)在停车场环境和街道环境下大都能够实现闭环检测(2)非极端情况下相机采集的图像满足特征提取需求(3)车速越快对于相机帧率要求越高,zed在WVGA分辨率下帧率可到100Hz,满足了图像采集频率要求。

    图3-5 使用zed接入ORB_SLAM2进行室外定位

    5)价格:国外官网上为$449,国内淘宝上价格3200-3800元不等

    3.2.2 Intel D415/D435系列

    图3-6 Intel D415/D435

    1)官网:https://software.intel.com/zh-cn/realsense/d400

    2)基本参数:基于主动红外测距(激光散斑增加纹理后立体匹配测距);RGB分辨率和帧率为1920X1080@30fps;内置视觉处理器可直接输出计算深度,深度流输出分辨率和帧率为1280X720@90fps;室内外检测范围为0.16m-10m;D415为卷帘快门,D435为全局快门

    图3-7 D415/D435详细参数对比

    3)SDK:支持Linux/windows/Mac OS,可获得彩色图像与深度图像,设置相机参数等

    4)应用:根据网上相关测评视频整理如下

    A.有人对比了D415和D435在室内的表现(见“视频/Intel/Intel RealSense D435 vs D415.mp4”),摄像头如图3-8所示放置。分别比较了彩色图、远距离深度图、近距离深度图的效果,具体如图3-9所示。结果表明D435在远距离深度图上效果要优于D415,后者出现较大面积的空洞(计算不出深度信息)。不过由于两个摄像头的测量环境并不完全一致,同时存在发射的红外光互相干涉影响的可能性,该结论是否成立不予保证。

    图3-8 D435与D415对比

    图 3-9 D435(左边)与D415(右边)室内表现效果对比

    B.有人在室外街道中使用D415观察其深度信息(见“视频/Intel/Review on Intel Realsense D415 RGBD Camera Part 2_ Outdoor test.mp4”),具体效果如图3-10所示。结果表明:

    (1)室外D415的深度检测距离应该可以达到10m

    (2)相对于室内,室外的深度图噪点较多,这应该是自然光对于D415发射的红外光的影响,造成图像匹配失败或者误匹配

    图3-10 D415在室外的深度测距表现

    C.有人将D435固定在汽车上查看道路的深度信息(见“视频/Intel/Realsense D435 - Outdoor test on road.mp4”),这里截取几幅图像如图3-11所示。可以得出:

    (1)D435在室外能够获得比较丰富的深度信息

    (2)D435深度计算错误/失败的情况多于zed

    5)价格:官网上D435为$179.00,国内价格¥1500不等;官网上D415为$149.00,国内淘宝价格¥1300不等

    图3-11 D435在室外深度测距表现

    3.2.3小觅双目摄像头

    图3-12 小觅双目摄像头外观

    1)官网链接 http://www.myntai.com/camera

    2)基本参数:基于双目测距,内置6轴IMU(ICM2060,消费级IMU)。有常规版(即被动双目)和IR增强版(原理应该是激光散斑增加纹理后立体匹配测距),黑白CMOS,分辨率752X480@50FPS。 

    图3-13 小觅双目摄像头详细参数

    3)SDK:支持Windows、Linux、TX1、TX2;基于CPU/GPU计算深度信息;提供接入了OKVIS、ORB-SLAM2、VINS、VIORB(都是开源SLAM工程)的sample

    4)应用:目前尚未找到相关评测信息,不过据知乎上一些问题的回答,该模块的售后支持不错。深度图效果方面,只有天猫旗舰店上提供的一小段室内测试视频(见“视频/MYNT-EYE/室内景深测试.mp4”),截图如图3-14所示。个人感觉深度效果计算较差,有较多的计算错误点出现;无法判断深度范围大小能否达到宣称的20m。

    图3-14 MYNT-EYE室内深度测试效果

    5)价格:天猫¥1999.00

    现在对以上几款设备进行一个信息的对比整理,如表3-1所示。

    表3-1 三款设备主要信息对比

    3.3 个人意见

    整体看来,个人首先推荐zed,其次推荐DM435和MYNT-EYE。若选用zed或者D435后准备测试融合了IMU的开源SLAM方案时,可使用IMU模块采集相关信息,之后自己做数据同步。

    本文仅做学术分享,如有侵权,请联系删文。

    下载1

    在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

    下载2

    在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

    下载3

    在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

    一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 视觉SLAM方案整理及硬件选型调研

    万次阅读 多人点赞 2018-05-09 19:08:17
    这篇文章主要是对之前关于视觉SLAM方案和硬件选型调研的总结,文中有关的视频是从youtube上收集的,上传到了百度网盘(),有需自取。由于个人能力有限,不保证文中说法的准确性,更多的是互相交流学习。一、SLAM的...

            目前个人初步接触视觉SLAM开发相关工作,现在就相关学习做一些总结以加深个人理解,同时也希望能给其他网友提供一些帮助。这篇文章主要是对之前关于视觉SLAM方案和硬件选型调研的总结,文中有关的视频是从youtube上收集的,上传到了百度网盘(链接:https://pan.baidu.com/s/1-5B4q1rtL3XcCEIDzou0JA 密码:lfm1),有需自取。由于个人能力有限,不保证文中说法的准确性,更多的是互相交流学习。

    一、SLAM的引入

    1.1定义

            SLAM 是 Simultaneous Localization and Mapping 的缩写,中文译作“同时定位与地图构建”。它是指搭载特定传感器的主体,在没有环境先验信息的情况下,于运动过程中建立环境的模型,同时估计自己的运动。如果这里的传感器主要为相机,那就称为“视觉 SLAM”。

    1.2开发背景

     

    1-1 SLAM中建图的分类与作用

            引入SLAM的主要目的如下:

            1)建图。使用SLAM可在传感器具有良好表现的环境下建立精度较高的全局地图,建立好的地图会为后面的定位、导航等功能提供服务。

            2)定位。视觉SLAM中可通过帧间数据匹配计算相机的相对变换,对应的就是机器人的位姿信息,不过该计算结果中存在累计误差的影响;利用SLAM建立的全局地图,通过相机采集到的环境信息与地图进行匹配可以减小累积误差的影响,获得更加精准的机器人位姿。

            3)导航。如果我们建立的地图中包含了“哪些地方可以通过,哪些地方不能通过”的信息,那么我们可以以此实现机器人在地图中从某一起点到某一终点的路径规划与跟踪,并能够对地图中固定障碍物实现避障。但这对我们能够建立的地图有要求,需要是“稠密”地图

    二、视觉SLAM

    2.1 经典视觉SLAM框架

            SLAM至今已历经三十多年的研究,这里给出经典视觉SLAM框架,这个框架本身及其包含的算法已经基本定型,并且已经在许多视觉程序库和机器人程序库中提供。


    2-1 经典视觉SLAM框架

            我们把整个视觉 SLAM 流程分为以下几步:

            1)传感器信息读取。在视觉 SLAM 中主要为相机图像信息的读取和预处理。如果在机器人中,还可能有码盘、惯性传感器等信息的读取和同步。

            2)视觉里程计 (Visual Odometry, VO)。视觉里程计任务是估算相邻图像间相机的运动,以及局部地图的样子,VO 又称为前端(Front End)。

            3)后端优化(Optimization)。后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨迹和地图。由于接在 VO 之后,又称为后端(Back End)。

            4)回环检测(Loop Closing)。回环检测判断机器人是否曾经到达过先前的位置。如果检测到回环,它会把信息提供给后端进行处理。

            5)建图(Mapping)。它根据估计的轨迹,建立与任务要求对应的地图。

            某些使用场合中,我们只截取SLAM的部分功能应用到实际场景中。举例来说只使用VO部分我们可以得到连续的相机相对运动信息,虽然该运动信息存在累计误差,但应用中对此要求不高甚至不做要求,譬如VR头显中计算头显设备运动时的位姿

            不过一般在机器人应用场景中,个人认为建图功能也是不可或缺的。因为前端包括后端优化得到的运动信息始终包含累积误差,该累积误差在SLAM中只能通过回环检测(机器人回到某一处曾经经过的地方且系统识别出来)或者与事先建立好的具有较高精度的全局地图匹配来消除。但是机器人在实际运动中,不能保证全局路径一定会有重叠处,也就是说在SLAM计算中很可能出现不存在回环的情况,此时累积误差只能通过与全局地图匹配来消除,因此SLAM的建图功能也不可或缺。

     

    2-2 回环检测消除累积误差

            这一点在VINS开源项目(香港科技大学团队基于单目+IMU开发的开源SLAM方案)中的测试视频(见“视频/VINS/[Open Source] VINS-Mono_ Monocular Visual-Inertial System in EuRoC MAV Dataset (MH_05 V1_03).mp4”)中也有体现。在回环检测前,SLAM计算得到的位姿与真实位姿之间已经产生了很大的偏差,如图2-3所示;该偏差只有在相机回到了曾经经过的地方且SLAM成功执行了回环检测后才得到了消除,如图2-4所示。

     

    2-3 未进行回环检测前的位姿累积误差

     

    2-4 回环检测消除累计误差

    2.2视觉SLAM方案的分类

            视觉SLAM方案可按照传感器的不同(单目、双目、RGBD、与IMU的组合等)、前端方法的不同(主要分为直接法和特征点法)、后端优化方案的不同(滤波或者非线性优化)、生成地图形式的不同(稀疏地图、稠密地图等)具有不同的划分。这里主要以传感器的不同对slam方案进行简单的介绍

            1)单目slam。只使用一个摄像头采集信息,在尺度完成初始化的情况下(即相机初始阶段进行了一段位移且确定了该段位移的实际大小作为参考),能够完成连续图像间相机位姿的计算与建图。优点在于设备简单,成本低。缺点在于存在尺度漂移现象;图像的深度信息只能通过三角测量计算得到,对环境适应性差;在相机位移较小时计算误差较大,建图精度不高。

            2)双目slam。使用双目相机采集信息,双目相机可以通过立体视觉原理计算得到像素深度,这样就不存在单目slam中深度未知的情况。优点在于对环境的适应性要高于单目slam,且能够计算得到像素真实深度;缺点在于像素深度计算量较大,一般通过FPGA或者GPU加速实现实时计算输出。

            3)RGBD SLAM。RGBD相机是指能够同时输出RGB图像和对应的深度图的相机,其测量像素深度不再通过耗时的被动双目匹配计算,而是通过激光散斑增加图像纹理加速计算或者硬件测量结构光TOF实现因此它可以看做减小了计算量的双目SLAM,但是RGBD相机普遍在室外表现效果不佳,更多用于室内环境。

            4)近年来有学者提出单目/双目+IMU的slam方案,其中IMU主要起到的作用包括(1)解决单目slam的初始化尺度问题(2)追踪中提供较好的初始位姿(3)提供重力方向(4)提供一个时间误差项以供优化。理论上来说IMU提供了冗余的运动信息,通过数据融合可以得到更加精确的运动估计。

            从实现难度上来看:单目SLAM>双目SLAM>RGBD SLAM。

    2.3 开源视觉SLAM方案汇总

            目前比较流行的开源视觉SLAM方案如表2-1所示:

    方案名称

    传感器形式

    地址

    MonoSLAM

    单目

    https://github.com/hanmekim/SceneLib2

    PTAM

    单目

    http://www.robots.ox.ac.uk/~gk/PTAM/

    ORB-SLAM2

    单目/双目/RGBD

    https://github.com/raulmur/ORB_SLAM2

    LSD-SLAM

    单目为主

    http://vision.in.tum.de/research/vslam/lsdslam

    SVO

    单目

    https://github.com/uzh-rpg/rpg_svo

    DTAM

    RGB-D

    https://github.com/anuranbaka/OpenDTAM

    DVO

    RGB-D

    https://github.com/tum-vision/dvo_slam

    DSO

    单目

    https://github.com/JakobEngel/dso

    RTAB-MAP

    双目/RGB-D

    https://github.com/introlab/rtabmap

    RGBD-SLAM-V2

    RGB-D

    https://github.com/felixendres/rgbdslam_v2

    Elastic Fusion

    RGB-D

    https://github.com/mp3guy/ElasticFusion

    OKVIS

    多目+IMU

    https://github.com/ethz-asl/okvis

    ROVIO

    单目+IMU

    https://github.com/ethz-asl/rovio

    VINS

    单目+IMU

    https://github.com/HKUST-Aerial-Robotics/VINS-Mono

    2-1 开源SLAM方案汇总

    三、视觉SLAM设备选型

    3.1 设备选型的重要性

            说了这么多,终于到了设备选型这一部分。设备选型的重要性不言而喻,毕竟好模型架不住坏数据”,SLAM模型建立得再好,如果设备采集的数据本身误差过大,计算结果必定也不够理想。先以VINS项目为例,根据论文内容他们的设备型号和具体信息如下。

            相机模块:单目相机,型号为MatrixVision的mvBlueFOX-MLC200w,具有全局快门;cmos型号为MT9V034单色,分辨率为752X480,帧率20Hz

            IMU:该模块使用的是大疆的集成飞控模块A3的内置IMU模块,芯片型号为ADXL278和ADXRS290(都为工业级IMU芯片);可以确定A3内置对IMU的校准去躁等处理算法

     

     图3-1 VINS中设备型号

            由此看来VINS选用的硬件是具有一定要求的,其采集数据的精度也对SLAM算法最终的效果产生正向作用。所以如果我们选用了精度没那么高的消费级IMU配合单目相机采集数据时,VINS的输出结果就不一定能够达到论文中的精度了。

    3.2 设备类型选择

            我们的项目中工作环境为室外,对传感器选型提出了较高要求。RGBD相机为例,很多基于结构光或者TOF方案的深度摄像头在室外表现不佳,主要原因是室外自然光的影响。个人初步倾向于选用双目或者RGBD(双目某些情况下可视为RGBD)+IMU的方案,主要理由如下:

            1)双目/RGBD+IMU的硬件,可在此基础上尝试基于单目/双目/RGBD/单目+IMU/双目+IMU等多种开源SLAM方案;反之单目+IMU的设备对开源方案的限制较大只能是单目/单目+IMU

            2)单目SLAM在建图方面,尤其是深度估计方面,对场景适应性不好且精度较差。双目/RGBD因为可以计算得到深度,在建图方面相对具有优势更容易建立“稠密”地图

            3)SLAM定位实现中,基于单目的方案其计算量也要比基于双目/RGBD要大,且因为引入了三角测量部分,对于环境适应性较差

            所以在选型方面,我主要聚焦在双目/RGBD类型;同时为了加快开发进程,若选择能够提供开发SDK等工具的厂家,可以省去对于相机的标定、数据同步等开发工作。

            经过一些筛选后,个人列出如下备选设备。有关设备的参数信息在下方链接中都有详细说明,我只列出一些重要参数。

    3.2.1 ZED

     

    3-2 zed双目相机

    1)官网:https://www.stereolabs.com/zed/

    2)基本参数:基于双目原理匹配计算深度信息,分辨率最高可达2.2K@15fps(4416X1242);Field of View: 90°(H) X 60°(V) X 110°(D);室内外最远20m深度感知;使用GPU加速运算(支持TX1、TX2)

    3)SDK:提供SDK,支持包括Windows、Linux、ROS等开发平台;使用SDK能够获得双目图像和深度图像、机器人位姿跟踪(官网称频率可达100Hz,位置精度达到1mm,角度精度达到0.1°3D重建等功能

    4)应用:在网上搜到一些评测和应用视频,主要内容总结如下。

    A.视频1(见“视频/zed/Realtime depth test using ZED stereo camera.mp4”)表明zed在深度计算方面室外表现较好,距离方面应该可以达15m以上;测距精度方面官方未给出参数,从双目原理上来说深度测距精度与测量距离的平方成正比,仅从zed输出的深度图上来看,深度图数据比较连续,未出现明显的误差情况。

     

    3-3 zed在室外测量深度的表现

    B. 3D重建也是SLAM的一种应用,使用SLAM输出的全局世界坐标结合RGB信息可实现真实世界中场景的三维绘制,所以3D重建的效果好坏能够在一定程度上代表设备的深度计算精度与SLAM效果。从官方视频和youtube上视频(见“视频/zed/Introducing ZED for Live 3D Mapping.mp4”,“视频/zed/Outdoor Test for Graph-based RGB-D SLAM using ZED camera on UGV and UAV.mp4”,“视频/zed/ZEDfu - Real-time 3D Mapping using ZED stereo camera.mp4”)的测试效果来看,3D重建效果还是不错的,物体轮廓比较连续,未出现明显的边界不重合的情况。

     

    3-4 使用zed进行三维重建

    C.有研究人员在室外汽车上使用zed采集信息接入ORB-SLAM2计算车辆的位姿(见“视频/zed/Evaluation of ORB-SLAM2 in outdoor urban scenes using ZED stereo camera.mp4”)。测量结果表明(1)在停车场环境和街道环境下大都能够实现闭环检测(2)非极端情况下相机采集的图像满足特征提取需求(3)车速越快对于相机帧率要求越高,zed在WVGA分辨率下帧率可到100Hz,满足了图像采集频率要求。

     

    3-5 使用zed接入ORB_SLAM2进行室外定位

    5)价格:国外官网上为$449,国内淘宝上价格3200-3800元不等

    3.2.2 Intel D415/D435系列

     

    3-6 Intel D415/D435

    1)官网:https://software.intel.com/zh-cn/realsense/d400

    2)基本参数:基于主动红外测距(激光散斑增加纹理后立体匹配测距);RGB分辨率和帧率为1920X1080@30fps;内置视觉处理器可直接输出计算深度,深度流输出分辨率和帧率为1280X720@90fps;室内外检测范围为0.16m-10mD415为卷帘快门,D435为全局快门

     

    3-7 D415/D435详细参数对比

    3)SDK:支持Linux/windows/Mac OS,可获得彩色图像与深度图像,设置相机参数等

    4)应用:根据网上相关测评视频整理如下

    A.有人对比了D415和D435在室内的表现(见“视频/Intel/Intel RealSense D435 vs D415.mp4”),摄像头如图3-8所示放置。分别比较了彩色图、远距离深度图、近距离深度图的效果,具体如图3-9所示。结果表明D435在远距离深度图上效果要优于D415,后者出现较大面积的空洞(计算不出深度信息)。不过由于两个摄像头的测量环境并不完全一致,同时存在发射的红外光互相干涉影响的可能性,该结论是否成立不予保证

     

    3-8 D435与D415对比

     

     3-9 D435(左边)与D415(右边)室内表现效果对比

    B.有人在室外街道中使用D415观察其深度信息(见“视频/Intel/Review on Intel Realsense D415 RGBD Camera Part 2_ Outdoor test.mp4”),具体效果如图3-10所示。结果表明:

    1)室外D415的深度检测距离应该可以达到10m

    2)相对于室内,室外的深度图噪点较多,这应该是自然光对于D415发射的红外光的影响,造成图像匹配失败或者误匹配

     

    3-10 D415在室外的深度测距表现

    C.有人将D435固定在汽车上查看道路的深度信息(见“视频/Intel/Realsense D435 - Outdoor test on road.mp4”),这里截取几幅图像如图3-11所示。可以得出:

    (1)D435在室外能够获得比较丰富的深度信息

    (2)D435深度计算错误/失败的情况多于zed

    5)价格:官网上D435为$179.00,国内价格¥1500不等;官网上D415为$149.00,国内淘宝价格¥1300不等

     

     

    3-11 D435在室外深度测距表现

    3.2.3小觅双目摄像头

     

    3-12 小觅双目摄像头外观

    1)官网链接 http://www.myntai.com/camera

    2)基本参数:基于双目测距,内置6轴IMU(ICM2060,消费级IMU)。有常规版(即被动双目)和IR增强版(原理应该是激光散斑增加纹理后立体匹配测距),黑白CMOS,分辨率752X480@50FPS。

     

    3-13 小觅双目摄像头详细参数

    3)SDK:支持Windows、Linux、TX1、TX2;基于CPU/GPU计算深度信息;提供接入了OKVIS、ORB-SLAM2、VINS、VIORB(都是开源SLAM工程)的sample

    4)应用:目前尚未找到相关评测信息,不过据知乎上一些问题的回答,该模块的售后支持不错。深度图效果方面,只有天猫旗舰店上提供的一小段室内测试视频(见“视频/MYNT-EYE/室内景深测试.mp4”),截图如图3-14所示。个人感觉深度效果计算较差,有较多的计算错误点出现;无法判断深度范围大小能否达到宣称的20m。

     

    3-14 MYNT-EYE室内深度测试效果

    5)价格:天猫¥1999.00

            现在对以上几款设备进行一个信息的对比整理,如表3-1所示。

     

    型号

    CMOS

    分辨率/帧率

    视角(角度制)

    快门类型

    IMU

    深度原理

    Zed

    彩色

    side-by-side

    4416X1242@15fps

    3840X1080@30fps

    2560X720@60fps

    1344X376@100fps

    90(H)X60(V)X110(D)

    未知

    被动双目

    D435

    彩色

    1920X1080@30fps

    85.2(H)X58(V)

    全局快门

    近红外双目

    D415

    彩色

    1920X1080@30fps

    63.4(H)X40.4(V)

    卷帘快门

    近红外双目

    MYNT-EYE

    黑白

    side-by-side

    1504X480@50fps

    96(H)X61(V)X120(D)

    全局快门

    ICM2060

    被动双目

    型号

    深度范围

    深度分辨率/帧率

    SDK

    其他

    价格

    zed

    0.5m-20m

    Baed on CPU/GPU

    最高与图像分辨率/帧率一致

    支持

    机器人位姿跟踪(官网称频率可达100Hz,位置精度达到1mm,角度精度达到0.1°

    $449

    D435

    10m

    分辨率最高720P;帧率最高90fps

    支持

    内置运算芯片直接输出深度数据

    $179

    D415

    10m

    分辨率最高720P;帧率最高90fps

    支持

    内置运算芯片直接输出深度数据

    $149

    MYNT-EYE

    20m(未验证)

    Baed on CPU/GPU

    最高与图像分辨率/帧率一致

    支持

    提供接入了OKVIS、ORB-SLAM2、VINS、VIORB(都是开源SLAM工程)的sample

     

    ¥1999



                                                                                表3-1 三款设备主要信息对比

    3.3 个人意见

            整体看来,个人首先推荐zed,其次推荐DM435和MYNT-EYE。若选用zed或者D435后准备测试融合了IMU的开源SLAM方案时,可使用IMU模块采集相关信息,之后自己做数据同步。

    展开全文
  • 针对水泵开式实验台研究了其自动测试系统中的数据采集模块,根据设计要求给出了试验台测试系统设计方案,并对数据采集模块的仪器选型进行了论证,最终选择主要测量仪器为LWGY系列涡轮流量传感器、EAJ 110A型电磁式压力...
  • 2 电参数基本量的测量工作原理及芯片的选型 6 2.1 电压电流有效值的测量 6 2.2 频率测量 7 2.3 功率及功率因数的测量 7 2.3.1有功功率 7 2.3.2视在功率 7 2.3.3无功功率 7 2.3.4功率因数 8 2.4 测量芯片的选型 8 2.5...
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    7d510c0c1222093886f080ea03ddb0f7.png

    作者丨蘅芜君@知乎

    来源丨https://zhuanlan.zhihu.com/p/433625159

    编辑丨计算机视觉life

    MEMS IMU的型号多种多样,如何给自己的机器人选择一个合适的IMU至关重要。本文从IMU常用参数,选型需要测试哪些IMU特性,以及如何对IMU数据进行处理这三部分进行介绍。

    IMU常用参数

    这里列出常用的几款消费级MEMS IMU参数对比,IMU分别是BMI055(Realsense T265 D455使用),BMI088(小觅彩色版和傲览Avia使用),TDK ICM-42686TDK ICM-42688(高通RB3,RB5计算平台使用)。

    f67afd0db8010cf775eac1fc0d478173.png

    1.最大量程 (Range)

    ICM-42686的加速度计量程最大是32g,陀螺仪的最大量程是4000°/s,BMI088的加速度计量程是32g, BMI055,ICM-42688都是16g。这里需要根据机器人的应用场景选择合适的量程,量程越大其灵敏度会随之下降,量程太小可能会有超量程情况。

    2.ADC位数 (ADC Word Length)

    BMI055的加速度计ADC位数最小是12bit,分辨率最差。BMI088、ICM-42686和ICM-42688都是16bit,分辨率一致。

    3.灵敏度 (Sensitivity)

    BMI088、ICM-42686和ICM-42688的加速度计灵敏度都是2048 LSB/g,BMI055的加速度计灵敏度最低是128 LSB/g。LSB是指传感器输出数字量的最低有效位。例如,BMI088的ADC位数是16位,能表示的最大数字是65536,其在16g量程时的灵敏度就是65536/32=2048 LSB/g,即加速度是1g时ADC输出的数值就是2048,数值越大代表了灵敏度越高,以上可以看出灵敏度与ADC的位数和量程有关。陀螺仪同理。

    4.零偏 (Zero-g Offset/Zero-rate Offset)

    BMI088和ICM-42688的加速度计零偏都是20mg,BMI055的零偏最大是70mg,TDK的陀螺仪零偏比BMI稍微小一点。

    5.零偏温漂系数 (Zero-g Offset Temperature Drift/Zero-rate Offset Change over Temperature)

    零偏温漂系数反映了加速度和陀螺仪零偏的温度敏感性,从手册上看BMI088、ICM-42686和ICM-42688相差不大,有条件最好实际测试对比。

    6.非线性 (Nonlinearity)

    理想情况下,我们认为IMU的数据是线性的,但是实际环境中,IMU的数据是非线性的,特别是越靠近量程最大值,非线性就越差。

    7.零偏加速度敏感性 (G-sensitivity)

    理想情况下,陀螺仪的输出应该对加速度不敏感,由于机械设计不对称和/或微加工不够精确,造成陀螺仪的测量可能会受到外部加速度的影响。BMI055和BMI088的g敏感度不差,都是0.1°/s/g 或 360°/h/g,需要注意的是大多数陀螺仪的g敏感度会随振动频率变化而变化,因此补偿方案将变得复杂,要求根据频率改变敏感度。

    8.非正交误差 (Cross Axis Sensitivity)

    理想情况下,加速度计和陀螺仪的X,Y和Z轴是完全正交的,即各轴的两两夹角为90度,但是由于结构的加工误差,很难做到完全正交。Cross-Axis Sensitivity为1%表示: 假设X轴的加速度为1g,理想情况下Y轴是无分量的。但是实际有1%的分量耦合到Y轴: 1g*1%=0.01g=10mg。

    IMU特性测试

    1.零偏重复性

    全称是零偏逐次上电重复性,理想情况下,IMU在相同外界条件下每次上电的零偏不变,但是实际环境中,在相同的外界条件下IMU每次上电的零偏会有差别。测量方法是在工作温度下将IMU多次上电,记录每次上电以后的零偏大小,然后统计其差异。以BMI088为例,其加速度零偏重复性如下。

    58e96ca994c4a270540e48b21520c6cf.png

    2.零偏温漂特性

    对于高精度IMU模块,厂家会对每个IMU模块进行温漂矫正,而对于低端MEMS IMU芯片,不可能每个都做温漂标定和补偿,因此厂家往往给个零偏温漂系数。测量方法是将IMU芯片加热,记录整个温度区间内的零偏大小,拟合零偏温度特性曲线,观察零偏在某个温度范围内是否存在异常情况。测试结果可以参考零偏温度滞回特性。

    3.零偏温度滞回特性

    零偏温度滞回特性指的是IMU在温度上升阶段和温度下降阶段对应的零偏可能会不一致。测量方法是将IMU芯片加热然后降温,然后再加热降温,多测几次,观察IMU数据在对应温度的零偏是否一致。以BMI088为例,将其来回加热降温三次,其陀螺仪零偏温度滞回特性如下。

    9137243c907778d30a964fad88cc1ac2.png

    4.振动特性

    振动特性指在振动情况下,零偏随振动频率的变化特性。有些IMU芯片在高频振动下,频率特性会出现异常,对于无人机场景,一般要做振动特性的测试,如果IMU出现异常频率特性,可以考虑加减震装置。

    5.应力特性

    应力特性是指IMU芯片贴到PCB板上以后,PCB板会对IMU施加应力,从而造成IMU零偏发生变化。如果IMU受到应力后零偏变化较大,则需要将IMU贴到PCB板上以后再次矫正零偏。以BMI088为例,测试IMU模块贴到PCB板前后的零偏变化如下。

    f03a8462cb338380b04c5d6f5004e44a.png

    IMU数据处理

    前面已经介绍过机器人引起的振动会对IMU数据造成影响,需要对IMU模块做一定的减震处理,如果结构无法做减震,则需要对IMU数据进行处理。本文取一段无人车(差速转向,振动较大)在水泥地行驶时的IMU数据进行分析,IMU数据以200hz的采样率采集,参考飞控使用截止频率为15hz的巴特沃斯低通滤波器进行滤波。加速度Y轴数据波形如下:

    6f86d5e74ceb0c6e6ddfdda216011adf.png

    图中可以看出红色滤波后的数据少了很多毛刺。对加速度数据进行FFT:

    4f0e828105c19165d933ace6a14a5af5.png

    上图可以看到原始数据在20hz以后一直有高频噪声干扰,滤波后的频谱表明高频噪声干扰已经基本被去除,而且低频段的频谱没有失真。

    参考文献

    程序便利店的博客_dshxxxxxxx_CSDN博客-C++,Sensor领域博主

    本文仅做学术分享,如有侵权,请联系删文。

    3D视觉精品课程推荐:

    1.面向自动驾驶领域的多传感器数据融合技术

    2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
    3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
    4.国内首个面向工业级实战的点云处理课程
    5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
    6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
    7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
    8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

    9.从零搭建一套结构光3D重建系统[理论+源码+实践]

    10.单目深度估计方法:算法梳理与代码实现

    11.自动驾驶中的深度学习模型部署实战

    12.相机模型与标定(单目+双目+鱼眼)

    13.重磅!四旋翼飞行器:算法与实战

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

    一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

    40c8c09e750e17a2d1764dd684d99d86.png

    ▲长按加微信群或投稿

    b0b046c92b3d631bd73147936d0723e7.png

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

    c49121481c9c4a12a2d5c12537b8ae5a.png

     圈里有高质量教程资料、答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    概述

    深度隐式表达 (Deep Implicit Representation, DIR) 在 2019 年同期发表了一系列代表性的工作。

    本文主要介绍 Deepsdf [4] 以及 Occupancy Networks [2] (OccNet) 两篇文章,之后会介绍一些其他的工作,本系列仅涉及部分代表性的 DIR 工作,读者感兴趣的话可以自行查找其他相关的工作。

    值得注意的是,这里 DIR 的说法是比较严格的,Openreview 上关于GRF[5] (当然 GRF 也是很好的工作) 的评论中提到:

    也就是说,implicit function 的说法是不推荐的。那么什么是 DIR 呢?用下面这张图可以概括:


    输入一个点 p,输出 p 的属性,如果属性是该点是否被占据,那么这就是Occupancy Networks,如果属性是 SDF 值,那么这就是 DeepSDF,到这里其实已经介绍完了 DIR 的相关概念。如果读者是更关注 NeRF 的内容,剩下部分可以选择跳过。

    DeepSDF

    DeepSDF 的作者之一是 Newcombe,也是 KinectFusion 的作者之一, 现在在 Facebook Reality Labs,对重建这一套是再熟悉不过了。

    在表示方面,传统方法都会使用 Mesh, 点云,体素,面片等,其实这些表示方法都各有各的优缺点,很多文章都踩过了我们就不踩了,那么使用 DIR 的表示方法有什么好处呢?

    首先它是连续的,神经网络具有很强的插值能力。其次使用深度学习的方法就一定会想到要具有一定的泛化性。

    如果你对传统重建方法有所了解的话,一定会发现,传统重建会有许多空洞,那么能不能使用 DIR 方法补全一下缺失的几何。

    当然还有 compact 的优点,少量参数的内存开销即可,还有很多其他优点不一一赘述。下面我们进入主题。

    首先距离符号函数 (SDF) 是一个连续函数:

    SDF (x) = s : x ∈ R3, s ∈ R,  (1)

    这里 x 表示采样点的坐标,|s| 表示距离表面的最近距离,s 的符号为正表示在物体外部,符号为负表示在物体内部,上面这张图是 SDF 的示意图, 物体的表面被隐式的表达为 SDF (.) = 0 的等值面。

    DeepSDF 使用 MLP 来拟合这个连续函数:

    fθ(x) ≈ SDF (x).  (2)

    这样一个函数是没有什么意义的,对每个物体都要训练测试训练测试...... 因此 DeepSDF 引入了 Auto-Decoder 来增加泛化性。

    其实这个概念并不陌生,但是按照论文的说法在 3D learning 方面是首次提出的。

    用白话讲就是为每个形状分配一个 latent code z,然后与采样点坐标一同输入到网络中,把这个 code 与网络的参数一同进行优化即可:

    fθ(x, z) = sˆ,  (3)

    论文里比较 sao 气的给了概率证明,对于理解 DIR 来说意义并不大,我们不多涉及。

    接下来我们完整的回顾一下 DeepSDF:

    1. 数据准备。对与每个 3D 模型取一些列的采样点 (x, s),采样方式是个比较繁琐的过程:

    假设是watertight 的mesh 模型。先将模型 normalize 到一个单位球,接着在表面采 250000 个点,并保留其法向量。

    然后对250000 点加扰动,每个点扰动得到 2 个点,一共会有 500000 个扰动空间点,对这些空间点计算 SDF 值,计算方式就是从 250000 个表面点中找最近的点,然后计算符号与距离。

    2. 训练:将大批量的采样点与随机初始化的 latent code z 一同输入到网络,通过 gt SDF 值做监督,对网络参数以及 z 一同做优化。

    3. 测试:同样需要采样点,但是此时的采样点可以是稀疏的,甚至可以仅仅根据一张深度图即可完成推理。但是需要优化 latent code z,网络参数保持不变。

    4. 可视化:使用 Marching Cubes 或者 raycasting 算法即可。

    结果我们不过多展示了,大家可以参考论文。DeepSDF 的效果在当时是十分惊艳的,当然也存在一些问题。

    比如,姿态问题没有考虑,训练测试的模型都是处于 canonical pose 的;部分区域过于平滑;

    仅适用于单个物体,不能拓展到大场景等。感兴趣的读者可以自行查找一下相关的 task,DIR 的研究是多种多样的,在 3D 视觉领域能挖掘的东西还有很多很多。

    Occupancy Networks

    这张图我很喜欢,它很直观的表达出 DIR 在表示方面的优势,相信 reviewer 一看到也是类似的反应。

    DIR 最大的优势就是紧致连续,仅使用少量的内存开销即可将 3D 信息嵌入到神经网络的参数当中。

    使用 SDF 值作为点的属性表达是一种方式,当然也可以使用该点是否被占据,OccNet 没有使用额外的类似 DeepSDF 的 latent code,而是选择将观测 (如图片、点云、体素等) 作为输入然后提取 code,可以概括的表达为以下形式:

    fθ(p, x) = oˆ,  (4)

    这里 oˆ ∈  [0, 1] 表示点 p  被占据的概率,x  表示观测输入。表面所在的位置为 oˆ = τ  的等值面,这里 τ  是 OccNet 中唯一的超参数,文中给出的建议值为 τ = 0.2。

    相比 SDF 值,occupancy 值的 gt 更容易获取一些,在提取几何部分 OccNet 也做了特殊的处理,提出了 Multiresolution IsoSurface Extraction (MISE),有效利用了 fθ 的梯度信息做约束,使得提取到的 mesh 既不会太复杂,又相对准确,本文对 MISE 不做深入讲解。

    OccNet 与 DeepSDF、IM-NET[1]、Deep Level Set[3] 是同期的工作, 这四篇工作都是在 2019 年发表的,也从此引发了以 DIR 为表示方法的热潮。

    下面给出两张 OccNet 的网络结构图帮助读者理解:

    图 1 OccNet 网络架构

    (a)Single Image 3D Reconstruction.

    (b)Point Cloud Completion.

    (c)Voxel Super-Resolution.

    图 2 Encoder

    结语

    对于 loss function 是个开放性的问题,本文两篇文章都没涉及。核心本质的 DIR 思想相信大家已经初步建立概念了。

    接下来的更新我们会提到一些典型的 DIR 工作,由于作者本身也要做一些 research 工作,希望在深度和广度方面尽可能地拓展一些,如有不正确的地方欢迎大家指正。

    参考文献

    [1] Z. Chen and H. Zhang. Learning implicit fields for generative shapemodeling. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition, pages 5939–5948, 2019.

    [2] L. Mescheder, M. Oechsle, M. Niemeyer, S. Nowozin, and A. Geiger.Occupancy networks: Learning 3d reconstruction in function space. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 4460–4470, 2019.

    [3] M. Michalkiewicz, J. K. Pontes, D. Jack, M. Baktashmotlagh, andA. Eriksson. Deep level sets: Implicit surface representations for 3dshape inference. arXiv preprint arXiv:1901.06802, 2019.

    [4] J. J. Park, P. Florence, J. Straub, R. Newcombe, and S. Lovegrove.Deepsdf: Learning continuous signed distance functions for shape representation. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition, pages 165–174, 2019.

    [5] A. Trevithick and B. Yang. Grf: Learning a general radiance field for 3dscene representation and rendering. arXiv preprint arXiv:2010.04595,2020.

    本文仅做学术分享,如有侵权,请联系删文。

    下载1

    在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

    下载2

    在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

    下载3

    在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

    一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达成功复现一篇论文到底有多难?大概就像这样吧:可太TM难了——相信这是大多数机器学习研究者都吐槽过的心声。正义也许会迟到,但绝不会缺席。...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达作者丨二玖编辑丨极市平台极市导读超过半数的论文都于近十年发表,来看看是不是你心中的TOP10。今天,我们将对计算机视觉领域三大顶会...
  • 车道线检测方法的一些近期论文

    千次阅读 2021-04-14 00:49:59
    作者丨黄浴@知乎来源丨https://zhuanlan.zhihu.com/p/358716442编辑丨3D视觉工坊已发表:关于车道线检测方法的论文介绍(https://zhuanlan....
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达在三维重建中,标定是很重要的一环,而在所有标定中,单目相机标定是最基础的,对于新手而言,跑通了一个相机标定代码,得到了一堆参数结果,...
  • 编辑丨计算机视觉SLAM近日,机器人领域知名会议 RSS(Robotics: Science and System)公布了今年的最佳论文、最佳学生论文、杰出审稿人、时间检验奖等重要奖项。其...
  • 以学生为主的台式电脑主流配置( )摘要:本文主要是根据在校学生时常对电脑的要求并配合当今台式机的主流配置而选择的电脑硬件,并从各部件的全部参数进行祥细解释和具体说明,全面而综合地阐述了对于在校学生怎样...
  • 系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动...雷达Lidar(提供点云)(1)线激光雷达Lidar1)激光雷达介绍2)激光雷达(Lidar)的硬件连接方式3)激光雷达(Lidar)优缺点(2)固态激光
  • 并提出了一种用于单目相机的可调快门方法来进行三维重建,主要的贡献在于硬件上。 6.Robust Monocular Visual-Inertial Depth Completion for Embedded Systems 黄国权团队的论文 基于EKF方案 对于传统的深度估计...
  • 按照用电设备的需求,设计了一套风光蓄互补供电系统。根据安装地的光照与风速特点,完成了蓄电池组的选型和配置方案。...根据系统容量设计了控制器与逆变器的参数,给出了风光蓄互补供电系统的整体硬件配置方案。
  • 采用TMS320F2808 DSP芯片作为控制核心、以BOOST升压变换器作为主电路的硬件设计方案,完成了主要元器件的选型参数整定,对设计参数进行了仿真验证和优化,并研制了样机。制定了高性能算法与控制策略,既能完成光伏...
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...
  • 作者丨龟壳@知乎(已授权)来源丨https://zhuanlan.zhihu.com/p/376925457编辑丨极市平台导读本文总结了一些关于模型参数量计算以及推理速度计算的方法,附有...
  • 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达导读本文对 CVPR 2021 检测大类中的“伪装目标检测”、“旋转目标检测”领域的论文进行了盘点,将会依次阐述每篇论文的方法思路...
  • 点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 作者丨黄浴@知乎 来源丨https://zhuanlan.zhihu.com/p/445358895 编辑丨3D视觉工坊 介绍最近半年的一些SLAM论文,包括视觉和激光雷达,有传统方法,也有深度...
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...
  • 点击上方“计算机视觉工坊”,选择“星标”干货第一时间送达作者丨小马来源丨我爱计算机视觉【写在前面】在本文中,作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达作者丨Realcat来源丨计算机视觉SLAMHi大家好,我是Realcat,最近周末爆肝搞了个自动获取arXiv论文的小工具,感兴趣的...
  • 今年,CVPR共举办了83个研讨会,30个教程,50多个赞助者,12次会议共发表了超过1600篇论文(其中7093篇论文,录收率约23%)。 最近的趋势 在2021年的CVPR上,CV的各个子领域都显示出了有希望的改进。在过去几年中,...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达编辑丨机器之心第 35 届 AAAI 人工智能会议已于 2 月 2 日在线上召开。在刚刚举行的开幕式上,组委会颁发了今年的最佳论文奖和...
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...
  • 目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、...视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 1,891
精华内容 756
关键字:

论文的硬件选型参数表是什么