精华内容
下载资源
问答
  • ETH3D双目数据集

    2020-04-02 18:41:09
    ETH3D数据集中的双目图像部分,包括双目图像和相机参数,在自己实验过程中用到的,分享给大家,希望有帮助。
  • KITTI双目数据集使用

    千次阅读 2018-05-28 14:42:39
    KITTI是面向自动驾驶的标准测试数据集,这里关注其中双目数据 如图1所示,KITTI使用4个相机采集图像数据,两个为灰度相机,另外两个为彩色相机。    图1. 双目系统包含两个灰度相机和两个彩色相机 数据格式...

    KITTI是面向自动驾驶的标准测试数据集,这里关注其中双目数据
    如图1所示,KITTI使用4个相机采集图像数据,两个为灰度相机,另外两个为彩色相机。
            这里写图片描述
             图1. 双目系统包含两个灰度相机和两个彩色相机


    数据格式

    KITTI目前有2012和2015两个双目数据集

    stereo2015里可以下载立体校正后的图像对和标定文件;raw data里可以下载原始未校正的图像对和标定文件

    一个典型的标定文件 calib_cam_to_cam.txt 如下:

    calib_time: 09-Jan-2012 13:57:47
    corner_dist: 9.950000e-02
    S_00: 1.392000e+03 5.120000e+02
    K_00: 9.842439e+02 0.000000e+00 6.900000e+02 0.000000e+00 9.808141e+02 2.331966e+02 0.000000e+00 0.000000e+00 1.000000e+00
    D_00: -3.728755e-01 2.037299e-01 2.219027e-03 1.383707e-03 -7.233722e-02
    R_00: 1.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000e+00 0.000000e+00 0.000000e+00 0.000000e+00 1.000000e+00
    T_00: 2.573699e-16 -1.059758e-16 1.614870e-16
    S_rect_00: 1.242000e+03 3.750000e+02
    R_rect_00: 9.999239e-01 9.837760e-03 -7.445048e-03 -9.869795e-03 9.999421e-01 -4.278459e-03 7.402527e-03 4.351614e-03 9.999631e-01
    P_rect_00: 7.215377e+02 0.000000e+00 6.095593e+02 0.000000e+00 0.000000e+00 7.215377e+02 1.728540e+02 0.000000e+00 0.000000e+00 0.000000e+00 1.000000e+00 0.000000e+00
    S_01: 1.392000e+03 5.120000e+02
    K_01: 9.895267e+02 0.000000e+00 7.020000e+02 0.000000e+00 9.878386e+02 2.455590e+02 0.000000e+00 0.000000e+00 1.000000e+00
    D_01: -3.644661e-01 1.790019e-01 1.148107e-03 -6.298563e-04 -5.314062e-02
    R_01: 9.993513e-01 1.860866e-02 -3.083487e-02 -1.887662e-02 9.997863e-01 -8.421873e-03 3.067156e-02 8.998467e-03 9.994890e-01
    T_01: -5.370000e-01 4.822061e-03 -1.252488e-02
    S_rect_01: 1.242000e+03 3.750000e+02
    R_rect_01: 9.996878e-01 -8.976826e-03 2.331651e-02 8.876121e-03 9.999508e-01 4.418952e-03 -2.335503e-02 -4.210612e-03 9.997184e-01
    P_rect_01: 7.215377e+02 0.000000e+00 6.095593e+02 -3.875744e+02 0.000000e+00 7.215377e+02 1.728540e+02 0.000000e+00 0.000000e+00 0.000000e+00 1.000000e+00 0.000000e+00
    S_02: 1.392000e+03 5.120000e+02
    K_02: 9.597910e+02 0.000000e+00 6.960217e+02 0.000000e+00 9.569251e+02 2.241806e+02 0.000000e+00 0.000000e+00 1.000000e+00
    D_02: -3.691481e-01 1.968681e-01 1.353473e-03 5.677587e-04 -6.770705e-02
    R_02: 9.999758e-01 -5.267463e-03 -4.552439e-03 5.251945e-03 9.999804e-01 -3.413835e-03 4.570332e-03 3.389843e-03 9.999838e-01
    T_02: 5.956621e-02 2.900141e-04 2.577209e-03
    S_rect_02: 1.242000e+03 3.750000e+02
    R_rect_02: 9.998817e-01 1.511453e-02 -2.841595e-03 -1.511724e-02 9.998853e-01 -9.338510e-04 2.827154e-03 9.766976e-04 9.999955e-01
    P_rect_02: 7.215377e+02 0.000000e+00 6.095593e+02 4.485728e+01 0.000000e+00 7.215377e+02 1.728540e+02 2.163791e-01 0.000000e+00 0.000000e+00 1.000000e+00 2.745884e-03
    S_03: 1.392000e+03 5.120000e+02
    K_03: 9.037596e+02 0.000000e+00 6.957519e+02 0.000000e+00 9.019653e+02 2.242509e+02 0.000000e+00 0.000000e+00 1.000000e+00
    D_03: -3.639558e-01 1.788651e-01 6.029694e-04 -3.922424e-04 -5.382460e-02
    R_03: 9.995599e-01 1.699522e-02 -2.431313e-02 -1.704422e-02 9.998531e-01 -1.809756e-03 2.427880e-02 2.223358e-03 9.997028e-01
    T_03: -4.731050e-01 5.551470e-03 -5.250882e-03
    S_rect_03: 1.242000e+03 3.750000e+02
    R_rect_03: 9.998321e-01 -7.193136e-03 1.685599e-02 7.232804e-03 9.999712e-01 -2.293585e-03 -1.683901e-02 2.415116e-03 9.998553e-01
    P_rect_03: 7.215377e+02 0.000000e+00 6.095593e+02 -3.395242e+02 0.000000e+00 7.215377e+02 1.728540e+02 2.199936e+00 0.000000e+00 0.000000e+00 1.000000e+00 2.729905e-03

    根据文章《Vision meets robotics: The KITTI dataset》【1】,各参数解释如下
                     这里写图片描述
                             图2. 各参数意义
    其中i=0,1时为左右灰度相机图像,i=2,3时为左右彩色相机图像。


    原始双目数据的校正

    根据图2的信息,有两种方式对原始数据做立体校正(基于OpenCV)

    直接使用R、P数据

    R、P为校正后的旋转矩阵和映射矩阵,结合相机内参和畸变参数可以直接使用OpenCV的函数生成映射map

    void initUndistortRectifyMap( InputArray cameraMatrix, InputArray distCoeffs,
                               InputArray R, InputArray newCameraMatrix,
                               Size size, int m1type, OutputArray map1, OutputArray map2 );

    需要说明的是,KITTI的畸变向量Ki和OpenCV的组织方式一样,为[k1,k2,p1,p2,k3]

    使用相机内参、畸变参数、旋转平移矩阵先生成R、P数据

    使用OpenCV的函数

    void stereoRectify( InputArray cameraMatrix1, InputArray distCoeffs1,
                                   InputArray cameraMatrix2, InputArray distCoeffs2,
                                   Size imageSize, InputArray R, InputArray T,
                                   OutputArray R1, OutputArray R2,
                                   OutputArray P1, OutputArray P2,
                                   OutputArray Q, int flags=CALIB_ZERO_DISPARITY,
                                   double alpha=-1, Size newImageSize=Size(),
                                   CV_OUT Rect* validPixROI1=0, CV_OUT Rect* validPixROI2=0 );

    这里需要注意的是,KITTI的Riti是0号相机到i号相机的旋转、平移矩阵,
    而实际我们需要的是0号和1号相机的旋转、平移;2号和3号相机的旋转、平移

    因此对于彩色相机(2、3),需要对其做如下变换:

    {R=R21R3T=t2t3


    参考文献

    【1】Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: The KITTI dataset[J]. International Journal of Robotics Research, 2013, 32(11):1231-1237.


    展开全文
  • 双目立体匹配测试数据集Middlebury Stereo Datasets,包含Middlebury Stereo官网上面的2014的数据集双目图像和相机参数,分享给大家。
  • 原网站下载整理,因为完整数据集几个G,所以仅仅整理上传了双目图像,资源太大总共分为三部分,在这提供给大家
  • 标定板拍摄的张数要能覆盖整个测量空间及整个测量视场,把相机图像分成四个象限(如图1所示),应保证拍摄的标定板图像均匀分布在四个象限中,且在每个象限中建议进行不同方向的两次倾斜,图2是一组推荐摆放方式图片...
  • From:Leia Inc 编译:T....为了解决这一问题,来自Leia公司的研究人员们构建了一个包含49368对图像的立体视觉数据集Holopix50k,这一数据集从大小和多样性上都超过了现有的公开数据集,在立体图像超分辨、单目深度...

    From:Leia Inc  编译:T.R

    随着配备双目摄像头的智能手机逐步增加,利用计算机视觉处理立体信息的需求也变得越来越重要。但现有的立体视觉数据集无论在数量和多样性上都不足以支持丰富场景的双目立体应用。

    为了解决这一问题,来自Leia公司的研究人员们构建了一个包含49368对图像的立体视觉数据集Holopix50k,这一数据集从大小和多样性上都超过了现有的公开数据集,在立体图像超分辨、单目深度估计等任务上都取得了非常大的性能提升。

    立体视觉的及其广泛应用

    近年来随着硬件的发展,立体视觉已经在智能手机中普及。通过双目摄像头不同视角的拍摄下能够得到场景的立体信息,对于3D照片、虚拟现实和交互等应用有着重要的作用。此外移动机器人和自动驾驶的迅速发展,也为立体视觉算法提出了更高的要求,需要在更为复杂的场景、多样的真实环境中有效工作。

    立体视觉的主要任务包括立体视差估计、基于自监督或者无监督方法对单张图像输入进行单目深度估计和基于立体图像提升分辨率的图像超分辨等任务。这些任务都需要高质量的大规模双目/深度数据集来进行训练。

    目前人工智能领域的深度学习算法在多个领域取得重大的进展,但大规模的、多样性的数据需求却成为了立体视觉领域开发出优秀算法的阻碍!大规模的立体数据集是提升算法性能的关键之一。

    目前立体视觉领域的数据集主要包括像KITTI,Middlebury、NYU Indoor等较为流行的真实数据集、还包括Make3D、ETH3D、CMLA和Cityscape等针对特定领域的数据集,近年来还出现了像Flickr1024和WSVD等场景更为丰富的数据集,但这些数据集在数量和相关指标上并没有良好的结果。

    此外为了克服真实世界中数据收集的困难,研究人员还提出了利用图形学渲染的方法来渲染获取大量的双目数据,主要包括MPI Sintel、SceneFlow、UnrealStereo和3D Ken Burns等数据,但合成数据应用于真实场景会受到域迁移问题的影响,同时还需要很大的努力来构建丰富的数字化场景。而Holopix50k的目的就在于综合解决这些存在的问题。

    Holopix50k

    这一数据集主要从社交媒体平台上收集而来,Holopix是目前最主流的3D摄影共享平台,包含了大量的多视角立体视觉照片并可以利用视差效应来显示出三维效果。这里汇集了世界上最为丰富的立体视觉社交媒体图像,用户只需要上传两个或多个视角,就可以在光场显示设备上获取多视角图像,也可以在普通设备上获取基于移动的模拟立体图像。

    在Holopix平台上RED Hydrogen One拍摄的图像最多,作为第一款集成光场性能的消费级手机,它可以提供四个视角的多角度显示。它拥有两个水平排列的相机,同时对图像进行了校正并收敛于立体图像的平均视差。与Flickr1024不同的是,这种方法并没有对图像进行剪切来使得图像片收敛于无穷远处的立体视差。

    在最开始的阶段,研究人员首先从Holopix上收集了约70k适合于作为数据集的立体视觉图像对,针对左右图像分辨率不匹配的情况会将两张图像的分辨率统一为其中较小的分辨率,利用高斯平滑和双三次插值来将分辨率较高的图像进行下采样。

    由于这一数据集主要集中于针对水平排列相机的立体视觉,而在垂直方向上的视差会影响立体视觉匹配算法的性能,需要去除具有垂直视差的图像。在这样的筛选后剩下约60k的图像对。

    垂直视差造成的匹配性能下降,c和d分别是垂直方向上有2像素和5个像素视差下的匹配结果。

    由于绝大多数照片是由Hydrogen One拍摄的,其后摄基线只有12mm前摄则为5mm,场景中包含的视差信息应该是处于有限范围内的,所有研究人员通过视差分析模型去除了包含极端误差的图像和立体特征较差的图像对,最终得到了约50k的立体视觉图像对。

    为了探索数据集的分布,研究人员利用在coco数据集上预训练的Mask-RCNN目标检测器对每一对图像的左图来进行检测分析,结果表明其中包含了大量丰富的常见物体,由于这是社交媒体平台,所以其中会包含很多的人物,共检测到了约21k个人体实例。此外数据集中还包含了风景和肖像摄影,为数据集贡献了可观的多样性。

    Holopix中物体的词云分布包含了很多常见的物体

    定量测评

    为了展现数据集的优势,研究人员利用熵、BRISQUE、SR-metric和ENIQA等指标比较了Holopix与现有的数据集,结果如下表所示 :

    除了数据集的数量显著高于其他数据集外,可以看到其具有最高的SR指标,意味数据集的质量在人类感知下是最高的、熵值第二高意味着图像中包含的信息也很丰富。

    研究人员将数据集按照分辨率分为了HD(720p)和SD(360p)两个子集,其指标在数据集比较中都处于top2的范围内。

    除了数据集本身的比较外,研究人员还利用这一数据集重新训练了几个关键的立体视觉任务模型,都得到了大幅的性能提升。

    针对图像超分辨任务,采用了PASSRNet模型进行4x图像超分辨,在Holopix50k数据集上训练的结果与Flickr1024上的结果相比具有非常大的性能提升。下表显示了随着训练数据集的增加,得到的模型在不同测试集上的结果也有着显著提升。

    下图可以看到基于这一大型数据集训练的结果要明显优于Flickr1024数据集的结果,细节得到更为丰富的重建:

    针对单视图深度估计任务,研究人员选择了自监督方法的Monodepth2模型并与其在KITTI上训练的结果进行了比较。下图显示基于Holopix训练的结果图像较为清晰,边缘也得到了更好的保留,a列为KITTI上训练的结果、b列为Holopix50k上训练的结果。

    下表展示了模型在Middlebury和MPI数据集上测试的结果,表明这一数据集同样可以适用于道路等多种数据集不包含的场景中,让模型可以学到具有泛化性的结果。

    针对视差估计任务,研究人员基于U-Net构建了自己的模型,同时还优化后得到了较小的实时视差估计模型,利用Pix2Pix类似的架构来构建单目深度估计模型,下图a,b,c分辨显示了立体视差估计、实时视差估计和单目深度估计的结果。视差估计可以很好的区分出场景中的不同目标,经过优化后的模型只有约15k参数能够部署于边缘设备中;而针对单目深度估计则可以在没有先验的条件下得到可观的深度层次结果。

    这里只是简要地列举了一些数据集的特征和应用任务,如果想要了解更多的细节请参看数据集网站,期待优秀的你能利用这一数据集做出好论文:

    展开全文
  • 点击上方“AI算法修炼营”,选择“星标”公众号精选作品,第一时间送达本文是收录于CVPR2020的工作,我是被双目图像去雾的题目所吸引的,其实整个工作的创新性不高,但是可以从中学到数据集...

    点击上方“AI算法修炼营”,选择“星标”公众号

    精选作品,第一时间送达


    本文是收录于CVPR2020的工作,我是被双目图像去雾的题目所吸引的,其实整个工作的创新性不高,但是可以从中学到数据集的制作,图像去雾等基本知识。整体上,也可以看作视觉注意力机制的又一应用。

    论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Pang_BidNet_Binocular_Image_Dehazing_Without_Explicit_Disparity_Estimation_CVPR_2020_paper.pdf

    严重的雾度会导致图像质量严重下降,从而影响视觉感知、目标检测等性能。通常,去雾化的双目图像在像3D目标检测等立体视觉任务上的表现要优于雾度较高的图像,并且图像雾度是一个与深度有关的函数。在这些基础上,本文提出了一种双目图像去雾网络(BidNet),旨在利用深度学习框架的对双目左右图像进行去雾。

    现有的双目除雾方法依赖于同时除雾和估计视差,而BidNet不需要明确执行耗时长、具有挑战性的视差估计任务。但是,由于视差的小误差会引起深度变化和无雾图像估计的大变化,BidNet网络中所提出的立体变换模块(STM)编码了双目图像之间的关系和相关性。同时,对双目图像中的左右图像同时进行除雾是互利的,这比仅对左图像除雾要好。最后,作者将Foggy Cityscapes数据集扩展为具有双目有雾图像对的Stereo Foggy Cityscapes数据集。实验结果表明,在主观和客观评估中,BidNet均明显优于最新的除雾方法。

    简介

    在计算机视觉领域,通常使用雾天图像退化模型来描述雾霾等恶劣天气条件对图像造成的影响,该模型是McCartney首先提出。该模型包括衰减模型和环境光模型两部分。模型表达式为:

    其中,是图像像素的空间坐标,是观察到的有雾图像,是待恢复的无雾图像,表示大气散射系数,代表景物深度,是全局大气光,通常情况下假设为全局常量,与空间坐标无关。

    公式(1)中的表示坐标空间处的透射率,使用来表示透射率,于是得到公式(2):

    由此可见,图像去雾过程就是根据求解的过程。要求解出,还需要根据求解出透射率和全局大气光

    实际上,所有基于雾天退化模型的去雾算法就是是根据已知的有雾图像求解出透射率和全局大气光

    根据上述等式可知,图像雾度是深度的函数。双目图像的相关性可以帮助预测深度,这表明双目图像对于除雾任务是有益的。为了克服雾度造成的双目图像退化,直接和分别在左雾图像和右雾图像上应用单个图像去雾方法不能获得令人满意的结果,尤其是对于重雾度,因为这种方法没有利用双目图像。

    现有的双目图像去雾方法依赖于同时执行去雾和视差估计。然而,这种方法有三个缺点:(1)对于给定的微小视差误差,深度误差会随着视差的增加而增加。因为估计透射图对去雾图像是必需的,并且透射图是深度的指数函数,误差不均也导致在估计透射图时出现较大误差,并妨碍了无雾度图像。(2)最新的基于学习的视差估计方法很耗时,因为它们必须应用3D卷积,计算量大。(3)这些方法仅输出左去雾图像,而不是双目去雾图像对。在本文中,提出了一种新颖的基于深度学习的双目图像去雾网络(BidNet),该网络能够利用左右图像中包含的协作信息,而无需明确执行耗时且具有挑战性的视差估计环节。

    图1.使用提出的BibNet样本图像去雾结果。左上:输入左雾图像。左下:输入右雾图像。右上:去雾左图像。右下:去雾右图像

    对于基于深度学习的双目图像去雾任务,没有包含双目雾图像的特定数据集。通过将雾添加到Cityscapes数据集中来创建Foggy Cityscapes数据集。本文将Foggy Cityscapes数据集扩展到Stereo Foggy Cityscapes数据集,该数据集由双目有雾图像对组成。关键是利用视差和给定的摄像机参数来计算摄像机与左场景之间的距离以及摄像机与右场景之间的距离。在这个过程中,应用了complete pipeline ,它使用不完整的深度信息将合成雾添加到真实,晴朗的天气图像中。

    主要贡献:

    (1)提出了一种新颖的双目图像去雾框架,称为BidNet,该框架能够利用左右图像之间的相关性对双目图像对进行除雾,而无需估计视差,它可以避免由不精确的视差估计引起的大误差。

    (2)受non-local网络的启发,提出了一种简单而有效的机制并将其嵌入BidNet中,通过该机制将右图像特征图中的有用信息引入左图像特征图中。具体是通过计算立体horizontal non-local相关矩阵并将该矩阵与右图像的特征图相乘来实现的。嵌入的过程是有效的,因为相关矩阵的大小比传统的non-local网络小一阶。类似地,可以将左图像的特征图的有用信息嵌入到右图像的有用信息中。

    (3)在输入左图像和右图像的情况下,只能使用上述除雾框架对左图像或右图像进行除雾。但是发现,通过同时考虑左右图像来制定除雾损失函数,可以同时去除左右雾度图像的雾度,从而产生更好的除雾效果。

    (4)扩展了Cityscapes数据集以适应去雾任务。实验结果表明,在主观评估和客观评估方面,BidNet均明显优于最新的除雾方法。

    本文方法:BidNet

    图2.(a)双目图像去雾网络(BidNet)的总体架构。BidNet输入双目模糊图像对并输出无雾的双目图像对。(b)转换模块(STM)的结构。提出了STM来探索和编码双目图像对之间的关系

    如图2所示,BidNet网络输入双目有雾图像对并估算透射图、大气光,同时对双目图像对进行去雾。BidNet的架构如图2(a)所示。引入了STM(Stereo Transformation Module )来探索和编码双目左右图像之间的相关性。 

    一、 Stereo Transmission Map Estimation Network

    Stereo Transmission Map Estimation Network(STMENet)可以分为三个部分:权重共享特征提取模块,Stereo Transformation Module (STM)和Refinement Module优化模块

    1、权重共享特征提取模块(Weight-Shared Feature Extraction Module)

    如图2(a)所示,权重共享特征提取模块是编码器-解码器结构。

    表1. BidNet的详细架构。如果没有特别说明,则在卷积层之后是BN和ReLU。除权重共享特征提取模块外,左分支和右分支中的其余权重不共享。⊕表示concatenation和一个3×3卷积层以减少通道。上采样表示双线性插值。

    输入图片首先通过预处理层以学习更好的输入特征。学习到的左(和右)特征通过stride为2的四个3×3卷积层传递。四个卷积层的通道增加为32、48、64和96。之后对经过卷积的下采样特征应用四个双线性插值。通过自下而上和自上而下的结构,所获得的左特征(F1)和右特征(Fr)是有区别的。

    2、Stereo Transformation Module (STM)

    权重共享模块的左侧和右侧模块仅融合其自身的信息。没有利用双目图像对之间的关系和相关性。于是,设计了一个Stereo Transformation Module(STM),通过学习左右特征之间的horizontal相关性来转换深度信息。

    图2(b)表示出了STM的结构。由于双目图像对在垂直方向上对齐,因此STM仅需要了解它们之间的水平相关性。受non-local网络的启发,将某个位置的响应计算为沿水平维度所有位置的特征的加权总和,这可以捕获包含视差(深度)信息的远程依赖关系。

    3、Refinement Module

    STM估计的透射图仍然缺乏全局结构信息。空间金字塔池是parameter-free的,而且效率很高,于是网络中采用空间金字塔池引入多尺度上下文信息来完善透射图transmission maps,从而增强鲁棒性。上面的表1中显示了详细的结构,使用了三个平均池化层,内核大小分别为3、7和15,步长为1。池化层将初始估计的transmission maps转换为全局表示的增强集合。然后,将这些具有初始估计的transmission maps通过concat进行聚合,并进入1×1卷积层以融合特征。最终,输出是refine后的透射图。

    二、大气光估算网络Atmospheric Light Estimation Network

    大气光估计网络(ALENet)旨在估计大气光A。如图2(a)所示,ALENet也是一种编码器/解码器结构,但没有尺度的跳跃连接。它包括一个3×3卷积层作为预处理,三个Conv-BN-Relu-Pool块作为编码器,三个Up-Conv-BN-Relu块作为解码器,最后是一个3×3卷积层估计大气光A,如表1所示。1.立体图像对具有相同的大气光A。因此,ALENet仅输入左侧图像进行预测。

    三、通过物理散射模型去雾Dehazing via The Physical Scattering Model

    如图2(a)所示,通过等式(2)计算左无雾图像和右无雾图像。等式(2)确保整个网络同时优化。直接计算出的无雾双目图像有一些噪点,于是添加了图像优化模块,这是一个轻量级的密集块。轻量级密集块具有四个3×3卷积层,其输入是在之前生成的特征图的串联。输入通道的数量为3、8、16和24,但输出通道的数量均为8。最后,采用1×1卷积层来估计精确的无雾双目图像。

    四、损失函数

    BidNet的损失函数包括:去雾的双目图像的误差、透射图误差、大气光的误差、Perceptual 损失。在损失函数中同时考虑了左右图像的误差,因此同时对两个图像去雾是互利的。

    无雾的双目图像误差:

    透射图误差:

    大气光误差:

    基于从预训练网络中提取的高级特征的Perceptual 损失被广泛用于图像超分辨率领域。此外,Perceptual 损失比像素损失更有效地衡量图像的视觉相似性。受此启发,作者引入了Perceptual 损失以增加恢复的无雾图像与真实图像之间的Perceptual 相似性。Perceptual 损失利用从预先训练的深度神经网络中提取的多尺度特征来量化估计图像和ground truth之间的视觉差异。本文中,使用在ImageNet 上预先训练的VGG16 作为loss网络,并从VGG16中的Conv33中提取特征。Perceptual loss定义为:

    Stereo Foggy Cityscapes Dataset

    整个数据集制作过程参考了文章《Semantic foggy scene understanding with synthetic data》,感兴趣的话,可以参考原文。

    实验与结果

    数据集:Stereo Foggy Cityscapes Dataset

    评价指标:PSNR、SSIM

    实验配置:使用256×256大小的RGB图像训练网络,训练是在两台NVIDIA GeForce GTX 1070上进行的,并且一个GPU用于测试。

    1、对比实验

    2、定性评估


    3、消融实验

    4、Drivingstereo 数据集上的实验

    对于400×881的图像,BidNet在NVIDIA GeForce GTX 1070上对双目图像进行去雾处理的速度为0.23s。

    更多实验细节,可以参考原文。

    
    
    展开全文
  • 该脚本可以将KITTI数据集中的图像序列换转成ROS中的.bag文件格式。具体使用方法代码中给了示例。例如:将双目数据转换成.bag文件: python img2bag_kitti_StereoBag.py /home/Andy/my_workspace/Dataset/KITTI/01 ...
  • 本文主要记录的是对双目图像进行monodepth2模型训练的过程。 训练数据集准备 我们刚开始拿到的图片集是xxx1.jpg xxx2.jpg 。。。堆集在一个目录的图片,其中1表示左摄像头,2表示右摄像头。 这个原始数据集显然不...

    前言

    本文主要记录的是对双目图像进行monodepth2模型训练的过程。

    训练数据集准备

    我们刚开始拿到的图片集是xxx1.jpg xxx2.jpg 。。。堆集在一个目录的图片,其中1表示左摄像头,2表示右摄像头。

    这个原始数据集显然不能直接拿来进行训练。需要做以下转换。

    1)新建两个子目录image_02和image_03,然后把xxx1.jpg放到image_02,xxx2.jpg放到image_03。

    2)利用这左、右摄像头通过标定所得的内参和姿态参数分别将image_02和03对应图片进行行对齐。

    3)将绝大部分image_02和image_03里面图片名放到train_files.txt,剩余放到val_files.txt。并将这两个txt文件放到split的子目录下,比如eign_zhou。后面训练会根据这两个txt里面所列文件进行。

    由于样本图片一般比较多,所以上面三个步骤最好分别写一个脚本来实现。

    训练和测试命令

    训练命令:

    python3 train.py --log_dir stereo_weights/ --model_name stereo --use_stereo --frame_ids 0 --data_path ../stereo --width 960 --height 320 --split eigen_zhou

     测试命令:

     python3 self_test_simple.py --image_path ../stereo/stereo_data/image_03/000316.jpg --model_name weights_18

    测试log:

    结论 

    目前基于自己数据集训练出来的模型其测距效果一般,具体原因还在分析。数据集太少? K参数需要更新?还是其它方面的原因?目前还不得而知。大家有什么好的意见也请告诉我。 

     

     

    展开全文
  • KITTI数据集,包含双目图像、激光雷达点云、导航信息以及2D、3D物体边框、光流场景流、深度和物体跟踪等各类标注。 Cityscapes,包含城市场景下双目图像及像素级语义分割标注。 comma2k19,包含单目...
  • KITTI数据集

    2021-01-16 17:42:33
    KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。图示为传感器的配置平面图,为了生成双目立体图像,相同类型的摄像头相距54cm安装。...
  • (1)双目摄像头标定图像数据集收集保存 #include <iostream> #include <opencv2/opencv.hpp&...
  • kitti数据集坐标转换

    千次阅读 2019-09-23 11:11:12
    kitti数据集标定文件解析 1、kitti数据采集平台 KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个...图示为传感器的配置平面图,为了生成双目立体图像,相同类型的摄像头相距54cm安装。...
  • KITTI数据集提供了双目图像,激光数据,和imu/gps位置信息,其中还包括了大量的算法。下载地址为:http://www.cvlibs.net/datasets/kitti/raw_data.php 例如一个153帧的序列,其中图像: 激光数据: ...
  • 1. kitti数据采集平台KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。图示为传感器的配置平面图,为了生成双目立体图像,相同类型的...
  • KITTI数据集-RTABMAP

    2020-08-06 22:17:27
    为了生成双目立体图像,相同类型的摄像头相距54cm安装。由于彩色摄像机的分辨率和对比度不够好,所以还使用了两个立体灰度摄像机,它和彩色摄像机相距6cm安装。为了方便传感器数据标定,规定坐标系方向如下[2] : •...
  • 数据集包含丰富多样的传感器数据(有双目相机、64线激光雷达、GPS/IMU组合导航定位系统,基本满足对图像、点云和定位数据的需求)、大量的标定真值(包括检测2D和3D包围框、跟踪轨迹tracklet)和官方提供的一些...
  • KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。上传部分包含双目两个相机的的灰度图像,相机内参以及时间序列。
  • 1. kitti数据采集平台KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。图示为传感器的配置平面图,为了生成双目立体图像,相同类型的...
  • 数据集包含丰富多样的传感器数据(有双目相机、64线激光雷达、GPS/IMU组合导航定位系统,基本满足对图像、点云和定位数据的需求)、大量的标定真值(包括检测2D和3D包围框、跟踪轨迹tracklet)和官方提供的一些...
  • kitti数据集标定文件解析

    千次阅读 2018-08-14 16:54:00
    KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。图示为传感器的配置平面图,为了生成双目立体图像,相同类型的摄像头相距54cm安装。...
  • 1从http://www.cvlibs.net/datasets/kitti/eval_odometry.php下载数据集(灰度图像) 百度网盘: 进入 进入00 进入image_0 2 执行以下命令. 官方说明: 2.1 根据测试的数...
  • ELAS是一种基于概率模型的有效立体匹配算法,能够给予双目图像生成深度图,进而转化为点云.该算法的一种改进算法为LS-ELAS,其论文发表在2017年ICRA上,文章题目为"LS-ELAS: Line Segment based Efficient Large Scale ...
  • SLAM学习 | 使用小觅相机MYNTEYE-S1030收集数据集

    千次阅读 热门讨论 2020-08-05 22:18:56
    该相机配备有双目镜头和两个IR主动光发射/接收器,同时其内部嵌入了IMU模块,并提供双目帧同步和图像帧与IMU的同步,据称视觉与IMU的同步精度可达5ms以内。同时该相机配备有比较完备的SDK,将一些比较常用的功能都...
  • 双目SLAM基础

    千次阅读 2019-05-05 16:16:53
    双目slam基础 Stereo camera slam Stereo Vision:Algorithms and Applications 双目宝典 Machine-learning-for-low-level-vision-...室内数据集 Middlebury 双目算法评估 嵌入式 图像滤波卷积计算 卷积的简化计...
  • 但是本文中使用的双目图像数据集和部分双目视频数据集是公开可用的: 和 。 准备Flickr1024以训练图像版本模型 从网站下载Flickr1024: ://yingqianwang.github.io/Flickr1024/ 从下载数据列表 如下组织数据集($...
  • KITTI数据集的数据采集平台装配有2个灰度摄像机,2个彩色摄像机,一个Velodyne64线3D激光雷达,4个光学镜头,以及1个GPS导航系统。图示为传感器的配置平面图,为了生成双目立体图像,相同类型的摄像头相距54cm安装。...
  • 双目立体视觉是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。双目立体视觉技术的实现可分为以下...
  • 双目slam基础 Stereo camera slam 本文GitHub地址  Stereo Vision:Algorithms and Applications 双目宝典 ...Machine-learning-for-low-level-vision-...室内数据集 Middlebury 双目算法评估 嵌入式 图像...

空空如也

空空如也

1 2 3 4
收藏数 66
精华内容 26
关键字:

双目图像数据集