精华内容
下载资源
问答
  • 自动驾驶行人检测
    2021-08-22 17:38:22

    链接:

    https://github.com/cfzd/Ultra-Fast-Lane-Detection

    链接:https://pan.baidu.com/s/1bhc_ZohcP21Nnrul5STCKg 
    提取码:mkbo 
     

    推导及定义内容,请查转载文档《自动驾驶入门(八):Yolo V3》

    更多相关内容
  • 39自动驾驶车辆的行人意图检测_new.pdf
  • 基于FPN融合的全时段自动驾驶行人检测.pdf
  • 目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列一

    目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列一:

    「本期划重点」

    • 清华大学推出全球首个车路协同自动驾驶研究数据集

    • Nexar视频数据集覆盖70多个国家,1400多个城市

    • 行人目标检测数据集一览:KAIST、ETH、Daimler、Tinghua-Daimler、Caltech、NightOwls、ECP

    • 夜间图像也清晰可见:Kaist行人数据集、FLIR热成像数据集、东京大学红外数据集

    图片

    「八大系列概览」

    自动驾驶数据集分享是整数智能推出的一个全新分享系列,在这个系列中,我们将介绍目前为止各大科研机构和企业推出的所有公开自动驾驶数据集。数据集主要分为八个系列:

    • 系列一:目标检测数据集 🔗

    • 系列二:语义分割数据集

    • 系列三:车道线检测数据集

    • 系列四:光流数据集

    • 系列五:Stereo Dataset

    • 系列六:定位与地图数据集

    • 系列七:驾驶行为数据集

    • 系列八:仿真数据集

    本文是<系列一目标检测数据集>的第二篇,一共分为三篇来介绍。

    下面共包括15个数据集:

    01「DAIR-V2X数据集」

    • 发布方:清华大学智能产业研究院(AIR)、北京市高级别自动驾驶示范区、北京车网科技发展有限公司、百度Apollo、北京智源人工智能研究院

    • 下载地址:

      https://thudair.baai.ac.cn/cooptest

    • 发布时间:2022年

    • 简介:DAIR-V2X数据集是全球首个用于车路协同自动驾驶研究的大规模、多模态、多视角数据集,全部数据采集自真实场景,同时包含2D&3D标注

    • 特征

      • 总计71254帧图像数据和71254帧点云数据

        • DAIR-V2X协同数据集(DAIR-V2X-C),包含38845帧图像数据和38845帧点云数据

        • DAIR-V2X路端数据集(DAIR-V2X-I),包含10084帧图像数据和10084帧点云数据

        • DAIR-V2X车端数据集(DAIR-V2X-V),包含22325帧图像数据和22325帧点云数据

      • 首次实现车路协同时空同步标注

      • 传感器类型丰富,包含车端相机、车端LiDAR、路端相机和路端LiDAR等类型传感器

      • 障碍物目标3D标注属性全面,标注10类道路常见障碍物目标

      • 采集自北京市高级别自动驾驶示范区10公里城市道路、10公里高速公路、以及28个路口

      • 数据涵盖晴天/雨天/雾天、白天/夜晚、城市道路/高速公路等丰富场景

      • 数据完备,包含脱敏后的原始图像和点云数据、标注数据、时间戳、标定文件等

      • 训练集和验证集已发布,测试集将随同后续Challenge活动发布

    图片

    02「Argoverse」

    • 发布方:Argo AI、卡内基梅隆大学、佐治亚理工学院

    • 下载地址:

      https://www.argoverse.org/av1.html

    • 论文地址:

      https://arxiv.org/pdf/1911.02620.pdf

    • 发布时间:2019年

    • 简介:Argoverse 数据集包含 3D Tracking 和 Motion Forecasting 两部分。Argoverse数据集与Waymo有些不同,虽然它也包含激光雷达和摄像头数据,但它只覆盖了在迈阿密和匹兹堡记录的113个场景。其特别之处在于,它是第一个包含高清地图数据的数据集

    • 特征

      • 第一个包含高清地图数据的数据集:包含匹兹堡和迈阿密290公里的车道地图,如位置、连接、交通信号、海拔等信息

      • 传感器:2个激光雷达,7个高分辨率环形相机 (1920 × 1200),2个立体相机( 2056 × 2464 )

      • Argoverse 3D tracking

      • 包含 113 个场景的 3d 跟踪注释,每个片段长度为 15-30 秒,共计包含 11052个跟踪对象

      • 对5米内的物体进行标注,共15个标签

      • 70%的标注对象为车辆,30%行人、自行车、摩托车等

      • Argoverse Motion Forecasting

      • 从在迈阿密和匹兹堡的1006小时驾驶记录中获取,总计320小时

      • 包含324,557 个场景,每个场景 5 秒,且包含以 10 Hz 采样的每个跟踪对象的 2D 鸟瞰图

    图片

    03「KAIST Multispectral Pedestrian」

    • 发布方:韩国科学技术院(Korea Advanced Institute of Science and Technology)

    • 下载地址1:

      https://sites.google.com/site/pedestrianbenchmark/download

    • 下载地址2:

      https://sites.google.com/site/pedestrianbenchmark/download

    • 论文地址:

      https://openaccess.thecvf.com/content_cvpr_2015/papers/Hwang_Multispectral_Pedestrian_Detection_2015_CVPR_paper.pdf

    • 发布时间:2015年

    • 简介:该数据集为多光谱行人检测数据集,提供白天和夜晚的彩色-热成像图像对。数据集通过彩色图像和热成像的优势互补,提高了行人检测的准确度,克服了以往行人检测数据行人被遮挡、背景混乱、夜间成像不清晰等问题

    • 特征

      • 同时提供白天和夜间的95328对彩色-热成像图像,并且通过分束器的处理对齐图像,消除图像视差

      • 数据采集地点为韩国首尔,图像分辨率为640x480

      • 103,128个人工2D框标注, 1,182 个行人

      • 四种不同类型的标注:person、people(不清晰的人像)、cyclist、person?(不确定是否为行人)

      • 采集设备:包含热成像仪、RGB摄像机、分束器等的采集设备

    图片

    04「ETH Pedestrian」

    • 发布方:苏黎世联邦理工大学 (ETH Zürich)

    • 下载地址:

      https://icu.ee.ethz.ch/research/datsets.html

    • 论文地址:

      https://www.vision.rwth-aachen.de/media/papers/ess08cvpr.pdf

    • 发布时间:2009年

    • 简介:ETH是一个行人检测数据集,使用摄像机拍摄共三个视频片段,数据集只有一个行人标签

    • 特征

      • 测试集包含3个视频片段,共4800帧,帧率为15,共1894个标注

      • 使用2.5D标注,进行抽帧标注,每四帧标注一次

      • 采集于瑞士苏黎世人员密集的街区

      • 使用摄像机进行拍摄

    图片

    05「Daimler Pedestrian」

    • 发布方:Daimler AG

    • 下载地址:

      http://www.lookingatpeople.com/download-daimler-ped-det-benchmark/index.html

    • 论文地址:

      http://gavrila.net/pami09.pdf

    • 发布时间:2008年

    • 大小:8.5GB

    • 简介:戴姆勒行人检测数据集是采集于城市环境的行人检测数据集,采集的环境均为白天。数据集分为训练集和测试集两部分,训练集又包括行人图像和不包含行人的图像

    • 特征

      • 27分钟的视频片段

      • 15560张行人的图像(剪切后分辨率为48x96),6744张不包含行人的图片

      • 21,790 张图片(640x480 分辨率), 56,492个2D人工标注

      • 视频通过行驶车辆上的摄像头采集,场景全部为日间城市道路

    图片

    06「Tsinghua-Daimler Cyclist」

    • 发布方:Daimler AG、清华大学

    • 下载地址:

      http://www.lookingatpeople.com/download-tsinghua-daimler-cyclist/index.html

    • 论文地址:

      http://www.gavrila.net/Publications/iv16_cyclist_benchmark.pdf

    • 发布时间:2016年

    • 简介:该数据集旨在丰富骑行者的数据,提高自动驾驶算法对骑行者检测的准确度,在此之前还没有推出过专门针对骑行者目标检测的数据集

    • 特征

      • 将近6个小时的视频数据,分辨率为2048×1024

      • 14674帧带标注数据, 32361个标注对象,包括骑行者、行人和其他骑行者

      • 数据集分为部分标注数据集和全部标注数据集。部分标注数据集只包括完整清晰的骑行者,而后者包括行人、自行车、三轮车、轮椅、摩托车等所有骑行者

      • 使用车载立体相机进行采集,采集地点为北京的海淀区和朝阳区

    图片

    07「Caltech数据集」

    • 发布方:加州理工学院 (California Institute of Technology)

    • 下载地址:

      http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

    • 论文地址:

      http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/files/CVPR09pedestrians.pdf

    • 发布时间:2009年

    • 简介:加州理工学院行人数据集采集于洛杉矶的城市道路,视频数据通过车辆搭载摄像头采集

    • 特征

      • ‍包含将近10个小时的640x480 30Hz 数据集

      • 数据集分为训练集和测试集,训练集分为6个子集,测试集分为4个子集,每个子集大小大约为1GB

      • 包含大约 250,000帧行人标注数据,350,000个2D框,2300个行人,总时长大约为137分钟

      • 区分标注行人的可见部分和不可见部分

      • 视频采集于洛杉矶行人较多的六个区:LAX, Santa Monica, Hollywood, Pasadena, and Little Tokyo

    图片

    08「NightOwls」

    • 发布方:Oxford Visual Geometry Group

    • 下载地址:

      https://www.nightowls-dataset.org/download/

    • 论文地址:

      https://www.robots.ox.ac.uk/~vgg/publications/2018/Neumann18b/neumann18b.pdf

    • 发布时间:2018年

    • 简介:NightOwls数据集主要提供夜间的行人数据。与白昼相比,夜间照明度差,反射、模糊和对比度变化多,因此夜间行人检测更具挑战性

    • 特征

      • 279,000帧数据,图像分辨率为1024 x 640,帧率为15

      • 所有帧都带有2D框标注,且带有追踪信息,包含42,273个行人

      • 四种行人标签:Pedestrians、Bicycledriver、Motorbikedriver、Ignore areas

      • 四类标签属性:Pose、Difficulty、Occlusion、Truncation

      • 多样性:覆盖三个国家(德国、英国、荷兰),春夏秋冬四个季节,黎明和夜晚,不同的天气状况如雨雪天气
        图片

    09「EuroCity Persons Dataset」

    • 发布方:代尔夫特理工大学 (Delft University of Technology (TU Delft))

    • 下载地址:

      https://eurocity-dataset.tudelft.nl/eval/user/login?_next=/eval/downloads/detection

    • 论文地址:

      https://arxiv.org/pdf/1805.07193;The

    • 发布时间:2018年

    • 简介:ECP是一个多元化的行人检测数据集,数据收集于欧洲多个国家,由车载摄像头进行收集

    • 特征

      • 大型多样化数据集:覆盖4 个季节、12 个国家、31 个城市、47300 张图像、238200 个人

      • 标签分为行人和骑行者两类,骑行者又进一步分为自行车、婴儿车、摩托车、滑板车、三轮车、轮椅等类型

      • 对骑行者的标注分两部分:对人的标注以及骑行工具的标注

      • 标注信息除了2D框之外,还包括定位信息

    图片

    10「Urban Object Detection」

    • 发布方:机器人和立体视觉小组(The Robotics and Tridimensional Vision Group, RoViT, University of Alicante )

    • 下载地址:

      http://www.rovit.ua.es/dataset/traffic/#explore(邮件联系获取)

    • 论文地址:

      https://www.mdpi.com/2079-9292/7/11/301#

    • 发布时间:2018年

    • 简介:该数据集中的数据来自于现有数据集,例如PASCAL VOC 、UDacity、Sweden,同时通过安装在车辆上的高清摄像头收集了一部分数据(1%左右),该数据集在公开数据集等的基础上增加了标签的类别。其中有一些数据为弱标注数据,可以用于测试弱监督学习技术

    • 特征

      • 数据集被分成两部分:traffic objects 和 traffic signs

      • traffic objects数据集经2D标注,共包括汽车、摩托车、人、信号灯、公交车、自行车和交通标志

      • traffic signs 总共包含43种欧洲街道常见的交通标志,数据来自GTSRB以及Sweden

      • 共包含12000个交通标志

    图片

    图片

    11「Road Damage Dataset 2018-2020」

    • 发布方:东京大学

    • 下载地址:

      https://github.com/sekilab/RoadDamageDetector/

    • 论文地址:

      https://arxiv.org/abs/1801.09454

      https://www.sciencedirect.com/science/article/pii/S2352340921004170

    • 发布时间:2018-2020

    • 简介

      • Road Damage Dataset 2018:该数据集第一次收集了大规模的道路损坏数据集,收集了日本7个城市共40多个小时的数据。由安装在汽车上的智能手机拍摄的 9,053 张道路病害图像组成,这些道路图像中包含 15,435 个路面病害实例,包含8种病害类型。每幅图像中,道路病害位置和病害类型都被标注出来

      • Road Damage Dataset 2020:该数据集使用车载智能手机拍摄,包含来自印度、日本和捷克共和国的 26,336 张道路图像,其中有超过 31,000 个道路损坏实例。该数据集收集了四种类型的道路损坏:纵向裂缝、横向裂缝、鳄鱼裂缝和坑洼

    图片

    12「FLIR Thermal Sensing」

    • 发布方:Teledyne FLIR

    • 下载地址:

      https://www.flir.eu/oem/adas/adas-dataset-form/#anchor29

    • 发布时间:2018年

    • 大小:17GB

    • 简介:感知热红外辐射或热量的能力为现有传感器技术(如可见光相机、激光雷达和雷达系统)提供了互补和独特的优势。该数据集通过热传感技术提供了热图像,在完全漆黑、烟雾、恶劣天气和眩光等具有挑战性的天气条件下,可检测并区分行人、骑行者、动物和机动车辆,促进可见光 + 热传感器融合算法 (“RGBT”) 的研究进展

    • 特征

      • 26,442 个完全标注的帧,520,000个2D框,9,711 张热图像和 9,233 张 RGB 图像

      • 15个标签类别:行人、自行车、汽车、摩托车、公共汽车、火车、卡车、红绿灯、消防栓等

      • 热成像仪规格:Teledyne FLIR Tau 2 640x512,13mm f/1.0

    图片

    13「TuSimple 车道线检测数据集」

    • 发布方:Tusimple

    • 下载地址:

      https://github.com/TuSimple/tusimple-benchmark/issues/3

    • 发布时间:2017年

    • 简介:Tusimple举办了一次以摄像头图像数据做车道检测的比赛,公开了一部分数据及其标注信息

    • 特征

      • 7,000 个 1 秒长的视频片段,每个片段 20 帧

      • 环境特征:白天,良好或中等的天气,高速公路

      • 训练集包含3626 个视频片段,测试集包含2782 个视频片段

      • 采用线标注,每条线实际上是点序列的坐标集合,而不是区域集合

    图片

    14「NEXET」

    • 发布方:Nexar

    • 下载地址:

      https://www.kaggle.com/solesensei/nexet-original

    • 发布时间:2017年

    • 大小:11G

    • 简介:Nexar 包含丰富和多样化道路数据,采用行车记录仪和手机摄像头等拍摄,是目前为止涵盖最多国家和城市的自动驾驶数据集

    • 特征

      • 超过2500000个小时的视频,50000张带有2D框标注图像的训练集, 包含41190张图像的测试集合

      • 多样化:覆盖77个国家,1400多个城市,三种照明条件(白天、夜晚、黄昏),四个季节,多种路况(城市、乡村、高速、居民区甚至包括沙漠道路),多种天气状况(晴、雾、雨、雪)

      • 标注:采用2D标注,2D框与车辆不完全贴合

    图片

    15「Multi-spectral Object Detection」

    • 发布方:东京大学

    • 下载地址:

      https://drive.google.com/drive/folders/1YtEMiUC8sC0iL9rONNv96n5jWuIsWrVY

    • 论文地址:

      https://dl.acm.org/doi/pdf/10.1145/3126686.3126727

    • 发布时间:2017年

    • 大小:6.85GB

    • 简介:该数据集由RGB图像、近红外图像、中红外图像和远红外图像组成,图片拍摄于校园环境

    • 特征

      • 7,512 张图片,3,740张日间的图片以及3,772 张夜间图片

      • 采集:图片由RGB、近红外相机、中红外相机和远红外相机获取,为了模拟驾驶环境,相机被安装在一辆小推车上

      • 环境:东京的大学校园,包括白天和夜晚的数据

      • 标注:包含2D框及标签,包括行人、自行车、车辆等障碍物

    图片

    「联系我们」

    整数智能希望通过在数据处理领域的专业能力,在未来三年,赋能1000+以上的AI企业,成为这些企业的「数据合伙人」,因此我们非常期待能与正在阅读这篇文章的您,有进一步的沟通交流,欢迎联系我们,一起探索更多合作可能性,我们的联系方式如下:

    联系人:祁先生

    电话:13456872274

    更多详情可访问整数智能官网:www.molardata.com

    展开全文
  • 基于tensorflow yolo自动驾驶核心技术:行人目标检测(视频).zip 文件目录: 自动驾驶核心技术--行人目标检测.mp4 受上传大小限制,对应代码、模型数据请搜:基于tensorflow yolo自动驾驶核心技术:行人目标检测...
  • 1. 文章信息本次介绍的文章是2021年3月份发表在IEEE Transactions on Instrumentation and Measurement的关于自动驾驶场景下的目标检测文...

    1. 文章信息

    本次介绍的文章是2021年3月份发表在IEEE Transactions on Instrumentation and Measurement的关于自动驾驶场景下的目标检测文章,文章题目为《YOLOv4-5D: An Effective and Efficient Object Detector for Autonomous Driving》

    2. 摘要

    自动驾驶汽车中,使用目标检测算法变得极为重要。高精度的目标检测和快速的推理速度是保证自动驾驶安全的关键。因此,必须考虑目标检测器的有效性和效率之间的平衡。文章提出了一种one-stage的目标检测框架,以提高检测精度,同时支持基于YOLOv4的真实实时操作。该框架中的骨干网是CSPDarknet53_dcn(P)。用变形卷积代替CSPDarknet53的最后一个输出层,以提高检测精度。为了进行特征融合,设计了一种新的特征融合模块pan++,并采用5个尺度检测层来提高小目标的检测精度。此外,文章还提出了一种优化的网络剪枝算法,以解决车载计算平台计算资源有限,无法满足算法实时性的问题。利用稀疏尺度因子的方法对现有的通道剪枝算法进行了改进。与YOLOv4相比,YOLOv4 - 5d在BDD数据集上平均精度提高了4.23%,在KITTI数据集上平均精度提高了1.68%。最后,通过对模型进行裁剪,在检测精度基本不变的情况下,yolov - 5d的推理速度提高了31.3%,内存仅为98.1 MB。然而,该算法能够以超过66帧/s (fps)的速度进行实时检测,并且在相同的帧数下比之前的算法具有更高的准确率。

    3. 简介

    近年来,深度学习已被广泛应用于各个领域,包括计算机视觉和自动驾驶。传感器和GPU计算单元的快速发展显著加快了深度学习算法的迭代速度。

    自动驾驶汽车的主要功能是实时准确识别车辆周围的物体,以确保安全、正确的控制决策。一般来说,自动驾驶汽车使用各种传感器,如摄像头、激光雷达等,用于检测车辆、行人、交通灯、交通标志等物体。与其他传感器相比,现在的摄像机在探测物体方面更加精确,成本效益也更高。

    基于深度学习的目标检测和语义分割算法在自动驾驶领域中已经变得非常重要。基于深度学习的算法可以在使用较少计算资源的前提下实现较高的检测精度,因此成为自动驾驶系统中必不可少的方法。针对自动驾驶汽车的目标检测算法需要满足以下两个条件。一是对道路目标的检测精度高。其次,实时检测速度对于车辆控制器的快速响应和减少延迟至关重要。基于CNN的目标检测算法可以分为两类。第一类是基于生成region proposal的两阶段检测算法,如Faster R-CNN和cascade R-CNN。两阶段探测器对目标的检测精度较高,但检测速度较慢。第二类是一阶段探测器,如SSD和YOLO,可以同时进行物体分类和边界盒回归,不需要生成region proposal,直接生成类对象的位置坐标。因此,一阶段探测器的检测速度能够满足实时性要求,但检测精度低于两级检测器。

    以往的方法不能满足608 × 608及以上分辨率作为输入时对实时检测速度的要求,而608 × 608及以上分辨率作为输入是为了达到较高的精度不可或缺的。自动驾驶计算平台的计算资源有限,需要同时处理检测、跟踪、决策等多种传感和计算任务。因此,检测算法需要具有较小的内存占用率和计算资源占用率。自动驾驶应用的一个先决条件是使用超过30帧/秒。这表明,平衡检测精度和速度仍然是一个主要问题。此外,大多数传统的目标检测算法最关键的问题之一是大小目标的检测精度不能很好地平衡。通常,大的物体容易被检测到,而小的物体往往被检测器忽略。在自动驾驶的情况下,忽略小物体(交通灯、行人等)的检测是非常危险的,因为它会引起过度的反应,如意外刹车,从而降低驾驶的稳定性和效率,导致致命的事故。YOLOv4-5D中的特征融合模块是PAN++,它是在原PAN的基础上改进的,更适合于小目标的检测。然而,在上述算法中,YOLOv4并没有针对自动驾驶数据集进行优化。YOLOv4可以用一个推理来检测多个对象,呈现出非常快的检测速度。然而与两阶段方法相比,YOLOv4对小目标的准确度普遍较低。因此,在保持实时目标检测能力的同时,提高精度至关重要。为此,本文提出通过变形卷积的backbone建模和对YOLOv4检测模块的重新设计提高检测精度。同时,提出了一种优化的通道剪枝方法,可在车载计算平台上实时运行。

    4. 相关工作

    YOLOv4是对YOLO系列算法的进一步改进。YOLOv4的网络架构如下图所示。

    992cecd1bb9b3b9c4ff7abb83119fd34.png

    YOLOv4采用CSPDarknet53结构作为骨干,解决了推送过程中检测算法需要大量计算的问题。最突出的特性是以类似的方式在三个不同的尺度上进行检测,使得YOLOv4可以检测各种大小的对象。由于YOLOv4是一个全卷积网络,仅由YOLOv3那样的1 × 1和3 × 3的小型卷积滤波器组成,所以检测速度与YOLO和YOLOv2相等。YOLOv4的检测速度可以满足自动驾驶系统的实时性要求。然而,YOLOv4的精度,特别是对于小目标,仍然低于两阶段探测器。算法内存和计算资源占用较大,无法满足自动驾驶汽车对感知算法内存比例小、计算资源少的需求。

    在真实的道路交通环境中,道路场景目标检测具有大量不同大小的小目标。一个典型的真实道路检测场景如下图所示。

    1dd191492f2c27e559b245cc4ec4bbc5.png

    由于摄影测量中的透视畸变的存在,使得远处的物体变得更小,而探测小的物体是一个已知的难点问题。从上图中可以看出,场前的物体与右上方的交通标志大小相差约90倍。并且bbox大小的明显差异不仅发生在不同类型的对象之间,而且也发生在相同类的对象之间。在上图中,当车辆位于远视图时,交叉口对面的灰色车辆,与场景前方车辆的bbox区域存在显著差异。BDD数据集中对象检测bbox的大小分布如从下图所示。可以清楚地看到,大多数分布是由小物体组成的。

    c83250cd8095c182646d7555694a96b7.png

    上图揭示了研究自动驾驶场景下小目标高精度检测算法的意义。现有的检测网络由于道路检测场景中近远目标的bbox区域差异较大,无法满足对行车交通目标检测精度的要求。因此,需要一种道路检测模型,可以较好的处理大的和小的对象。

    5. 方法

    基于anchor的一阶段检测器通常由backbone、neck和用于物体分类和定位的head组成。文章对YOLOv4的详细结构进行了修改,并提出了一个用CSPDarknet53_dcn取代backbone的修改版本。这个修改后的版本在文章中被用作baseline。文章还对YOLOv4的特征融合模块进行了重新设计,设计了5种尺度的检测模块。改进后的检测算法被称为YOLOV4-5D,一种自动驾驶道路场景的多尺度实时检测算法。

    A. Backbone

    在YOLOv4中,首先使用CSPDarkNet-53提取不同尺度的feature map。CSPDarknet53可以解决大部分检测场景的特征提取任务。为了提高backbone在复杂流量环境下的特征提取能力,利用DCN (deformableconvolutional network)对骨干网进行优化。如下图所示,DCN使用一个可学习的偏移量来描述目标的特征方向,使得网络的接受域不局限于固定的范围,更能灵活地适应目标几何形状的变化。DCN有利于对复杂场景进行充分的检测。

    554e56fcbaaaaa3454bc67c1f81a1a9b.png

    虽然DCN本身并没有显著增加模型中的参数数量和FLOPs,但DCN的有效性在许多检测模型中得到了验证。在实际应用中,多个DCN层增加了推理时间。因此,为了平衡效率和有效性,文章只在最后阶段用DCN替换3 × 3卷积层。这个修改后的主干被标记为CSPDarkNet53_dcn,DCN层在下图YOLOv4-5D框架图中用一个黑色三角形标记。

    58c5a0908f4806fd9a796c8ad30a7a46.png

    B. Detection Neck

    在YOLOv4中用SPP和PAN来增加网络的感受野,并建立一个特征图之间横向连接的特征金字塔。为了提高小目标的检测精度,设计了pan++作为特征融合模块。对于pan++,针对两个点实现了两个特征融合模块。其中一个模块充分利用了主干网的低层物理信息和高层语义信息;第二个模块用于适应新检测层引起的所需特征图的比例变化。在YOLOv4中,最大检测规模为79 × 79。在79 × 79的小尺度下,检测算法都不利于对小目标进行最终的位置信息回归。因此,文章提出的YOLOV4-5D中使用的最大比例尺特征图变为304 × 304,为小目标检测提供了重要的特征。如上面YOLOV4-5D的框架图,YOLOV4-5D网络结构输出五尺度检测图像,经过pan++。YOLOv4-5d与YOLOv4相比增加了152 × 152和304 × 304两个大型小目标探测器。

    C. Detection Head

    YOLOV4-5D的检测头非常简单。它由一个3 × 3卷积层和一个1 × 1卷积层组成,通过卷积层得到最终的预测结果。每个最终预测的输出通道为3(K + 5),其中K为类数。最终预测的每个位置都与三个不同的anchor相关联。在YOLOv4的三尺度检测头的基础上,根据上述相关设计增加了两大尺度检测层进行特征增强,即颈部检测。这两个大规模的检测层都用于小目标的检测。改进后的网络平衡了远距离小目标和大型目标的检测性能。

    D. 网络剪枝

    深度CNN所依赖的计算量和存储量严重限制了其在资源有限的平台上的部署。基于各种策略的剪枝算法可以降低网络权值的数量、计算复杂度和网络冗余度。然而,不同的数据结构和网络结构对不同的剪枝方法有不同的性能影响,这增加了剪枝方法选择的难度。特别是当某个卷积层中有太多的卷积核时(这通常意味着更多的冗余),网络训练会使卷积层形成特殊的空间几何结构,参数重要度评估方法将无法区分卷积核的重要度。Yolov4中卷积核的数目有很大的不同。最小的修剪层有32个卷积核,大部分有1024个卷积核。文章采用稀疏尺度因子的方法,避免了在冗余度较大的卷积层中,参数重要性评估方法无法有效区分卷积核的重要性的问题。

    6. 实验及分析

    实验使用KITTI和BDD数据集。KITTI数据集是自动驾驶研究中常用的数据集,BDD数据集是最新发布的自动驾驶数据集。KITTI数据集由7481张用于训练的图像和7518张用于测试的图像组成,其中包括汽车、自行车和行人三类。BDD数据集包括10个类,包括公共汽车、灯光、标识、人、自行车、卡车、摩托车、汽车、火车和骑手。构建多目标道路检测模型的目的是为了准确地检测出自然驾驶场景中的常见目标。因此,从100k图像中选取80k的标签图像,去掉火车的标注,将标签骑手、摩托车和自行车合并到标签骑手中。最后的训练集标签有七个类别:汽车、公共汽车、卡车、人、交通灯、交通标志和骑手。以70k图像作为训练集,10k作为验证集。实验在NVIDIA GTX 2080Ti上进行,环境为CUDA 10.0和cuDNN v10.0。

    下表比较了YOLOv4和建议的YOLOv4 - 5d的性能。

    0db4b5d4bf22652d3c0ebe3590168c7b.png

    下表比较了本文算法与其他方法对BDD测试集的性能。从表中可以看出,提出的YOLOv4 - 5d的 mAP提高了4.23%,可以实现实时检测,与52.3帧/s的YOLOv4相比速度略有差异。

    e92a540c7df1800705359536f89a626b.png

    最后采用基于通道的剪枝算法对YOLOV4-5D骨干网进行剪枝,并对简化模型进行微调,恢复模型的准确性。最终实验数据如下表所示。

    af82c6274cb9bba75f537c3f2b575d9f.png

    最后是检测结果的可视化,基线的检测结果和提出的算法在KITTI测试集上的表现如下图所示。

    5fb524ebdca6d2c91427830fe0b9b426.png

    7. 结论

    目标检测算法具有较高的检测精度和实时检测速度,对自动驾驶汽车的安全性和实时控制至关重要。然而,目前的研究还没有解决平衡检测精度和检测速度的问题。同时,普遍欠缺对小目标的检测能力。为了解决这些问题,文章提出了一种目标检测算法,该算法在自动驾驶的精度和速度之间达到了最佳的权衡。利用可变形卷积对骨干网络进行优化,提高了骨干网络对几何变对象的特征提取能力。将检测颈设计为PAN++,并引入附加层,融合语义信息和位置信息。扩大了网络检测头的最大检测规模。在原有的三个较小的检测尺度的基础上,增加了两个大规模的检测头用于小目标的检测。文章是在YOLOv4中第一次尝试用可变形的卷积来建模主干,并重新设计检测模块。因此,文章提出的YOLOV4-5D提高了自动驾驶中对小目标的检测。此外,文章还提出了一种优化的网络剪枝算法,以解决由于车载计算平台的计算资源有限,无法满足算法实时性的问题。利用稀疏尺度因子的方法对现有的通道剪枝算法进行了改进。与YOLOv4相比,YOLOv4 - 5d在BDD数据集上的平均AP提高了4.23%,在KITTI数据集上的平均AP提高了1.68%。最后,通过对模型进行裁剪,在几乎不影响检测精度的情况下,yolov - 5d的推理速度提高了31.3%,内存仅为98.1 MB。然而,该算法能够以超过66帧/s的速度进行实时检测度。因此,文章提出的算法最适合于自动驾驶应用。该算法对交通标志、交通灯、车辆、人的检测精度分别提高了5.31%、2.2%、2.13%、1.9%,证明了yolov - 5d在BDD数据集上比KITTI数据集具有更好的小目标检测精度。在不影响大目标检测精度的前提下,在支持实时操作的前提下,大大提高了交通标志、交通灯等小目标的检测精度。所得到的结果和对比分析验证了该算法在精度和检测速度上的权衡,适用于自动驾驶。

    8. Attention

    如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

    展开全文
  • 猪的代码matlab 行人检测 使用深度学习通过图像对自动驾驶汽车进行行人检测 这个项目是为了分析和学术提交而完成的。 所以它包含用于从图像中检测行人的 MATLAB 代码,使用 CNN 和 HOG 特征提取。
  • Papers ...2.我们提出了一种端到端模型,该模型可以预测未来的视频帧,并将预测的帧用作监督动作识别网络的输入,以预测行人何时会走在车辆前。 3.我们在未来帧预测和对JAAD数据集的行人未来穿越行

    Paper链接

    Looking Ahead: Anticipating Pedestrians Crossing with Future Frames Prediction

    1.Intro: contribute

    1.我们提出了未来的视频帧预测编码器/解码器网络,该网络以自监督的方式运行,以使用N个初始帧来预测视频的N个未来帧。
    2.我们提出了一种端到端模型,该模型可以预测未来的视频帧,并将预测的帧用作监督动作识别网络的输入,以预测行人何时会走在车辆前。
    3.我们在未来帧预测和对JAAD数据集的行人未来穿越行动的预测上均达到了最新的性能。
    4.我们进行了彻底的消融研究,结果表明模型组件在多种天气条件,位置和其他变量下均十分可靠,高效。
    

    2.Method

    2.1.Architecture:
    	我们的端到端模型包括两个阶段:第一阶段是一个自我监督的编码器/解码器网络,该网络生成预测的未来视频帧。 第二阶段是深度的时空行为识别网络,该网络利用生成的视频帧来预测行人的行为,特别是行人是否会在车辆前方越过。
    2.2.prediction component预测组件
    	2.2.1 N个连续的视频帧被输入到模型中,并且该模型预测了将来的N个帧。
    	2.2.2 图A是编码器/解码器架构的视觉表示。 编码器将帧的输入序列映射到具有不同分辨率的低维特征空间中。 解码器将输入帧的低维表示空间映射到输出图像空间。
    		  图B是4种convLSTMs层和残差操作结构示意图。
    
    	
    	编码器:编码器是由三维卷积层组成的时空神经网络。
    	   3D卷积建模跨帧的时间连接的空间关系和顺序关系。  N个RGB帧是编码器输入。 输入的大小为3×N×H×W。输出的特征图的时间长度与输入图像匹配。前两个图像下采样,最后一个是时分滤波器,捕获了输入序列的时间依赖性。
    	
    	解码器:解码器由convLSTMs层和上采样层组成。
    	编码器/解码器连接:横向跳过连接从编码器中相同尺寸的部分到解码器(图2中的绿线)交叉。 横向连接增加了可用输入帧的细节水平,从而有助于预测帧中的细节。
    

    2A
    A-在我们的方法中使用前N个视频帧(过去)作为输入来预测下N个视频帧(未来)的编码器/解码器网络的建议概述。

    2B
    B-在A中的体系结构中使用的4个不同的残差块。(a)和(b)是在编码器中使用的残差块。 (c)和(d)用于解码器。

    3. Pedestrian Action Prediction Component 行人行动预测组件

    	该模型的第二阶段包括一个经过微调的早期动作识别网络,即“时间3D虚拟网络”(T3D)。
    	该阶段预测行人是否会在场景中过马路。 从编码器/解码器产生的N个预测帧被输入到网络中。
    	T3D网络的最后一个分类层被完全连接的层替换,该层产生一个输出,然后进行S型激活。 对组件进行二进制交叉熵损失训练。
    

    4.Loss-Function

    	L[recog] = λ*L[pred] + L[ce](Y, ˆY)
    

    Lce是交叉行动分类的交叉熵损失,ˆY和Y是high-level预测和对应的groundtruth。
    Lpred是未来帧预测损失,即N个预测帧和N个ground truth帧的像素之间的逐像素损失。

    Lpred定义如下:
    在这里插入图片描述
    这里的P = H×W,为每帧像素数。 为了规范化,将l1和l2范数损失结合使用。

    5. Experiments 实验

    5.1 Data: JAAD
    5.2 model: 
    5.2.1 架构设计:对主要的编码器/解码器组件进行了实验操作,以测试多种架构设计。 层的数量,层的顺序以及层中的通道数量都不同。 
    在所有变化中,编码器输出保持不变,这是因为输入的空间尺寸始终被8降采样。在解码器中,始终使用convLSTM块-反卷积模式。
    5.2.2 超参数选择:(表1)对于每个选定的体系结构,随机采样了38个超参数设置。 每个参数设置都使用其在验证集上的平均像素方向预测误差来评估。
    
    Calibration parameterssearch space
    Spatial filter size of 3D Convs[3,5,7,11]
    Temporal dilation rate[1,2,3,4]
    Spatial filter size of sep-ConvLSTMs[3,5,7]
    Temporal filter size of 3D Convs[2,3,4]
    Temporal filter size of sep-ConvLSTMs[2,3,4]

    表1.编码器/解码器网络超参数和搜索空间。 注意:时间扩散率仅在编码器的最后一个块中实现

    5.3训练
    我们使用了[14]中介绍的相同的训练,验证和测试片段,这使我们可以直接比较我们的性能。  
    60%的数据用于培训,10%的数据用于验证,30%的数据用于测试。 将剪辑分为2N帧视频,时间跨度为1。
    将帧的大小调整为128×208,N =16。因此,模型输入为3×16×128×208。
    lr=1e-4
    

    6. Results

    JAAD 数据集上达到了SOTA,平均精度(AP)为86.7,比以前的最新技术[14]81.14AP有所提高。
    

    参考文献
    [14]P. Gujjar and R. Vaughan. Classifying pedestrian actions in advance using predicted video of urban driving scenes. In 2019 International Conference on Robotics and Automation (ICRA), pages 2097–2103. IEEE, 2019.

    Fin.

    展开全文
  • 自动驾驶中基于卷积神经网络的行人检测研究.pdf
  • 通过3D LiDAR融合在自动驾驶中促进基于CNN的行人检测
  • 自动驾驶汽车硬件系统概述.pdf 目前绝大多数自动驾驶研发车都是改装车辆,相关传感器加装到 车顶,改变车辆的动力学模型;改装车辆的刹车和转向系统,也缺乏 不同的工况和两冬一夏的测试。图中Uber研发用车是SUV车型自身...
  • 自动驾驶环境下的目标检测算法,YOLO算法等深度学习目标检测算法,目标的3D检测
  • 车辆(包括电动汽车)自动无人驾驶系统设计参考
  • 关于自动驾驶车辆的行人意图检测的介绍说明.rar
  • 0 智能驾驶自动驾驶深度感知技术对车和行人检测.docx
  • 针对基于图像数据的行人检测算法无法获得行人深度的问题,提出了基于激光雷达数据的行人检测算法。该算法结合传统基于激光雷达数据的运动目标识别算法和基于深度学习的点云识别算法,可以在不依赖图像数据的条件下...
  • 自动驾驶-YOLOV5目标检测

    千次阅读 2022-02-09 11:38:15
    type=float, default=0.45, help='IOU threshold for NMS') #设置GPU还是cpu,默认是GPU,如果没有gpu会自动选CPU parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') 3...
  • 主要的作用是泊车时,周围有人或物体经过探测区域被检测到给驾驶员声音和视觉提醒。 nissan 官网:​​​​​​Moving Object Detection (MOD) | Innovation | Nissan Motor Corporation Official Global Website ...
  • 车辆辅助驾驶系统中基于计算机视觉的行人检测研究综述
  • 同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测行人重识别、目标跟踪...
  • 推荐,waymo自动驾驶资料大全,包括相关专利资料和报告。 专利资料合集 1用于显示自动驾驶系统内部状态的用户界面 2具有多个光检测和测距设备的车辆(激光雷达) 3用于汽车雷达的2D紧凑型无功波束形成网络 4用于...
  • 自动驾驶场景要求(速度方面和检测速度方面) 汽车从运动到静止状态需要一个制动距离,为了安全起见,根据国际标准中制动距离的要求,一辆满载的小车在正常泊油路上以30K m/h的速度行驶,制动距离不得大于9米,若...
  • 自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战 原文地址:https://arxiv.org/pdf/1902.07830.pdf Deep Multi-Modal Object Detection and Semantic Segmentation for Autonomous Driving: Datasets, ...
  • 来源:小马智行第二场技术沙龙今天我主要想分享自动驾驶感知技术在探索的过程中,采用的传统方法和深度学习方法。传统方法不代表多传统,深度学习也不代表多深度。它们有各自的优点,...
  • 目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列一
  • 目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列一: 「本期划重点」 Mapillary推出最大、最多样化的公开交通标志数据集,覆盖全球六大洲 DTLD提供差值图像...
  • 多模态目标检测
  • 78使用激光雷达和相机进行自动驾驶的融合凸起路面标记检测 79用于车辆转向闪光灯音频和显示处理的技术 80情境感知路线和目的地预测 81用于激活车辆部件以提供车辆通道的车辆系统 82用于触发机动车辆中的紧急呼叫的...
  • 参见示例图片: 行人识别: 行人检测数据集ETHZ(146MB) 行人重识别数据集Market-1501(145.7MB) 该数据集包括了1501个行人,751个行人用于训练,有750个人用于测试,共有3368个图像。 测试集中有19732张图像,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,712
精华内容 3,884
关键字:

自动驾驶行人检测