精华内容
下载资源
问答
  • 深度学习研究综述学习 深度学习的发展背景     神经学的研究表明哺乳动物在接受到光刺激后,刺激信号由视网膜传到前额大脑皮质再到运动神经的过程中,大脑皮质并不是直接对刺激信号进行处理,...

    深度学习研究综述学习

    深度学习的发展背景

        神经学的研究表明哺乳动物在接受到光刺激后,刺激信号由视网膜传到前额大脑皮质再到运动神经的过程中,大脑皮质并不是直接对刺激信号进行处理,而是经过一个复杂的层状网络模型获取观测结果的规则。神经网络人员由此得到启发开始研究多层神经网络。但是由于这种模型下输入与输出并不是非线性映射关系,整个网络误差函数空间或能量函数空间是个含多个极小值的非线性空间,而搜索只能是朝着误差或者能量减小的方向,导致最终得到的结果只是局部最小值。这种特点会随着网络层数的增多而更加严重。所以传统机器学习只是一种仅仅含有单层非线性变换的的浅层学习网络。浅层结构的局限性在于对于单层网络结构假设设置d个计算节点,则对于多层网络结构则需要d的指数倍个计算节点进行计算。另外仍存在大量无法用浅层结构表达的函数类型。

    深度学习介绍

        深度学习网络具有多层非线性映射结构,可以完成复杂的函数逼近,并且对整个数据的特征信息进行分布式的表示,在多层学习算法中提取数据的主要特征,减少无关信息的影响的同时有效避免过拟合的问题。
        深度学习按照结构和技术应用的方式主要分为生成性深度结构、区分性深度结构以及混合型深度结构。生成性结构描述数据的高阶相关特性。区分性深度结构主要运用于模式分类,描述数据的后验分布。混合型结构是以区分模型作为目的,将生成结构用于模型的优化部分。

    • 生成性深度结构
      以DBN网络模型为例,网络可视层和隐层单元彼此互连(层内无连接),隐单元可获取输入可视单元的高阶相关性。相为了获取生成性权值,预训练采用无监督贪心逐层方式来实现。在训练过程中,首先将可视向量值映射给隐单元;然后可视单元由隐层单元重建;这些新可视单元再次映射给隐单元,这样就获取了新的隐单元。
      通过自底向上组合多个 RBM可以构建一个 DBN,应用高斯—伯努利 RBM或伯努利—伯努利 RBM,可用隐单元的输出作为训练上层伯努利—伯努利 RBM的输入,第二层伯努利和伯努利的输出作为第三层的输入等。
      DBN模型
    • 区分性深度结构
      例如CNN模型
    • 混合性深度结构
      混合型结构的学习分为两个部分,生成性结构部分与区分性结构部分。生成性结构部分主要用于权值和参数的优化,与区分性结构模型不同在于,它的初始参数和权值是通过生成模型预训练得到的,能够加速网络模型的收敛效果,对于区分的正确率也有一定的提升效果。

    引用

    孙志军, 薛磊, 许阳明, et al. 深度学习研究综述[J]. 计算机应用研究, 2012, 29(8):2806-2810.

    展开全文
  • 深度学习研究进展

    千次阅读 2020-11-12 22:12:14
    这本书讨论了研究人员最近使用的最先进的深度学习模型。 This book discusses the state-of-the-art deep learning models used by researchers recently. 详细讨论了各种深度架构及其组件。 Various deep ...

    这本书讨论了研究人员最近使用的最先进的深度学习模型。

    This book discusses the state-of-the-art deep learning models used by researchers recently. 

    详细讨论了各种深度架构及其组件。

    Various deep architectures and their components are discussed in detail.

    应用实例说明了用于训练具有快速收敛的深度体系结构的算法。

    Algorithms that are used to train deep architectures with fast convergence rate are illustrated with applications. 

    讨论了用于优化深度模型的各种微调算法

    Various fine-tuning algorithms are discussed for optimizing the deep models. 

    这些深度架构不仅能够学习复杂的任务,而且在某些专用的应用程序中甚至可以超越人类。

    These deep architectures not only are capable of learning complex tasks but can even outperform humans in some dedicated applications.

    尽管在这方面取得了显著的进展,但是训练具有大量超参数的深度结构是一个复杂且不适定的优化问题

    Despite the remarkable advances in this area, training deep architectures with a huge number of hyper-parameters is an intricate and ill-posed optimization problem.

    每一章的结尾都概述了各种挑战。

    Various challenges are outlined at the end of each chapter. 

    深度架构的另一个问题是,当大量数据用于训练时,学习是计算密集的。

    Another issue with deep architectures is that learning becomes computationally intensive when large volumes of data are used for training. 

    本书描述了一种迁移学习方法,可以更快地训练深度模型。

    The book describes a transfer learning approach for faster training of deep models. 

    在指纹数据集中演示了这种方法的使用

    The use of this approach is demonstrated in fingerprint datasets.

    本书分为八章:

    第一章首先介绍机器学习,然后介绍传统机器学习方法的基本局限性。介绍了深度网络,然后简要讨论了为什么要使用深度学习以及深度学习是如何工作的。

    The book is organized into eight chapters:

    Chapter 1 starts with an introduction to machine learning followed by fundamental limitations of traditional machine learning methods. It introduces deep networks and then briefly discusses why to use deep learning and how deep learning works.

    第二章致力于最成功的深度学习技术之一,即卷积神经网络(CNN)。本章的目的是让读者对卷积神经网络结构的各种组成部分进行深入而简单的解释。

    Chapter 2 of the book is dedicated to one of the most successful deep learning techniques known as convolutional neural networks (CNNs). The purpose of this chapter is to give its readers an in-depth but easy and uncomplicated explanation of various components of convolutional neural network architectures.

    第三章讨论了深度网络的训练和学习过程。本章的目的是为深度学习网络提供一个简单直观的反向传播算法解释,训练过程已经进行了简单明了的解释。

    Chapter 3 discusses the training and learning process of deep networks. The aim of this chapter is to provide a simple and intuitive explanation of the backpropagation algorithm for a deep learning network. The training process has been explained step by step with easy and straightforward explanations.

    第四章重点介绍了基于CNN的各种深度学习体系结构。它向读者介绍了这些体系结构的框图,讨论了这些深度学习体系结构是如何在解决先前深度学习网络局限性的同时发展起来的。

    Chapter 4 focuses on various deep learning architectures that are based on CNN. It introduces a reader to block diagrams of these architectures. It discusses how deep learning architectures have evolved while addressing the limitations of previous deep learning networks.

    第五章介绍了各种无监督的深度学习体系结构。概述了属于无监督范畴的体系结构和相关算法的基础知识。

    Chapter 5 presents various unsupervised deep learning architectures. The basics of architectures and associated algorithms falling under the unsupervised category are outlined.

    第六章讨论了监督式深度学习体系结构在人脸识别问题中的应用。本章比较了有监督深度学习体系结构与传统人脸识别方法的性能。

    Chapter 6 discusses the application of supervised deep learning architecture for face recognition problem. A comparison of the performance of supervised deep learning architecture with traditional face recognition methods is  provided in this chapter.

    第七章重点介绍卷积神经网络(CNN)在指纹识别中的应用。本章详细介绍了CNN的结构和优化提高性能的方法,并对自动指纹识别进行了详细的说明。此外,对深度学习和非深度学习方法进行了比较分析,以说明两者的性能差异。

    Chapter 7 focuses on the application of convolutional neural networks (CNNs) for fingerprint recognition. This chapter extensively explains automatic fingerprint recognition with complete details of the CNN architecture and methods used to optimize and enhance the performance. In addition, a comparative analysis of deep learning and non-deep learning methods is presented to show the performance difference.

    第八章介绍了如何将无监督深度网络应用于手写数字分类问题。阐述了如何在第一步进行无监督训练,第二步进行监督微调,通过两步构建深度学习模型。

    Chapter 8 explains how to apply the unsupervised deep networks to handwritten digit classification problem. It explains how to build a deep learning model in two steps, where unsupervised training is performed during the first step and supervised fine-tuning is carried out during the second step.

    完整资料领取

    展开全文
  • 三维点云深度学习研究综述

    千次阅读 2020-06-17 15:07:56
    三维点云深度学习研究综述 论文:Deep Learning for 3D Point Clouds: A Survey 作者:Yulan Guo 时间:2019-12 引言 动机:Point cloud learning (点云学习)由于在视觉、自动驾驶、机器人等方面的广泛应用,近年...

    三维点云深度学习研究综述

    论文:Deep Learning for 3D Point Clouds: A Survey

    作者:Yulan Guo

    时间:2019-12

    引言

    动机:Point cloud learning (点云学习)由于在视觉、自动驾驶、机器人等方面的广泛应用,近年来受到了广泛的关注。最近,随着点云的深度学习变得更加兴旺,人们提出了许多方法来解决这一领域的不同问题。为了促进未来的研究,本文对点云深度学习方法的最新进展进行了全面的综述。

    挑战

    1. 深度学习技术目前已经成为成功解决各种二维视觉问题的主流技术,点云的深度学习依然处于初级阶段。

    2. 深度神经网络处理点云所面临的独特挑战(例如数据集的小规模、高维和三维点云的非结构化性质)

    意义

    1. 第一篇全面涵盖几个重要点云相关任务的深度学习方法的调查论文,包括三维形状分类、三维目标检测和跟踪以及三维点云分割。
    2. 与现有的综述不同,特别关注3D点云的深度学习方法,而不是所有类型的3D数据
    3. 介绍了点云深度学习的最新进展。因此,它为读者提供了最先进的方法
    4. 提供了在几个公开可用数据集上现有方法进行的综合比较,并提供了简要总结和有洞察力的讨论

    论述的三个主要的任务

    1. 3D shape classification (三维形状分类)
    2. 3D object detection and tracking (三维对象检测和追踪)
    3. 3D point cloud segmentation (三维点云分割)

    三维点云深度学习方法的分类

    在这里插入图片描述

    2、3D Shape Classification

    介绍:这类的方法通常先学习 embedding of each point (每个点的嵌入),然后使用 aggregation method (聚合方法)从 whole point cloud (整个点云)中 extract a global shape embedding (提取全局形状嵌入) ,最终由几个全连接层来实现 classification (分类)。

    基于对每个点进行 feature learning (特征学习)的方式,现有的 3D shape classification methods (三维形状分类方法)可分为 projection-based networks (基于投影的网络)和 point-based networks (基于点的网络)。在本文中,我们主要关注基于点的网络,但也包括一些基于投影的网络以保证完备性。

    1. Projection-based methods :首先将一个 unstructured (非结构化)的点云投影到一个规则中间的表示中,然后利用成熟的2D或3D卷积来实现形状分类。
    2. point-based networks:基于点的方法直接作用于原始点云,而不需要任何体素化或投影。基于点的方法不会引入显式信息丢失,并且变得越来越流行。

    按时间顺序概述3D shape classification 的一些里程碑的方法
    在这里插入图片描述

    2.1 Projection-based Networks 基于投影的网络

    基于投影的网络将3D点云投影到不同的表示模式(例如,多视图、体积表示)中,以进行特征学习和形状分类。

    2.1.1 Multi-view representation 多视角表示

    这些方法首先将3D对象投影到多个 views (视图) 中并提取相应的 view-wise features(视域特征),然后融合这些特征以实现准确的对象识别。关键挑战是如何将多个 view-wise features 聚合到一个有识别力的全局表示 global representation 中。

    现有的一些方法

    1. MVCNN: 开创性的工作,只是简单地 max-pools multi-view features(多视图特征) into a global descriptor(全局描述符),但是max-pooling 仅保留特定视图中的最大元素,从而会导致信息丢失。
    2. MHBN: 通过协调双线性 pooling 来集成局部卷积特征(local convolutional features),以产生紧凑的全局描述符(global descriptor)。
    3. 首先利用关系网络(relation network)来发现一组视图上的相互关系(例如,区域-区域关系和视图-视图关系),然后聚集这些视图以获得可辨别的 3D object representation。
    4. ……

    2.1.2 Volumetric representation 体素表示

    1. 早期的方法通常使用建立在 3D point clouds (3D点云)的 volumetric representation(体表示:由称为体素的离散体组成)上的三维卷积神经网络(CNN)。
    2. Wu et al. 提出了一种卷积深度 belief-based 的3D ShapeNets,用于从不同形状的三维形状中学习点的分布。虽然已经取得了令人鼓舞的性能,但是这些方法不能很好地扩展到密集的3D数据,因为计算和内存占用随着分辨率的提高而成倍增长。
    3. 为此,引入了一种层次紧凑的图结构(如八叉树 octree )来降低这些方法的计算和存储开销。eg:OctNet、Octree-based CNN… 与基于dense input grids的 baseline network 相比,OctNet对高分辨率点云所需的内存和运行时间要少得多 。
    4. PointGrid的混合网络,该网络集成了点和网格表示,以实现高效的点云处理。

    2.2 Point-based Networks 基于点的网络

    根据用于每个点的特征学习的网络结构,这类方法可分为逐点MLP(pointwise MLP)、基于卷积(convolution-based)、基于图(graph-based)、基于数据索引的网络(data indexing-based networks)和其他典型网络。

    2.2.1 Pointwise MLP Networks

    这类方法使用多层感知器 MLP(Multi-Layer Perceptrons )对各个点进行独立的建模,接着使用对称的函数来集成到全局特征。对于无序的3D点云数据,这类网络可以得到置换不变性。然而这样的方法并未考虑到3D点之间的几何关系,如下图3。
    在这里插入图片描述
    作为先驱工作,PointNet 使用MLP学习Pointwise特征,接着使用最大池化层来提取全局的形状特征。最后的分类结果也使用MLP来得到。[26]也论证了,得到置换不变性的关键在于将所有表示(representations)加起来并且使用非线性变化。[26]也设计了基础的网络DeepSets来进行多种应用的实现,包括形状分类。

    由于特征是针对PointNet[5]中的每个点独立学习的,因此各个点之间的局部结构信息无法得到。[27]提出了一种分层次的网络PointNet++,从各个点之间的邻居来获取细粒度的几何特征。(PointNet++的核心,其abstraction level 由采样层(the sampling layer)、分组层(the grouping layer)和PointNet层三层组成。PointNet++通过堆叠多个abstraction level,可以从局部几何结构中学习特征,并逐层抽象局部特征。)

    因为PointNet的简单和有效性,许多工作都基于PointNet开展。(这里介绍了一些网络)

    2.2.2 Convolution-based Networks 基于卷积的网络

    与2D卷积相比,由于点云的不规则性,3D点云的卷积核更难设置。根据卷积核的不同,目前的3D卷积网络可以被分为连续卷积网络(continuous convolution networks )和离散卷积网络(discrete convolution networks),如下图所示。

    在这里插入图片描述

    3D Continuous Convolution Networks. 3D连续卷积网络

    这类方法在连续的空间中定义卷积核,其中邻居点的权重与它和中心点的空间分布有关。

    3D卷积可以解释为给定子集上的加权和。MLP是学习权重的一种简单方法。作为RS-CNN[35]的核心层,RS-Conv将某个点周围的局部子集作为其输入,使用MLP的方法来进行卷积,学习低维关系到高维关系的映射。

    一些方法还使用现有算法来执行卷积。在PointConv[38]中,卷积被定义为对重要性采样的连续3D卷积的蒙特卡洛估计。卷积核由加权函数(由MLP层学到)和密度函数(由核密度估计和MLP层学到)组成。为了提升内存和计算效率,3D卷积被简化成两部分:矩阵乘法和2D卷积,在相同的参数设置下,内存消耗可减小64倍。

    3D Discrete Convolution Networks. 3D离散卷积网络

    这类方法在标准的网格上定义卷积核,其中的邻居点的权重是其关于中心点的补偿(offset)。

    [49]将非归一化的点云变换至归一化的网格,接着在各个网格上定义卷积核。与2D卷积不同(在各个像素上分配权重),所提的3D卷积核在网格内的所有点赋予相同的权重。对于给定点,邻域内所有点(在相同网格上)的平均特征通过之前的层来计算得到。接着,所有网格的平均特征通过加权和产生当前层的输出。

    2.2.3 Graph-based Networks 基于图的网络

    基于图的网络将点云中的每个点视为图的一个顶点,并基于每个点的邻域来生成图的有向边。然后在空间域或谱域中执行特征学习[58]。典型的基于图的网络如图5所示。

    在这里插入图片描述

    Graph-based Methods in Spatial Domain 空间域中的基于图的方法 .

    这类方法在空间域中定义卷积和池化操作。卷积通过在空间邻域内的MLP实现,池化操作通过集成信息产生新的较粗的图。各个顶点的特征由坐标、激光强度、颜色来确定,各个边的特征由两个连接点的几何属性确定。

    作为先驱工作,[58]将各个点视为图的顶点,利用有向边将顶点与其邻域内的点相连,接着使用Edge-Condition Convolution(使用生成filter的网络得到,MLP等)。最大池化用来集成邻域信息,图的粗化使用VoxelGrid[59]算法得到。首先通过卷积和池化的相互交错,再跟着为全局平均池化和全连接层来产生分类score。

    Graph-based Methods in Spectral Domain 谱域中的基于图的方法.

    这些方法将卷积定义为谱的滤波,将其实现为图上的信号与图的拉普拉斯矩阵的特征向量的乘法。

    2.2.4 Data Indexing-based Networks 基于索引数据的网络

    这些网络基于不同的数据索引结构(例如,八叉树和kd-树)来构建。在这些方法中,点特征是沿着树从叶节点到根节点分层学习得到的。

    2.2.5 Other Networks

    除了上述方法外,还提出了许多其他方案

    表1:在ModelNet10/40基准上比较3D Shape Classification 结果,只关注基于点的网络(pointbased networks ),“#params”指的是相应模型的参数个数。“OA”表示 overall accuracy ,“MACC”表示表中的平均精度(mean accuracy )。符号‘-’表示结果不可用。
    在这里插入图片描述

    3、3D Object Detection and tracking

    3.1 3D Object Detection 物体检测

    与普通2D中目标检测方法类似,3D中的目标检测也可以分为两类:基于候选区域的方法和直接映射方法。

    3.1.1 Region Proposal-based Methods 基于候选区域

    首先产生一些可能包含物体的区域(Proposals),接着对各个区域提取特征,来决定各个候选区域的物体类别。

    根据不同的产生候选区域的方法,这些方法可进一步分为三类:基于多视角的方法(multi-view based);基于分割的方法(segmentation-based)以及基于锥体的方法(frustum-based methods)。

    Multi-view Methods 多视角的方法

    这类方法从不同的视角图像(雷达前景图(LiDAR front view),鸟瞰图(bird’s eye view (BEV) ),图像(image)等)中融合各个候选框的特征,来产生3D rotated boxes,如图7(A)所示。这些方法的计算成本通常很高。

    在[4]中,Chen等人从鸟瞰图BEV中产生一组准确的3D候选框,并且将其投影到其它视角中(雷达前景图,RGB图像),接着将各个区域的特征组合到一起,来预测有方向的3D bounding boxes。尽管这种方法在0.25IOU, 300个候选框设置时达到了99.1%的recall,但是速度非常慢。
    在这里插入图片描述

    后续的基于多视角的3D物体检测方法主要从以下两个方面来提升。

    • (1)提出了很多方法来有效的融合不同模态之间的信息
      • 为了针对小物体产生有较高recall的候选框,[97]提出了一种多模态的基于融合的区域生成网络( a multi-modal fusion-based region proposal network)。首先使用裁剪和大小调整操作从BEV视图和image视图中提取大小相等的特征,然后使用 mean pooling 对这些特征进行融合。具体而言,他们对BEV(鸟瞰视角)空间中的每个点提取最近的对应点的图image 特征,接着通过将image特征投影至BEV空间的方法,使用双线性插值得到稠密的BEV的特征图。实验结果证明稠密的BEV特征图比起离散的image特征图和稀疏的LiDAR(雷达激光)特征图更加适合3D物体检测。
      • [99]提出了多任务,多感知器的3D物体检测网络来进行端到端的训练。具体而言,利用多种任务(2D物体检测,背景估计 ground estimation,深度补偿 depth completion ),帮助网络学习到更好的特征表示。学习到的跨模态的表示,可进一步用来产生更准确的物体检测结果。实验证明这类方法在2D,3D,BEV detection 任务上有着非常好的提升,在TOR4D基准[100, 101]上超越了之前的SOTA。
    • (2)**其它的一些方法致力于提取输入数据更鲁棒的表示 representations **
      • [102]通过引入空间Channel注意力机制模块(Spatial Channel Attention (SCA) Module),探索了多尺度的环境信息,该模块可捕获全局的以及多尺度的场景环境,加强了有用的特征。同样的,他们还提出了一种 Extension Spatial Unsample (ESU) 模块,通过组合多尺度的低层特征来获得具有丰富空间信息的高层特征,从而生成更可靠的3D物体候选框 (proposals) 。尽管达到了更好的检测效果,但上述所提的多视角方法都需要较长的运行时间,因为他们对每个候选框都进行了特征的池化。因此,[103]使用了 预ROI池化卷积(pre-ROI pooling convolution)来提高[4]的效率。具体而言,他们将大部分的卷积操作移动到 RoI pooling 模块之前。因此,对于所有的物体候选框,ROI卷积只使用一次。实验结果显示这类方法可达到11.1fps, 速度达到了MV3D[4]的5倍。
    Segmentation-based Methods 基于分割的方法

    这些方法首先利用现有的语义分割技术去除大多数背景点,然后在前景点上生成大量高质量的候选框,以节省计算量,如图7(B)所示。
    在这里插入图片描述

    与刚刚的多视角Multi-view的方法[4],[97],[103]相比,这类方法达到了更好的物体recall,并且更适合一些目标高度遮挡和拥挤的复杂场景。

    [104]中,Yang et al使用了2D的分割网络来预测前景(foreground pixels)的像素并将其投影至点云中,以此来剔除掉多数的背景点。接着在这些前景点中生成候选框,并且设计了一种新的标准称之为PointsIoU来减少候选框的冗余性和模糊性。

    跟着[104]的脚步,[105]提出了PointRCNN的框架。具体而言,他们直接对3D点云进行分割,然后得到前景点,并且将语义特征和局部空间特征融合从而得到高质量的3D boxes。

    [106] following [105]中的RPN,提出了一种利用图卷积网络来进行3D物体检测。具体而言,利用图卷积,引入了两个模块来改进refine物体的候选框。第一个模块R-GCN利用一个候选框中的所有点,得到每个候选框的特征集成。第二个模块C-GCN将所有候选框中的每一帧信息融合起来,利用环境来回归准确的物体boxes。

    [107]将点云投影至基于图像 image-based 的分割网络的输出,并将语义预测值附加到这些点上。

    [109]得到了显著的性能提升,通过将涂色的点送入至一些检测器中[105, 108]。

    [110]将每个点与spherical anchor相关联,每个点的语义值用来移除多余的anchors。这样的方法得到了更好的recall以及有着更小的计算消耗。与此同时,文中提出了PointsPool层,对候选框中的内部点学习相容的特征(compact features),并且引入了并行的IoU来提高位置的准确度的检测性能。

    实验结果证实这样的方法在KITTI数据集[10]上较难的集合(car class)的性能比[99, 105, 111]的性能优越很多,并达到了12.5fps。

    Frustum-based Methods 基于椎体的方法

    这类方法首先利用现有的2D物体检测子,产生2D的候选矩形框,接着对每个2D的候选框提取3D的锥体候选框,如下图所示。尽管这类方法可以有效地给出3D物体的坐标,但step-by-step步进式的pipeline流水线使得它们的性能受到2D图像检测子的限制。
    在这里插入图片描述

    F-PointNets[112]为此类detection方向的先驱工作。它在每个2D区域上产生一个锥形的候选框(frustum proposal),并且应用PointNet[5] ( 或PointNet++[27] ) 来学习各个3D锥体的点云特征,从而进行3D box的估计。

    在随后的工作中,[113]提出了Point-SENet模块,来预测一系列的缩放因子,从而被用来突出有用特征和抑制无用特征。同时他们也将PointSIFT[114]模块集成至网络中,来获取点云的方向信息,其可以得到对形状尺度的强鲁棒性。该方法在[10], [115]的数据集上,与F-PointNets[112]相比得到了显著的提高。

    方法[116]利用了2D image 区域和对应的锥体点来回归3D boxes。为了融合image 特征和点云的全局特征,他们提出了全局的融合网络来直接回归box的角坐标。他们也提出了稠密的网络网络来预测各个点对于各个角的补偿(offsets)。

    [117]第一次从2D图像中估计2D的bounding boxes和3D物体姿态,提取多个几何上可行的对象候选。这些3D候选对象被送入至box 回归网络来预测准确的3D物体boxes。

    [111]对于各个2D区域,在锥体轴上产生一系列的锥体,并使用PointNet来对各个锥体提取特征。锥体层次的特征用来产生2D特征图,再被送入至FCN 全连接网络来估计3D box。该方法在基于2D图像的方法中达到了state-of-the-art的性能,并且在KITTI积分榜上排在很靠前的位置。

    [118]首先在鸟瞰图BEV上得到初步的检测结果,接着基于鸟瞰图的预测结果,提取小部分点的子集,再应用局部的微调网络来学习局部特征,预测高精度的3D bounding boxes。

    其他

    ……

    3.1.2 Single Shot Methods 直接映射

    这类方法使用单阶段的网络,直接预测类别概率和回归物体的3D bounding boxes。这类方法不需要产生区域候选框和后处理。结果是,这类方法有着很快的速度,很适合实时的应用。根据输入数据的形式,single shot方法可分为两类:基于鸟瞰图的方法基于点云的方法

    BEV-based Methods 基于鸟瞰图的方法

    这类方法将BEV表示作为输入。

    [100]将场景的点云离散化,使用FCN来预测物体的位置和航向角。该方法超越了大多数single shot 方法([125],[126],[127])并且达到了28.6fps。之后,[128]利用HP map(High-Definition 高清)提供的几何和语义先验信息,提高了[100]的鲁棒性和检测性能。

    Point Cloud-based Methods. 基于点云的方法

    这类方法将点云转换至一般的表示(例如2D map),接着使用CNN来预测对象的类别和3D boxes

    [125]提出了使用FCN进行 3D object detection 。他们将点云转换至2D point map,使用2D FCN来预测bounding boxes和物体的置信度。

    之后,[126]将点云离散化至4D的张量,其维度分别为:长度,宽度,高度和channel,接着将2D FCN的方法延伸至3D来进行3D的物体检测(object detection)。与[125]相比,基于FCN的3D方法达到了大于20%准确率的收益,但是由于3D卷积核数据的稀疏性,消耗了更多的计算资源。

    为了解决体素 voxels 稀疏性的问题,[127]利用了feature-centric voting scheme(特征为中心投票机制),为每个非空的体素生成一组的votes,最后通过将votes相加的方式得到卷积的结果。它的计算复杂度与被占据的体素数量成正比。

    [130]通过堆叠多个稀疏3D CNN,构建了3D的backbone网络。这样的设计节约了内存并且加速了计算。这个3Dbackbone网络提取了丰富的物体检测的3D特征,并且并未引入计算量的负担。

    [108]提出了基于体素的端到端的可训练框架VoxelNet。他们将点云分割成等间距的体素,将每个体素的特征编码成4D的张量。然后使用RPN(region proposal
    network)网络来产生检测结果(detection results)。尽管该方法效果很好,但由于体素的稀疏性和3D卷积操作,该方法运行速度很慢。之后,[120]使用了稀疏的卷积网络[134]来提高[108]的推断效率。

    [131]通过将图像和点云特征在早期融合的方式,扩展了VoxelNet的工作。具体而言,他们将[108]产生的非空体素投影至图像,使用预训练的网络对各个投影的体素提取图像特征。这些图像特征与体素特征相级联,来预测准确的3D boxes。这类方法利用了多模态的信息,来减少false postivies and negatives。

    [109]提出了3D物体检测子称为PointPillars。该方法利用了PointNet来学习点云的特征,将这些学到的特征编码伪图像(pesudo images)。然后使用2D的物体检测流水线(pipeline)来预测3D bounding boxes(边界框)。PointPillars在Average Precision(平均精度 AP)的指标上,超越了大多数的融合方法(MV3D[4], RoarNet[117], AVOD[97])。并且,PointPillars在3D和BEV KITTI benchmarks上达到了62fps。

    Other Methods

    [132]提出了一种有效的3D目标检测子称之为LaserNet。该方法在各个点上预测bounding boxes的概率分布,然后结合各个点的分布来产生最后的3D object boxes。接着,点云的dense range view representation (密集视图(RV)表示)作为输入,使用 fast mean-shift algorithm来降低逐点预测产生的噪声。LaserNet在0到50米的范围内实现了最先进的性能,其运行时间明显低于现有的方法。

    [133]扩展LaserNet以利用RGB图像提供的密集纹理(例如,50到70米)。具体来说,通过将3D点云投影至2D图像使得LiDAR点和image点关联,并利用这种关联将RGB信息融合到3D点中。他们还将3D语义分割作为辅助任务以learn better representations。该方法在保持LaserNet的高效率的同时,在长距离(例如50到70米)目标检测和语义分割方面都取得了显著的改进。

    3.2 3D Object Tracking 3D物体跟踪

    给定一个物体在第一帧时的位置,目标跟踪的任务是估计它在之后帧的状态。由于3D物体跟踪可以使用点云中丰富的几何信息,人们期待用它来克服在2D图像上追踪任务的困难,包括遮挡,光照以及尺度的变化。

    Siamese network……

    3.3 3D Scene Flow Estimation

    类似于2D视觉中的光流估计,已经有几种方法开始从点云序列中学习有用的信息(如三维场景流、空间临时信息)。

    [142]提出了FlowNet3D,在一系列连续点云中直接学习场景流(scene flows)。FlowNet3D通过flow embedding layer, 学习point-level的特征和运动特征(motion features)。然而FlowNet3D存在两个问题。第一,一些预测的运动向量(motion vectors)与真实值差别非常大;第二,很难将FlowNet应用至非静态的场景,尤其是有着可形变物体的场景。

    为了解决该问题,[143]引入了余弦距离的损失函数来最小化预测值与真实值之间的夹角。同时,他们提出了point-to-plane的距离损失函数,来提高刚性的和动态的场景的准确率。实验结果显示这两种损失函数将FlowNet3D的准确率从57.85%提升至63.43%,并且加速和稳定了训练过程。

    [144]提出了HPLFlowNet(Hierarchical Permutohedral Lattice FlowNet ),从大规模的点云中直接估计场景流。文中提出了一些bilateral convolutional layers来存储结构信息,同时降低计算消耗。

    为了有效地处理序列点云,[145]提出了PointRNN, PointGRU和PointLSTM,以及一个sequence-to-sequence model 来追踪移动点(moving points)。PointRNN, PointGRU和PointLSTM能够捕捉空间-时间信息,并且建模动态的点云。

    类似地,[146]提出了MeteorNet来直接从动态点云中学习表示。该方法试图从时间和空间上的邻近点学习总体特征。

    [147]提出了两个自监督的损失函数,在大量无标签的数据集上训练网络。他们的主要思想是:一种鲁棒的场景流估计方法应该在向前预测和向后预测时均有效。由于场景流标注不可用,预测得到的转换后的点的最近点,被当做是假想的真实值。然而,真正的真实值可能与它不同。为了避免这个问题,他们在相反的方向计算场景流,并且提出了cycle consistency loss。实验结果显示这种自监督的方法超过了现有自监督学习方法中的SOTA(state-of-the-art)性能。

    3.4 Summary

    KITTI基准是自动驾驶领域中最有影响力的,并且在学术和工业领域有着广泛的应用。表2和表3展示了不同方法在KITTI test 3D and BEV benchmark上的结果。
    在这里插入图片描述
    在这里插入图片描述
    可以观察到:

    • Region proposal-based methods 是最常见的方法,在KITTI test 3D, BEV上的性能均超出了single shot methods。
    • 现有的3D目标检测子(3D object detectors)有两个限制。第一,长范围的检测能力较弱。第二,如何充分利用图像中的纹理信息(texture information)仍然是个公开的问题。
    • 多任务学习( Multi-task learning)是在3D目标检测中未来的方向。例如,[99]通过合并多种任务,学习跨模态的表示来得到SOTA的检测效果。
    • 3D物体跟踪( 3D object tracking)和场景流估计(scene flow estimation)是较新的研究方向,自2019年来受到越来越多的关注。

    4、3D Point Cloud Segmentation

    3D点云分割既需要了解全局的几何结构,又需要了解每个点的细粒度细节。根据分割的粒度,3D点云分割方法可分为以下三类:语义分割(场景级 scene level))、实例分割(物体级 object level)和 part segmentation(part level)。

    4.1 3D Semantic Segmentation 3D 语义分割

    给定一个点云,语义分割的目标是,根据语义信息,将各个点分成一定的子集。与3D shape classification(第2节)的分类类似,语义分割可分为两种方法:基于投影的方法和基于点的方法。

    4.1.1 Projection-based Networks 基于投影的网络

    Intermediate regular representations(中间正则表示)可被分成以下几种:多视角(multi-view)表示[148], [149]、球状(spherical)表示[150], [151], [152]、体素(volumetric)表示[153], [154], [155]、超多面体晶格(permutohedral lattice )表示[156], [157]以及混合(hybrid)表示[158], [159]。具体可见下图。
    在这里插入图片描述

    4.1.1.1 多视角表示 Multi-view Representation

    [148]首先将3D点云从多个虚拟的相机视角投影至2D平面上,接着,使用 multi-stream FCN 对合成图像进行像素级分数预测。最终,通过融合不同视图上的重投影分数(re-projected scores )来获得每个点的最终语义标签。

    相似地,[149]首先利用多个相机位置,得到点云的一些RGB和深度图快照。接着使用2D segmentation networks ,对这些快照进行像素级的标注label,使用残差校正(residual correction)进一步融合从RGB和深度图像预测的分数。

    基于点云是从局部欧式曲面上采样得到的假设, [161]引入了tangent convolutions进行稠密的点云分割。该方法首先将各个点周围的局部曲面投影至虚拟的切平面。Tangent convolutions在曲面上直接进行。该方法具有很强的可扩展性,能够处理几百万个点的大规模点云。

    总的来说,多视角分割方法的性能对视角的选择(viewpoint selection)和遮挡(occlusions)非常敏感。同时,这类方法并未能完全利用潜在的几何和结构信息,因为投影操作不可避免地引入了信息损失。

    4.1.1.2 球状表示 Spherical Representation

    为了得到更快更准确的3D点云分割,[150]提出了基于SqueezeNet和条件随机场(Conditional Random Field (CRF))的端到端的网络。

    为了进一步提升分割准确率,引入了SqueezeSegV2[151],通过使用无监督的domain adaptationpipeline 解决domain shift 问题。

    [152]提出了RangeNet++,针对LiDAR点云进行实时语义分割。首先将2D深度图像的语义标签转移至3D点云上,然后使用基于KNN的后处理步骤来减缓离散化误差和推理输出模糊的问题。

    与单一的视角映射相比,球映射保持了更多的信息,并且更适合激光雷达(LiDAR)点云的标注。然而,这样的中间表示不可避免地引入了一些问题,比如离散化误差和遮挡问题。

    4.1.1.3 体素表示 Volumetric Representation

    [163]首先将点云分成一系列占有的体素(occupancy voxels)。接着将这些中间数据送入至fully-3D CNN中进行体素级别的segmentation。最后,为一格体素(a voxel)内的所有点分配与该体素相同的语义标签label。该方法的性能极其受限于体素粒度(granularity of the voxels )和点云分割引起的边界伪影(boundary artifacts)。

    之后,[164]提出SEGCloud来得到更细粒度和全局一致(global consistent)的语义分割。该方法引入了确定性的三线性插值,将由3D-FCNN产生的粗糙的体素预测映射回点云中,接着使用Fully Connected CRF,确保推测出的点云有着空间上的一致性。

    [153]引入了一种基于核的变分自编码器结构,对每个体素内部的局部几何结构进行编码。这里摒弃了binary occupancy representations, 使用RBF得到连续的表示,并捕获到每个体素中点的分布。再使用VAE将各个体素中的点分布映射至紧凑的隐空间,最后使用CNN得到鲁棒的特征表示。

    良好的可扩展性是体素表示中的优点之一。具体而言,基于体素的网络(volumetric-based networks)可以在不同空间大小的点云中自由训练和测试。在Fully-Convolutional Point Network(FCPN)中,首先从点云中提取出来不同级别的几何相关性,再使用3D卷积和加权的average pooling 来提取特征、合并依赖关系。该方法可处理大规模的点云,并且在推断时有着良好的尺度扩展性质(scalability)。

    [166]提出了ScanComplete来实现3D补全,以及对各个体素进行语义标注。该方法利用了全卷积网络(fully-convolutional neural networks)的尺度扩展性(scalability),在训练和测试阶段可以适应不同大小的输入数据。使用从粗到细的策略来提高预测结果的分辨率。

    很自然地,体素表示是稀疏的,其中非零元素的数量仅仅占很小一部分。因此,在空间上稀疏的数据使用稠密的卷积网络是比较无效的。为此,[155]提出了子流形的稀疏卷积网络( submanifold sparse convolutional networks)。该方法通过限制卷积的输出只能与被占据的体素有关,从而显著降低了内存和计算成本。同时,该稀疏卷积还可以控制提取出的特征的稀疏性。该子流形稀疏卷积很适合处理高维度且空间较稀疏的数据。

    更进一步,[167]提出了一种用于三维视频感知的4D时空卷积神经网络(4D spatio-temporal convolutional neural network)“Minkowski Net”。

    综上所述,体素表示很自然地保留了3D点云的邻域结构。其规范的数据形式还允许直接应用标准3D卷积。这些因素导致了该领域性能的稳步提高。然而,体素化的过程内在地引入了离散化的伪影和信息损失。通常,高分辨率会导致较高的内存和计算消耗,低分辨率引入了信息的损失。在实际中如何选择合适的网格分辨(grid resolution)率是non-trivial(不平凡的)的。

    4.1.1.4 超多面体晶格表示 Permutohedral Lattice Representation

    [156]提出了基于双边卷积层(Bilateral convolution layers -BCLs)的稀疏晶格网络(Sparse Lattice Networks -SPLATNet)。该方法首先将原始点云插入至超多面体稀疏晶格(permutohedral sparse lattice),再使用BCL对占据的部分进行卷积。得到的输出再重新插回原始点云。此外,该方法还允许灵活地联合处理多视图图像和点云。

    更进一步,[157]提出了LatticeNet来实现有效的处理大规模点云。还引入了与数据相关的插值模块 DeformsSlice,将格点要素(lattice feature)反投影到点云中

    4.1.1.5 混合表示 Hybrid Representation

    为了进一步利用所有可用信息,许多方法试图学习多模态特征(multi-modal features )。

    [158]提出了joint 3D-mult-view网络,来组合RGB 特征和几何特征。一个3D CNN stream 和一些2D CNN stream用来提取特征,另一个可微分的back-projection layer用来合并3D和2D特征。

    更进一步,[168]提出了unified point-based network来学习2D纹理信息,3D结构和全局特征。该方法直接应用基于点的网络(point-based networks)来提取局部几何特征和环境信息。

    [159]提出了Multiview PointNet(MVPNet)来集成2D多视角特征和空间几何特征。

    4.1.2 Point-based Networks 基于点的网络

    基于点的网络直接在点云上进行操作。然而,点云通常是无序且无结构的,使得直接应用标准的CNN不现实。为此,先驱的工作PointNet[5]用来对每个点进行特征学习,使用的是标准的MLP和全局特征。基于PointNet,一系列基于点的网络被提出。总体而言,这类方法可大致分为以下几类:基于各个点的MLP方法(pointwise MLP method),基于点卷积的方法(point convolution methods),基于RNN的方法(RNN-based methods)和基于图的方法(graph-based methods)。

    4.1.2.1 Pointwise MLP Methods

    这类方法通常利用共享的MLP作为网络中的基本单元。然而,由共享MLP提取出的各个点上的特征,并不能获取到点云中的局部几何关系( local geometry),以及点与点之间的关系(mutual interactions)[5]。为了获取各个点周围更广泛的信息,以及学习到更丰富的局部结构(local structures),有很多方法被提出,包括基于邻近点特征池化的方法(methods based on neighboring feature pooling),基于注意力机制的集成(attention-based aggregation)以及局部-全局的特征级联( local-global feature concatenation)。

    Neighboring feature pooling

    为了获取局部的几何形式,这类方法通过将局部邻域点集成的方式,对各个点学习特征。具体而言,PointNet++[27]将点分层次,逐步地分成一些组,如下图所示。多尺度的grouping和多分辨率的grouping来克服点云多样性造成的问题。

    在这里插入图片描述

    之后,[114]提出了PointSIFT模块来实现方向的编码和scale awareness。该模块通过使用3阶段的有向的卷积操作,将8个空间方向的信息堆叠并且编码,将多尺度的特征提取并级联来实现对不同尺度的适应性。

    与PointNet++中使用GROUPING的方法不同,[169]利用K-Means聚类和KNN的方法在世界空间和特征空间定义两种邻域。基于这样的假设:来自于同一类的点在特征空间中应当接近,该论文提出了pairwise distance loss and a centroid loss来对特征学习进行正则。

    为了建模点与点之间的相互关系,[31]提出了PointWeb来寻找局部区域内所有点对之间的关系。[170]提出了置换不变性的卷积称之为Shellconv。[95]提出了有效、轻量的网络称为RandLA-Net实现大规模的点云处理。该方法利用随机样本采样,在内存和计算方面提升很多。提出的局部特征集成用来获取和保持几何特征。

    Attention-based aggregation

    为了进一步提升分割的准确率,[90]针对点云分割,提出了基于注意力的机制。

    [29]提出了组随机注意力机制(group shuffle attention)来建模点之间的关系,并且提出了具有置换不变性、task-agnostic以及可微分的Gumbel Subset Sampling(GSS) ,来替代被广泛应用的Furthest Point Sampling(FPS)最远点抽样方法。该方法对离群点不敏感,并且可以选择具有代表性的点的子集。

    为了更好地获取点云的空间分布,[171]提出了Local Spatial Aware(LSA)层来学习空间感知权重。

    与CRF类似,[172]提出了Attention-based Score Refinement(ASR)模块对分割的结果进行后处理。初始分割结果通过pooling的方式进行修正。该模块很容易被集成至其他的深度网络中来提升分割效果。

    Local-global concatenation

    [85]提出了置换不变性的PS2-Net,将点云的局部结构(local structures)和全局信息(global context)合并。重复叠加Edgeconv[60]与NetVLAD[173],以获取局部信息和场景级别的全局特征(scene-level global features)。

    4.1.2.2 Point Convolution Methods 点卷积法

    这类方法通常试图提出在点云上进行更有效的卷积操作。

    [49]提出了一种逐点卷积算子,其中邻域点被合并至kernel cell,然后与核权重进行卷积。

    [174]提出了称之为PCCN的网络,该网络基于参数化的连续卷积层。该层的核函数由MLP参数化,横跨连续向量空间。

    [42]提出了Kernel Point Fully Convolutional Network(KP-FCNN),基于Kernel Point Convolution(KPConv)。具体而言,KPConv的卷积权重由欧式空间的距离决定,卷积核的点数(number of kernel points)也并不固定。卷积核点(kernel points)的位置由一个最优化问题确定。

    在[175]中,作者提供了丰富的消融实验(ablation experiments)和可视化结果展示了集成方法中,感受野的重要性。同时他们提出了Dilated Point Convolution(DPC)操作,来集成邻近点的特征,进而取代KNN(K nearest neighbours)的方法。该方法在提升感受野(the receptive field)上非常有效,并且可以容易地集成至 aggregation-based networks。

    4.1.2.3 RNN-based Methods

    为了从点云中获取固有的上下文特征(context features ),RNN也被用来进行点云的语义分割。

    基于PointNet[5], [180]首先将一大块点云转换成多尺度的块和网格块来获取输入级别的环境。接着,使用PointNet对各个块提取特征并送入Consolidation Units 或Recurrent Consolidation Units来获取输出级别的环境信息。实验结果显示,这样处理空间环境信息的方法在提高分割性能时是很重要的。

    [179]提出了一种轻量的模块,利用了slice pooling layer将无序的点云特征转换成有序的特征向量。

    [181]提出了Pointwise Pyramid Pooling (3P)模块来获取从粗到细的局部特征,并利用双向的RNN来实现端到端学习。然而这类方法损失了丰富的几何特征和密度分布[189]。

    [189]提出了Dynamic Aggregation Network(DAR-Net)来同时考虑全局场景复杂度和局部几何特征。

    [190]提出了3DCNN-DQN-RNN。该网络首先使用3DCNN学习空间分布和颜色特征,使用DQN进一步定位类别物体。最后级联的特征向量送入RNN中获取最后的分割结果。

    4.1.2.4 Graph-based Methods 基于图的方法

    为了获取3D点云中潜在的形状和几何结构,一些方法使用了图神经网络(graph networks)。

    [182]将点云看做是一些相连的简单形状和超点(Superpoint)的集合,并且使用属性有向图(attributed directed graph)(即超点图 superpoint graph )获取结构和环境信息。接着,将大规模的点云分割问题分成三个子问题,即,geometrically homogeneous partition(几何均匀划分), superpoint embedding(超点嵌入) and contextual segmentation(上下文分割).

    为了进一步提升,[183]提出了有监督的框架,来 oversegment a point cloud into pure superpoints(将点云过度分割为纯超点)。

    为了更好地获取高维空间中的局部几何关系,[191]提出了基于Graph Embedding Module(GEM) 和 Pyramid Attention Network(PAN)的网络PyramNet。GEM模块将点云表述为有向无环图,并且在构建相似度矩阵时,利用协方差矩阵代替欧式距离。在PAN模块中,使用4个不同尺寸的卷积核来提取特征。

    在[184]中,提出Graph Attention Convolution 用来从局部相邻集合中有选择性地学习相关特征。

    4.2 Instance Segmentation 实例分割

    与语义分割 semantic segmentation 相比,实例分割更具有挑战性因为它需要更准确和更小的细粒度,具体而言,他不仅需要将有着不同语义的点分辨出来,还需要将有着相同语义的实例 (instance )分出来。总体而言,目前的方法可分为两个方向:基于候选框的方法(proposal-based)以及不需要候选框的方法(proposal-free)。一些里程碑式的方法具体见下图。

    (按时间顺序概述了典型的三维点云实例分割方法)

    在这里插入图片描述

    4.2.1 Proposal-based Methods 基于候选框

    这类方法将实例分割问题分成两个子任务:3D物体检测(3D object detection )和实例mask的预测(instance mask prediction)。

    [192]提出了3D fully-convolutional Semantic Instance Segmentation (3D-SIS) network,来实现在RGB-D数据上的语义实例分割。该网络从颜色和几何中学习特征。与3D object detection 类似,3D Region Proposal Network(3D-RPN)和 3D ROI layer用来预测bounding box的位置,物体类别和instance mask。

    根据合成分析策略,[193]提出了Generative Shape Proposal Network(GSPN)来产生3D候选框。这些候选框再通过R-PointNet修正。最终的标签通过预测各个点的二进制mask来得到。与直接从点云数据回归三维边界框不同,该方法通过加强几何理解,去除了大量无用的候选框。

    通过将2D全景分割( 2D panoptic segmentation)扩展到3D映射,[194]为实现大规模三维重建(3D reconstruction)、语义标注(semantic labeling)和instance segmentation,提出了一种在线三维映射系统(oneline volumetirc 3D mapping system)。该方法首先利用2D语义和实例分割网络来获得像素级的全景标签(panoptic labels ),然后将这些标签整合到 volumtric map 上。进一步使用全连接的CRF来实现准确的分割,该语义映射系统能够实现高质量的语义映射( semantic mapping)和具有判别性的目标检测(object recognition)。

    [195]提出了单阶段的,不需要anchor的端到端可训练网络—3D-BoNet,来实现点云上的 instance segmentation。该方法对所有可能的instance 直接回归大致的3D bounding boxes,接着利用点级别的二分类器(binary classifier)来获取实例标签。特别地,该 bounding box generation task是被当做是最优分配问题。同时,使用了multi-criteria 损失函数来正则化生成的bounding boxes。该方法不需要任何的后处理操作,并且有很高的计算效率。

    [196]提出了针对大规模户外LiDAR点云进行instance segmentation的网络。该方法使用self-attention blocks,在点云的鸟瞰图上学习特征表示(feature representation),根据预测的水平中心和高度限制获得最终实例标签(instance labels)。

    总的来说,基于候选框的方法较为直观,并且实例分割的结果通常较好。然而该方法需要多阶段的训练并且需要对多余候选框进行裁剪。因此通常都需要更多的时间和计算资源。

    4.2.2 Proposal-free Methods 不需要候选框

    不需要候选框的方法[197-202]并没有目标检测的模块( object detection module)。作为替代的是,他们通常将instance segmentation 认为是semantic segmentation (语义分割)后的聚类步骤。具体而言,需要现有的方法都基于这样的假设:属于同一实例的点应当有着相似的特征。因此这类方法通常聚焦于判别式的特征学习(discriminative feature learning)和点云聚类(point grouping)。

    ……

    总体而言,不需要候选框的方法不需要耗费资源的区域生成步骤。然而,因为该方法不检测物体的边界,导致该方法的准确率较低。

    4.3 Part Segmentation

    零件分割(part segmentation of 3D shapes)的主要困难来自于两方面。第一,有相同语义标签( semantic label)的部件(shape parts)有着较大的几何变化和不确定性;第二,该方法需要对噪声和采样具有鲁棒性。

    [208]提出了VoxSegNet,在3D体素数据上来实现细粒度的零件分割。

    [209]将FCN与surface-based CRF组合,实现端到端的3D 零件分割。他们首先从不同的视角产生图像来实现optimal surface coverage,并将这些图片送入至2D网络产生置信图。接着,使用surface-based CRF 将置信图集成起来,用来对整个场景打标签。

    [210]引入了Synchronized Spectral CNN(SyncSpecCNN),在不规则非同构形状图上实现卷积。

    [211]通过引入Shape Fully Convolutional Networks(SFCN),在3D网格上实现了形状分割,并且将三种低层次的几何特征作为输入。接着利用基于投票的多标签graph cut来修正分割结果。

    [212]提出了弱监督的CoSegNet进行3D形状分割。该网络将一些未分割的3D点云形状作为输入,接着通过最小化group consistency loss,产生形状零件的标签。与CRF类似,预训练的part-refinement网络用来修正并且去噪。

    [213]提出了Branched Auto-encoder network(BAE-NET)用来unsupervised ,one-shot和weakly supervised 3D shape co-segmentation。

    4.4 Summary

    下表展示了已有方法在公开数据集上的结果,包括:S3DIS[176], Semantic3D[9], ScanNet[102]和SemanticKITTI[177].
    在这里插入图片描述

    接下来这些问题需要进一步的探索。

    • Point-based networks 是最常见的方法。然而,点的表示通常没有明确的邻域信息,现有的大多数基于点的方法不得不求助于昂贵的邻域搜索机制(KNN, ball query)。这自然地限制了这类方法的有效性,因为邻域查找方法需要很高的计算资源和内存。
    • 在 point cloud segmentation 中,从不平衡的数据中学习仍然是具有挑战性的问题。尽管许多方法[42], [170], [182]达到了不错的结果,但性能在较小类别的数据上仍然较差。
    • 大多数的方法[5], [27], [52], [170], [171]在较少点的点云上进行(4096)。实际上,从深度sensor上得到的点云是非常稠密的。因此需要寻求处理大规模点云的有效分割方法。
    • 一些工作[145], [146], [167]开始在动态点云中学习空间-时间的信息,期望时空信息能够帮助提高后续任务(如3D对象识别[3D object recognition]、分割[segmentation]和补全[completion])的性能。

    5、CONCLUSION

    本文章提出了当前针对3D understanding的一些SOTA方法,包括3D shape classification ,3D object detection & tracking以及3D scene and object segmentation。对这些方法进行了全面的分类和性能比较。文中还介绍了各种方法的优缺点,并指出了可能的研究方向。

    参考:

    1

    展开全文
  • 一、本篇介绍 二、本文主要内容(知识点) ...篇名:深度学习研究进展 作者:郭丽丽,丁世飞 作者单位:中国矿业大学 计算机科学与技术学院 发表在:计算机科学,2015年5日 二、本文主要内容(知...

    一、本篇介绍

    篇名:深度学习研究进展
    作者:郭丽丽,丁世飞
    作者单位:中国矿业大学 计算机科学与技术学院
    发表在:计算机科学,2015年5日

    二、本文主要内容(知识点)

    1、历史与发展

    机器学习的发展经历了浅层学习和深度学习两次浪潮。
    深度学习可以理解为神经网络的发展。
    神经网络是对人脑或生物神经网络基本特征进行抽象和建模,可以从外界环境中学习,并以与生物类似的交互方式适应环境。
    人的视觉系统的信息处理是分级的,从低级的V1区提取边缘特征,到V2区的形状,再到更高层。
    人类大脑在接收到外部信号时,不是直接对数据进行处理,而是通过一个多层的网络模型来获取数据的规律。这种层次结构的感知系统使视觉系统需要处理的数据量大大减少,并保留了物体有用的结构信息。

    2、经典算法

    1. 监督学习

    多层感知机(Multilayer Perceptron)
    卷积神经网络(Convolutional Neural Networks,CNNs):CNNs是第一个真正成功地采用多层层次结构网络的具有鲁棒性的深度学习方法,通过研究数据在空间上的关联性,来减少训练参数的数量。

    2.无监督学习

    深度置信网(Deep Belief Nets,DBNs):分为可视层即输入数据层(v)和隐藏层(h),每一层的节点之间没有连接,但层和层之间彼此互连。相比传统的sigmoid信念网络,RBM易于连接权值的学习。
    自动编码器(Auto Encoders)
    去噪自动编码器(Denoising Autoencoders)
    稀疏编码(Sparse Coding)

    3、BP算法的缺点

    第一,BP算法是监督学习,训练需要有标签的样本集,但实际能得到的数据都是无标签的。
    第二,BP算法在多隐层的学习结构中,学习过程较慢;第三,不适当的参数选择会导致局部最优解。

    4、研究近况

    2010年提出的一种新颖的半监督学习算法即判别深度置信网(Discriminative Deep Belief Networks,DDBNs),被成功地应用到可视化数据分类。
    2013年国内学者又开发了一种半监督学习算法,称为卷积深度网络(Convolutional Deep Networks,CDN),用来解决深度学习中图像的分类问题。
    孙志军等在预训练阶段采用非监督正则化,并利用边际Fisher准则进一步约束提取的特征,提出了基于深度学习的边际Fisher分析特征提取算法DMFA(Deep Marginal Fisher Analysis),其提升了识别率。
    活跃深度网络(Active Deep Network,ADN)的半监督学习算法,用来解决在标记数据不足的基础上进行情感分类的问题。
    斯担福大学的研究生Richard Socher和Andrew Ng(Google深度学习项目工程师之一)等人共同研究开发了一个深度学习的新算法,即Neural Analysis of Sentiment(NaSent)

    5、应用

    语音是神经网络最早的应用之一,2010年前后,微软和Google的语音组都招聘了Hinton教授的学生去实习,他们用深度学习去学习语音信号里的特征并进行声学模型建模,最后在标准数据集TIMIT上取得了很好的效果。
    2006年深度学习被提出开始,其在目标识别领域的应用主要集中在MNIST手写图像问题上,并打破了SVM在这个数据集的霸权地位
    2010年,微软雷德蒙研究院的DengLi博士与Hinton发现深层网络可显著提高语音识别的精度。微软亚洲研究院进一步深化这项成果,建立了一些巨大的深度神经网络(deep neural networks,DNN),这是语音识别研究史上最大的同类模型。
    2012年11月,微软在中国天津演示了一个全自动同声传译系统,其后面支撑的关键技术是DNN。
    2012年6月《纽约时报》报道了谷歌的Google Brain项目。指导思想是将计算机科学与神经科学相结合,这是在人工智能领域从来没有实现过的。
    2013年1月,在百度的年会上,创始人兼CEO李彦宏宣布要成立百度研究院,其中第一个重点方向就是深度学习,并为此而成立Institue of Deep Learning(IDL),这是百度成立10多年以来第一次成立研究院。
    2013年4月,MIT Technology Review杂志将深度学习列为2013十大突破性技术之首。
    2013年10月据国外媒体报道,Facebook正在试图通过启用称作Deep Learning的新的人工智能技术来帮助理解它的用户和相关数据。

    三、具体创新

    本文属于综述,没有具体创新点。

    四、心得感想

    前面已经看过3篇关于CNN的综述,这是第四篇,目前准备把之前没有看多少的人工智能的视频课看了,一边实操学技术,一遍看论文了解领域。

    五、专业词汇的学习:

    shallow learning 浅层学习
    Back Propagation算法 反向传播算法(BP算法)
    Multilayer Perceptron 多层感知机
    Deep Belief Nets 去噪自动编码器(DBNs)
    Sparse Coding 稀疏编码
    Deep Convex Network 深凸网络(DCN)
    Deep Marginal Fisher Analysis 边际Fisher分析特征提取算法(DMFA)
    Active Deep Network 活跃深度网络(AND)

    另:一些说明
    1、本博客仅用于学习交流,欢迎大家瞧瞧看看,为了方便大家学习,相关论文请去知网等地方自行下载。
    2、如果原作者认为侵权,请及时联系我,我的qq是244509154,邮箱是244509154@qq.com,我会及时删除侵权文章。
    3、我的文章大家如果觉得对您有帮助或者您喜欢,请您在转载的时候请注明来源,不管是我的还是其他原作者,我希望这些有用的文章的作者能被大家记住。
    4、最后希望大家多多的交流,提高自己,从而对社会和自己创造更大的价值。

    展开全文
  • 苹果叶片病害识别中的深度学习研究 1、研究内容 基于DenseNet-121深度卷积网络,提出了回归、多标签分类和聚焦损失函数3种苹果叶片病害识别方法。 2、数据集介绍 用于识别的图像数据集来源于Aichalenger-Plant-...
  • 深度学习研究综述

    万次阅读 2016-12-26 20:12:01
    本文是对深度学习的简单综述。
  • 面向医学图像分析的深度学习研究方案 这是一篇有关“深度学习在医学图像处理方面”的研究报告的第一节,主要包含研究对象,常用方法,深度学习简介,研究现状,研究重点。 在撰写报告时,我找到了两篇 Deep ...
  • 该文档来自于AMD中国研究院研究员谷俊丽,在2014中国大数据技术大会大数据技术分论坛的演讲“基于开发标准OpenCL的深度学习研究与探索”。
  • 深度学习研究理解6:OverFeat

    千次阅读 2016-04-08 13:43:58
    深度学习研究理解6:OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks  本文是纽约大学Yann LeCun团队中Pierre Sermanet ,David Eigen和张翔等在13年撰写的一篇...
  • 深度学习研究思路

    2019-04-18 15:14:12
    研究思路 一、数字图像 基础研究 图像的文件格式:图片有常见的bmp,jpg,png,等。三种图像之间的差别: 位图和矢量图区别;矢量图又叫向量图,是用一系列计算机指令来描述和记录一幅图,一幅图可以解为一系列由点、线...
  • 深度学习研究和进展

    千次阅读 2017-01-27 11:22:04
    2006年,Hinton提出深度置信网络(DBN),成为深度学习的主要框架 然后,此算法的高效性由Bengio实验验证成功2.深度学习的3类模型2.1 生成深层模型 以DBN为代表详细介绍。DBN模型是一种深层混合网络,以RBN为基本...
  • 注:本博客内容摘抄自微博:爱可可-爱生活,链接:...【斯坦福大学面向Tensorflow深度学习研究课程(2018)】《CS 20: Tensorflow for Deep Learning Research - Stanford University》by Ch
  • 深度学习研究

    千次阅读 2014-05-08 22:51:49
    Some labs and research groups that are actively working on deep learning: University of Toronto - Machine Learning Group (Geoff Hinton, Rich Zemel, Ruslan Salakhutdinov, Brendan Frey, Radford ...
  • 本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验室最近两年内和深度学习相关的研究成果,并探讨了深度学习的未来趋势。 深度学习的近十年进展 深度学习为什么现在这么火?大数据、算法突破和计算...
  • 在本节中,我们回顾了在各个研究领域进行深度学习的挑战和机会,并在可能的情况下回顾将深度学习应用于这些问题的研究(表1)。我们首先回顾了生物标志物开发的重要领域,包括基因组学,转录组学,蛋白质组学,结构...
  • 课程笔记1:介绍TensorflowCS20SI:深度学习研究中的Tensorflow(cs20si.stanford.edu) 由Chip Huyen编写(huyenn@stanford.edu) 评论者:Danijar Hafner,Jon Gautier,Minh-Thang Luong,Paul Warren1 ...
  • T2T 是一个用于在 TensorFlow 中训练深度学习模型的开源系统。
  • 本文的主要贡献如下: •据我们所知,本文首次对自主驾驶中基于深度学习的图像和点云融合方法进行了研究,包括深度完成、动态和静态目标检测、语义分割、图像融合、图像融合、点云融合等,跟踪和在线交叉传感器校准...
  • 因此,这篇论文的作者提出一种新型算法,可以自动解析论文,提取文中描述的深度学习模型设计,并生成 Keras 和 Caffe 可执行源代码,在模拟数据集上的实验表明该框架对流程图内容提取的准确率达到了 93%。...
  • 版权说明:本文为原创文章,未经作者允许不得转载。 1 前言 ...这基本上意味着一个新的DeepMind公司诞生,只不过这次OpenAI是一个非营利性的研究机构,不属于任何大公司。 为什么要了解OpenAI?
  • 课程笔记1:介绍TensorflowCS20SI:深度学习研究中的Tensorflow(cs20si.stanford.edu) 由Chip Huyen编写(huyenn@stanford.edu) 评论者:Danijar Hafner,Jon Gautier,Minh-Thang Luong,Paul Warren写机器...
  • 深度学习研究草稿笔记(1)

    千次阅读 2017-08-18 15:04:01
    cuda是一门语言,cudnn是深度学习的库,使用cuda加速也要看是怎么使用它加速,是一层计算执行一次,还是把几层的计算合并在一起执行,XLA做的就是这个,将一些简单的操作编译合并成一个操作。此前TensorFlow训练MLP...
  • Lingvo是一个Tensorflow框架,为深度学习研究尤其是序列化模型提供了一个完整的解决方案,它由灵活且易于扩展的模块化构建块组成,实验时可以集中配置且可高度定制。该框架支持分布式训练和量化推理,包含大量实用...
  • 了解点OpenAI及深度学习研究前沿

    万次阅读 2016-04-14 09:07:32
    前言OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有...因为OpenAI的研究内容很大程度上代表着人工智能的研究方向,由于其非盈利性质以及地处加州硅谷这种黄金地段,未来聚集更多顶尖人才的可能性很大
  • Deep Learning Research Groups Some labs and research groups that are actively working on deep learning: University of Toronto - Machine Learning Group (Geoffrey Hinton, Rich Zemel, Ruslan Sala
  • 注:本系列文章转自深度学习论坛 本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。 本教程...
  • 本文提出了一个新深度网络的“结构”,命名为inception(开端之意,个人命名为起航);这个结构可以充分利用网络中“计算资源”(充分开发和利用每层提取的特征);在保证固定计算复杂度前提下,通过人

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 18,760
精华内容 7,504
关键字:

深度学习研究