精华内容
参与话题
问答
  • 什么是点云语义分割2. 什么是点云的语义2.1 语义的百度解释2.2 个人理解参考文献 1. 什么是点云语义分割 对点云中的每个点进行分类,给每个点一个标签(label),属于同一标签(label)的点被分割成一类,并且这种...

    2020年8月17日 周一 天气晴 【不悲叹过去,不荒废现在,不惧怕未来】



    1. 什么是点云语义分割

    目的(结果):把点云分割成一块一块有意义的部分。
    操作:对点云中的每个点进行分类,给每个点打上一个标签(label)。

    2. 什么是点云的语义

    2.1 语义的百度解释

    语言所蕴含的意义就是语义(semantic)。简单的说,符号是语言的载体。符号本身没有任何意义,只有被赋予含义的符号才能够被使用,这时候语言就转化为了信息,而语言的含义就是语义。

    2.2 个人理解

    将语义的含义引申到点云,不难理解,点云的语义就是”点云所蕴含的意义“,也就是点云中所包含的大量信息,语义理解就是让机器去理解这些信息。


    参考文献

    https://baike.baidu.com/item/%E8%AF%AD%E4%B9%89/9716033?fr=aladdin

    展开全文
  • 三维点云语义分割模型介绍

    千次阅读 2018-11-18 18:54:25
    三维点云语义分割模型介绍1 三维深度学习简介1.1 三维数据表达方式2 PointNet2.1 点云的属性2.1.1 无序性2.1.2 关联性2.1.3 不变性2.2 key modules2.2.1 Symmetry Function for Unordered Input2.2.2 Local and ...

    1 三维深度学习简介

    前段时间调试了上海交大卢策吾教授团队提出的PointSIFT模型,也在此过程中阅读了一些三维点云语义分割的深度学习模型,下面对每个模型进行介绍(在文末会有模型对应的论文),并且展示一下我自己调试的PointSIFT模型的运行结果。

    1.1 三维数据表达方式

    目前用于深度学习的三维数据有如下几种表达方式:
    1) 多视角(multi-view):通过多视角二维图片组合为三维物体,此方法将传统CNN应用于多张二维视角的图片,特征被view pooling procedure聚合起来形成三维物体;
    2) 体素(volumetric):通过将物体表现为空间中的体素进行类似于二维的三维卷积(例如,卷积核大小为5 x 5 x 5),是规律化的并且易于类比二维的,但同时因为多了一个维度出来,时间和空间复杂度都非常高,目前已经不是主流的方法了;
    3) 点云(point clouds):直接将三维点云抛入网络进行训练,数据量小。主要任务有分类、分割以及大场景下语义分割;
    4) 非欧式(manifold graph):在流形或图的结构上进行卷积,三维点云可以表现为mesh结构,可以通过点对之间临接关系表现为图的结构。

    2 PointNet

    2.1 点云的属性

    三维空间中的点云存在下面三个主要的属性,文章根据点云的这三个属性提出了对应的三个模型从而解决了直接利用点云进行深度学习存在的问题。

    2.1.1 无序性

    点云本质上是一长串点(nx3矩阵,其中n是点数)。在几何上,点的顺序不影响它在空间中对整体形状的表示,相同的点云可以由两个完全不同的矩阵表示,如图2.2.1所示。

    图2.1.1 点云的无序性

    而实际情况下,不论点云的输入顺序如何,都希望模型能够提取出相同的特征。

    2.1.2 关联性

    点云中的每个点不是孤立的,点与点之间存在着关联,相邻的许多点可能组成一个具有重要意义的子集,它包含了点云的局部特征。因此希望模型能够捕捉到点与点之间的关联、点云的局部结构从而提取出点云的局部特征。

    2.1.3 不变性

    相同的点云在空间中经过一定的刚性变化(旋转或平移),点的坐标会发生变化,但是模型进行分类或者语义分割的结果不会发生变化。

    2.2 key modules

    2.2.1 Symmetry Function for Unordered Input

    如2.1所述,为了使模型对相同点云的不同顺序的输出不变,文章中提出了3种方法:1)将不同输入按一定规则排列成统一的顺序;2)将输入的点云当成是一个序列用来训练循环神经网络(RNN),通过改变顺序来增加训练数据,从而使得RNN的输出结果对顺序不变;3)通过一个形式简单的对称函数聚合每个点的信息。第3种方法为作者提出,经验证,第3种方法效果最好,精度可达87.1%。第三种方法如图2.2.1所示。

    图2.2.1 通过对称函数解决点云无序性问题

    第3种方法首先先利用多层神经网络提取每个点的特征(n x c),最后通过对称函数g对C维特征种每一维都选取n个点中对应的最大特征值或特征值总和,这样就可以通过g来解决无序性问题。PointNet采用了max-pooling策略。

    2.2.2 Local and Global Information Aggregation

    2.2.1中的模型最终输出了一个向量V(维度为1 x C1),它代表输入点云的全局特征,对于分类任务来说,可以采用一个全连接层得出分类结果,但是对于分割任务来说需要结合点云的局部信息和全局信息。
    所以在分割任务中,在得到点云的全局特征后,将全局特征和每一个点的特征进行连接,得到一个矩阵(维度为n x(C1+C2)),此时每个点的特征中都包含各自的局部信息和全局信息。

    2.2.3 Joint Alignment Network

    PointNet通过T-Net这一小型神经网络,通过学习一个C x C的仿射变换矩阵,并在特征提取之前,将这个矩阵和输入进行矩阵运算,将输入变换到一个统一的特征空间中,使得模型的输出结果不会因为点云发生刚性变换后而改变。

    2.3 网络结构

    PointNet的网络结构如图2.3.1所示。

    图2.3.1 PointNet网络结构

    图中蓝色部分是处理分类任务时的网络,网络直接采用原始点云数据作为输入(n x 3),输出是点云在k个类别上的得分。粉色部分是处理分割任务时的额外网络,输出是每个点在各个类别上的得分(n x m)。
    其中,mlp是通过共享权重的卷积实现的,第一层卷积核大小是1 x 3(因为每个点的维度是xyz),之后的每一层卷积核大小都是1 x 1。经过两个空间变换网络和两个mlp之后,对每一个点提取1024维特征,经过max pool变成1x1024的全局特征。再经过一个mlp(代码中运用全连接)得到k个score,分类网络最后接的loss是softmax。
    T-net与一般的网络类似,由特征提取层、池化层和全连接层组成。T-net在PointNet中应用了2次,第一次是直接对输入的点云数据进行变换,第二次是对提取出的64维特征进行变换。并且PointNet在损失函数中引入了正则化项,使得在第二次应用T-net后习得的特征变换矩阵近似为一正交矩阵,降低了网络优化的复杂程度。

    3 PointNet++

    3.1简介

    PointNet只是简单的将所有点连接起来,只考虑了全局特征,但丢失了每个点的局部信息。因此在提出PointNet之后不久,作者提出了了PointNet++。
    PointNet++基本思想就是:首先选取一些比较重要的点作为每一个局部区域的中心点,然后在这些中心点的周围选取k个近邻点(欧式距离)。再将k个近邻点作为一个局部点云采用PointNet网络来提取特征。它本质上是PointNet的分层版本,每个图层都有三个子阶段:采样,分组和特征提取。然后不断重复这个过程。此外,作者还测试了不同层级的一些不同聚合方法,以克服采样密度的差异。

    3.2 key modules

    3.2.1 Hierarchical Point Set Feature Learning

    PointNet使用了一个单独的max pooling作为对称函数用于抽取点集的全局特征。而PointNet++使用了分层抽取特征的思想,把每一次叫做set abstraction(SA),SA分为三部分:采样层(Sampling layer)、分组层(Grouping layer)和特征提取层(PointNet)。
    首先来看采样层,从稠密的点云中抽取出一些相对较为重要的中心点,采用最远点采样法(farthest point sampling,FPS),相较于随机采样FPS算法可以更好地覆盖整个点集。采样层的输入是n1 x 3,输出是n2 x 3。
    然后是分组层,在上一层提取出的中心点的某个范围内寻找最近个k近邻点组成group,寻找邻近点的方法有球查询算法和K-NN算法。分组层的输入是中心点n2 x 3和上一层点的特征n1 x(3+C),输出是n2 x n_sample x (3+C)。
    特征提取层是将这k个点通过小型PointNet网络进行卷积和pooling得到的特征作为此中心点的特征,再送入下一个分层继续。这样每一层得到的中心点都是上一层中心点的子集,并且随着层数加深,中心点的个数越来越少,但是每一个中心点包含的信息越来越多。特征提取层的输入是n2 x n_sample x (3+C),输出是n x C2。
    因此在实际训练中,整个SA level的输入为上一层的中心点(B x n1 x 3)和上一层的提取的特征(B x n1 x C1),输出是经过这一层的处理后得到的中心点(B x n2 x 3)和中心点对应局部区域的特征(B x n2 x C2)。

    3.2.2 Robust Feature Learning under Non-Uniform Sampling Density

    在实际情况中,点云数据很有可能在不同的区域具有不同的密度,这种点集的不均匀性会使模型在密集区域学习到的特征有可能无法推广到稀疏的区域,而针对稀疏区域训练的模型可能无法识别密集区域的局部结构。
    在高密度的情况下,希望模型尽可能接近地检查点集,以捕获密集采样区域中最精细的细节。但是在低密度区域,样本缺陷会破坏局部模式,此时我们应该在更大的附近寻找更大规模的模式。所以通过固定范围选取的固定个数的近邻点是不合适的,PointNet++提出了两个解决方案,见图3.2.1。

    图3.2.1 MRG和MSR

    a)多尺度分组(Multi-scale grouping,MRG)。MRG在每一个分组层都通过多个尺度来确定每一个中心点的邻域范围,并经过Point提取特征之后将多个特征联合起来,得到一个多尺度的新特征。在低尺度下,MRG方法的计算量很大。
    b)多分辨率分组(Multi-resolution grouping,MSG)。如图3.2.1(b)所示,新特征通过两部分连接起来。左边特征向量是通过一个SA后得到的,右边特征向量是直接对当前group中所有点进行PointNet卷积得到。当点云密度不均时,可以通过判断当前group的密度对左右两个特征向量给予不同权重:当group中密度很小,左边向量得到的信息就没有对所有group中点提取的特征可信度更高,于是将右特征向量的权重提高。以此达到减少计算量的同时解决密度问题。

    3.2.3 Point Feature Propagation for Set Segmentation

    SA过程在点集上进行了降采样,而分割任务则需要获取每一个点的特征,PointNet++通过feature propagation层(FP)将点的特征从降采样点传递回原始点集,在FP中通过利用上一层的点集的特征内插出更原始的点集的特征,并且通过skip link将在SA过程中相应的点特征与内插的特征连接起来,构成一个新的特征向量,然后对这个新的特征向量进行数次卷积。最后不断重复FP,直到将特征传递回原始点集。

    3.3 网络结构

    PointNet++的网络结构如图3.3.1所示。

    图3.3.1 PointNet++网络结构

    图中右下部分是处理分类任务时的网络,网络直接采用原始点云数据作为输入(n x 3),输出是点云在k个类别上的得分。右上部分是处理分割任务时的额外网络,输出是每个点在各个类别上的得分(n x m)。

    4 PointSIFT

    4.1 key module

    4.1.1 Orientation-encoding Convolution

    为了使模型更好地捕获形状模式,需要编码在不同方向上的形状信息。PointSIFT类比SIFT算法提出了方向编码卷积这一方法:对于一个给定点p,以它为中心的8个卦限代表了8个不同的方向。在每个卦限中,PointSIFT都在搜索半径r内搜索最近的点,以这个最近的点的特征f代表这个卦限。为了捕捉8个方向的特征,PointSIFT进行了3次方向编码卷积,在卷积后每个点的特征都以一个d维的向量来表征。方向编码卷积的示意图如图4.1.1所示。

    图4.1.1 方向编码卷积

    4.2 网络结构

    PointSIFT的网络结构如图4.2.1所示。

    图4.2.1 PointSIFT网络结构

    PointSIFT网络的输入是原始点云数据(n x 3),对于语义分割任务,输出是每一个在各个类别上的得分(n x m)。
    如图4.2.1所示,PointSIFT网络分为两大部分,分别是编码(下采样)和解码(上采样)。PointSIFT首先先通过一个MLP提取点云数据的特征(实际模型中这部分MLP和PointSIFT结合起来了),对每个点都得到一个64维的特征向量(n x 64),然后利用PointNet++的SA module进行了3次下采样,点的数量变化:8192->1024->256->64。对于解码部分,PointSIFT同样利用PointNet++中的FP module进行了3次上采样,点的数量变化:64->256->1024->8192。并且在上采样和下采样的过程中,PointSIFT module是插入在上下两个解码(编码)层之间的。模型的最后接了全连接层,得到每个点的类别得分。
    在实验中,通过将PointSIFT module插到两个SA之间可以捕捉到所有的点,从而有效的避免在下采样过程中点的信息损失。

    5 Exploring Spatial Context for 3D Semantic Segmentation of Point Clouds

    5.1 简介

    PointNet是3D点云语义分割方面迈出了一大步,它直接处理非结构化的点云并且取得了较好的语义分割结果。但是,PointNet将输入的点细分为一个个块(个人理解为训练模型时的一个个Batch)并且独立的处理这些Block。在本文中,作者在PointNet的基础上提出了两种扩展模型,增大了模型在3D场景中的感受野,从而使模型可以处理更大尺度的空间场景。

    5.2 key modules

    5.2.1 Input-Level Context

    Input-level context是直接对输入的点云进行处理,通过同时考虑一系列Block而不是像PointNet中考虑一个个单独的Block,一组中的Block之间共享上下文信息。Block有两种选取方式,一种是在位置相同,但是尺度不同(Multi-Scale Blocks);另一种是从相邻的格网中选取(Grid Blocks)。
    1) Multi-Scale Blocks。通过随机选取一个D维的点作为中心,然后在中心点特定半径内选取N个点,将它们组合成一个Block。通过改变不同的半径从而得到Multi-Scale Blocks,Multi-Scale Blocks如图5.2.1所示。

    图5.2.1 Multi-Scale Blocks

    2) Grid Blocks。Grid blocks是一组2 x 2的格网领域。每个Block位置不同但是尺度相同,如图5.2.2所示。

    图5.2.2 Grid Blocks

    5.2.2 Consolidation Units(CU)

    CU和RCU均是处理Output-level context,它们将合并得到的块特征。先是CU的处理方式:CU先通过MLP将之前阶段得到的特征集映射到更高维的空间,然后应用max-pooling生成公共块特征,然后将该特征与MLP得到的O个高维特征进行连接。

    图5.2.3 CU

    5.2.3 Recurrent Consolidation Units(RCU)

    RCU将来自空间邻近块的块特征序列作为输入,并返回更新后的块特征序列。RCU是通过GRU实现的。GRU具有学习远程依赖性的能力,范围可以是时间上的也可以是空间上的,GRU在看到块特征的全部输入序列后才会返回更新的块特征,GRU在其内部存储器中保留有关场景的信息,并根据新的观察结果进行更新,通过这种机制来整合和共享所有输入的信息。

    图5.2.4 RCU

    5.3 网络结构

    5.3.1 MS-CU

    MS-CU网络结构如图5.3.1所示。

    图5.3.1 MS-CU网络结构

    网络的输入是三个多尺度的Blocks,每一个Block都含有N个D维的点(不一定是3维的,除了坐标信息外还有可能包括标准化后的坐标以及点的RGB信息等)。通过一个类似PointNet的机制学习每一个Scale下的block的特征(MLP->max-pooling)。然后将块特征(1 x 384)和输入特征进行连接,将连接后的特征作为一系列CU的输入,网络最后接一个MLP输出每一个点在所有类别上的得分(N x M)。
    最开始,每个点只能得到它们各自的特征,连接了块特征后,每个点还得到了其相邻点的特征,通过一系列CU后,这种共享特征得到了反复的加强。

    5.3.2 GB-RCU

    GB-RCU网络结构如图5.3.1所示。

    图5.3.2 GB-RCU网络结构

    GB-RCU网络的输入是4个来自相邻格网的blocks,每个blocks中都包含由N个D维的点。它通过一个共享权重的MLP和max-pooling学习4个块的特征(4 x 1 x 64,区别于MS-CU),所有的块特征通过一个RCU共享各自的空间上下文,然后RCU返回更新后的块特征。更新后的块特征(1 x 64)和原始块特征(1 x 64)一起附加到输入特征(N x 64)。最后接一个MLP用于计算每一个点在各个类别上的得分(N x M)。

    6 模型调试

    6.1 模型训练

    6.1.1模型输入

    调式的模型为PointSIFT,初次调试模型输入的是利用RGB-D相片反演出的点云数据(ScanNet数据集),属于不同类的点具有不同类别的标签,如图6.1.1所示。

    图6.1.1 具有标签的点云数据

    6.1.2 模型输出

    对于语义分割任务,模型的输出是每个点所属的类别,如图6.1.2所示。

    图6.1.2 语义分割结果可视化(论文中的结果)

    目前训练模型在测试集上的精度为83%(论文中为86%)。

    6.2 模型调用

    6.2.1 数据处理

    利用三维激光扫描仪对室内进行扫描,得到室内点云数据,点云数据量约为30000000,直接用于模型预测过于稠密,因此对点云进行抽稀,并对一些噪声点进行处理,最后得到点296242个。对数据进行剖分,分为3个场景,前两个场景各100000个点,最后一个场景96242个点。室内图见6.2.1。

    图6.2.1 室内点云图

    6.2.2 语义分割结果

    调用模型对点云数据进行预测,预测的一些结果如图6.2.2所示,其中红色代表地板;绿色代表墙体;蓝色代表椅子;黄色代表桌子;白色代表剩余的家具;黑色代表未定义。

    图6.2.2 语义分割结果可视化

    前三张图是利用OpenCV进行可视化的,最后一张室内全景图是利用专业的三维激光点云软件进行显示。

    相关链接

    PointNet

    论文 https://arxiv.org/abs/1612.00593
    Github https://github.com/charlesq34/pointnet

    PointNet++

    论文 https://arxiv.org/abs/1706.02413
    Github https://github.com/charlesq34/pointnet2

    PointSIFT

    论文 https://arxiv.org/abs/1807.00652
    Github https://github.com/MVIG-SJTU/pointSIFT

    参考博客

    https://blog.csdn.net/Felaim/article/details/81088936
    https://blog.csdn.net/qq_15332903/article/details/80224387

    展开全文
  • 三维点云语义分割基础知识1. 简介1.1 点云分割介绍1.2 三维数据表达方式1.3 点云的特点及优势2 研究现状2.1 基于人工特征和机器学习的方法2.2 基于深度学习的方法 1. 简介 1.1 点云分割介绍 点云分割,即对点云中的...

    1. 简介

    1.1 点云分割介绍

    点云分割,即对点云中的每个点赋予有意义的标注,标注代表可以是任何具有特定意义的信息。在实际应用中,通常是一组代表几种特定类别标签的一个。如果标签具有特定含义,如是一个场景的物体类别,那么这个过程就是一个场景的分割或称语义理解。机器学习技术的进步也使得三维数据理解受益匪浅,尤其是对密集点云这样的大量数据。

    一些基于人工提取特征的经典机器学习方法,如支持向量机(SVM)和随机森林(RF), 也在一系列三维模型检测与分割任务中取得了较为成功的结果[1-2]。近年来,从机器人导航到国家级遥感技术,对算法实时性和鲁棒性的要求也越来越高。以自动 驾驶为例,若汽车采集的图像以及点云数据需要等待漫长的手工提取特征,再进行场景分析,显然是不可行的。于是,越来越多的研究开始转向深度学习[3]。深度学习相比其他机器学习算法有着独特的优势。

    (1)特征学习(Representation Learning):原本需要人工提取的特征可作为训练过程的一部分进行学习。
    (2)端到端(End-to-End):设备采集的原始输入数据可以直接输入到学习算法中,而后算法自动导出检测或分类所需的输出形式。

    一般的语义分割需要两部分:segmentation(更加依赖全局信息和局部信息),而classification(分类任务一般需要全局信息),一般的网络结构是encoder-decoder的过程,即:提特征-特征映射-特征图压缩(降维)-全连接-分类,比如在二维的的pspnet,fcn等等, 可能还有CRF去调整。

    三维点云语义分割任务是对每个点进行语义类别的预测,其常用的评价指标有整体精度 (Overall Accuracy, OA)、平均类别精度 (meanAccuracy, mAcc)、平均类别交并比 (mean Intersection over Union,mIoU),其定义为:
    在这里插入图片描述
    其中,表示本属于第 类的点被预测为第类的数目。语义分割的研究重心之一在于其局部特征的提取以及局部特征和全局特征的融合。在文献 [46, 51, 52] 中,作者使用三维卷积构建三维全卷积网络,其结构类似于二维语义分割,其中 [51, 52] 对三维卷积进行了稀疏优化。在文献 [48] 中,作者提出使用池化进行全局特征的提取,并随后在 [56] 中提出适用于点云数据的编码-解码结构。在文献 [60, 61] 中,作者对点云进行分块从而提取局部特征,并使用 RNN 进行局部特征的传递。文献 [80, 82, 83] 借鉴图卷积的思想实现局部点云特征的提取。

    1.2 三维数据表达方式

    目前用于深度学习的三维数据有如下几种表达方式:
    1)多视角(multi-view):多角度的RGB图像或者RGB-D图像,通过多视角二维图片组合为三维物体,此方法将传统CNN应用于多张二维视角的图片,特征被view pooling procedure聚合起来形成三维物体;
    2)体素(volumetric):通过将物体表现为空间中的体素进行类似于二维的三维卷积(例如,卷积核大小为5 x 5 x 5),是规律化的并且易于类比二维的,但同时因为多了一个维度出来,时间和空间复杂度都非常高,目前已经不是主流的方法了;
    3)点云(point clouds):由N个D维的点组成,当这个D=3的时候一般代表着(x,y,z)的坐标,当然也可以包括一些法向量、强度等别的特征。直接将三维点云抛入网络进行训练,数据量小。主要任务有分类、分割以及大场景下语义分割;
    4) 非欧式(manifold graph):在流形或图的结构上进行卷积,三维点云可以表现为mesh结构,可以通过点对之间临接关系表现为图的结构。

    在这里插入图片描述
    三维点云的多种表示方法,也对应着不同的处理方法。比较容易的处理方式为将其投影为二维图像或者转换为三维体素 (Voxel),从而将无序的空间点转变为规则的数据排列;也可以使用原始点作为表示,不做任何变换,该方式的好处为最大可能保留所有原始信息。此外,点云作为空间无序点集,可以被看作普适意义上的图数据;点云还有另外一种表示,称作网格 (Mesh),其也可以被看作是构建了局部连接关系的点,即为图。将点云看作图数据,可以使用图领域新兴的图卷积 (Graph Convolution) 技术进行处理。需要提及的是,原始点的表示和图表示之间并无明确界限(事实上原始点云和网格 (Mesh) 之间有一定区别,但若从语义理解方法的角度看,可暂时忽略此区别,将Mesh看作是增加了一种连接关系)。

    1.3 点云的特点及优势

    三维空间中的点云存在下面三个主要的属性:无序性、旋转性、关联性。
    1.3.1点的无序性
    点的无序性,也可以称作点的置换不变性,那么什么是置换不变性呢,简单地说就是点的排序不影响物体的性质。点云本质上是一长串点(nx3矩阵,其中n是点数)。在几何上,点的顺序不影响它在空间中对整体形状的表示,例如,相同的点云可以由两个完全不同的矩阵表示。当一个N×D在N的维度上随意的打乱之后,其表述的其实是同一个物体。因此针对点云的置换不变性,其设计的网络必须是一个对称的函数,比如SUM和MAX函数。
    在这里插入图片描述
    下图中x代表点云中某个点,h代表特征提取层,g叫做对称方法,r代表更高维特征提取,最后接一个softmax分类。g可以是maxpooling或sumpooling,也就是说,最后的D维特征对每一维都选取N个点中对应的最大特征值或特征值总和,这样就可以通过g来解决无序性问题。pointnet采用了max-pooling策略。
    在这里插入图片描述
    其他方法:
    1)Sorting:将不同输入按一定规则排列成统一的顺序,但是实际上不存在这样一个稳定的从高纬度到1维度的映射;
    2)RNN:将输入的点云当成是一个序列用来训练循环神经网络(RNN),通过改变顺序来增加训练数据,从而使得RNN的输出结果对顺序不变,数据的一些抖动也得到了增强;
    3)symmetric function:一些对称的函数方法,通过一个形式简单的对称函数聚合每个点的信息。
    1.3.2 点的旋转性
    相同的点云在空间中经过一定的刚性变化(旋转或平移),坐标发生变化。不论点云在怎样的坐标系下呈现,网络都能正确的识别出。这个问题可以通过STN(spacial transform netw)来解决。二维的变换方法可以参考此处,三维不太一样的是点云是一个不规则的结构(无序,无网格),不需要重采样的过程。pointnet通过学习一个矩阵来达到对目标最有效的变换。
    在这里插入图片描述
    在这里插入图片描述
    对于普通的PointNet(vanilla),如果先后输入同一个但是经过不同旋转角度的物体,它可能不能很好地将其识别出来。在论文中的方法是新引入了一个T-Net网络去学习点云的旋转,将物体校准,剩下来的PointNet(vanilla)只需要对校准后的物体进行分类或者分割即可。
    在这里插入图片描述
    由图可以看出,由于点云的旋转非常的简单,只需要对一个N×D的点云矩阵乘以一个D×D的旋转矩阵即可,因此对输入点云学习一个3×3的矩阵,即可将其矫正;同样的将点云映射到K维的冗余空间后,再对K维的点云特征做一次校对,只不过这次校对需要引入一个正则化惩罚项,希望其尽可能接近于一个正交矩阵。
    在这里插入图片描述正则化:

    在这里插入图片描述
    1.3.3 关联性
    点云中的每个点不是孤立的,点与点之间存在着关联,相邻的许多点可能组成一个具有重要意义的子集,它包含了点云的局部特征。因此希望模型能够捕捉到点与点之间的关联、点云的局部结构从而提取出点云的局部特征。点云的关联性也正是现在各个顶会众多论文的创新所在。

    1.3.4 点云的优势
    点云由很多优势,也越来越受到雷达自动驾驶的青睐。
    1)点云更接近于设备的原始表征(即雷达扫描物体直接产生点云)
    2)点云的表达方式更加简单,一个物体仅用一个N×D的矩阵表示。
    在这里插入图片描述

    2 研究现状

    2.1 基于人工特征和机器学习的方法

    在机器学习中,为了实现每个预测数据的自动标注,通常会选择监督学习方法进行模型训练。传统的基于机器学习的点云分割方法,通常采用典型的监督学习算法包括支持向量机(SVM)、随机森林(RF)和朴素贝叶斯。由于仅考虑点云中的单个点是不能获得有意义的信息,因此这些方法还依赖于一系列称为特征描述符(Signature)或描述子的人工特征。常见的点云的描述子可以大致分为统计特征和几何特征。

    (1)统计特征通常会选取固定邻域内点云的数量、 密度、体积、标准差等,其中比较具有代表性的有:快速点特征直方图(Fast Point Feature Histograms,FPFH)[4]、 方向直方图(Signature of Histograms of OrienTations, SHOT)[5]等。
    (2)几何特征通常将局部领域内的点云描述为线、面或者几何形状,其中比较典型的有自旋图像(Spin Image)[6]、局部表面切片(Local Surface Patches)[7]、固有形态(Intrinsic Shape)[8]等。

    为了从大量点云中找到这些领域特征,通常需要一定的加速算法。此外,这些特征对点云密度具有一定的耦合性。虽然已经有一些方法在一定程度上解决了这些问题,并可以实现90%左右的分类精度。但是,这些方法都是在一定小范围内进行测试和验证,缺乏泛化和扩展能力,并且,这些方法对大范围场景下出现物体被遮挡或者重叠通常表现不佳。最重要的,手工提取特征耗费的时间是实时性应用所不能接受的。

    2.2 基于深度学习的方法

    在PointNet出现以前,点云上的深度学习模型大致分为三类:
    1)基于3DCNN的体素模型:先将点云映射到体素空间上,在通过3DCNN进行分类或者分割。但是缺点是计算量受限制,目前最好的设备也大致只能处理32×32×32的体素;另外由于体素网格的立方体性质,点云表面很多特征都没有办法被表述出来,因此模型效果差。
    2)将点云映射到2D空间中利用CNN分类;
    3)利用传统的人工点云特征分类,例如:normal 法向量、intensity强度信息、local density 局部稠密度、local curvature 局部曲率等等;

    基于深度学习的方法,本文从四种点云表示切入,介绍深度学习在三维点云上的应用,分别为:基于二维投影的方法、基于三维体素的方法、基于原始点的方法和基于图的方法。

    2.2.1 基于二维投影的方法
      CNN 最好的应用领域在于图像处理,将三维点云数据投影到二维图像平面,即可使得 CNN 应用于点云数据成为可能。

     在文献 [31] 中,作者将原始的三维点云从不同视角进行投影,得到 12 个视角下的投影图片,并使用 CNN 对不同视角的图片分别提取特征,通过池化结合不同视角的信息,进行最终的点云物体分类。在文献 [32, 33] 中,作者使用类似的思路对三维场景进行多视角投影,生成一系列 RGB 图、深度图及其他属性图片,并使用全卷积 (Fully Convolutional Networks, FCN)[34] 进行像素级语义分割,最终通过反向投影得到点云的语义分割结果。在文献 [35] 中,作者将单帧 64 线激光雷达数据投影为鸟瞰图和前视图,并结合摄像头采集的 RGB 图,并列输入进三个CNN,其中,鸟瞰图和前视图编码了高度、密度、强度等一系列信息,三个网络的特征相互融合得到物体的三维边界框。在文献 [36] 中,作者使用类似于 [31] 的思路,设置多个不同尺度的投影视角,并结合条件随机场(Conditional Random Field,CRF)[37],进行三维点云物体的部件分割。在文献 [38] 中,作者对单帧 64 线激光雷达数据进行球面投影 (Spherical Projection),得到对应的图像,图像的像素值编码为 x 坐标、强度和深度三通道,使用运行效率较高的 SqueezeNet[39] 进行图像的语义分割,使用 CRF 进行后处理优化,最终将分割结果投影至点云。在文献 [40]中,作者将层次分组概念引入到多视角投影中,提出“视角-组别-形状”由低到高的三个层次,实现更加具有可分度的特征学习。在文献 [41] 中,作者沿着点云表面法线方向,将局部点云投影至切平面,对切平面上的投影图像使用 FCN 进行语义分割。在文献 [42] 中,作者使用类似于 [35] 的点云投影方法,进行三维目标的边框预测。与 [35] 不同的是, [42] 未使用前视图,并舍弃了鸟瞰图中的强度信息。

    2.2.2 基于三维体素的方法

    三维点云进行二维投影降低了算法处理的难度,但是三维到二维的投影必然带来几何结构信息的损失,直接进行三维特征的提取在一些场景下是非常有必要的。一种最自然的想法便是 CNN 的延拓,将二维卷积神经网络拓展一个维度,使其可以处理三维排列的数据;同时,对点云进行体素化 (Voxelization),将其转换为空间上规则排布的栅格,使得三维卷积神经网络(Three Dimension Convolutional Neural Network, 3DCNN) 可以直接应用在这种表示上。

    文献 [43, 44] 是较早将 3DCNN 应用于三维点云处理的工作,他们将原始点云转换为体素 (Voxel),并使用 3DCNN 进行点云物体的特征提取。在文献 [45] 中,作者深入探讨了基于二维投影的方法和基于三维体素的方法的优劣,尝试寻找这两种方法精度差异的来源,并针对 3DCNN 提出两种优化措施:使用完整物体的一部分进行辅助训练以及使用各向异性的 3D卷积核。在文献 [46] 中,作者使用三维卷积构建三维全卷积网络,串联以三线性插值和条件随机场,实现室内、室外点云场景的语义分割。在文献 [47] 中,作者提出体素特征编码模块,使用 PointNet[48]编码同一体素内的特征,并使用 3DCNN 进行体素间的特征提取。

    在文献 [49, 50] 中,作者使用八叉树数据结构对三维点云进行编码,以降低3DCNN 的显存占用与计算耗时,使得体素的分辨率可以进一步提高,从而可以学习到空间上更加精细的特征。在文献 [51, 52] 中,作者提出类似的降低 3DCNN 显存占用的方法,不过省略了使用八叉树作为中间表示,直接通过哈希表构建了稀疏矩阵的索引关系。这类思路极大提高了 3DCNN 提取特征的能力。在文献 [53]中,作者将稀疏编码技术应用于点云的目标检测,其整体框架类似于 [47]。由于稀疏编码的优势,使得该方法相比 [47] 取得了更好的效果。在文献 [54] 中,作者将稀疏优化的卷积[51] 用作点云目标检测的特征提取网络,借鉴传统两阶段目标检测框架[55],提升了三维目标检测的性能。

    2.2.3 基于原始点的方法
    无论是二维投影还是三位体素,均需要对原始点云进行一定的转换,而转换必然带来数据信息的损失。

    在文献 [48] 中,作者开创性地提出 PointNet,一个用于直接处理原始点云数据的神经网络。该方法使用多层感知机进行逐点特征提取,使用池化进行全局特征提取,可用于三维点云的分类、部件分割、语义分割等多种任务,开辟了基于原始点方法的先河。但是 PointNet 没有考虑点云的局部特征,该研究者在随后发表的 [56] 中,对 PointNet 进行改进,通过设计点云数据的层次结构以及多尺度特征,实现局部特征与全局特征的融合。

    点云局部特征的有效提取是点云理解中较为本质的问题之一。在文献 [57] 中,作者根据点云局部坐标信息学习置换矩阵,对局部点云的特征进行变换和加权,试图实现点云局部排序的一致性。在文献 [58] 中,作者通过自组织映射从原始点云中计算得到自组织节点,并将近邻点的特征汇聚至自组织节点处。在文献 [59]中,作者将点云转换到 Lattice 坐标系下,并定义了在该坐标系下的卷积操作。在文献 [60] 中,作者沿三个坐标轴对点云进行空间分块,使用三组循环神经网络(RecurrentNeural Network, RNN) 进行块与块之间特征的传递,构建局部联系。在文献 [61] 中,作者使用金字塔池化方法和双向 RNN 进行局部特征的传递。文献[62] 借鉴 SIFT[63] 特征点的思路,将局部点云划分为八个区域,解决仅根据离进行近邻搜索所带来的问题。类似的思路有 [64],其提出一种逐点的 3D 卷积,对于每个点,将其局部邻域按照卷积核的排列规则,划分到不同的栅格中,并将 3D卷积核应用于该局部栅格。在文献 [65] 中,作者通过公式推导提出一种高效的点云卷积,在不改变计算精度的情况下,大幅降低了模型显存的需求。在文献 [66]中,作者定义了一种新的点云卷积核函数,其不同于规则的固定栅格式卷积,而是通过插值计算每个点处的卷积参数,在使用上更加灵活。

    基于原始点的方法从 2017 年开始兴起,并已经取得了较大的进步,其在语义分割[56, 62]、目标检测[67-69]、实例分割[70, 71]、点云匹配[72, 73] 等任务上应用并取得不错的效果。

    2.2.4 基于图的方法
    现实生活中存在大量的非结构化数据,如交通网络、社交网络等,这些数据的节点间存在联系,可以表示为图。研究图数据的学习是近年来学界的热点。三维点云数据可以看作图数据的一种,图网络的很多思想可以被借鉴于点云数据的特征学习中。

    图卷积 (Graph Convolution Network, GCN) 可分为基于谱的图卷积(Spectralbased GCN) 和基于空间的图卷积 (Spatial-based GCN)。基于谱的图卷积的基本思路是:依据卷积定理,首先根据图的傅里叶变换将图数据从空间域变换到谱域,并在谱域上进行卷积,随后再通过图的傅里叶反变换将卷积结果转换到空间域。早期的图卷积大多为基于谱的方法,在文献 [74] 中,作者使用拉普拉斯矩阵 (Laplacian Matrix) 定义图的傅里叶变换,并定义了图数据上的卷积操作,构建了图卷积网络。

    在文献 [75] 中,作者对 [74] 的工作进行了改进,使用切比雪夫多项式代替先前工作中的傅里叶变换,避免了矩阵的特征值分解,同时使得图卷积操作的感受野变为近邻的 k 个节点 (K-localized),参数复杂度大大降低。在文献 [76]中,作者对 [75] 提出的多项式进行了进一步的简化,仅保留 0 阶项和 1 阶项。从[74] 到 [75, 76] 的发展,也伴随着图卷积从基于谱的方法到基于空间的方法的转变。空间方法的本质简单可理解为在节点域定义节点间的权重,然后对邻域进行加权求和。在文献 [77] 中,作者提出使用注意力机制,定义节点之间的权重。在文献 [78] 中,作者针对邻域的采样和特征汇聚的方式进行了探讨,提出针对大规模图数据的处理方法。

    图卷积的理论研究影响着三维点云的深度学习。在文献 [79] 中,作者使用基于谱的图卷积进行三维物体模型的语义分割,其提出谱变换网络以实现更好的参数共享,同时引入了空洞卷积的概念,增加多尺度信息。在文献 [80] 中,作者使用图卷积进行点云局部特征的提取。基于谱的图卷积由于需要计算特征分解,而不同点云数据的特征分解不相同,因此增加了基于谱的图卷积在点云上应用的难度。近年来不少学者转向使用基于空间的图卷积。在文献 [81] 中,作者结合边信息进行图卷积参数的学习。在文献 [82] 中,作者使用将邻接的边特征送进多层感知机进行训练。文献 [83] 借鉴 [77] 的思想应用在点云的语义分割任务上。

    参考文献
    注释:参考文献未按顺序录入,仅按原参考索引纪录(懒)
    [1] Shang L,Greenspan M.Real-time object recognition in sparse range images using error surface embedding[J]. International Journal of Computer Vision,2010,89(2/3): 211-228.
    [2] Guo Y,Sohel F,Mohammed B.Rotational projection statistics for 3D local surface description and object recognition[J].International Journal of Computer Vision, 2013,105(1):63-86.
    [3] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521:436.
    [4] Rusu R B,Blodow N,Beetz M.Fast point feature histograms for 3D registration[C]//Proceedings of IEEE International Conference on Robotics and Automation,2009:1848-1853.
    [5] Tombari F,Salti S,Stefano L D.Unique signatures of histograms for local surface description[C]//Proceedings of European Conference on Computer Vision,2010:356-369.
    [6] Johnson A E,Hebert M.Using spin images for efficient object recognition in cluttered 3D scenes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(5):433-449.
    [7] Chen H,Bhanu B.3D free-form object recognition in range images using local surface patches[J].Pattern Recognition, 2007,28(10):1252-1262.
    [8] Zhong Y.Intrinsic shape signatures:A shape descriptor for 3D object recognition[C]//Proceedings of IEEE International Conference on Computer Vision,2009.
    [26] RUSU R B, BLODOW N, BEETZ M. Fast point featurehistograms (FPFH) for 3D registration[C]//2009 IEEE International Conference onRobotics and Automation. Kobe, Japan: IEEE, 2009: 3212-3217.
    [27] RUSU R B, BLODOW N, MARTON Z C, et al. Aligning pointcloud views using persistent feature histograms[C]//2008 IEEE/RSJ InternationalConference on Intelligent Robots and Systems. Nice, France: IEEE, 2008:3384-3391.
    [28] OSADA R, FUNKHOUSER T, CHAZELLE B, et al. Shapedistributions[J]. ACM Transactions on Graphics (TOG), 2002, 21(4): 807-832.
    [29] THOMAS H, DESCHAUD J E, MARCOTEGUI B, et al. SemanticClassification of 3D Point Clouds with Multiscale Spherical Neighborhoods[J].ArXiv preprint arXiv:1808.00495, 2018.
    [30] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature,2015, 521(7553): 436-444.
    [31] SU H, MAJI S, KALOGERAKIS E, et al. Multi-viewconvolutional neural networks for 3d shape recognition[C]//Proceedings of theIEEE international conference on computer vision. Santiago, Chile: IEEE, 2015:945-953.
    [32] BOULCH A, LE SAUX B, AUDEBERT N. Unstructured Point CloudSemantic Labeling Using Deep Segmentation Networks.[J]. 3DOR, 2017, 2: 7.
    [33] LAWIN F J, DANELLJAN M, TOSTEBERG P, et al. Deepprojective 3D semantic segmentation[C]//International Conference on ComputerAnalysis of Images and Patterns. Ystad, Sweden: Springer, 2017: 95-107.
    [34] LONG J, SHELHAMER E, DARRELL T. Fully convolutionalnetworks for semantic segmentation[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Boston, MA, USA: IEEE, 2015:3431-3440.
    [35] CHEN X, MA H, WAN J, et al. Multi-view 3d objectdetection network for autonomous driving[C]//Proceedings of the IEEEinternational conference on computer vision. Honolulu, HI, USA: IEEE, 2017:1907-1915.
    [36] KALOGERAKIS E, AVERKIOU M, MAJI S, et al. 3D ShapeSegmentation With Projective Convolutional Networks[C]//The IEEE Conference onComputer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017.
    [37] LAFFERTY J, MCCALLUM A, PEREIRA F C. Conditional randomfields: Probabilistic models for segmenting and labeling sequence data[J].,2001.
    [38] WU B, WAN A, YUE X, et al. Squeezeseg: Convolutionalneural nets with recurrent crf for real-time road-object segmentation from 3dlidar point cloud[C]//2018 IEEE International Conference on Robotics and Automation(ICRA). Brisbane, QLD, Australia: IEEE, 2018: 1887-1893.
    [39] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size[J].ArXiv preprint arXiv:1602.07360, 2016.
    [40] FENG Y, ZHANG Z, ZHAO X, et al. GVCNN: Group-viewconvolutional neural networks for 3D shape recognition[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT,USA: IEEE, 2018: 264-272.
    [41] TATARCHENKO M, PARK J, KOLTUN V, et al. Tangentconvolutions for dense prediction in 3d[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE,2018: 3887-3896.[42] KU J, MOZIFIAN M, LEE J, et al. Joint 3d proposalgeneration and object detection from view aggregation[C]//2018 IEEE/RSJInternational Conference on Intelligent Robots and Systems (IROS). Madrid,Spain: IEEE, 2018: 1-8.
    [43] WU Z, SONG S, KHOSLA A, et al. 3d shapenets: A deeprepresentation for volumetric shapes[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Boston, MA, USA: IEEE, 2015:1912-1920.
    [44] MATURANA D, SCHERER S. Voxnet: A 3d convolutionalneural network for real-time object recognition[C]//2015 IEEE/RSJ InternationalConference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE,2015: 922-928.
    [45] QI C R, SU H, NIEßNER M, et al. Volumetric andmulti-view cnns for object classification on 3d data[C]//Proceedings of theIEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA:IEEE, 2016: 5648-5656.
    [46] TCHAPMI L, CHOY C, ARMENI I, et al. Segcloud: Semanticsegmentation of 3d point clouds[C]//3D Vision (3DV), 2017 InternationalConference on. Qingdao, China: IEEE, 2017: 537-547.
    [47] ZHOU Y, TUZEL O. Voxelnet: End-to-end learning forpoint cloud based 3d object detection[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:4490-4499.
    [48] QI C R, SU H, MO K, et al. Pointnet: Deep learning onpoint sets for 3d classification and segmentation[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE,2017: 652-660.
    [49] RIEGLER G, ULUSOY A O, GEIGER A. Octnet: Learning deep3d representations at high resolutions[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017:3577-3586.
    [50] WANG P S, LIU Y, GUO Y X, et al. O-cnn: Octree-basedconvolutional neural networks for 3d shape analysis[J]. ACM Transactions onGraphics (TOG), 2017, 36(4): 72.
    [51] GRAHAM B, ENGELCKE M, van der MAATEN L. 3d semanticsegmentation with submanifold sparse convolutional networks[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT, USA: IEEE, 2018: 9224-9232.
    [52] CHOY C, GWAK J, SAVARESE S. 4D Spatio-TemporalConvNets: Minkowski Convolutional Neural Networks[J]. ArXiv preprintarXiv:1904.08755, 2019.
    [53] YAN Y, MAO Y, LI B. Second: Sparsely embeddedconvolutional detection[J]. Sensors, 2018, 18(10): 3337.
    [54] SHI S, WANG Z, WANG X, et al. Part-A^ 2 Net: 3DPart-Aware and Aggregation Neural Network for Object Detection from PointCloud[J]. ArXiv preprint arXiv:1907.03670, 2019.
    [55] REN S, HE K, GIRSHICK R, et al. Faster r-cnn: Towardsreal-time object detection with region proposal networks[C]//Advances in neuralinformation processing systems. Montreal, Quebec, Canada: MIT Press, 2015:91-99.
    [56] QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchicalfeature learning on point sets in a metric space[C]//Advances in NeuralInformation Processing Systems. Long Beach, CA, USA: MIT Press, 2017:5099-5108.
    [57] LI Y, BU R, SUN M, et al. Pointcnn: Convolution onx-transformed points[C]// Advances in Neural Information Processing Systems.Montreal, Quebec, Canada: MIT Press, 2018: 820-830.
    [58] LI J, CHEN B M, HEE LEE G. So-net: Self-organizingnetwork for point cloud analysis[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Salt Lake City, UT, USA: IEEE, 2018:9397-9406.
    [59] SU H, JAMPANI V, SUN D, et al. Splatnet: Sparse latticenetworks for point cloud processing[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:2530-2539.
    [60] HUANG Q, WANG W, NEUMANN U. Recurrent Slice Networksfor 3D Segmentation of Point Clouds[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:2626-2635.
    [61] YE X, LI J, HUANG H, et al. 3d recurrent neuralnetworks with context fusion for point cloud semanticsegmentation[C]//Proceedings of the European Conference on Computer Vision(ECCV). Munich, Germany: Springer, 2018: 403-417.
    [62] JIANG M, WU Y, ZHAO T, et al. Pointsift: A sift-likenetwork module for 3d point cloud semantic segmentation[J]. ArXiv preprintarXiv:1807.00652, 2018.
    [63] LOWE D G. Distinctive image features fromscale-invariant keypoints[J]. International journal of computer vision, 2004,60(2): 91-110.
    [64] HUA B S, TRAN M K, YEUNG S K. Pointwise convolutionalneural networks[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 984-993.
    [65] WU W, QI Z, FUXIN L. Pointconv: Deep convolutionalnetworks on 3d point clouds[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 9621-9630.
    [66] THOMAS H, QI C R, DESCHAUD J E, et al. KPConv: Flexibleand Deformable Convolution for Point Clouds[J]. ArXiv preprintarXiv:1904.08889, 2019.
    [67] QI C R, LIU W, WU C, et al. Frustum pointnets for 3dobject detection from rgb-d data[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:918-927.
    [68] SHI S, WANG X, LI H. Pointrcnn: 3d object proposalgeneration and detection from point cloud[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Long Beach, CA, USA:IEEE, 2019: 770-779.
    [69] QI C R, LITANY O, HE K, et al. Deep Hough Voting for 3DObject Detection in Point Clouds[J]. ArXiv preprint arXiv:1904.09664, 2019.
    [70] WANG W, YU R, HUANG Q, et al. Sgpn: Similarity groupproposal network for 3d point cloud instance segmentation[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT, USA: IEEE, 2018: 2569-2578.
    [71] YI L, ZHAO W, WANG H, et al. GSPN: Generative ShapeProposal Network for 3D Instance Segmentation in Point Cloud[J]. ArXiv preprintarXiv:1812.03320, 2018.
    [72] AOKI Y, GOFORTH H, SRIVATSAN R A, et al. PointNetLK:Robust & efficient point cloud registration using PointNet[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,CA, USA: IEEE, 2019: 7163-7172.
    [73] WANG Y, SOLOMON J M. Deep Closest Point: LearningRepresentations for Point Cloud Registration[J]. ArXiv preprintarXiv:1905.03304, 2019.
    [74] BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networksand locally connected networks on graphs[J]. ArXiv preprint arXiv:1312.6203,2013.
    [75] DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutionalneural networks on graphs with fast localized spectral filtering[C]//Advancesin neural information processing systems. Barcelona, Spain: MIT Press, 2016:3844-3852.
    [76] KIPF T N, WELLING M. Semi-supervised classificationwith graph convolutional networks[J]. ArXiv preprint arXiv:1609.02907, 2016.
    [77] VELIČKOVIĆ P, CUCURULL G, CASANOVA A, et al. Graphattention networks[J]. ArXiv preprint arXiv:1710.10903, 2017.
    [78] HAMILTON W, YING Z, LESKOVEC J. Inductiverepresentation learning on large graphs[C]//Advances in Neural InformationProcessing Systems. Long Beach, CA, USA: MIT Press, 2017: 1024-1034.
    [79] YI L, SU H, GUO X, et al. Syncspeccnn: Synchronizedspectral cnn for 3d shape segmentation[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017:2282-2290.
    [80] WANG C, SAMARI B, SIDDIQI K. Local spectral graphconvolution for point set feature learning[C]//Proceedings of the EuropeanConference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 52-66.
    [81] SIMONOVSKY M, KOMODAKIS N. Dynamic edgeconditionedfilters in convolutional neural networks on graphs[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE,2017: 3693-3702.
    [82] WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN forlearning on point clouds[J]. ArXiv preprint arXiv:1801.07829, 2018.
    [83] WANG L, HUANG Y, HOU Y, et al. Graph AttentionConvolution for Point Cloud Semantic Segmentation[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Long Beach, CA, USA:IEEE, 2019: 10296-10305.
    [84] HOU J, DAI A, NIEßNER M. 3D-SIS: 3D Semantic InstanceSegmentation of RGB-D Scans[J]. ArXiv preprint arXiv:1812.07003, 2018.
    [85] ARMENI I, SENER O, ZAMIR A R, et al. 3d semanticparsing of large-scale indoor spaces[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016:1534-1543.

    展开全文
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达3D点云语义分割任务三维点云分割既需要了解全局几何结构,又需要了解每个点的细粒度细节。根据分割粒度的不同,三维点云分割方法可以分为三...

    点击上方“3D视觉工坊”,选择“星标”

    干货第一时间送达

    3D点云语义分割任务

    三维点云分割既需要了解全局几何结构,又需要了解每个点的细粒度细节。根据分割粒度的不同,三维点云分割方法可以分为三类:语义分割(场景级)、实例分割(对象级)和部分分割(部分级)。

    对于给定的点云,语义分割的目标是根据点的语义意义将其划分为多个子集。与三维形状分类的分类方法类似(第3节),语义分割有四种范式:基于投影的方法、基于离散的方法、基于点的方法和混合方法。投影和离散的方法的第一步是将点云一个中间正则表示,如多视点[181],[182],球形[183],[184],[185],[166],[186],[187],然后中间分割结果被投影回原始点云。相反,基于点的方法直接工作在不规则的点云上。几种典型的方法如图10所示。

    01

    基于投影的方法

    这些方法通常将三维点云投影到二维图像中,包括多视图和球形图像。总体而言,多视图分割方法的性能对视点选择和遮挡非常敏感。并且这些方法没有充分利用底层的几何和结构信息,因此投影步骤不可避免地会引入信息损失。与单视图投影相比,球面投影保留了更多的信息,适合于激光雷达点云的标注。但是,此中间表示法不可避免地会带来离散化、误差和遮挡等问题.

    多视图表示

    • Lawin等人的研究成果。[181]首先将3D点云从多个虚拟相机视图投影到2D平面。然后,使用多流FCN对合成图像进行像素级分数预测。通过融合不同视图上的重新投影分数来获得每个点的最终语义标签。

    • Boulch等人。[182]首先使用多个相机位置生成点云的多个RGB和深度快照。然后,他们使用2D分割网络对这些快照进行像素级标记。使用残差校正进一步融合从RGB和深度图像预测的分数[192]。

    • 基于点云是从局部欧几里得曲面采样的假设,Tatarchenko等人。[193]引入了用于密集点云分割的切线卷积。此方法首先将每个点周围的局部曲面几何体投影到虚拟切线平面。然后直接在曲面几何体上操作切线卷积。该方法具有很强的可扩展性,能够处理几百万个点的大规模点云。

    球形表示(球面投影)

    • 为了实现三维点云的快速准确分割,Wu等人提出了一种新的分割方法。[183]提出了一种基于SqueezeNet[194]和条件随机场(CRF)的端到端网络。

    • 为了进一步提高分割精度,引入了SqueezeSegV2[184],通过使用无监督的域自适应流水线来解决域偏移问题。

    • Milioto等人。[185]提出了基于RangeNet++的激光雷达点云实时语义分割方法。首先将二维深度图像的语义标签转换为三维点云,然后采用一种高效的基于KNN的后处理步骤来缓解离散化误差和推理输出模糊的问题。

    02

    基于离散化的方法(Discretization-based Methods)

    这些方法通常将点云转换为稠密/稀疏的离散表示,如体积晶格和稀疏透面体格。总体而言,密集化的体积表示天然保留了三维点云的邻域结构。其常规数据格式还允许直接应用标准3D卷积。这些因素导致了这一领域的性能稳步提高。然而,体素化步骤固有地引入了离散化伪影和信息丢失。通常,高分辨率会导致较高的内存和计算成本,而较低的分辨率会导致细节丢失。在实践中,选择合适的网格分辨率并不是一件容易的事。体积表示是稀疏的,因为非零值的数量只占很小的比例,,因此,在空间稀疏数据上应用密集卷积神经网络效率并不高。

    密集的离散化表示

    • 早期的方法通常将点云体素化为密集的网格,然后利用标准的3D卷积。黄等人[195]首先将点云划分为一组占用体素,然后将这些中间数据馈送到全3D-CNN进行体素分割。最后,为体素内的所有点分配与体素相同的语义标签。该方法的性能受到体素粒度和点云分割引起的边界伪影的严重限制。

    • Tchapmi et al.。[196]提出SEGCloud实现细粒度、全局一致的语义分割。该方法引入确定性的三线性插值,将3D-FCNN[197]生成的粗体素预测映射回点云,然后使用完全连通CRF(FCCRF)来强制这些推断的每个点标签的空间一致性。

    • 孟等人。[186]提出了一种基于核的插值变分自动编码器结构,对每个体素内部的局部几何结构进行编码。代替二进制占用表示,对每个体素使用RBF来获得连续的表示并捕捉每个体素中的点的分布。VAE进一步用于将每个体素内的点分布映射到紧凑的潜在空间。然后,使用对称群和等价CNN来实现鲁棒的特征学习。

    • 由于3D-CNN良好的可扩展性,基于体积的网络可以在不同空间大小的点云上自由训练和测试。在全卷积点网络(FCPN)[187]中,首先从点云中分层提取不同层次的几何关系,然后使用3D卷积和加权平均来提取特征及合并远程依赖关系。该方法可以处理大规模的点云数据,并且在推理过程中具有良好的可扩展性。

    • 戴等人。[198]提出ScanComplete来实现3D扫描来进行逐体素语义标注。该方法利用了全卷积神经网络的可扩展性,在训练和测试过程中可以适应不同的输入数据量。采用由粗到精的策略分层提高预测结果的分辨率。

    稀疏的离散化表示

    • Graham et al.[166]提出了基于索引结构的子流形稀疏卷积网络。该方法通过将卷积的输出限制为仅与占用的体素相关,从而显著降低了存储和计算成本。同时,它的稀疏卷积还可以控制提取的特征的稀疏性。此子流形稀疏卷积适用于高维和空间稀疏数据的有效处理。

    • Choy et al.。[199]提出了一种用于3D视频感知的4D时空卷积神经网络Minkowski Net。为了有效地处理高维数据,提出了一种广义稀疏卷积算法。进一步应用一个三边平稳的条件随机场来加强一致性。

    • Su et al.。[188]提出了基于双边卷积层(BCL)的稀疏网格网络(SPLATNet)。该方法首先将原始点云插值到置换面体稀疏格子上,然后应用BCL对稀疏填充格子中被占用的部分进行卷积。然后将过滤后的输出内插回原始点云。该方法允许灵活地联合处理多视点图像和点云。

    • Rosu et al.。[189]提出了LatticeNet,以实现对大型点云的高效处理。此外,还引入了与数据相关的插值模块DeformsSlice,将网格特征反投影到点云中。

    03

    混合方法

    为了进一步利用所有可用的信息,已经提出了几种方法来从3D扫描中学习多模态特征。

    • Dai和Nieüner[190]提出了一种联合3D-多视图网络,将RGB特征和几何特征结合起来。使用一个三维CNN流和多个2D流来提取特征,并提出了一种可微反投影层来联合融合学习到的2D嵌入和3D几何特征。

    • Chiang et al.。[200]提出了一个统一的基于点的框架,用于从点云中学习二维纹理外观、三维结构和全局上下文特征。该方法直接使用基于点的网络从稀疏采样点集中提取局部几何特征和全局上下文,而不需要进行任何体素化。

    • Jaritz et al.。[191]提出了一种多视点网络(MVPNet),将二维多视点图像的外观特征与规范点云空间中的空间几何特征进行聚合。

    04

    基于点的方法

     直接对无序的、非结构化的点云进行操作,开山之作PointNet用共享权重的MLP学习每个点的特征,使用对称池化函数学习全局特征。以此为基提出了一系列网络。分为以下四类:逐点的MLP方法、点卷积方法、基于RNN的方法、基于图的方法。

    逐点的MLP方法

    为了高效获取逐点特征,这些方法通常使用共享MLP作为其网络的基本单元,但共享MLP提取的点特征不能捕获点云的局部几何形状和点之间的相互作用。为了获取每个点更广泛的上下文并学习更丰富的局部结构,我们引入了一些专用网络,包括基于邻近特征池化、基于注意力的聚集和基于局部-全局特征连接的方法。

    临近特征池化

    为了获取局部几何模式,通过对局部邻近点的信息进行聚合来获得每个点的特征。

    • Pointnet++[论文地址54]对点进行分层分组(即球查询),逐步从更大的局部区域进行学习。针对点云的不均匀性和密度变化等问题,提出了多尺度和多分辨率的聚类方法。

    • PointSIFT[论文地址141]提出了一个PointSIFT模块来实现方向编码和尺度感知。该模块通过three-stage有序卷积将八个空间方向的信息堆叠并编码,多尺度特征被连接在一起以实现对不同尺度的自适应。

    • Engelmann等[204]利用K-means聚类和KNN分别定义了世界空间和特征空间中的两个邻域。代替了PointNet++中的球查询。基于来自同一类的点在特征空间中更接近的这一假设,引入pairwise distance loss(双距离损失)和centroid loss(质心损失)来进一步规范特征学习。

    • 为了对不同点之间的相互作用进行建模,Zhao等[57]提出了PointWeb,通过密集地构建一个局部全连接的web来探索一个局部区域内所有对点之间的关系。提出了一种自适应特征调整(AFA)模块来实现信息交换和特征细化。这种聚合操作有助于网络学习一种有区别的特征表示。

    • Zhang等人[205]提出了一种基于同心球壳统计量的置换不变卷积Shellconv。该方法首先查询一组多尺度的同心球体,然后在不同的shell中使用max-pooling操作来汇总统计?使用MLPs和1D卷积得到最终的卷积输出。

    • RandLA-Net[206]是一种高效、轻量级的用于大规模点云分割的网络。利用随机点采样(Random Sampling),在内存和计算方面取得了非常高的效率。进一步提出了一种局部特征聚合模块(LFA)来捕获和保存几何特征.

    基于注意力的聚合

    • 在点云分割中引入了注意机制[120]。

    • Yang等人[56]提出了一种group shuffle attention来建模点之间的关系,并提出了一种置换不变量、任务不可知且可微的Gumbel子集抽样(GSS)来替代广泛使用的FPS方法。该模块对异常值不太敏感,能够选择出一个有代表性的点云子集。 注意力机制用于采样。

    • 为了更好地捕捉点云的空间分布,Chen等人[207]提出了局部空间感知(LSA)层,基于点云的空间布局和局部结构来学习空间感知权值。

    • 与CRF类似,Zhao等人[208]提出了一个基于注意力的评分细化(ASR)模块,用于对网络产生的分割结果进行后处理。通过将相邻点的分数与学习到的注意权值相结合,对初始分割结果进行细化。这个模块可以很容易地集成到现有的深度网络,以提高分割性能。 增分神器。

    基于局部-全局特征连接

    • Zhao等人[112]提出了一种置换不变的PS2-Net来结合点云的局部结构和全局上下文。

    • Edgeconv[87]和NetVLAD[209]被反复堆叠,以捕捉本地信息和场景级的全局特征。

    点卷积方法

    这些方法趋向于提出有效的点云卷积操作。

    • Hua等[76]提出了一种逐点卷积操作,将相邻的点分割到核单元中,然后用核权值进行卷积。

    • Wang等[201]提出了一种基于参数连续卷积层的网络PCCN,如图12(b)所示。该层的核函数由MLPs参数化,并张成连续向量空间。

    • Thomas等[65]提出了一种基于核点卷积(KPConv)的核点全卷积网络(Kernel Point full Convolutional Network, KP-FCNN)。KPConv的卷积权值由到核点的欧几里得距离决定,核点的数量不是固定的。将核点的位置表示为球空间中最优覆盖的优化问题。需要注意的是,使用半径邻域来保持一致的感受场,而在每一层使用网格子采样来实现不同密度点云下的高鲁棒性。

    • 在[211]中,Engelmann等提供了丰富的消融实验和可视化结果来展示感受野对基于聚合方法性能的影响。他们还提出了一种扩展点卷积(DPC)操作来聚合扩展的邻近特征,而不是K个最近邻。该操作被证明是非常有效的增加接受场,并可以很容易地集成到现有的基于聚合的网络。

    基于RNN的方法

    为了从点云中捕获内在的上下文特征,递归神经网络(RNN)也被用于点云的语义分割。

    • Engelmann等[213]基于PointNet[5],首先将一个点块转换为多尺度块和网格块,获得输入级上下文。然后,将PointNet提取的块化特征依次输入到合并单元(CU)或周期性合并单元(RCU)中,获得输出级上下文。实验结果表明,结合空间上下文对提高分割性能具有重要意义。

    • Huang等[212]提出了一种轻量级局部依赖建模模块,利用slice pooling 层将无序的点特征集转换为有序的特征向量序列。

    • 如图12(c)所示,Ye等人[202]首先提出了点态金字塔池(3P)模块来捕获由粗到细的局部结构,然后利用双向分层RNNs进一步获取远程空间依赖关系,然后应用RNN实现端到端学习。

    然而,这些方法在用全局结构特征聚合局部邻域特征时,失去了点云丰富的几何特征和密度分布[220]。

    • 为了缓解刚性池化和静态池化操作带来的问题,Zhao等人[220]提出了一种同时考虑全局场景复杂度和局部几何特征的动态汇聚网络(DARNet)。利用自适应接收域和节点权值,动态聚合介质间特征。

    • Liu等人[221]提出了3DCNN-DQN-RNN用于大规模点云的高效语义解析。该网络首先使用3D CNN网络学习空间分布和颜色特征,然后使用DQN对属于特定类的对象进行定位。最后将拼接后的特征向量送入残差神经网络,得到最终的分割结果。

    基于图的方法

    使用图网络捕获3D点云形状与几何结构。

    • 如图12(D)所示,Landrieu et al.。[203]将点云表示为一组相互关联的简单形状和超点,并使用属性有向图(即超点图)来捕捉结构和上下文信息。然后,将大规模点云分割问题分解为几何均匀分割、超点嵌入和上下文分割三个子问题。

    • 为了进一步改进划分步骤,Landrieu和Boussaha[214]提出了一个监督框架来将点云过度分割?成纯超点。该问题被描述为一个由邻接图构造的深度度量学习问题。此外,还提出了一种图结构的对比损失来帮助识别物体之间的边界。

    • 为了更好地捕捉高维空间中的局部几何关系,Kang等人提出了一种新的方法。[222]提出了一种基于图嵌入模块(GEM)和金字塔注意力网络(PAN)的PyramNet。GEM模块将点云表示为有向无环图,并用协方差矩阵代替欧几里德距离构造相邻相似度矩阵。PAN模块使用四种不同大小的卷积核来提取不同语义强度的特征。

    • 在[215]中,图注意卷积(GAC)被提出用来从局部相邻集合中选择性地学习相关特征。该操作是通过基于不同的邻近点和特征通道的空间位置和特征差异动态地分配关注度权重来实现的。GAC可以学习获取可区分的特征进行分割,并且与常用的CRF模型,具有相似的特征。

    • Ma等人。[223]提出了一种点全局上下文推理(PointGCR)模块,使用无向图表示,沿通道维度捕获全局上下文信息。PointGCR是一个即插即用的端到端可训练模块。它可以很容易地集成到现有的分段网络中,以实现性能提升。增分神器。

    其它方法

    弱监督下的语义分割

    • 魏等人,[224]提出了一种两阶段训练具有云下层次标签的分割网络的方法。

    • 许等人,[225]研究了几种不精确的点云语义分割监督方案。他们还提出了一种仅能用部分标记点(例如10%)进行训练的网络。

    评价指标

    OA (Overall Accuracy):总体精度

    mIoU (mean Interp over Unionand):平均交并比

    mAcc (mean class Accuracy):平均类别精度

    MAP(mean Average Precision) : 平均精度均值 ,常用于3D点云实例分割。

    常用Benchmark DataSet

    01

    Public Datasets

    ScanNet (CVPR'17) 

    S3DIS (CVPR'17) 

    Semantic3D (ISPRS'17) 

    semantic-8 

    reduced-8 

    Paris-Lille-3D (IJRR'18)

    SemanticKITTI (ICCV'19) 

    Toronto-3D(CVPRW2020)

    DALES(CVPRW2020)

    对于3D点云分割,这些数据集由不同类型的传感器获取,包括移动激光扫描仪(MLS)[15]、[34]、[36]、空中激光扫描仪(ALS)[33]、[38]、静态陆地激光扫描仪(TLS)[12]、RGBD相机[11]和其他3D扫描仪[10]。这些数据集可用于开发各种挑战的算法,包括相似干扰、形状不完整和类别不平衡。

    02

    Benchmark Results

    总结

    • 由于规则的数据表示,基于投影的方法和基于离散化的方法都可以利用其2D图像对应的成熟的网络体系结构。然而,基于投影的方法的主要局限性在于3D-2D投影造成的信息损失,而基于离散化的方法的主要瓶颈是分辨率的提高导致计算和存储开销的成倍增加。为此,建立在索引结构上的稀疏卷积将是一个可行的解决方案,值得进一步探索。

    • 基于点的网络是研究最多的方法。然而,点表示自然没有显式的邻域信息,大多数现有的基于点的方法求助于昂贵的邻域搜索机制(例如,KNN[79]或Ball Query[54])。这固有地限制了这些方法的效率,最近提出的点-体素联合表示法[256]将是一个有趣的进一步研究方向。

    • 从不平衡数据中学习仍然是点云分割中的一个具有挑战性的问题。虽然有几种方法[65]、[203]、[205]取得了显著的整体表现,但它们在少数类别上的表现仍然有限。例如,RandLA-Net[206]在Semanti3D的Reduced-8子集上实现了76.0%的整体IOU,但在Hardscape类上的IOU非常低,只有41.1%。

    • 现有的大多数方法[5]、[54]、[79]、[205]、[207]适用于小的点云(例如,具有4096个点的1m×1m)。在实际应用中,深度传感器获取的点云数据通常是巨大的、大规模的。因此,需要进一步研究大规模点云的高效分割问题。

    • 一些工作[178]、[179]、[199]已经开始从动态点云中学习时空信息。期望时空信息能够帮助提高后续任务(如3D对象识别、分割和完成)的性能。

    论文引用

    由于引用过多,如果需要暂时可以去参考文献1中去查看

    参考文献

    Deep Learning for 3D Point Clouds:A Survey_20200727版

    https://github.com/QingyongHu/SoTA-Point-Cloud

    本文仅做学术分享,如有侵权,请联系删文。

    下载1

    在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

    下载2

    「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。

    下载3

    「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

    重磅!3DCVer-学术论文写作投稿 交流群已成立

    扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

    同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

    一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

    ▲长按加微信群或投稿

    ▲长按关注公众号

    3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

    学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

     圈里有高质量教程资料、可答疑解惑、助你高效解决问题

    觉得有用,麻烦给个赞和在看~  

    展开全文
  • 三维点云语义分割模型总结1.PointNet(CVPR2017)1.1 网络基本架构功能介绍1.2 网络的两个亮点:1.3 解决问题详细方案1.4 实验结果和网络的鲁棒性1.5 pointnet代码详解2.PointNet ++(NIPS 2017)2.1 网络基本架构...
  • a module for 3D semantic segmentation in point clouds
  • PointNet直接使用点云数据作为输入,解决了点云的无序性问题,点之间的相关性问题,刚体运动的不变性问题。他们证明了在数据量很大的情况下,提取一系列点的全局特征,可以与对单个点提取特征的点集,与对称函数的...
  • 大场景三维点云语义分割模型基于2D的方法SqueezeSeg系列一、简介二、核心思路总结三、要点分析四、总结 近来关于在无人驾驶场景的大场景点云语义分割方法异常火热,也崩出很多好的idea,这些方法大致分为两类,基于...
  • 点云语义分割标注工具-semantic-segmentation-editor

    千次阅读 热门讨论 2019-08-13 11:16:03
    semantic-segmentation-editor点云标注工具的安装与使用1.软件的安装2.软件功能界面介绍3.标注后数据介绍 该软件可标注2D图片(png,jpg等)与点云数据(pcd)不说废话,直接上干货!!! 1.软件的安装     (1)...
  • 文章目录Deep Learning for 3D Point Clouds: A Survey 翻译Abstract1. INTRODUCTION2 3D形状分类2.1基于投影的网络2.1.1多视图表示2.1.2体素表示2.2基于点的网络2.2.1逐点MLP网络2.2.2 基于卷积的网络2.2.3 基于图...
  • PointNet系列论文解读 ... 基于深度学习的三维点云语义分割网络介绍 https://www.jianshu.com/p/8d1560c04bd8 深度学习在3D点云处理中的探索 https://yochengliu.github.io/files/Report_JIANGMEN_2019...
  • 3D点云语义分割由于其在自动驾驶、机器人和增强现实(AR)等许多领域的广泛应用,最近引起了越来越多的研究者关注,这也成为了场景理解的关键。我最近接触了基于深度学习的3D点云语义分割这个前沿研究方向,因此对...
  • Semantic Segmentation of Point Clouds using Deep ... 近年来,点云已成为3D数据的代表。 点云是一组3D点,它可以有不同的传感器获得,如激光雷达扫描仪。 点云也可以具有每个点的RGB值,这就是一个彩色的...
  • 深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本文提出了一个新的超级学习框架,用于将三维点云过度分割为超点。本文将此问题转化为学习...
  • CVPR2020:4D点云语义分割网络(SpSequenceNet) SpSequenceNet: Semantic Segmentation Network on 4D Point Clouds 论文地址: ...摘要 点云在许多应
  • 点云PCL免费知识星球,点云论文速读。标题:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds...
  • 论文针对大规模室外点云语义分割提出两个想法: 1.分析了一些降采样方法,认为随机采样从效率和可行性上更适合大规模点云的采样 2.为了对抗随机采样带来的关键信息丢失问题,提出局部特征采样器 随机采样 最重要的是...
  • CVPR2020:4D点云语义分割网络(SpSequenceNet)SpSequenceNet: Semantic Segmentation Network on 4D Point Clouds论文地址:...
  • 点云语义分割:Spatial Transformer Point Convolution论文阅读 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法...
  • 西班牙Zaragoza大学的研究人员提出的最新3D点云语义分割的深度学习方法,提出新的滑动框搜索球形投影后的“像素点”,使用改进的MiniNetV2发布的两种网络设置在SemanticKITTI和KITTI数据集上刷新了成绩,成为新的...
  • 3D POINT CLOUD SEGMENTATION3D Semantic SegmentationProjection-based NetworksPoint-based NetworksInstance SegmentationProposal-based MethodsProposal-free MethodsPart ...3D点云分割需要了解全局几何结...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达本文由知乎作者Qingyong Hu授权转载,不得擅自二次转载。原文链接:https://zhuanlan.zhihu.com/p/...
  • 不准确监督,即点云的每个sample都带有一个不准确的label,文章将这两种弱监督的方式互为补充。之后用Siamese Self-Supervision的技术去处理没有label的点云,此外,文章的写作和分析都很到位。 概念陈述 把点云...
  • 点云语义分割】Multi-Path Region Mining ForWeakly Supervised 3D Semantic Segmentation on Point Clouds(CVPR 2020)Motivation概念MethodBaseline Method: PCAMMulti-Path Region MiningLearning a Semantic ...
  • 这里写自定义目录标题**Introduction****Overview****Experiments****最后的话**欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的...

空空如也

1 2 3 4 5 ... 11
收藏数 207
精华内容 82
关键字:

点云语义分割