精华内容
下载资源
问答
  • 时空卷积
    2022-01-01 14:24:44

    参考文献:

    B. Mersch, X. Chen, J. Behley, and C. Stachniss, “Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks,” in Proc. of the Conf. on Robot Learning (CoRL), 2021

    大多数自动驾驶汽车使用 3D 激光扫描仪,即所谓的 LiDAR,来感知周围的 3D 世界。LiDAR 生成汽车周围场景的局部 3D 点云。一个典型的 LiDAR 传感器每秒生成大约 10 个这样的点云。这些 3D 点云广泛用于众多机器人和自动驾驶任务,如定位、物体检测、避障、映射、场景解释和轨迹预测.

    预测传感器在未来可能会看到什么的能力可以增强自动驾驶汽车的决策。一个有前途的应用是将预测的点云用于路径规划任务,例如避免碰撞。例如,与预测交通代理未来 3D 边界框的方法相比,点云预测不需要任何先前的推理步骤,例如定位、检测或跟踪来预测未来场景。在预测的点云上运行现成的检测和跟踪系统会产生未来的 3D 对象边界框,正如去年不同研究人员在点云预测中所展示的那样(Weng 等人在 CoRL’20;Lu 等人,通过在 arXiv上发表的文章) . 从机器学习的角度来看,点云预测是一个有趣的问题,因为下一次传入的 LiDAR 扫描总是提供地面实况数据。此属性提供了以自我监督的方式训练点云预测的潜力,无需昂贵的标记,并且还可以在线评估其性能,仅在未知环境中具有很小的时间延迟.

    图片

    在最近由 Benedikt Mersch 在 CoRL 2021 上展示的工作(https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/mersch2021corl.pdf)中,源代码可用**(https://github.com/PRBonn/point-cloud-prediction)**,解决了从给定的过去扫描序列中预测大型无序未来点云的问题.高维和稀疏的 3D 点云数据使点云预测成为一个尚未完全探索的具有挑战性的问题.可以通过将预测的未来场景流应用于最后接收的扫描或生成一组新的未来点来估计未来点云.默施等人专注于生成新的点云来预测未来的场景.与利用循环神经网络来建模时间对应关系的现有方法相比,使用 3D 卷积来联合编码空间和时间信息,以上论文提出的方法采用基于连接范围图像的新 3D 表示作为输入。它联合估计未来范围图像和每个点的分数,以确定多个未来时间步长的有效点或无效点,该方法可以通过使用跳跃连接和使用圆形填充的水平一致性来获取环境的结构细节,并提供比其他最先进的点云预测方法更准确的预测.

    图片

    这种方法允许使用减少的参数数量来预测不同大小的详细未来点云以进行优化,从而加快训练和推理时间.此外,该方法也是完全自我监督的,不需要对数据进行任何手动标记.总之,该方法可以通过使用时间 3D 卷积网络的快速联合时空点云处理,从给定的输入序列预测一系列详细的未来 3D 点云,优于最先进的点云预测方法,概括很好地适应看不见的环境,并且比典型的旋转 3D LiDAR 传感器帧速率更快地在线运行.

    图片

    更多相关内容
  • 针对公共场合人群异常行为检测准确率不高和训练样本缺乏的问题,提出一种基于深度时空卷积神经网络的人群异常行为检测和定位的方法。首先针对监控视频中人群行为的特点,综合利用静态图像的空间特征和前后帧的时间...
  • 时空卷积特征与嵌套LSTM用于面部表情识别
  • 融合序列分解与时空卷积的时序预测算法.pdf
  • 文章目录仔细研究用于动作识别的时空卷积Abstract1. Introduction2. Related Work3. Convolutional residual blocks for video3.1. R2D: 2D convolutions over the entire clip3.2. f-R2D: 2D convolutions over ...

    仔细研究用于动作识别的时空卷积

    paper题目:A Closer Look at Spatiotemporal Convolutions for Action Recognition

    paper是FAIR发表在CVPR 2018的工作

    paper地址:链接

    Abstract

    本文讨论了几种用于视频分析的时空卷积形式,并研究了它们对动作识别的影响。本文的动机源于观察到应用于视频的单个帧的 2D CNN 在动作识别方面仍然表现出色。在这项工作中,在残差学习的框架内凭经验证明了 3D CNN 相对于 2D CNN 的准确性优势。此外,本文表明将 3D 卷积滤波器分解为单独的空间和时间分量可以显著提高准确性。本文的实证研究获得了一种新的时空卷积块“R(2+1)D”的设计,它产生的 CNNs 的结果可与 Sports-1M、Kinetics、UCF101 和 HMDB51 上的结果相当或更好。

    1. Introduction

    自引入AlexNet以来,深度学习通过富有洞察力的设计创新(例如更小的空间滤波器、多尺度卷积、残差学习和稠密连接。相反,可能有人认为视频领域尚未见证其“AlexNet 时刻”。虽然深度网络(I3D)目前确实在动作识别方面取得了最好的结果,但相对于最佳手工方法(iDT)的改进幅度并不像图像识别的情况那样令人印象深刻。此外,在视频的各个帧上运行的基于图像的 2D CNN (ResNet-152) 在具有挑战性的 Sports-1M 基准测试中实现了非常接近最新技术的性能。这个结果既令人惊讶又令人沮丧,因为 2D CNN 无法对时间信息和运动模式进行建模,而人们认为这是视频分析的关键方面。基于这样的结果,人们可能会假设时间推理对于准确的动作识别不是必不可少的,因为序列的静态帧中已经包含了强大的动作类别信息。

    在本文工作中挑战了这一观点,并通过 3D CNN(即在时空视频量上执行 3D 卷积的网络)重新审视了时间推理在动作识别中的作用。虽然 3D CNN 在动作识别的设置中得到了广泛的探索,但在残差学习的框架内重新考虑它们,这已被证明是静止图像领域的强大工具。作者证明,当在 Sports1M和 Kinetics等大规模、具有挑战性的动作识别基准上进行训练和评估时,3D ResNets 在相同深度上的表现明显优于 2D ResNets。

    受这些结果的启发,引入了两种新形式的时空卷积,它们可以被视为 2D(空间卷积)和全 3D 极端之间的中间产物。第一个形式被命名为混合卷积(MC),它只在网络的早期层使用 3D 卷积,在顶层使用 2D 卷积。这种设计背后的基本原理是,运动建模是一种低/中级操作,可以通过网络早期层中的 3D 卷积以及对这些中级运动特征的空间推理(通过顶部的 2D 卷积实现层)获得准确的动作识别。作者表明,与容量相当的 2D ResNet 相比,MC ResNet 的剪辑级准确度提高了大约 3-4%,并且它们的性能与具有 3 倍参数的 3D ResNet 相当。第二个时空变体是“(2+1)D”卷积块,它将 3D 卷积显式分解为两个独立且连续的操作,即 2D 空间卷积和 1D 时间卷积。从这样的分解中得到什么?第一个优点是这两个操作之间的额外非线性整流。与对相同数量的参数使用全 3D 卷积的网络相比,这有效地使非线性数量增加了一倍,从而使模型能够表示更复杂的函数。第二个潜在的好处是分解有助于优化,在实践中产生较低的训练损失和较低的测试损失。换句话说,作者发现,与外观和动态共同交织在一起的全 3D 过滤器相比,(2+1)D 块(具有分解的空间和时间分量)更容易优化。实验表明,在所有层中均匀采用 (2+1)D 块的 ResNets 在 Kinetics 和 Sports-1M 上都实现了最先进的性能。

    2. Related Work

    视频理解是计算机视觉的核心问题之一,已经研究了几十年。视频理解方面的许多研究贡献都集中在开发用于视频分析的时空特征。一些提出的视频表示包括时空兴趣点 (STIP)、SIFT-3D、HOG3D、运动边界直方图、Cuboids和ActionBank。这些表示是手工设计的,并使用不同的特征编码方案,例如基于直方图或金字塔的那些。在这些手工制作的表示中,改进的密集轨迹(iDT)被广泛认为是最先进的,这要归功于其在视频分类方面的强大成果。

    深度学习在静态图像识别方面的突破源于AlexNet 模型的引入之后,人们一直在积极研究视频深度网络的设计。这一类型的许多尝试利用在图像上训练的 CNN 从单个帧中提取特征,然后使用池化、高维特征编码或循环神经网络将这些特征时间整合到一个固定大小的描述符中。Karpathy等人[16] 对如何在 CNN 中融合时间信息进行了深入研究,并提出了一种“慢融合”模型,该模型及时扩展了所有卷积层的连通性,并通过除了空间卷积之外的时间卷积计算激活。然而,他们发现在单个帧上运行的网络与处理整个视频时空体积的网络相当。可以说,使用时间卷积来识别视频中的人类动作的 3D CNN 最早是由 Baccouche 等人提出的[1] 和 Ji 等人[15]。但是,3D 卷积也被并行研究用于使用受限玻尔兹曼机和堆叠ISA 进行无监督时空特征学习。最近,在大规模数据集上训练时,3D CNN 被证明可以产生强大的动作识别结果。 3D CNN 的特征也被证明可以很好地推广到其他任务,包括动作检测、视频字幕和手势检测。

    基于 CNN 的视频建模的另一种有影响力的方法是由 Simonyan 和 Zisserman [29] 引入的双流框架表示,他们提出将从光流中提取的深层特征与从颜色 RGB 输入计算的更传统的深层 CNN 激活融合。Feichtenhofer等人使用 ResNet 架构和流之间的附加连接增强了这些双流网络。其他双流方法包括时间段网络、动作转换和卷积融合。值得注意的是,Carreira 和 Zisserman 最近推出了一种结合了双流处理和 3D 卷积的模型 (I3D)。 I3D 目前在大规模 Kinetics 数据集上拥有最好的动作识别结果。

    本文的工作在深入了解不同类型的时空卷积对动作识别性能的影响的实证分析的背景下,重新审视了许多上述方法(特别是 3D CNN、双流网络和 ResNet)。在这项研究中包括帧上的 2D 卷积、剪辑上的 2D 卷积、3D 卷积、交错(混合)3D-2D 卷积,以及将 3D 卷积分解为 2D 空间卷积和1D时间卷积,将其命名为(2+1)D卷积。作者表明,当在 ResNet 架构中使用时,(2+1)D 卷积会在 4 个不同的动作识别基准上产生最先进的结果。本文的架构称为 R(2+1)D,与分解时空卷积网络 [33] ( F S T C N F_{S T} C N FSTCN) 相关,将时空卷积分解为空间和时间卷积。然而, F S T C N F_{S T} C N FSTCN专注于网络分解,例如 F S T C N F_{S T} C N FSTCN由较低层的几个空间层和其顶部的两个平行时间层实现。另一方面,R(2+1)D侧重于层分解,即将每个时空卷积分解为一个空间卷积和一个时间卷积的块。结果,R(2+1)D 在整个网络的空间和时间卷积之间交替。 R(2+1)D 也与 Pseudo-3D 网络 (P3D) [25] 密切相关,它包括三个不同的残差块,它们使 2D ResNets 的瓶颈块适应视频。这些块实现了不同形式的时空卷积:空间后跟时间,空间和时间并行,空间后跟时间,分别从空间卷积到块的输出的跳跃连接。 P3D模型是由这三个块通过网络的深度依次交错形成的。相比之下,R(2+1)D模型在所有层中均匀地使用单一类型的时空残差块,并且不包括瓶颈。通过仔细选择每个块中的时空分解的维度,可以获得一个尺寸紧凑的模型,并且可以实现最先进的动作识别精度。例如,在使用 RGB 作为输入的 Sports-1M 上,尽管 P3D 使用 152 层,但在 Clip@1 精度(57.0% 对 47.9%)方面,R(2+1)D 的性能比 P3D 高 9.1% ResNet,而本文的模型只有 34 层。

    3. Convolutional residual blocks for video

    本节将在残差学习的框架内讨论几种时空卷积变体。让 x \mathbf{x} x表示大小为 3 × L × H × W 3 \times L \times H \times W 3×L×H×W的输入剪辑,其中 L L L是剪辑中的帧数, H H H W W W是帧的高度和宽度,3 指的是 RGB 通道。设 z i \mathbf{z}_{i} zi为残差网络中第 i i i个卷积块计算的张量。在这项工作中,只考虑“普通”残差块(即没有瓶颈),每个块由两个卷积层组成,每层后都有一个 ReLU 激活函数。然后第 i i i个残差块的输出由下式给出
    z i = z i − 1 + F ( z i − 1 ; θ i ) \mathbf{z}_{i}=\mathbf{z}_{i-1}+\mathcal{F}\left(\mathbf{z}_{i-1} ; \theta_{i}\right) zi=zi1+F(zi1;θi)
    其中 F ( ; θ i ) \mathcal{F}\left(; \theta_{i}\right) F(;θi)实现了由权重 θ i \theta_{i} θi参数化的两个卷积的组合以及 ReLU 函数的应用。在这项工作中,考虑网络,其中卷积残差块的序列最终形成顶层,在整个时空体积上执行全局平均池化,以及负责最终分类预测的全连接层。

    3.1. R2D: 2D convolutions over the entire clip


    用于视频的2D CNN忽略视频中的时间顺序,并将 L L L帧类似于通道。因此,可以将这些模型视为将输入 4D 张量 x \mathbf{x} x重塑为大小为 3 L × H × W 3 L \times H \times W 3L×H×W的 3D 张量。第 i i i个残差块的输出 z i \mathbf{z}_{i} zi也是一个 3D 张量。它的大小为 N i × H i × W i N_{i} \times H_{i} \times W_{i} Ni×Hi×Wi,其中 N i N_{i} Ni表示第 i i i个块中应用的卷积滤波器的数量, H i , W i H_{i}, W_{i} Hi,Wi是空间维度,由于池化或跨步,可能小于原始输入帧。每个滤波器都是 3D 的,大小为 N i − 1 × d × d N_{i-1} \times d \times d Ni1×d×d,其中 d d d表示空间宽度和高度。请注意,尽管滤波器是 3 维的,但它仅在 2D 中在前面的张量 Z i − 1 \mathbf{Z}_{i-1} Zi1的空间维度上进行卷积。每个滤波器产生一个单通道输出。因此,R2D 中的第一个卷积层将视频的整个时间信息折叠在单通道特征图中,从而防止在后续层中发生任何时间推理。这种类型的 CNN 架构如图 1(a) 所示。请注意,由于特征图没有时间意义,不对这个网络执行时间跨步。

    图1

    图 1. 本工作中考虑的用于视频分类的残差网络架构。 (a) R2D 是 2D ResNet; (b) MCx 是具有混合卷积的 ResNets(MC3 显示在该图中); © rMCx 使用反向混合卷积(此处显示 rMC3); (d) R3D 是 3D ResNet; (e) R(2+1)D 是具有 (2+1)D 卷积的 ResNet。为了可解释性,省略了残差连接。

    3.2. f-R2D: 2D convolutions over frames


    另一种 2D CNN 方法涉及通过一系列 2D 卷积残差块独立处理 L L L帧。相同的过滤器适用于所有 L L L帧。在这种情况下,卷积层中没有进行时间建模,顶部的全局时空池化层只是简单地融合了从 L L L帧中独立提取的信息。将此架构变体称为 f-R2D(基于帧的 R2D)。

    3.3. R3D: 3D convolutions


    3D CNNs保存时间信息并通过网络层传播。在这种情况下,张量 z i \mathbf{z}_{i} zi是 4D,大小为 N i × L × H i × W i N_{i} \times L \times H_{i} \times W_{i} Ni×L×Hi×Wi,其中 N i N_{i} Ni是第 i i i个块中使用的滤波器的数量。每个过滤器都是 4 维的,大小为 N i − 1 × t × d × d N_{i-1} \times t \times d \times d Ni1×t×d×d,其中 t t t表示过滤器的时间范围(在这项工作中,使用 t = 3 t=3 t=3)。滤波器在 3D 中进行卷积,即在时间和空间维度上进行卷积。这种类型的 CNN 架构如图 1(d) 所示。

    3.4. MCx and rMCx: mixed 3D-2D convolutions


    一种假设是运动建模(即 3D 卷积)可能在早期层中特别有用,而在更高级别的语义抽象(晚期层)中,运动或时间建模不是必需的。因此,一个合理的架构可以从 3D 卷积开始,然后在顶层使用 2D 卷积。由于在这项工作中认为 3D ResNet (R3D) 具有 5 组卷积(参见表 1),因此第一个变体是将第 5 组中的所有 3D 卷积替换为 2D 卷积。用 MC5(混合卷积)表示这个变体。还设计了第二个变体,在第 4 组和第 5 组中使用 2D 卷积,并将此模型命名为 MC4(意味着从第 4 组和更深的层开始,所有卷积都是 2D 的)。按照这种模式,还创建了 MC3 和 MC2 变体。省略了考虑 MC1,因为它等效于应用于剪辑输入的 2D ResNet (fR2D)。这种类型的 CNN 架构如图 1(b) 所示。另一种假设是时间建模在深层可能更有益,通过 2D 卷积早期捕获外观信息。为了解释这种可能性,还尝试了“反向”混合卷积。按照 MC 模型的命名约定,将这些模型表示为 rMC2、rMC3、rMC4 和 rMC5。因此,rMC3 将包括块 1 和 2 中的 2D 卷积,以及组 3 和更深组中的 3D 卷积。这种类型的 CNN 架构如图 1© 所示。

    表 1. 实验中考虑的 R3D 架构。卷积残差块显示在括号中,旁边是每个块在堆栈中重复的次数。为滤波器和输出给出的维度依次是时间、高度和宽度。这一系列卷积以一个全局时空池化层产生一个 512 维的特征向量。该向量被馈送到一个全连接层,该层通过 softmax 输出类概率。

    表1

    3.5. R(2+1)D: (2+1)D convolutions


    另一种可能的理论是,完整的 3D 卷积可以更方便地通过 2D 卷积和 1D 卷积来近似,将空间和时间建模分解为两个独立的步骤。因此,设计了一个名为 R(2+1)D 的网络架构,将大小为 N i − 1 × t × d × d N_{i-1} \times t \times d \times d Ni1×t×d×d的$N_{i} 3 D 卷 积 滤 波 器 替 换 为 由 3D卷积滤波器替换为由 3DM_{i} 2 \mathrm{D} 卷 积 滤 波 器 组 成 的 ( 2 + 1 ) D 块 尺 寸 卷积滤波器组成的 (2+1)D 块尺寸 (2+1)DN_{i-1} \times 1 \times d \times d 和 和 N_{i} 尺 寸 尺寸 M_{i} \times t \times 1 \times 1 的 时 间 卷 积 滤 波 器 。 超 参 数 的时间卷积滤波器。超参数 M_{i} 确 定 信 号 在 空 间 和 时 间 卷 积 之 间 投 影 的 中 间 子 空 间 的 维 数 。 选 择 确定信号在空间和时间卷积之间投影的中间子空间的维数。选择 M_{i}=\left\lfloor\frac{t d^{2} N_{i-1} N_{i}}{d^{2} N_{i-1}+t N_{i}}\right\rfloor 使 得 ( 2 + 1 ) D 块 中 的 参 数 数 量 大 约 等 于 实 现 全 3 D 卷 积 的 参 数 数 量 。 注 意 到 这 种 时 空 分 解 可 以 应 用 于 任 何 3 D 卷 积 层 。 对 于 输 入 张 量 使得 (2+1)D 块中的参数数量大约等于实现全 3D 卷积的参数数量。注意到这种时空分解可以应用于任何 3D 卷积层。对于输入张量 使(2+1)D3D3D\mathbf{z}_{i-1}$ 包含单个通道(即 N i − 1 = 1 N_{i-1}=1 Ni1=1)的简化设置,图 2 给出了这种分解的说明。如果 3D 卷积具有空间或时间跨度(实现下采样),则跨度相应地分解为其空间或时间维度。这种架构如图 1(e) 所示。

    图2

    图 2. (2+1)D 与 3D 卷积。该图是针对简化设置给出的,其中输入由具有单个特征通道的时空体积组成。 (a) 使用大小为 t × d × d t \times d \times d t×d×d的滤波器进行全 3D 卷积,其中 t t t表示时间范围, d d d是空间宽度和高度。 (b) (2+1)D 卷积块将计算拆分为空间 2D 卷积,然后是时间 1D 卷积。选择 2D 滤波器 ( M i ) \left(M_{i}\right) (Mi)的数量,以便(2+1)D 块中的参数数量与完整 3D 卷积块的参数数量相匹配。

    与全 3D 卷积相比,(2+1)D 分解具有两个优点。首先,尽管没有改变参数的数量,但由于每个块中 2D 和 1D 卷积之间的额外 ReLU,它使网络中的非线性数量增加了一倍。增加非线性的数量会增加可以表示的函数的复杂性,正如在 VGG 网络中也指出的那样,它通过应用多个较小的过滤器来近似大过滤器的效果,并且它们之间有额外的非线性。第二个好处是,将 3D 卷积强制为单独的空间和时间分量使优化更容易。与相同容量的 3D 卷积网络相比,这表现为较低的训练误差。这在图 3 中进行了说明,该图显示了具有 18(左)和 34(右)层的 R3D 和 R(2+1)D 的训练和测试错误。可以看出,对于相同的层数(和参数),与 R3D 相比,R(2+1)D 不仅测试误差更低,而且训练误差也更低。这表明当对时空过滤器进行分解时,优化变得更容易。对于具有 34 层的网络,训练损失的差距特别大,这表明随着深度的增大,优化的便利性也会增加。

    注意到,本文的分解与 Pseudo-3D 块 (P3D)密切相关,P3D 是为了使 R2D 的瓶颈块适应视频分类而提出的。引入了三种不同的伪 3D 块:P3D-A、P3D-B 和 P3D-C。这些块实现了不同的卷积顺序:空间后跟时间,空间和时间并行,空间后跟时间,分别从空间卷积到块的输出的跳跃连接。(2+1)D卷积与P3D-A块最密切相关,但它包含瓶颈。此外,最终的 P3D 架构是通过在整个网络中按顺序交错这三个块组成的,但使用 2D 卷积的第一层除外。相反,本文提出了一种同构架构,其中在所有块中使用相同的 (2+1) 分解。另一个区别是,P3D-A 的设计目的不是为了将参数数量与 3D 卷积相匹配。尽管 R(2+1)D 在其架构上非常简单且同质,但实验表明它在 Sports-1M 上的性能明显优于 R3D、R2D 和 P3D(参见表 4)。

    表 4. 与 Sports-1M 上最先进技术的比较。 R(2+1)D 比 C3D 高 10.9%,比 P3D 高 9.1%,并且在该基准上达到了迄今为止报告的最佳精度。

    表4

    参考文献

    [1] M. Baccouche, F. Mamalet, C. Wolf, C. Garcia, and A. Baskurt. Sequential Deep Learning for Human Action Recognition, pages 29–39. Springer Berlin Heidelberg, Berlin, Heidelberg, 2011. 2

    [15] S. Ji, W. Xu, M. Yang, and K. Y u. 3d convolutional neural networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 1, 2, 3

    [16] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014. 1, 2, 5, 7

    [25] Z. Qiu, T. Yao, , and T. Mei. Learning spatio-temporal representation with pseudo-3d residual networks. In ICCV, 2017. 1, 2, 4, 7, 8

    [29] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2, 3, 7, 8

    [33] L. Sun, K. Jia, D.-Y . Yeung, and B. E. Shi. Human action recognition using factorized spatio-temporal convolutional networks. In ICCV, 2015. 2, 8

    展开全文
  • 人工智能-稀疏自组合时空卷积神经网络动作识别方法及其并行化.pdf
  • 基于注意力机制的时空卷积网络(ASTGCN+PyTorch+论文+数据)交通流预测 交通流预测 python # ASTGCN-PyTorch ## Requirements - PyTorch >= 1.1.0 - SciPy
  • 基于四元数时空卷积神经网络的人体行为识别.pdf,传统卷积神经网络(CNN)只适用于灰度图像或彩色图像分通道的特征提取,忽视了通道间的空间依赖性,破坏了真实环境的颜色特征,从而影响人体行为识别的准确率。...
  • 用于视频中3D人姿估计的图注意力时空卷积网络(GAST-Net) 消息 [2021/01/28]我们更新了GAST-Net,使其能够生成包括关节和脚关节在内的19个关节的人体姿势。 [2020/11/17]我们提供了有关如何从自定义视频生成3D姿势...
  • STConvS2S:时空卷积序列到序列网络以进行天气预报 更新:随着我们架构的变化而发布的新代码。 请参阅以了解详细信息(2020年11月) 该存储库具有称为STConvS2S的新体系结构的开源实现。 综上所述,我们的方法...
  • 基于深度时空卷积网络的民航需求预测
  • 基于深度时空卷积神经网络的点目标检测.pdf
  • 基于深度时空卷积神经网络的人群异常行为检测和定位.pdf
  • 基于时空卷积神经网络GL-GCN的交通流异常检测算法.pdf
  • 关于时空卷积的TCN.pptx. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
  • 以往的研究中主要利用通行时间这类交通状态特征作为模型输入,很难预测整体的交通状况,本文提出的混合时空卷积网络,利用导航数据大大提升了时空预测的效果(本文作者高德机器学习团队,论文已被收录...

    点击上方“小白学视觉”,选择加"星标"或“置顶

    重磅干货,第一时间送达
    【导读】时空预测在天气预报、运输规划等领域有着重要的应用价值。交通预测作为一种典型的时空预测问题,具有较高的挑战性。以往的研究中主要利用通行时间这类交通状态特征作为模型输入,很难预测整体的交通状况,本文提出的混合时空图卷积网络,利用导航数据大大提升了时空预测的效果(本文作者高德机器学习团队,论文已被收录到KDD2020)。

    日常通勤中的规律往往相对容易挖掘,但交通状况还会受很多其他因素影响,之前的研究主要利用通行时间这类交通状态作为特征,少量研究引入事件,不能很好地预测实际交通流量。

    为解决这一问题,本文从高德导航引擎中获取了「计划中交通流量」,并将其扩充到机器学习模型当中。

    计划中交通流量来自导航数据,反映了用户出行意图中蕴含的未来交通流量。由于拥有海量用户,高德地图中的导航规划数据能够较为全面地反应正在发生的通行需求,并且信息粒度较事件级别的特征更精细。

    具体来说,规划的路线产生了计划中交通流量,而计划中交通流量可以用来指导对未来通行时间的预测。volf代表当前可获取的导航路径在f个时间步后在此路段产生的计划中交通流量。计划中交通流量的迅速飙升意味着即将到来的交通拥堵。

         outside_default.png

    图 1  北京某路段在2019年10月28日早高峰期间通行时间和计划中交通流量

    为了将交通流量这一异质信号整合到通行时间预测模型当中,我们创新性地设计出一种域转换器(domain transformer)结构,用于将交通流量信息转化为通行时间信息。

    交通流理论中,路段的交通流量和车辆密度呈三角形曲线映射关系,而曲线的参数是因路段而异的。图2展示了现实世界中的例子。为了利用这一转换关系,我们设计了将流量转化为通行时间的转换器,该转换器由两层网络构成,分别用于提取全局共享信息和学习不同路段的精细化信息。

           1caf070ff378bff36447860a5da8096f.png

    图 2  四个不同路段的流量时间曲线

    另一方面,由于交通网络的非欧几里得特性,我们利用图卷积(graph convolution)结构提取空间依赖性特征,并设计了一种新的邻接矩阵用于更好地体现路段间的交通邻近性。

    在以往的研究中[6],邻接矩阵的权重只按距离衰减,并没有考虑到路段间固有的交通邻近性(图 3 给出了距离近但交通状态相差较大的例子)。为解决这一问题,我们设计了一种复合邻接矩阵(compound adjacency matrix),在距离衰减的基础上进一步引入了路段通行时间的协方差。

           c2464c454f1bb4dde9e7fa9a6751fe4d.png  

    图 3  相邻道路间拥堵不一定会传播

    本文提出的混合时空图卷积网络(Hybrid Spatio-Temporal Graph Convolutional Network,H-STGCN)是综合利用上述技术的交通预测框架。

    在H-STGCN中,转换器将未来交通流量信号转化为通行时间信号。路段间参数共享的门控卷积用于提取时间依赖信息。

    基于复合邻接矩阵的图卷积从合并后的通行时间信号中捕捉空间依赖信息。H-STGCN经由端到端的训练,可具备基于计划中交通流量信息预测未来拥堵的能力。利用真实交通数据集进行实验可验证,H-STGCN的效果显著优于各种前沿模型。

    混合时空图卷积网络,独创域转换器和复合邻接矩阵

    整体框架

    图 4 展示了H-STGCN的整体框架。模型输入由两个特征张量组成,理想未来流量和通行时间张量。和均包含三个维度:空间维度、时间维度、通道维度,分别对应路段、所使用的时间片和特征。

    域转换器(模块a)首先将转化为通行时间信号,输出未来通行时间张量。接下来,两个独立的门控卷积(模块b)分别作用于和的时间维度以提取更高层级的时域特征。

    将每个路段视为一个节点,基于复合邻接矩阵的图卷积(模块c)作用在合并(concatenation)后的信号上。两个门控卷积继续扩大时域上的感知范围,并最终经由一个全连接层(FC)输出预测结果。

    44e1d8880bc401fc8f4e0667c5adbc14.jpeg 图 4  H-STGCN模型框架   

    模型输入与数据处理

    输入特征张量的每个切片对应了一个单独的时间片 ()。每个切片又由两部分组成:理想未来流量和通行时间。

    理想未来流量 。作为对真实未来流量这一无法获取信息的近似,理想未来流量可以通过在线导航引擎获取。图 5 示意了高德导航系统的架构。导航过程中,车辆每秒钟与云服务器同步自身坐标,与此同时,为保证用户获取到最新的交通状态信息,云服务器对ETA进行几乎实时的持续更新。

    d0256932c974fd90818cd107d5512e1b.png

    图 5  高德导航系统架构示意

    高德导航引擎中原始数据的形式为


    402 Payment Required

    其中是导航进程的索引号,是导航的发起时间,代表规划路线中的第个路段,是到达的预估时间, 是路线中路段的总数量,是导航进程的总数量。ETA来自机器学习模型的预测(利用历史轨迹等数据训练得到)。算法 1 展示了从导航路线集合中推算理想未来流量的方法。

    b71059ee199eac4ce0aed0c63dff15ca.png


    H-STGCN中,与预测时间窗口相对应的理想未来流量和历史平均流量同时被输入:


    其中是路段的索引号。

    通行时间 。通行时间通过完成地图匹配的GPS点数据整合计算得到。H-STGCN中,通行时间及其与预测时间窗口相对应的历史均值同时被用于模型的输入:


    其中是路段的索引号。

    域转换器

    域转换器由串联的两层网络组成,即逐路段卷积(segmentwise convolution)和路段间共享卷积(shared convolution),图 4 呈现了这一结构。

    c49a727adec5b0b17f22ce55ae97a371.png 图 6  H-STGCN中的各种卷积运算


    共享卷积。路段及时间片间参数共享的卷积层位于域转换器的顶部,该卷积运算阐释如图 6a,旨在捕捉全局的三角形曲线映射关系。记这一层的输入和输出为与,则有:


    402 Payment Required

    其中为权重,为偏置项,为ELU(Exponential Linear Unit)激活函数。


    逐路段卷积。为保证模型能够充分提取精细到路段级别的特征,路段参数个性化的卷积层位于域转换器的底部(共享卷积前面一层),该卷积运算阐释如图 6b。记这一层的输入和输出为与,则有:



    其中,为权重,为偏置项,是ELU激活函数。

    基于复合邻接矩阵的图卷积

    复合邻接矩阵。以往研究[6,7]中的邻接矩阵假设节点间的接近性简单地依距离衰减:

    其中为路段与的最短路距离,控制衰减速率,为控制矩阵稀疏性的截断阈值。我们将称为迪杰斯特拉矩阵(Dijkstra matrix)。在很多场景下,单纯的空间接近程度并不能反映真实的交通邻近性。更具体而言,交通拥堵对交通分流的影响取决于邻近路段的若干种属性,包括道路等级、路况等。可见,拥堵的传播在空间上并不均匀。由此,我们提出了复合邻接矩阵:

    16908b84645e843f002c04b73a5ab40d.png

    891a48d191fee92bba60f6f52c6b03fb.png

    图卷积 。我们将交通路网视为一个以路段为节点的图。归一化图拉普拉斯(normalized graph Laplacian)矩阵和缩放变换的图拉普拉斯(scaled graph Laplacian)矩阵分别表示为:

    402 Payment Required

    其中为单位阵,为复合邻接矩阵,对角阵为的度矩阵(degree matrix),是的最大特征值。图卷积层通过的切比雪夫多项式(Chebyshev polynomials)参数化。记这一层的输入和输出为

    8f6d19e94362c7ca35a741187ce9fc21.png

    则:

    402 Payment Required

    其中,是切比雪夫多项式第阶项,K是卷积核大小,为权重张量,为偏置项,是ELU激活函数。

    时域门控卷积

    如图 6c 所示,路段间参数共享的一维卷积将输入转化为张量:

    402 Payment Required

    其中表示一维卷积运算符。

    402 Payment Required

    是卷积核, 是卷积核的大小, 是输入时序长度, 是偏置项。 和 形状相同、通道数均为 。我们使用GLU(gated linear unit)进一步引入非线性:

    “”表示哈达玛积(Hadamard product)。

    与STGCN的关系

    时空图卷积网络(Spatio-Temporal Graph Convolutional Network,STGCN)[7]将空域图卷积层和时域门控卷积层交替地进行堆叠以同时捕捉时间和空间的依赖性。将H-STGCN的流量特征分支和邻接矩阵中的协方差项去掉,则H-STGCN退化为只有单个时空卷积块(ST-Conv block)的STGCN模型。

    模型训练

    数据扩充 。我们将高斯噪音叠加到流量通道中小于的值上,以提升模型的泛化能力。

    优化目标 。对于本文中的多时间步预测,我们使用L1损失函数:

    402 Payment Required

    其中是模型的输出,为真值。

     基于真实路况测试,各项指标均优于传统模型

    数据集

    实验数据集W3-715和E5-2907,分别对应西三环附近的715个路段和东五环附近的2907个路段(如图 7 所示)。数据集的时间跨度为2018年12月24日至2019年4月21日(其中包含的节假日被移除,共十周数据),保留的时段为每天的06:00至22:00。前八周数据作为训练集,后两周作为测试集。

             27c5f2258bb7da6b3fe7cf275ff3a94c.png       图 7  实验路网空间分布

    对比模型

    基线模型,包括历史均值(HA)、线性回归(LR)、GBRT、MLP、Seq2Seq、STGCN(包含单个时空卷积块)

    用于对比实验的变种模型。

    • STGCN (Im):换用复合邻接矩阵的STGCN(用于和原始的迪杰斯特拉矩阵对比。

    • H-STGCN (1):将流量特征张量V全部设成1。

    评价指标

    我们在三种测试集上进行模型效果的比对:

    • 全测试集(如4.1节中所描述)。

    • 高流量路段的拥堵时期,用C表示。

    • 高流量路段的突发拥堵时期,用尾缀NRC表示。

    效果比较

    表 1 展示了在全测试集、测试集C、测试集NRC上不同模型的表现。评估标准包括MAE(s/m)、MAPE(%)和RMSE(s/m)。H-STGCN在各项指标上均显著优于不同的对标模型,在突发拥堵的预测方面优势尤为明显。

          de26c9e978db79433ec94833de14edf3.png

    复合邻接矩阵 。分析表 1 可知,和STGCN相比,STGCN (Im)在W3-715数据集上有着更低的MAE、MAPE,在E5-2907数据集上有着更低的MAE、MAPE及RMSE,证明了复合邻接矩阵的有效性。图 8 以E5-2907数据集为例,对不同邻接矩阵进行可视化。图中颜色代表的值为03af7144308930ce771994dcaba64f60.png,(a)为迪杰斯特拉矩阵,(b)为协方差矩阵,(c)为复合邻接矩阵。

    a460f285fc73a632afbc1c3151184a14.png 

    图 8 E5-2970的各种邻接矩阵

    未来流量特征和域转换器。如表 1 所示,和STGCN (Im)相比,H-STGCN有着稳定的更优表现,从而证实了利用未来流量数据带来的收益。由于域转换器中逐路段卷积结构的存在,H-STGCN的模型表达能力是强于STGCN (Im)的。为了消除这一影响以针对未来流量特征带来的收益做更公平的分析,我们进一步将H-STGCN与H-STGCN (1)进行对比。

    在测试集C、测试集NRC上,不难发现未来流量特征在对拥堵的预测上有显著更优的表现。如图 9 所示,随着预测时间跨度的拉长,未来流量特征带来的收益会起主导作用。

    d57f4235adeffeef1c7cd1eefb182f90.png

     图 9 测试集NRC上效果比对

    为了更加直观地对H-STGCN的原理加以剖析,我们这里展示一个突发拥堵预测的案例(如图 10 所示)。这个案例来自2018年4月16日某一高速路段。GT代表真值,HA代表历史均值,是个时间步以前对当前通行时间的预测值,是对应个时间步后的理想未来流量。

    17:30至18:00拥堵加剧的阶段,H-STGCN (1)提前多个时间步的预测结果和真值相比有明显的时间滞后。相比之下,H-STGCN由于有理想未来流量中的信息,甚至有能力在30min以前就对拥堵有着准确的预测。

    我们可以这样理解这一现象:对应的曲线代表了对15min之后交通流量的近似推算,该曲线在17:15就开始拉升了。基于导航引擎中只有当前时刻已经发起的导航行程这一事实,实际的未来流量要比理想未来流量更高。所以,的飙升预示着有较大的交通流量正在涌来,这就使H-STGCN能够在没有历史数据做参考的情况下预知未来的拥堵。

    a7aa034e5229cd87e866e3cb1cd60666.png

    图 10 突发拥堵预测案例

    模型可扩展性

    模型在W3-715和E5-2097两数据集的预测时间不超过100ms。为了在实际线上应用场景中平衡推演效率和预测效果,我们将城市路网切分成最多包含几千个路段的子路网,每个子路网在线上部署一个模型。 

    未来将在主动交通管理方面发挥重要作用

    H-STGCN已在高德驾车路线的旅行时间预测(ETA)(见图 11)中落地[9,10],并将偏差严重的案例数量降低了15%。

    H-STGCN首次以数据驱动的方式建模了用户出行意图与交通路况演化之间的相互作用,未来可以广泛的应用在主动式的交通管理领域,例如智能红绿灯调控[9]、智能道路收费系统[10]等。

             49975d554ae859739d7999744a1afa2f.png      

    图 11 ETA预测结果的展示

    本文提出了一种新的用于通行时间预测的深度学习框架:混合时空图卷积网络(H-STGCN),该框架利用从导航数据中推演出的计划中交通流量提升模型效果。在真实场景数据集上进行的实验证实H-STGCN和对标的模型相比取得了更优的效果,在突发拥堵的预测上优势尤为明显。

    混合时空图卷积网络提供了一种将物理知识嵌入数据驱动模型的新范式,创新性地应用了复合邻接矩阵和域转换器结构,很容易推广到一般的时空预测任务当中,未来将在智能交通管理等领域发挥重要作用。

    
     

    好消息!

    小白学视觉知识星球

    开始面向外开放啦👇👇👇

    
     

    7b4c7ab7596ffd881ab339a12b018b1f.jpeg

    下载1:OpenCV-Contrib扩展模块中文版教程
    
    在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。
    
    
    下载2:Python视觉实战项目52讲
    在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
    
    
    下载3:OpenCV实战项目20讲
    在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
    
    
    交流群
    
    欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~
    展开全文
  • 在本文中,我们提出了一种新的深度学习框架,时空卷积网络(STGCN),以解决交通领域的时间序列预测问题(即交通预测)。我们不使用正则卷积和循环单元,而是在图上描述问题,并建立具有完整卷积结构的模型,这...

    由于交通流的高度非线性和复杂性,传统方法不能满足中长期预测任务的要求,其往往忽略了空间和时间依赖性。在本文中,我们提出了一种新的深度学习框架,时空图卷积网络(STGCN),以解决交通领域的时间序列预测问题(即交通预测)。我们不使用正则卷积和循环单元,而是在图上描述问题,并建立具有完整卷积结构的模型,这使得训练速度更快,参数更少。该体系结构包括几个时空卷积块,它们是图形卷积层和卷积序列学习层的组合,用于建模空间和时间依赖性。这在交通研究中首次应用纯卷积结构从图形结构的时间序列中同时提取时空特征。

    交通研究中,交通流的基本变量,即速度、交通量和密度,通常被选为监测交通状况的当前状态的和预测未来的指标。根据预测的长度,交通预测通常分为两个尺度:短期(5∼ 30分钟),中长期(超过30分钟)。大多数流行的统计方法(例如,线性回归)都能很好地进行短期预测。然而,由于交通流的不确定性和复杂性,这些方法对于相对长期的预测效果较差。

    之前的中长期交通预测研究大致可以分为两类:动态建模和数据驱动方法。动态建模:使用数学工具(如微分方程)和物理知识,通过计算模拟来描述交通问题。为了达到稳定状态,模拟过程不仅需要复杂的系统编程,还需要消耗大量的计算能力。型中不切实际的假设和简化也会降低预测精度。因此,随着交通数据收集和存储技术的快速发展,大量研究人员将注意力转移到数据驱动的方法上。

    经典统计模型和机器学习模型是数据驱动方法的两个主要代表。时间序列分析中,ARIMA及其变体是基于经典统计学的最综合的方法之一。受到时间序列平稳假设的限制,也没有考虑时空相关性。因此,这些方法对于高度非线性交通流的表达性受限。近年来,经典统计模型在交通预测任务中受到了机器学习方法的有力挑战。这些模型,如k近邻算法(KNN)、支持向量机(SVM)和神经网络(NN),可以实现更高的预测精度和更复杂的数据建模。近年深度学习相关工作取得了重大进展,但这些密集网络很难从输入中联合提取时空特征,此外,在狭隘的限制甚至完全没有空间属性的情况下,这些网络的代表能力将受到严重阻碍。

    为了充分利用空间特征,使用卷积神经网络(CNN)捕捉交通网络之间的相邻关系,同时在时间轴上使用递归神经网络(RNN)。用于序列学习的循环网络需要迭代训练,这将逐步引入误差累积。此外,基于RNN的网络(包括LSTM)众所周知难以训练且计算量大。

    为了克服这些问题,我们引入了几种策略来有效地建模交通流的时间动态和空间依赖性。为了充分利用空间信息,我们通过一个通用图来建模交通网络,而不是单独处理它(例如网格或线段)。为了解决递归网络的固有缺陷,我们在时间轴上采用了完全卷积结构。

    交通量预测是一个典型的时间序列预测问题,即给定之前的M个交通量观测值,预测下一个H时间步中最可能的交通量测量值(例如速度或交通流)。

    其中,是在时间步t的n个路段的观测向量,其每个元素记录了单个路段的历史观测。在这项工作中,我们定义了一个图上的交通网络,重点关注结构化的交通时间序列。观测值vt不是独立的,而是在图中成对连接。

    图结构的交通数据。每个vt代表时间t上当前交通状态的一个帧,该帧记录在图结构数据矩阵中。vt可以看作是在带权wij的图G上定义的图信号。在第t时间步,在图中,Vt是有限顶点集,对应于交通网络中n个监测站的观测值。代表Gt的带权邻接矩阵。

    图上的卷积

    基于谱图卷积的概念,我们引入了图卷积算子的概念,作为信号与核Θ的乘积。

    其中图傅里叶基是归一化图拉普拉斯()的特征向量矩阵。是L的特征值的对角矩阵。根据这一定义,图形信号x被内核Θ用Θ与图形傅里叶变换之间相乘进行过滤。

    本文所提模型

    网络架构,将详细介绍提出的时空图卷积网络(STGCN)的架构。STGCN由几个时空卷积块组成,每个时空卷积块形成一个“三明治”结构,两个门控序列卷积层和中间一个空间图卷积层

     时空图卷积网络的体系结构。STGCN框架由两个时空卷积块(ST-Conv块)和最后一个全连接的输出层组成(左)。每个ST-Conv块包含两个时间门控卷积层和中间的一个空间图卷积层(中)。在每个块内部有应用残余连接和瓶颈策略。输入被ST-Conv块统一处理,来连贯的探索空间和时间依赖关系。综合特征由输出层集成,以生成最终预测ˆv。

    图卷积网络用于提取空间特征。

    交通网络通常组织为图结构,用数学方法将道路网络表示为图。之前的研究忽略了交通网络的空间属性:网络的连通性和全局性被忽略,因为它们被分割成多个段或网格。我们的模型中,图卷积直接用于图结构数据,以提取空间域中具有高度意义的模式和特征。由于图的Fourier基的O(n2)复杂度乘法,公式(2)计算图卷积中的核Θ可能会很昂贵,有两种近似策略用于克服这个问题。

     切比雪夫多项式逼近

    使滤波器局部化并减少参数数量,核Θ可以被限制为Λ的多项式,其中是多项式系数向量。K是图卷积的核大小,它决定了从中心节点的最大卷积半径。传统上,切比雪夫多项式被用来将核近似为K-1阶的截断展开,其中缩放的λmax代表L的最大特征值。图卷积可以重新写为其中是在缩放的拉普拉斯下计算的k阶切比雪夫多项式。通过多项式逼近来递归的计算K局部卷积

    一阶近似

    分层线性公式可以通过堆叠多个带有图拉普拉斯一阶近似的局部图卷积层来定义。更深层次的体系结构可以被构建来恢复深层空间信息。由于神经网络中的缩放和归一化,我们可以进一步假设λmax≈ 2.,因此式3可以被简化成其中 是两个核共享参数,为了约束参数和稳定数值性能,可以被一个参数替代,设。W和D是重整后的,即,因此图卷积可以表示为

    在垂直方向上应用一阶近似的图卷积堆栈,获得与K局部卷积水平方向相似的效果,所有这些卷积都利用了来自中心节点的(K−1)阶邻域的信息,在这种情况下,K是模型中连续过滤操作或卷积层的数量。此外,分层线性结构对于大型图来说是参数经济且高效的,因为近似的阶数仅限于一

     图卷积的推广

     定义在上图卷积算子可以拓展到多维张量。比如对于有Ci个通道的信号,图卷积可以通过拓展,其中有个切比雪夫系数向量(Ci和Co分别是输入和输出的特征大小)。二维变量的图卷积具体来说,交通预测的输入由M帧道路图组成,每一帧vt都可以看作一个矩阵,其列i是在图Gt在第i个节点的vt的Ci维的值,表示为。对于每个时间步t(总共M个时间步),将具有相同核Θ的等图卷积运算并行施加于。因此,图卷积可以进一步推广到三维变量中

    用于提取时间特征的门控CNN

    基于RNN的模型在时间序列分析中得到了广泛应用,但用于交通预测的循环网络仍然存在耗时的迭代、复杂的门机制以及对动态变化的缓慢响应等问题。相反,CNN具有训练速度快、结构简单、与之前步骤没有依赖性约束的优势。我们采用时间轴上的整个卷积结构来捕捉交通流的时间动态行为。这种特殊的设计允许通过多层卷积结构形成分层表示,从而实现并行和可控的训练过程。

    时间卷积层含一个带有宽度为Kt的核的1-D因果卷积,后跟门控线性单元(GLU)作为非线性(右)。对于图G中的每个节点,时间卷积在没有填充的情况下探索输入元素的Kt个邻居,导致每次将序列长度缩短Kt-1。每个节点的时间卷积输入可以被视为一个长度为M带有Ci个通道的序列,

    ,卷积核将输入Y映射为一个单一输出元素

    ,P,Q被一分为二,通道大小相同,最后,时间门通卷积可以定义为

    P、Q分别为GLU中的门输入;元素级Hadamard积。sigmoid门σ(Q)控制当前状态的哪些输入P与发现时间序列中的成分结构和动态方差有关。非线性门也有助于通过堆叠的时间层利用完整的输入场。此外,在堆叠的时间卷积层之间实现残余连接。同样,通过对每个节点使用相同的卷积核Γ,时间卷积也可以推广到三维变量,表示为

    时空卷积块

    为了融合时空域的特征,构造时空卷积块(ST Conv块)来联合处理图形结构的时间序列。根据特定情况的规模和复杂性,区块本身可以堆叠或延伸。中间的空间层是连接两个时间层的桥梁,可以实现从通过时间卷积的来自图卷积的快速空间状态传播(中)。“三明治”结构还有助于网络充分应用瓶颈策略,通过图卷积层对通道C进行降尺度和升尺度,实现尺度压缩和特征压缩。此外,在每个ST-Conv块中使用层标准化来防止过度拟合。

    ST Conv块的输入和输出都是三维张量。块l的输入,输出

    计算,其中是块l中的上下时间核,是图卷积空间核。ReLU(·)表示校正后的线性单位函数。在堆叠两个ST Conv块后,我们附加一个额外的时间卷积层,其带有一个全连接的层作为最后的输出层(左)。时间卷积层将最后一个ST Conv块的输出映射到一个单步预测。然后,我们可以得到最终的输出,通过跨c通道应用线性变换,计算n个节点的速度预测,即 w是权重向量,b是偏差。我们使用L2损失来衡量模型的性能。因此,用于交通预测的STGCN损失函数可以写成

    代表模型的预测,是真实值,是模型所有可学习参数

    总结:STGCN是处理结构化时间序列的通用框架,可处理一般的时空序列学习任务。时空块结合了图卷积和门控时间卷积,可以提取空间特征,并连贯地捕获时间特征。模型完全由卷积结构组成,因此能够以较少的参数和较快的训练速度实现对输入的并行化。

    展开全文
  • 视频序列中的人类动作是三维(3D)时空信号,表征了所涉及的人类和物体的视觉外观和运动动态。受卷积神经网络(CNN)成功用于图像分类的启发,最近进行了一些尝试来学习3D CNN以识别视频中的人类动作。然而,部分地...
  • 本文基本参照 【python量化】用时间卷积神经网络(TCN)进行股价预测_敲代码的quant的博客-CSDN博客_卷积神经网络对时间序列的预测对TCN时空卷积网络进行简单的python实现,用于理解TCN网络运行机制并以备后查,运行...
  • 本文的主要贡献在于提出了一种新的基于距离图像的编码器-解码器神经网络,利用三维卷积联合处理点云的时空信息。该方法通过使用跳跃连接和圆形填充来获取环境的结构细节并保持水平一致性,提供比其他基准方法更准确...
  • MFSTGCN方法从通航量、船舶平均航速和船舶密度3个特征出发,利用空间维图卷积和时间维卷积操作有效捕获通航密度的时空相关性。在某航运平台采集的长江港口船舶自动识别系统(AIS,automatic identification system)...
  • 时空卷积网络ST-GCN论文完全解读记录

    千次阅读 多人点赞 2020-12-23 13:36:52
    时空卷积网络ST-GCN论文解读前言一、基于图神经网络的图分类问题二、ST-GCN文章解读1.基于openpose实现人体骨骼提取2.基于人体关键点构造graph2.1构造单帧graph(空间域)2.2构造帧间graph(时间域)2.读入数据...
  • 深入理解时空卷积(ST-GCN)

    千次阅读 多人点赞 2021-11-04 10:59:42
    深入理解时空卷积(ST-GCN)整体描述空间上的图卷积举个例子回归ST-GCN时间上的卷积 前言:本文试图从代码角度解读ST-GCN(不包含图卷积理论知识),希望对研究行为识别的同学有所帮助,不正确的地方请指正。 整体...
  • 使用 3D 卷积网络学习时空特征 paper题目:Learning Spatiotemporal Features with 3D Convolutional Networks paper是FAIR发表在ICCV 2015的工作 paper链接:链接 Abstract 我们提出了一种简单而有效的时空...
  • Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. 图卷积神经网络,2018年AAAI论文代码。
  • 这篇文章 是C3D作者Du Tran+IDT作者Heng Wang新作。来自Facebook Resaerch &Dartmouth Colledge.阅读这篇文章之前,可以...关于3维卷积,可以看一下文章《Learning Spa...
  • 贴一下汇总贴:论文阅读记录 论文链接:《Spatio-Temporal Graph Convolutional Networks:A ...在本文中,我们提出了一种新的深度学习框架——时空卷积网络(STGCN),以解决交通领域的时间序列预测问题。我们没有使

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 5,972
精华内容 2,388
关键字:

时空卷积