精华内容
下载资源
问答
  • T-C3D 实时行为识别时序卷积网络

    千次阅读 2019-12-11 22:43:40
    对于行为识别,对于短动作的行为识别,目前的方法已经达取得的很好的结果,但是对于长时序的动作,目前方法还存在问题。其实对于分割和行为识别面临问题属于同一类问题,解决该问题的思路是:局部特征提取,最后进行...

    论文名称:T-C3D:TemporalConvolutional3D NetworkforReal-TimeActionRecognition 

    论文地址:https://aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17205

    代码地址:https://github.com/tc3d

    最近忙于写论文,也没有时间写博客,今天,我给大家带来一篇行为识别文章《T-C3D:TemporalConvolutional3D NetworkforReal-TimeActionRecognition 》,这篇文章是2018年发表在ECCV上的一篇经典文章,文章出自于北京邮电大学。T3D网络在baseline数据集UCF-101和HMDB-51数据集上精度分别达到了91.8%和62.8%。这篇文章的贡献如下:

    • 提出了一个基于3D-CNN的实时动作识别架构,来学习多种粒度的视频表示。学习的特征不仅能够模拟短视频片段之间随时间变化,而且能够模拟整个视频的时间动态;
    • 提出了一种具有聚合函数的时间编码技术来模拟整个视频的特征,这大大提高了识别性能;
    • 只使用RGB帧作为CNN的输入来实时处理动作识别,同时取得了与现有方法相当的性能。

    在开始文章讲解之前,我想简单介绍一些当下行为识别和语义分割的研究热点。其实行为识别和语义分割都属于分类任务,其区别在于分类的关注点不同,但是在随着这两个方向的不断发展,出现了很多要解决的问题,比如语义分割中的FCN网络存在对小目标分割丢失的问题或大目标分割不全的问题。对于行为识别,对于短动作的行为识别,目前的方法已经达取得的很好的结果,但是对于长时序的动作,目前方法还存在问题。其实对于分割和行为识别面临问题属于同一类问题,解决该问题的思路是:局部特征提取,最后进行局部特征融合形成全局的特征。典型网络代表:语义分割PSPNet,行为识别T-C3D。本段话纯属个人理解,如有问题请留言。

    按照我写博客的一贯作风,我首先介绍文章的创作灵感,之后当下的一些研究状况,紧接着是研究方法(文章的灵魂),最后是实验部分。

    本文创作的的目的是为了解决行为识别网络不实时问题和长时序动作识别问题。那么什么是实时呢?在行为识别领域,具体实时是指端到端的训练,而对于双流网络,由于其结合的光流信息,需要额外时间计算光流图,导致网络不能端到端训练。对于

                                                                                        图1 长短时序动作

    长时序动作,为了直观理解,看图1,“弹钢琴”和“射箭”可以很容易地通过静态画面或连续画面之间的小动作的外观信息来识别,然而,有时短剪辑不足以区分类似的类别(跳高和跳远),这时候需要考虑全局的时序特征来进行判别。同时该网络也可以在提取局部时序特征时候,几个卷积共享参数,所以可以大大减低参数量,这个后续用网络结构图来进行解释。

    接下来介绍一下行为识别的研究领域最新情况和面临的问题。面临的挑战具体有,视频尺度的变化,杂乱的背景,视点的变化,相机的移动等对网络判别行为有很大的影响,这也是行为识别精度上不去的原因之一,同时,和静态图片识别相比,行为识别是一个序列问题,动作要通过多帧结合来进行有效的识别。在过去的十年中,基于视频的行为识别一直在研究中,开始是基于手工设计的方式来获取视频局部的时空特征,然而,手工特征方式面临设计繁琐,存在大量冗余的特征,具体代表方法有IDT,HOG3D,SIFT-3D。之后随着深度学习的发展,利用卷积来自动提取时空特征成为了主流,这也是现阶段发展的主要方向,具体代表网络有C3D,双流网络。

    现在我们介绍本文的重点网络结构,具体如图2,输入为整个视频,分成多个片段作为网络的输入,之后每个片段通多3D CNN来提取局部的时空特征,这些3D CNN共享权重,之后将多个片段进行融合行为对整个视频的表示,最后通过softmax进行行为判别。为了详细阐述这个结构,文章引入了几个部分,具体由Temporal Encoding Model(时序编码模型),Video Components Generation(视频成分产生),3D Convolution Neural Network(3D卷积网络),Aggregation Functions(聚合函数)。接下来对每个部分进行详细介绍:

                                                                              图2 T-C3D网络结构

    Temporal Encoding Model

    为了刻画视频的整体特征,引入了Temporal Encoding Model。形式上,给定一个视频V,在时间维上把它统一划分为S部分{P1,P2,P3,…,Ps},然后从Pi中选择一系列帧组成片段Ci。接下来,通过将每个片段经过3D-CNN的作用,获得S个特征图。将S个clips通过聚合函数作用得到视频级特征。最后,根据视频级特征得出最终的类别分数。不同于以往的工作,T-C3D通过视频级而非帧级预测来优化和更新其参数。具体公式如图3,W表示3D CNN的权重,F:表示激活函数,Q:表示聚合函数,H:表示预测函数,用来产生每个类别的概率得分。关于分段损失函数如图4,其中 G = Q(F(C1; W); F(C2; W); ...;F(Cs; W)) ,模型参数导数计算如图5,用于参数更新。

                                                                         图3 视频最终的类别得分

                                                                                      图4 损失函数

                                                                                      图5 权重导数

    Video Components Generation

    与静止图像不同,视频是动态的,并且具有不同的序列。为了利用良好的方式对整个视频进行建模,作者首先在时间维度上将视频统一划分为几个部分。然后用两种常用的抽样方案从每个部分抽取多个帧,构成一个clip。第一种方案将前一步生成的视频片段统一划分为一定数量的fragments,并从每个fragments中随机选择一帧构成最终的片段。第二种方法从fragments中随机选择一定数量的连续帧来构造最终片段。实质上,第一采样方法随机选择均匀分布在整个视频中的非连续帧来表示整个视频。第二种方法从整个视频中均匀地选择S个片段,每个片段由一定数量的连续帧组成。后续实验部分给出了两种不同的下采样方法的分类精度。

    3D Convolution Neural Network

    首先,受深度残差CNN所获得的惊人的图像分类精度的启发,文章采用了一种带有残差块的深度3D-CNN网络。更特别的是,根据ConvNet架构搜索的工作,采用了17个卷积层和一个完全连接层的3D ResNet。实验表明,在给定的多帧图像中,深度残差的3D-CNN可以提取出更丰富、更强的时空特征层次。其次,对CNN的参数进行预训练在大规模数据集上,已被证明对各种视觉任务非常关键,例如目标检测、图像分类、语义分割等。对于3D-CNN,先前的工作如LTC已经表明,在Sprots-1M上预先训练的3D模型比从头训练的模型具有更高的分类精度。本文首先按照C3D中的策略,对Sports-1M模型进行了预训练,虽然Sports-1M有超过100万个视频,但由于没有人工标注,因此含有大量的噪声。最近,Kay(Kay等人。2017)等人提出了一个大规模、干净的数据集,称为Kinetics,涵盖400个人类行为类别,每个行为至少有400个视频clips。为了尽可能地激活3D-CNN中的神经元,作者采用时间编码的方法对3D-CNN进行了Kinetics数据集上训练,实验表明,Kinetics预训练显著提高了训练效果。

    Aggregation Functions

    聚合函数是T-C3D框架中非常重要的组件。文章详细描述和深入分析四个聚合函数,包括平均池、最大池、加权池和注意力池。接下来我进行一一阐述,这很重要。

    • 平均池:平均池的基本假设是利用所有片段的激活进行动作识别,并将其平均响应作为整体视频预测。从这个角度来看,平均池能够联合描述视频片段序列并从整个视频中获得视觉特征。然而,一些视频可能包含与动作无关的噪声序列,在这种情况下,对这些噪声片段进行平均无法准确地建模动作特征,可能导致识别性能的下降。
    • 最大池:max pooling的基本直觉是为每个动作类别选择最具辨别力的clip,并以这种最强的响应来表示整个视频,直观地说,它专注于单个clip,而不考虑其他剪辑的激活。在某些情况下,单个clip的辨别力不足以捕获整个视频信息。在某种程度上,T-C3D退化到了以前的工作,即在使用最大池时,用每个视频一个clip来训练网络。因此,这种聚合功能驱动T-C3D仅用一个片段来表示整个视频,这违背了T-C3D对整个视频建模的假设。
    • 加权池:此聚合函数的目标是生成一组线性权重,以便在每个clip的输出之间执行元素加权线性融合。实验中,网络权值W和融合权值ω同时优化。该聚合函数根据动作总是由多个阶段组成,这些不同的阶段在识别动作类时可能有不同的影响而产生,同时该聚合函数结合了最大池和均匀池的优点,能够同时减少相关片段的序和噪声片段的不良影响。具体是采用了以S×1为核的卷积层来实现该功能。具体函数定义为如图6.
    • 注意力池:此聚合函数的目标与加权池方法相同。它借用了一种端到端可训练记忆网络的记忆注意机制。直觉是利用一个神经模型通过一个可辩别的处理/注意方案读取外部记忆。具体作者将每个片段的输出视为记忆,将特征权重视为记忆处理程序。形式上,让Fs作为第s个片段的经过3D-CNN的特征图,然后聚合模块通过点积用核q对其进行过滤,生成相应的权值序列。具体如图7.

                                                                                     图6 加权池作用机理

                                                                                    图7 注意力池作用机理

    最后是实验部分,这部分主要是说明T-C3D最优性和探索实验。图8是T-C3D和一些主流方法的对比。图9帧两种采样方式对比,前面有阐述。图10不同聚合方式对比。图11不同训练方式比较,其中多尺度表示对输入进行裁剪和采用镜像(图像增强)。

                                                                                        图8 和一些主流模型对比

                                                                                          图9 不同采样方式对比

                                                                                        图10 不同聚合函数对比

                                                                                  图11 对于T-C3D不同训练方式比较

    展开全文
  • 针对人体行为最重要的motion特征,提出了基于时间上下文的二级递推异常行为识别方法.不同于传统深度学习的训练方法,本文方法不是直接从图像数据中学习特征,而是把提取的形状信息HOG特征作为训练输入.首先提取基于...
  • 为了更好地对人体动作的长时时域信息进行建模,提出了一种结合时序动态图和双流卷积网络的人体行为识别算法。首先,利用双向顺序池化算法来构建时序动态图,实现视频从三维空间到二维空间的映射,用来提取动作的表观和长...
  • 视频行为识别与轻量化网络的前沿论文、代码等 https://zhuanlan.zhihu.com/c_1207774575393865728 CVPR 2020 行为识别/视频理解论文汇总 https://zhuanlan.zhihu.com/p/141429177 CVPR 2020 论文大盘点-动作识别篇 ...

    视频行为识别与轻量化网络的前沿论文、代码等
    https://zhuanlan.zhihu.com/c_1207774575393865728
    CVPR 2020 行为识别/视频理解论文汇总
    https://zhuanlan.zhihu.com/p/141429177
    CVPR 2020 论文大盘点-动作识别篇
    https://cloud.tencent.com/developer/article/1664055
    CVPR 2020 论文大盘点-动作检测与动作分割篇
    https://www.sohu.com/a/408454247_823210
    Shift思想在视频理解中的近期进展
    https://zhuanlan.zhihu.com/p/137385332
    视频行为识别2020最新研究进展(中科院深圳先进技术研究院-乔宇)
    https://zhuanlan.zhihu.com/p/109519047
    ECCV 2020 论文大盘点-动作检测与识别篇
    https://blog.csdn.net/moxibingdao/article/details/109140629
    Temporal Action Detection总结
    https://zhuanlan.zhihu.com/p/52524590
    https://www.zhihu.com/question/57523080/answer/158568414
    https://zhuanlan.zhihu.com/p/26603387
    https://blog.csdn.net/qq_33278461/article/details/80720104
    时序行为检测 & 弱监督时序行为检测 & 时序行为proposal生成 论文整理
    https://zhuanlan.zhihu.com/p/112811396?utm_source=wechat_session
    CVPR2019 | 论文之行为/动作识别、手势识别、时序动作检测及视频相关
    https://blog.csdn.net/leiduifan6944/article/details/109624879
    ECCV CVPR AAAI 2018年 Action recognition 的汇总
    https://www.sohu.com/a/298599618_100021558
    2018年 Action recognition 的汇总(ECCV CVPR AAAI)
    https://zhuanlan.zhihu.com/p/56061717

    Action Localization Benchmarks
    Papers and Results of Temporal Action Localization
    https://github.com/VividLe/awesome-weakly-supervised-action-localization

    Papers: temporal action proposals & detection
    Papers: weakly temporal action detection
    Features: Download link
    Benchmark Results (THUMOS14 Results)
    https://github.com/sming256/Materials-Temporal-Action-Detection


    AVA数据集:
    https://zhuanlan.zhihu.com/p/157869607
    时空行为定位相关论文:
    https://blog.csdn.net/irving512?t=1
    人类动作识别数据集AVA:
    https://blog.csdn.net/zchang81/article/details/78291527?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param

    https://blog.csdn.net/gh13uy2ql0n5/article/details/78302372?utm_medium=distribute.pc_relevant.none-task-blog-title-2&spm=1001.2101.3001.4242
    下载地址:
    https://research.google.com/ava/

     

    视频特征提取工具:
    (I3D models trained on Kinetics)
    https://github.com/piergiaj/pytorch-i3d


    一、行为识别:
    (1)ECCV2020 腾讯优图 时间差异表示学习
    Temporal Distinct Representation Learning for Action Recognition
    取得了现在轻量级模型最好的结果
    本文提出渐进式增强模块,用于 channel-level 信息滤波,有效地激发了不同帧的鉴别通道,同时避免了重复信息提取。
    另外,提出一个时序多样性损失来训练网络。该损失可以校准卷积核,从而使网络可以专注于并捕捉帧之间的变化。也提高了识别精度,且不增加额外的网络复杂性。

    https://arxiv.org/pdf/2007.07626.pdf
    https://zhuanlan.zhihu.com/p/162026102

    (2)CVPR2020 中科院+商汤 SmallBigNet
    SmallBigNet: Integrating Core and Contextual Views for Video Classification
    模型更加精简,最后得到的模型大小与2D CNN相近,FLOPs翻倍,在Kinetics-400、Something-Something V1&V2上都超过了最近的一些方法。

    https://arxiv.org/pdf/2006.14582v1.pdf
    https://zhuanlan.zhihu.com/p/153471137

    https://github.com/xhl-video/SmallBigNet

    (代码还在整理,还没放出来)

    (3)CVPR2019 Kaiming He  Non-local Neural Networks
    Non-local Neural Networks
    convolution和recurrent都是对局部区域进行的操作,所以它们是典型的local operations。受计算机视觉中经典的非局部均值(non-local means)的启发,本文提出一种non-local operations用于捕获长距离依赖(long-range dependencies)

    https://arxiv.org/pdf/1711.07971v1.pdf

    https://github.com/facebookresearch/video-nonlocal-net
    https://blog.csdn.net/elaine_bao/article/details/80821306
    https://www.zhihu.com/question/68473183
    https://zhuanlan.zhihu.com/p/102984842
    https://zhuanlan.zhihu.com/p/64988633

    (4)2020TR 南大+商汤 TAM 时间自适应模块
    TAM: Temporal Adaptive Module for Video Recognition
    在视频动作识别中,时序建模对学习视频中的时序结构信息至关重要。但由于受多种因素的影响(例如相机运动,视角切换,场景多样),导致视频数据在时序维度上具有及其复杂的动态特性。为了能够有效捕捉视频中的时序动态特性,提出了一种自适应的时序建模方法TAM (Temporal Adaptive Module)。

    https://arxiv.org/pdf/2005.06803v1.pdf

    https://github.com/liu-zhy/temporal-adaptive-module
    https://zhuanlan.zhihu.com/p/149429010
    https://zhuanlan.zhihu.com/p/141773949

    (5)CVPR 2020 Oral  FAIR X3D超轻量级行为识别模型
    X3D: Expanding Architectures for Efficient Video Recognition
    受机器学习中的特征选择方法启示,想到了一个简单的逐步扩张不同维度的方法,从基础的模型X2D出发,探索了帧率、帧数、分辨率、深度、宽度、bottleneck宽度对模型性能的影响。不同的是用了坐标下降+贪心策略进行快速“搜索”,方法简单但十分make sense

    https://arxiv.org/pdf/2004.04730.pdf

    https://github.com/facebookresearch/SlowFast
    https://zhuanlan.zhihu.com/p/131494746
    https://zhuanlan.zhihu.com/p/129279351

    (6)CVPR2020 南大+腾讯 TEA 轻量级视频行为识别模型
    TEA: Temporal Excitation and Aggregation for Action Recognition
    (TEA=TEINet的MEM+STM串联结构+Res2Net backbone)

    https://arxiv.org/pdf/2004.01398.pdf
    https://github.com/Phoenix1327/tea-action-recognition
    https://zhuanlan.zhihu.com/p/129282832
    https://zhuanlan.zhihu.com/p/130807086
    (7)ICCV2019 商汤 STM 行为识别时空与动作编码
    STM: SpatioTemporal and Motion Encoding for Action Recognition

    与TSM一样,也是利用2D卷积完成视频任务,但是是一种新的思路。行为识别中最重要的是时空特征以及运动特征,前者将不同时刻的空间特征关系编码,后者将相邻帧的运动特征表征,作者针对两种特征分别提出了CSTM(Channel-wise SpatioTemporal Module)以及CMM(Channel-wise Motion Module)

    https://arxiv.org/pdf/1908.02486.pdf
    https://zhuanlan.zhihu.com/p/87048160
    https://zhuanlan.zhihu.com/p/105341123
    (8)CVPR2020 CUHK+SenseTime Temporal Pyramid Network for Action Recognition

    现实中视频动作的速度(visual tempos)往往是不同的,如果我们不考虑速度的话,walking, jogging 和 running三个在形态上很相似的动作也很难被识别出来。而现有的视频模型设计时往往忽视了视觉速度这一个至关重要的点。
    本文提出TPN(Temporal Pyramid Network)网络结构,特点是金字塔,即时间金字塔网络,该网络以即插即用的方式灵活地集成到2D或3D主干网络中。起源于对视频动作快慢的研究,在多个数据集上取得优秀的结果。

    https://arxiv.org/pdf/2004.03548.pdf
    https://zhuanlan.zhihu.com/p/127366929
    https://blog.csdn.net/YoJayC/article/details/106989570
    https://blog.csdn.net/Amazingren/article/details/105631183
    https://github.com/decisionforce/TPN
    (9)ICCV2019  TSM  Temporal Shift Module for Efficient Video Understanding
    本文在对视频数据大量增长的情况下提出了一种Temporal Shift Module(TSM)网络方法,该方法是能够插入2D CNNs的网络中实现时序上的学习而不增加额外的性能上的花费。TSM是一个高效且识别率非常好的模型,相对于传统的一些算法其速度有数倍的提升。

    https://arxiv.org/pdf/1811.08383.pdf
    https://zhuanlan.zhihu.com/p/66251207
    https://zhuanlan.zhihu.com/p/64525610
    https://zhuanlan.zhihu.com/p/84868486

    官方代码(含nano的demo,TVM加速):

    https://github.com/MIT-HAN-LAB/temporal-shift-module

    训练代码:
    https://github.com/dionsaputra/tsm-retrain

    (10)CVPR2020  Gate-Shift Network

    为了获取时序信息,一般的做法是采用 3D 卷积,例如 C3D。这种方法有它的优点,可以学习到比较 powerful 的时空特征,但是这种方法也有它的缺点,参数量大计算成本高。为了解决这种方法存在的缺点,近年来涌现出许多改进的方法,例如 S3D,TSM,GST。

    这篇论文同属于对 3D 卷积进行改进,作者认为上述方法都是 hard-wired,意思是说网络结构非常固化,不能根据训练数据进行调整,特征从上一个 block 输出到下一个 block 经过的都是固定的网络。论文针对这点进行了改进,提出了 Gate-Shift Module,GSM 结合了 TSM 和 GST,共包括三个组件。

    https://arxiv.org/pdf/1912.00381.pdf

    https://github.com/swathikirans/GSM

    https://zhuanlan.zhihu.com/p/159203201

    (11)CVPR2020 oral 布里斯托大学
    Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

    基于多模态域适应的细粒度行为识别

    细粒度动作识别的多模态域适应技术,使用RGB与光流数据,解决动作识别在不同数据集上训练和测试性能下降的问题。

    https://arxiv.org/pdf/2001.09691.pdf
    https://blog.csdn.net/qq_41967539/article/details/105148467

    (12)ECCV2020  (浦项科技大学,韩国)
    MotionSqueeze: Neural Motion Feature Learning for Video Understanding

    在这项工作中,对内部和轻量级的运动特征学习,代替了外部和繁重的光流计算,提出了可训练的神经模块,称为MotionSqueeze,用于有效的运动特征提取。它被插入任何神经网络的中间,学习跨帧建立对应关系并将其转换为运动特征,然后将其轻松馈送到下一个下游层以进行更好的预测。

    https://arxiv.org/pdf/2007.09933.pdf
    https://github.com/arunos728/MotionSqueeze

    (13)ECCV2020 Spotlight (澳大利亚国立大学;牛津大学;Data61/CSIRO;香港大学等)
    Few-shot Action Recognition with Permutation-invariant Attention
    本文作者提出了一种新的少样本动作识别网络(ARN),由一个编码器、比较器和一个注意机制组成,来模拟短期和长期时空模式。作者研究了自监督的作用,通过空间和时间增强/辅助任务。
    此外,作者还提出了一种新的机制:attention by alignment ,解决了所谓的判别性长期块的时间位置的分布迁移问题。通过结合  self-supervision(自监督) 和 attention by alignment 的损失,得到高达6%的准确性的收益。

    https://arxiv.org/pdf/2001.03905.pdf

    (14)ECCV2020
    AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
    MIT-IBM Watson AI Lab;波士顿大学;麻省理工学院
    动作识别是计算机视觉中的一个开放性和挑战性问题。现有的最先进的模型已经实现了很好的识别效果,但其昂贵的计算代码限制了其许多现实应用。
    本文中,提出一种新的方法:AR-Net(Adaptive Resolution Network),它可以根据输入条件为每一帧选择最佳的分辨率,以实现在长的未修剪视频中高效的动作识别。
    具体来说,给定一个视频帧,使用策略网络来决定动作识别模型应该使用什么样的输入分辨率进行处理,目的是提高准确性和效率。使用标准的反向传播有效地训练了策略网络与识别模型的联合。
    在几个具有挑战性的动作识别基准数据集上的广泛实验很好地证明了提出的方法比最先进的方法更有效。

    https://arxiv.org/pdf/2007.15796.pdf
    https://github.com/mengyuest/AR-Net

    (15)ECCV2020
    RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition
    斯坦福李飞飞团队 RubiksNet 可学习的三维移位
    本文作者提出RubiksNet,一种新型的高效的视频动作识别架构,基于提出的可学习的3D时空移位操作(RubiksShift),效果与先前工作相当或更好,参数减少了2.9 - 5.9倍,FLOP减少了2.1 - 3.7倍。

    https://stanfordvl.github.io/rubiksnet-site//assets/eccv20.pdf
    https://zhuanlan.zhihu.com/p/203239605?utm_source=wechat_session
    https://github.com/StanfordVL/rubiksnet

    (16)AAAI 2020 码隆科技实验室+南京大学
    KINet
    Knowledge Integration Networks for Action Recognition
    提出了用于视频动作识别的知识集成网络(KINet)。
    KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人类信息和场景上下文。
    设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构,该结构允许模型对动作识别中的人和场景知识进行编码。

    https://arxiv.org/pdf/2002.07471.pdf
    https://blog.csdn.net/qq_41590635/article/details/105657688

    (17)AAAI2020 南京大学+腾讯优图实验室
    TEINet:Towards an Efficient Architecture for Video Recognition
    (个人感觉是SENet和TSM结合的升级版)
    在视频动作识别的架构设计中,效率是一个重要的问题。3D CNNs在视频动作识别方面取得了显著的进展。然而,与二维卷积相比,三维卷积往往引入大量的参数,导致计算量大。为了解决这个问题,我们提出了一个有效的时序模块,称为Temporal Enhancement-and-Interaction(TEI模块),它可以插入到现有的2D CNNs中。TEI模块通过分离通道相关和时间交互的建模,提出了一种不同的学习时间特征的范式。首先,它包含一个运动增强模块(MEM),该模块在抑制无关信息(例如背景)的同时增强与运动相关的特征。
    然后,介绍了一个时序交互模块(TIM),它以通道方式补充时序上下文信息。该两阶段建模方案不仅能够灵活有效地捕捉时间结构,而且能够有效地进行模型推理。
    https://arxiv.org/pdf/1911.09435.pdf
    https://blog.csdn.net/qq_41590635/article/details/105309977

    (18)CVPR2019 海康研究院

    Collaborative Spatio-temporal Feature Learning for Video Action Recognition
    协同时空特征学习在视频动作识别中的应用
    won  the  1st  place  in  the  Momentsin Time Challenge 2018.
    More importantly, richmotion information is embeddedwithin each frameratherthan between frames
    Given a 3D volumetric video tensor, we flattenit into three sets of 2D images by viewing it from differentangles.
    Then 2D convolution is applied to each set of 2Dimages.
    https://arxiv.org/pdf/1903.01197.pdf

     

     


    二、时序行为检测:
    https://blog.csdn.net/qq_33278461/article/details/80720104)这篇综述不错
    基本流程
    1.先找proposal,在对proposal分类和回归边界
    2.找proposal方法:主要就是以下几种

    如果刚开始看这方面,17工作直接看SSN(TAG找proposal)、R-C3D、CBR(TURN找proposal)就好了,找proposal方法简单看看TAG和TURN(网络其他部分不用看),github也有代码,对性能要求不高可以试试SSN(用到了光流),不然的话可以用一下R-C3D。
    SSN代码:https://github.com/yjxiong/action-detection
    CDC代码:https://github.com/ColumbiaDVMM/CDC
    R-C3D代码:https://github.com/VisionLearningGroup/R-C3D
    CBR代码:https://github.com/jiyanggao/CBR
    Learning Latent Super-Events to Detect Multiple Activities in Videos
    代码:https://github.com/piergiaj/super-events-cvpr18

    (1)CVPR2020     G-TAD: Sub-Graph Localization for Temporal Action Detection(THUMOS14, it reaches51.6% at IoU@0.5)

    一阶段temporal action localization
    对于动作检测而言,视频的文本信息是十分重要的线索之一,但是当前的工作主要集中于时序文本信息(temporal context),而忽视了另一个同样重要的语义文本信息(semantic context)。本文提出通过GCN模型自适应地融合多级语义文本信息,将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点,将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块,学习聚合了文本信息的特征,并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。
    On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in mAP@0.5, 成为最好的one-stage方法。

    https://arxiv.org/pdf/1911.11462.pdf

    https://github.com/Frostinassiky/gtad
    https://www.pianshen.com/article/6083934521/
    https://blog.csdn.net/qq_41590635/article/details/105033360

    (2)2019 ICCV     P-GCN:Graph Convolutional Networks for Temporal Action Localization
    二阶段 temporal action localization任务中的SOTA

    https://openaccess.thecvf.com/content_ICCV_2019/papers/Zeng_Graph_Convolutional_Networks_for_Temporal_Action_Localization_ICCV_2019_paper.pdf

    https://github.com/Alvin-Zeng/PGCN
    https://www.pianshen.com/article/9204940808/
    https://blog.csdn.net/qq_24337529/article/details/104456819
    https://zhuanlan.zhihu.com/p/134638106
    (其中用到了SAGE,可参考https://blog.csdn.net/yyl424525/article/details/100532849)

    (3)CVPR2016  SCNN(Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs)
    多阶段网络,这篇文章是CVPR2016上的工作,时间较早,方法简单。
    主要提出了一个三阶段的3D卷积网络来做动作检测:(1)proposal network;(2)classification network;(3)localization network。

    https://arxiv.org/pdf/1601.02129v2.pdf

    https://github.com/zhengshou/scnn/

    https://blog.csdn.net/wzmsltw/article/details/65437295


    (4)2017  TAG(A Pursuit of Temporal Accuracy in General Activity Detection)

    The Chinese University of Hong Kong

    之前的工作中都是通过滑动窗口来提取proposal,就和RCNN一样,这种无法应对长度不一的视频动作。而且在一般的行为识别中,卷积都是作用在一个稠密的视频帧之间,对于长动作来说消耗巨大。

    所以文章提出了一个新的框架来对可变长度的视频精确地确定其动作的边界。

    • 建立完整动作的边界(temporal boundaries)

    • 检测片段的相关性和完整性(relevance and completeness)

    https://arxiv.org/pdf/1703.02716.pdf

    https://zhuanlan.zhihu.com/p/52524590

    (5)TURN TAG: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)
    利用了Faster-RCNN的思想来在时间维度上提取proposal
    提出了TURN模型预测proposal并用temporal coordinate regression来校正proposal的边界
    单元回归网络,SCNN中采用的滑窗找proposal的如果想要得到准确的结果,就需要增大窗口之间的重叠度,这样导致了一个问题就是计算量极大。为了减小计算量,增加时序定位精度,本文借鉴faster-rcnn引入边界回归的方法:将视频分为等长短单元,做单元水平的回归。
    https://www.cnblogs.com/demian/p/9720597.html
    https://www.bbsmax.com/A/qVde4Km85P/

    (6)SSN:ICCV 2017
    Temporal Action Detection with Structured Segment Networks
    SSN(structured segment network,结构化的段网络)通过结构化的时间金字塔对每个行为实例的时间结构进行建模。金字塔顶层有decomposed discriminative model(分解判别模型),包含两个分类器:用于分类行为(针对recognition)和确定完整性(针对localization)。集成到统一的网络中,可以以端到端的方式高效地进行训练。
    为了提取高质量行为时间proposal,采用temporal actionness grouping (TAG)算法。
    https://github.com/yjxiong/action-detection
    https://blog.csdn.net/zhang_can/article/details/79782387

    (7)CBR(Cascaded Boundary Regression for Temporal Action Detection)
    https://blog.csdn.net/jiachen0212/article/details/79092395

    (8)PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection
    AAAI 2020 中国科学技术大学
    one-stage
    具有三个级联的探测模块,可以更精确地定位动作边界。
    PBRNet主要包括粗金字塔检测、精金字塔检测和细粒度检测。
    PBRNet集成了基于anchor和frame-level的方法。
    本文提出了一种渐进边界细化网络(PBRNet)来提高时序动作检测的精度和速度。
    https://blog.csdn.net/qq_41590635/article/details/105737819

    (9)TSA-Net:Scale Matters: Temporal Scale Aggregation Network for Precise Action Localization in Untrimmed Videos
    北大、腾讯
    (ICME 2020 oral)
    https://arxiv.org/pdf/1908.00707.pdf
    https://blog.csdn.net/qq_41590635/article/details/101553059
    提出的一种新的集成时间尺度聚合网络。主要观点是将不同膨胀率的卷积滤波器组合在一起,有效地以较低的计算成本放大感受野,从而设计多膨胀时间卷积(MDC)块。此外,为了处理不同持续时间的视频动作实例,TSA-Net由多个子网组成。它们中的每一个都采用了具有不同扩张参数的叠层MDC块,实现了针对特定持续时间动作而特别优化的时间感受野。该文遵循边界点检测的公式,检测三种临界点(即起点/中点/终点)并将它们配对生成方案。
    TSA-Net网络显示出清晰和一致的更好性能,并在两个基准上重新校准最新的技术状态。在THUMOS14上的记录是46.9%,而在MAP@0.5下,之前的最好记录是42.8%,是当前最好的效果。

    (10)Bottom-Up Temporal Action Localization with Mutual Regularization
     (ECCV2020)
    上交大、华为
    https://arxiv.org/pdf/2002.07358.pdf
    https://github.com/PeisenZhao/Bottom-Up-TAL-with-MR

    (11)Graph Attention Based Proposal 3D ConvNets for Action Detection
    (AGCN-P-3DCNNs)
    AAAI 2020
    北航、电子科大
    This paper proposes an attention based GCN for action detection in video, solving the problem that the proposal 3D CNNs based video action detection can not utilize the relations of temporal action proposals.
    Moreover, our AGCN can learn the intra long-range dependencies for every node
    in graph node matrix and learn the inter dependencies among proposals for adjacency matrix in the graph.
    Besides, to improve the whole network temporal action detection performance, we introduce the simple and effective framewise classifier module to enhance the backbone presentation capabilities.

    (12)CBR-Net: Cascade Boundary Refinement Network for Action Detection:Submission to ActivityNet Challenge 2020 (Task 1) (ActivityNet Challenge 2020)
    https://arxiv.org/pdf/2006.07526v2.pdf
    华科、达摩
    ActivityNet Challenge 2020
    achieve 42.788% on the test-ing set of ActivityNet v1.3 dataset in terms of mean AveragePrecision metrics and achieve Rank 1 in the competition.

    (13)(TGM)
    Temporal Gaussian Mixture Layer for Videos
    (ICML 2019)
    https://arxiv.org/pdf/1803.06316.pdf
    https://github.com/piergiaj/tgm-icml19

    (14)(Decouple-SSAD)
    Decoupling Localization and Classification in Single Shot Temporal Action Detection
    (ICME 2019)
    https://arxiv.org/pdf/1904.07442.pdf
    https://github.com/HYPJUDY/Decouple-SSAD

    (15)SF-Net: Single-Frame Supervision for Temporal Action Localization
    悉尼科技大学;Facebook
    (single-frame supervision)
    ECCV 2020 Spotlight
    https://github.com/Flowerfan/SF-Net

    (16) (S-2D-TAN)
    Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization
    (winner solution for the HACS Temporal Action Localization Challenge at ICCV 2019)
    We extend our 2D-TAN approach to the temporal action localization task and win the 1st place in HACS Temporal Action Localization Challenge at ICCV 2019.
    罗切斯特大学、微软研究院
    https://arxiv.org/pdf/1912.03612.pdf

    用了自然语言处理的方法(2D-TAN)
    Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language
    (AAAI 2020)

    (17)(LCDC)
    Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks for Fine-Grained Action Detection
    (ICCV 2019 oral)
    (Fine-grained action detection)
    https://arxiv.org/pdf/1811.08815.pdf
    https://github.com/knmac/LCDC_release

    (18)(BLP)
    BLP -- Boundary Likelihood Pinpointing Networks for Accurate Temporal Action Localization
    (ICASSP 2019)

    (19)(GTAN)
    Gaussian Temporal Awareness Networks for Action Localization
    (CVPR 2019 Oral)
    https://arxiv.org/pdf/1909.03877.pdf

     

    在线的行为检测:
    (1)Information Discrimination Units (IDU)  CVPR 2020
    学习鉴别信息进行在线动作检测
    Learning to Discriminate Information for Online Action Detection
    https://github.com/hjeun/idu

     

     


    三、基于弱监督方法的时序行为检测:
    (即不需要具体的行为动作的时间定位信息,只通过视频类别信息进行训练而得到人体动作行为间隔信息)
    Motivation:现有的行为识别方法严重依赖于剪切过的视频数据来训练模型,然而,获取一个大规模的剪切过的视频数据集需要花费大量人力和时间。
    1.为每个行为实例标注时间持续时间花费高且耗时。
    2.这些时间的注释可能是主观的,在不同人之间不一致。
    弱监督行为识别与检测:在训练时,只使用不含时序标注的未剪切视频进行训练;在测试时,训练好的模型能对未剪切的视频进行行为识别与检测。

    综述:
    弱监督时序行为检测(一)
    https://zhuanlan.zhihu.com/p/119302485
    弱监督时序行为检测(二)
    https://zhuanlan.zhihu.com/p/120361421
    时序行为检测论文综述①
    https://zhuanlan.zhihu.com/p/49977158
    时序行为检测论文综述②
    https://zhuanlan.zhihu.com/p/50352994
    [综述]弱监督动作定位Weakly Supervised Temporal Action Localization 论文阅读
    https://blog.csdn.net/weixin_41595062/article/details/107583125
    【资源】时序行为检测相关资源列表 (包括较新的论文和数据集)
    https://bbs.cvmart.net/articles/526/


    论文:
    (1)AutoLoc:弱监督时序行为检测方法(ECCV 2018)
    提出一种新奇的视频时序行为检测方法:AutoLoc,它能仅用视频级的标注预测出每个行为的时间边界。
    https://zhuanlan.zhihu.com/p/63092925

    (2)Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR2018)
    https://blog.csdn.net/nclgsj1028/article/details/79622731
    https://zhuanlan.zhihu.com/p/50943824

    (3)UntrimmedNet:弱监督行为识别与检测网络(CVPR 2017)
    UntrimmedNets for Weakly Supervised Action Recognition and Detection
    https://blog.csdn.net/qq_40760171/article/details/102662289
    https://zhuanlan.zhihu.com/p/63163024

    (4)Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization(ICCV 2017)
    在训练过程中,随机的隐藏一些帧,来让分类网络能够将注意力更平均的分配到各个区域帧上
    https://zhuanlan.zhihu.com/p/52531042

    (5)STPN:Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018)
    提出了Temporal Class Activation Maps(T-CAM)进行动作定位
    https://blog.csdn.net/weixin_41595062/article/details/107583125

    (6)Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization(ECCV 2020)
    https://blog.csdn.net/weixin_41595062/article/details/107583125
    引入帧级伪标签

    (7)BaSNet:Background Suppression Network for Weakly-supervised Temporal Action Localization(AAAI 2020)
    引入背景类,抑制非动作帧的激活
    之前的工作没有考虑到背景类别,会将背景帧误分为动作类别,造成大量FP。本文提出了背景抑制网络BaSNet,引入了额外的背景类,两支镜像网络(一支为base网络,一支为用attention抑制背景的suppression网络),实验表明这样设计可以有效抑制背景的影响,从而提高定位的准确性。
    https://www.cnblogs.com/demian/p/12052354.html
    https://github.com/Pilhyeon/BaSNet-pytorch

    Background Modeling via Uncertainty Estimation for Weakly-supervised Action Localization
    https://github.com/Pilhyeon/Background-Modeling-via-Uncertainty-Estimation

    (8)Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization(CVPR2019)
    关于背景建模出现在弱监督时域动作定位领域最早的一篇
    基于动作的完整性建模以及动作-背景上下文分离的情况进行建模,提出了一个带有多样性损失(diversity loss)的多分支网络结构(a multi-branch network architecture)以用于动作的完整性建模,以及一个 hard negative 视频生成的方法(背景类)用于分离上下文。
    https://zhuanlan.zhihu.com/p/120361421
    https://github.com/Finspire13/CMCS-Temporal-Action-Localization

    (9)Weakly-Supervised Action Localization by Generative Attention Modeling(CVPR 2020)微软亚洲研究院
    提出了一种新的思路,从特征表示的角度捕捉上下文和动作片段的区别,进一步提高了动作定位效果。
    https://www.msra.cn/zh-cn/news/features/weakly-supervised-action-localization-by-gam
    https://github.com/bfshi/DGAM-Weakly-Supervised-Action-Localization

     

     


    四、时空行为定位:(需要画出人体框)最难
    (1)AlphAction -行为检测
    https://github.com/MVIG-SJTU/AlphAction
    Asynchronous Interaction Aggregation for Action Detection (上交大,ECCV 2020)
    https://arxiv.org/pdf/2004.07485.pdf
    https://blog.csdn.net/huangyiping12345/article/details/106839527

    (2)ECCV2020 南京大学 王利民 Actions as Moving Points
    MOC:提出了一套全新的时空动作检测 (spatio-temporal action detection) 框架
    受到最近anchor-free object detector的影响,提出了一个简洁、高效、准确的action tubelet detector, 称为MovingCenter detector (MOC-detector)
    https://github.com/MCG-NJU/MOC-Detector
    https://zhuanlan.zhihu.com/p/164968681

    (3)You Only Watch Once
    不同于以往类似Faster R-CNN两阶段方法,先生成大量proposals,再进行分类和位置提精,YOWO在一个网络中实现了时空信息的提取和融合,易于训练,精度高,而且速度也很快。
    https://www.jiqizhixin.com/articles/2019-11-22-2
    https://blog.csdn.net/qq_24739717/article/details/104900006
    https://github.com/wei-tim/YOWO

     

    展开全文
  • 基于CNN特征与HMM时序建模的人体行为识别研究,王冬雪,张磊,随着视频的总量和类别数量迅速增长,智能化的视频分析方法已经成为许多实际应用中的核心技术,例如异常监控、医疗诊断和视频检索
  • CVPR2019 | 论文之行为/动作识别、手势识别时序动作检测及视频相关 行为/动作识别、手势识别 1、An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition 中文:《一种...

    CVPR2019 | 论文之行为/动作识别、手势识别、时序动作检测及视频相关

    行为/动作识别、手势识别

    1、An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
    中文:《一种用于骨架动作识别的注意增强型图卷积LSTM网络》
    作者:Chenyang Si, Wentao Chen, Wei Wang, Liang Wang, Tieniu Tan
    论文链接:https://arxiv.org/abs/1902.09130

    2、Improving the Performance of Unimodal Dynamic Hand-Gesture Recognition with Multimodal Training
    中文:多模态训练提高单模态动态手势识别性能
    作者:Mahdi Abavisani, Hamid Reza Vaezi Joze, Vishal M. Patel
    链接:https://arxiv.org/abs/1812.06145

    3、Collaborative Spatio-temporal Feature Learning for Video Action Recognition
    中文:协同时空特征学习在视频动作识别中的应用
    作者:Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu
    论文链接:https://arxiv.org/abs/1903.01197

    4、Peeking into the Future: Predicting Future Person Activities and Locations in Videos(行为预测)
    中文:窥视未来:在视频中预测未来人的活动和位置
    作者:Junwei Liang, Lu Jiang, Juan Carlos Niebles, Alexander Hauptmann, Li Fei-Fei
    论文链接:https://arxiv.org/abs/1902.03748

    5、Neural Scene Decomposition for Multi-Person Motion Capture
    中文:多人运动捕捉的神经场景分解
    作者:Helge Rhodin, Victor Constantin, Isinsu Katircioglu, Mathieu Salzmann, Pascal Fua
    论文链接:https://arxiv.org/abs/1903.05684

    6、Action Recognition from Single Timestamp Supervision in Untrimmed Videos(动作识别)
    中文:基于单时间戳监督的未剪辑视频动作识别
    作者:Davide Moltisanti, Sanja Fidler, Dima Damen
    论文链接:https://arxiv.org/abs/1904.04689

    7、Pushing the Envelope for RGB-based Dense 3D Hand Pose Estimation via Neural Rendering
    中文:基于RGB的神经绘制密集三维手部姿态估计
    作者:Seungryul Baek, Kwang In Kim, Tae-Kyun Kim
    论文链接:https://arxiv.org/abs/1904.04196

    8、Relational Action Forecasting(oral)
    中文:关系动作预测
    作者:Chen Sun, Abhinav Shrivastava, Carl Vondrick, Rahul Sukthankar, Kevin Murphy, Cordelia Schmid
    论文链接:https://arxiv.org/abs/1904.04231

    9、H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions(Oral)
    中文:H+O:统一的以自我为中心的三维手势和交互识别
    作者:Bugra Tekin, Federica Bogo, Marc Pollefeys
    论文链接:https://arxiv.org/abs/1904.05349

    10、Out-of-Distribution Detection for Generalized Zero-Shot Action Recognition
    中文:广义零射击动作识别的分布外检测
    作者:Devraj Mandal, Sanath Narayan, Saikumar Dwivedi, Vikram Gupta, Shuaib Ahmed, Fahad Shahbaz Khan, Ling Shao
    论文链接:https://arxiv.org/abs/1904.08703

    11、Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition
    中文:基于骨架动作识别的动作结构图卷积网络
    作者:Maosen Li, Siheng Chen, Xu Chen, Ya Zhang, Yanfeng Wang, and Qi Tian
    论文链接:https://arxiv.org/pdf/1904.12659

    12、A neural network based on SPD manifold learning for skeleton-based hand gesture recognition
    中文:基于SPD流形学习的神经网络在基于骨架的手势识别中的应用
    作者:Xuan Son Nguyen, Luc Brun, Olivier Lézoray, Sébastien Bougleux
    论文链接:https://arxiv.org/abs/1904.12970

    13、DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition(Facebook)
    中文:DMC-Net:一种用于快速压缩视频动作识别的区分性运动线索生成技术
    作者:Zheng Shou, Xudong Lin, Yannis Kalantidis, Laura Sevilla-Lara, Marcus Rohrbach, Shih-Fu Chang, Zhicheng Yan
    论文链接:https://arxiv.org/abs/1901.03460




    时序动作检测及视频相关

    1、Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    中文:时空动态和语义属性丰富的视频字幕视觉编码
    作者:Nayyer Aafaq, Naveed Akhtar, Wei Liu, Syed Zulqarnain Gilani, Ajmal Mian
    论文链接:https://arxiv.org/abs/1902.10322
    来源:https://mp.weixin.qq.com/s/61C-k3Ijy_7ry5B5lRML6Q

    2、Single-frame Regularization for Temporally Stable CNNs(视频处理)
    中文:时间稳定CNNs的单帧正则化方法
    作者:Gabriel Eilertsen, Rafał K. Mantiuk, Jonas Unger
    论文链接:https://arxiv.org/abs/1902.10424
    来源:https://mp.weixin.qq.com/s/61C-k3Ijy_7ry5B5lRML6Q

    3、Neural RGB-D Sensing: Depth estimation from a video Camera
    中文:神经RGB-D传感:摄像机深度估计
    作者:Chao Liu, Jinwei Gu, Kihwan Kim, Srinivasa Narasimhan, Jan Kautz
    论文链接:https://arxiv.org/abs/1901.02571
    project链接:https://research.nvidia.com/publication/2019-06_Neural-RGBD

    4、Competitive Collaboration: Joint Unsupervised Learning of Depth, CameraMotion, Optical Flow and Motion Segmentation
    中文:竞争合作:深度、摄像运动、光流和运动分割的联合无监督学习
    作者:Anurag Ranjan, Varun Jampani, Kihwan Kim, Deqing Sun, Jonas Wulff, Michael J. Black
    论文链接:https://arxiv.org/abs/1805.09806

    5、Representation Flow for Action Recognition
    中文:动作识别的表示流
    作者:AJ Piergiovanni, Michael S. Ryoo
    论文链接:https://arxiv.org/abs/1810.01455
    项目链接:https://piergiaj.github.io/rep-flow-site/
    代码链接:https://github.com/piergiaj/representation-flow-cvpr19

    6、Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos
    中文:视频异常检测中骨架轨迹的学习规律
    作者:Romero Morais, Vuong Le, Truyen Tran, Budhaditya Saha, Moussa Mansour, Svetha Venkatesh
    论文链接:https://arxiv.org/abs/1903.03295

    7、Video Generation from Single Semantic Label Map
    中文:从单个语义标签图生成视频
    作者:Junting Pan, Chengyu Wang, Xu Jia, Jing Shao, Lu Sheng, Junjie Yan, Xiaogang Wang
    论文链接:https://arxiv.org/abs/1903.04480
    源码链接:https://github.com/junting/seg2vid/tree/master

    8、Inserting Videos into Videos
    中文:将视频插入视频
    作者:Donghoon Lee, Tomas Pfister, Ming-Hsuan Yang
    论文链接:https://arxiv.org/abs/1903.06571

    9、Recurrent Back-Projection Network for Video Super-Resolution
    中文:用于视频超分辨率的循环反投影网络
    作者:Muhammad Haris, Greg Shakhnarovich, Norimichi Ukita
    论文链接:https://arxiv.org/abs/1903.10128
    代码链接:https://github.com/alterzero/RBPN-PyTorch
    项目链接:https://alterzero.github.io/projects/RBPN.html

    10、Depth-Aware Video Frame Interpolation
    中文:
    作者:Wenbo Bao Wei-Sheng Lai, Chao Ma, Xiaoyun Zhang, Zhiyong Gao, and Ming-Hsuan Yang
    论文链接:https://sites.google.com/view/wenbobao/dain
         https://arxiv.org/abs/1904.00830
    代码链接:https://github.com/baowenbo/DAIN

    11、Video Relationship Reasoning using Gated Spatio-Temporal Energy Graph
    中文:使用门控时空能量图的视频关系推理
    作者:Yao-Hung Hubert Tsai, Santosh Divvala, Louis-Philippe Morency, Ruslan Salakhutdinov, Ali Farhadi
    论文链接:https://arxiv.org/abs/1903.10547

    12、Dual Encoding for Zero-Example Video Retrieval
    中文:双重编码实现零样本视频检索
    作者:Jianfeng Dong, Xirong Li, Chaoxi Xu, Shouling Ji, Yuan He, Gang Yang and Xun Wang
    论文链接:https://arxiv.org/abs/1809.06181
    代码链接:https://github.com/danieljf24/dual_encoding

    13、Rethinking the Evaluation of Video Summaries
    中文:重新思考视频摘要的评估
    作者:Jacques Manderscheid, Amos Sironi, Nicolas Bourdis, Davide Migliore, Vincent Lepetit
    论文链接:https://arxiv.org/abs/1903.11328

    14、End-to-End Time-Lapse Video Synthesis from a Single Outdoor Image
    中文:从单个室外图像进行端到端延时视频合成
    作者:Seonghyeon Nam, Chongyang Ma, Menglei Chai, William Brendel, Ning Xu, Seon Joo Kim
    论文链接:https://arxiv.org/abs/1904.00680

    15、GolfDB: A Video Database for Golf Swing Sequencing
    中文:GolfDB:用于高尔夫挥杆定序的视频数据库
    作者:William McNally, Kanav Vats, Tyler Pinto, Chris Dulhanty, John McPhee, Alexander Wong
    论文链接:https://arxiv.org/abs/1903.06528v1

    16、VORNet: Spatio-temporally Consistent Video Inpainting for Object Removal
    中文:VORNet:时空一致的视频修补,用于对象移除
    作者:Ya-Liang Chang, Zhe Yu Liu, Winston Hsu
    论文链接:https://arxiv.org/abs/1904.06726

    17、STEP: Spatio-Temporal Progressive Learning for Video Action Detection(Oral)
    中文:步骤:时空渐进学习,用于视频动作检测
    作者:Xitong Yang, Xiaodong Yang, Ming-Yu Liu, Fanyi Xiao, Larry Davis, Jan Kautz
    论文链接:https://arxiv.org/abs/1904.09288

    18、UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos
    中文:UnOS:通过观看视频实现统一的无监督光流和立体深度估计
    作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu
    论文链接:https://arxiv.org/abs/1810.03654

    19、Memory-Attended Recurrent Network for Video Captioning
    中文:用于视频字幕的内存专用循环网络
    作者:Wenjie Pei, Jiyuan Zhang, Xiangrong Wang, Lei Ke, Xiaoyong Shen, Yu-Wing Tai
    论文链接:https://arxiv.org/abs/1905.03966

    展开全文
  • 行业分类-物理装置-基于混合多尺度时序可分离卷积操作的视频行为识别方法.zip
  • 视频中行为识别与图像中行为识别最大的不同之处在于视频不仅包含了时序上的信息,而且需要巨大的计算量支撑。而该技术还受到许多外在因素的影响,如视频动态背景居多、相机视角多变以及光照变化等等。随着科学技术的...

    摘要:

    目前,人体行为识别技术已经成为计算机视觉领域极具挑战力的一个方向。视频中行为识别与图像中行为识别最大的不同之处在于视频不仅包含了时序上的信息,而且需要巨大的计算量支撑。而该技术还受到许多外在因素的影响,如视频动态背景居多、相机视角多变以及光照变化等等。随着科学技术的快速发展,以及芯片计算能力的加强,如今基于计算机视觉的人体行为识别技术越来越受到科研人员的关注。本文首先对朴素贝叶斯与半朴素贝叶斯分类算法在图像识别上进行了算法性能比较,利用高斯模糊、灰度化处理、二值化处理等方式对图像内容进行特征提取,然后训练两种分类器进行识别比较。实验结果表明,在图像识别上半朴素贝叶斯相比朴素贝叶斯算法有较好的识别效果。随后,本文提出了一种基于DT与Semi-NBC混合的方法。基本思想是利用光流来提取视频中的人体运动轨迹信息,本文再从轨迹信息中提取一些特征描述符,如HOG、HOF、MBH。其中HOG描述视频中的静态外观信息,HOF描述视频中的局部运动信息,而MBH是计算光流的梯度值。本文对提取的特征使用Fisher Vector编码,基于编码的结果使用半朴素贝叶斯分类器训练识别分类。实验结果表明,本文提出的基于DT与Semi-NBC混合算法与DT算法相比较,在视频识别任务中有效的提高了识别精度。

    展开

    展开全文
  • Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification ... ...最近读了一篇关于行为识别方向的文章《Temporal 3D ConvNets: New Architecture and Transfer L...
  • 行业分类-物理装置-基于监控视频时序动作定位和异常检测的变电站人员行为识别方法.zip
  • 本文基于LSTM来完成用户行为识别。数据集来源:https://archive.ics.uci.edu/ml/machine-learning-databases/00240/ 此数据集一共有6种行为状态: 行走; 站立; 躺下; 坐下; 上楼; 下楼; 以上6种行为数据是...
  • [行为识别] 2018 AAAI 行为识别论文解读 Action Detection[1] ++Action Recognition from Skeleton Data via Analogical Generalization over Qualitative Rep
  • 行为识别

    2020-03-04 16:33:18
    行为识别 行为识别常用深度网络 光流的作用 On the Integration of Optical Flow and Action Recognition(2017) (2018CVPR) 大多数表现优秀的动作识别算法使用光流作为“黑匣子”输入。 在这里,我们更深入地考察...
  • 初识行为识别

    2019-02-23 18:25:16
    随着互联网的不断发展,各种应用的不断推广。...行为识别可以说就是在这基础上演变出来的一个研究分支。那么什么是行为识别呢?我的理解是这样的,比如对于某个图片或者视频中的某个信息进行捕获,我们可以使用...
  • 为了构建高质量的行为提议,将行为提议送入边界回归网络中修正边界,使之更为贴近真实数据,再将行为提议扩展为含有上下文信息的三段式特征设计,最后使用多层感知机对行为进行识别.实验结果表明,本算法在THUMOS ...
  • 行为定位、行为识别

    2020-06-16 13:26:11
    视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,...
  • 相比于2D 卷积神经网络,3D卷积神经网络更能很好的利用视频中的时序信息。因此,其主要应用视频、行为识别等领域居多。3D卷积神经网络是将时间维度看成了第三维。 人类行为识别的实际应用: 安防监控。(检测识别...
  • 该算法首先从每个视频中提取20帧图像,通过Inceptionv3模型提取图像中的深层特征,然后构建向前和向后的Bi-LSTM神经网络学习特征向量中的时序信息,接着利用注意力机制自适应地感知对识别结果有较大影响的网络权重,使...
  • 姿态估计和行为识别作为计算机视觉的两个领域,对于新人来说,较为容易弄混姿态估计和行为识别两个概念。   姿态估计(Pose Estimation)是指检测图像和视频中的人物形象的计算机视觉技术,可以确定某人的某个...
  • 传统的基于RGB和骨骼特征的行为识别算法,普遍存在两种特征互补性不足及视频关键时序性不强等问题。为解决这一问题,提出一种自适应融合RGB和骨骼特征的行为识别算法。首先,面向RGB图像和骨骼图像,联合双向长短时记忆...
  • 论文题目:Timeception for Complex Action Recognition ... 大家好,今天我来介绍关于视频行为识别领域一篇文章《Timeception for...该文章主要聚焦于如何构建一种时序层来进行行为识别,这个时序层在文章中被称作Ti...
  • 视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D

    万次阅读 多人点赞 2018-06-20 21:23:38
    Video Analysis之Action Recognition(行为识别) 行为识别就是对时域预先分割好的序列判定其所属行为动作的类型,即“读懂行为”。 [行为检测|论文解读]行为检测调研综述 较新 基于Deep Learning 的视频...
  • 人体行为识别论文

    2011-10-30 23:25:35
    时间信号分析的论文,对贝叶斯网络作了改进,从而进行时序信号分析.
  • 行为识别相关资料

    2017-04-25 20:24:06
    行为识别调研 一、介绍、背景   二、难点 1.类内和类间数据的差异。对于很多动作,本身就具有很大的差异性,例如不同人不同时刻的行走动作在速度或步长上就具有差异性。不同动作之间又可能具有很大的相似性...
  • 这篇主要介绍Action Recognition(行为识别)这个方向。这个方向的主要目标是判断一段视频中人的行为的类别,所以也可以叫做Human Action Recognition。虽然这个问题是针对视频中人的动作,但基...
  • 当前视频行为识别主要是在三种场景: In the Lab In TV,Movies In web videos 视频动作识别的机遇和挑战: 机遇:视觉信息提供了大量、丰富的数据用于视觉理解;动作是运动感知的核心且能够衍生许多...
  • 视频的行为识别

    万次阅读 多人点赞 2019-08-19 14:49:21
    使用DL方法解决视频中行为识别/动作识别的问题解决思路有三个分支:分别是two-stream(双流)方法,C3D方法以及CNN-LSTM方法。本文将从算法介绍、算法架构、参数配置、训练集预处理、算法优势及原因、运行结果六个方面...
  • 视频行为识别年度进展

    千次阅读 2017-06-14 11:00:47
    ...视频行为识别,通俗来讲就是给出一段视频,来判断人或者感兴趣的物体在进行什么行为。
  • 行为动作识别

    万次阅读 多人点赞 2019-05-23 15:48:56
    视频分析中的一个核心就是人体行为识别行为识别的准确性和快速性将直接影响视频分析系统后续工作的结果。因此,如何提高视频中人体行为识别的准确性和快速性,已成为视频分析系统研究中的重点问题。 目前,典型的...
  • 视频行为识别检测综述

    千次阅读 2020-08-24 20:33:19
    Video Analysis之Action Recognition(行为识别) 行为识别就是对时域预先分割好的序列判定其所属行为动作的类型,即“读懂行为”。 1 本文github地址 博文末尾支持二维码赞赏哦 _ [行为检测|论文解读]行为检测...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,472
精华内容 4,188
关键字:

行为识别的时序信息