精华内容
下载资源
问答
  • 行为识别的时序信息
    千次阅读
    2020-11-11 16:36:06

    CVPR2019 | 论文之行为/动作识别、手势识别、时序动作检测及视频相关

    行为/动作识别、手势识别

    1、An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
    中文:《一种用于骨架动作识别的注意增强型图卷积LSTM网络》
    作者:Chenyang Si, Wentao Chen, Wei Wang, Liang Wang, Tieniu Tan
    论文链接:https://arxiv.org/abs/1902.09130

    2、Improving the Performance of Unimodal Dynamic Hand-Gesture Recognition with Multimodal Training
    中文:多模态训练提高单模态动态手势识别性能
    作者:Mahdi Abavisani, Hamid Reza Vaezi Joze, Vishal M. Patel
    链接:https://arxiv.org/abs/1812.06145

    3、Collaborative Spatio-temporal Feature Learning for Video Action Recognition
    中文:协同时空特征学习在视频动作识别中的应用
    作者:Chao Li, Qiaoyong Zhong, Di Xie, Shiliang Pu
    论文链接:https://arxiv.org/abs/1903.01197

    4、Peeking into the Future: Predicting Future Person Activities and Locations in Videos(行为预测)
    中文:窥视未来:在视频中预测未来人的活动和位置
    作者:Junwei Liang, Lu Jiang, Juan Carlos Niebles, Alexander Hauptmann, Li Fei-Fei
    论文链接:https://arxiv.org/abs/1902.03748

    5、Neural Scene Decomposition for Multi-Person Motion Capture
    中文:多人运动捕捉的神经场景分解
    作者:Helge Rhodin, Victor Constantin, Isinsu Katircioglu, Mathieu Salzmann, Pascal Fua
    论文链接:https://arxiv.org/abs/1903.05684

    6、Action Recognition from Single Timestamp Supervision in Untrimmed Videos(动作识别)
    中文:基于单时间戳监督的未剪辑视频动作识别
    作者:Davide Moltisanti, Sanja Fidler, Dima Damen
    论文链接:https://arxiv.org/abs/1904.04689

    7、Pushing the Envelope for RGB-based Dense 3D Hand Pose Estimation via Neural Rendering
    中文:基于RGB的神经绘制密集三维手部姿态估计
    作者:Seungryul Baek, Kwang In Kim, Tae-Kyun Kim
    论文链接:https://arxiv.org/abs/1904.04196

    8、Relational Action Forecasting(oral)
    中文:关系动作预测
    作者:Chen Sun, Abhinav Shrivastava, Carl Vondrick, Rahul Sukthankar, Kevin Murphy, Cordelia Schmid
    论文链接:https://arxiv.org/abs/1904.04231

    9、H+O: Unified Egocentric Recognition of 3D Hand-Object Poses and Interactions(Oral)
    中文:H+O:统一的以自我为中心的三维手势和交互识别
    作者:Bugra Tekin, Federica Bogo, Marc Pollefeys
    论文链接:https://arxiv.org/abs/1904.05349

    10、Out-of-Distribution Detection for Generalized Zero-Shot Action Recognition
    中文:广义零射击动作识别的分布外检测
    作者:Devraj Mandal, Sanath Narayan, Saikumar Dwivedi, Vikram Gupta, Shuaib Ahmed, Fahad Shahbaz Khan, Ling Shao
    论文链接:https://arxiv.org/abs/1904.08703

    11、Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition
    中文:基于骨架动作识别的动作结构图卷积网络
    作者:Maosen Li, Siheng Chen, Xu Chen, Ya Zhang, Yanfeng Wang, and Qi Tian
    论文链接:https://arxiv.org/pdf/1904.12659

    12、A neural network based on SPD manifold learning for skeleton-based hand gesture recognition
    中文:基于SPD流形学习的神经网络在基于骨架的手势识别中的应用
    作者:Xuan Son Nguyen, Luc Brun, Olivier Lézoray, Sébastien Bougleux
    论文链接:https://arxiv.org/abs/1904.12970

    13、DMC-Net: Generating Discriminative Motion Cues for Fast Compressed Video Action Recognition(Facebook)
    中文:DMC-Net:一种用于快速压缩视频动作识别的区分性运动线索生成技术
    作者:Zheng Shou, Xudong Lin, Yannis Kalantidis, Laura Sevilla-Lara, Marcus Rohrbach, Shih-Fu Chang, Zhicheng Yan
    论文链接:https://arxiv.org/abs/1901.03460




    时序动作检测及视频相关

    1、Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
    中文:时空动态和语义属性丰富的视频字幕视觉编码
    作者:Nayyer Aafaq, Naveed Akhtar, Wei Liu, Syed Zulqarnain Gilani, Ajmal Mian
    论文链接:https://arxiv.org/abs/1902.10322
    来源:https://mp.weixin.qq.com/s/61C-k3Ijy_7ry5B5lRML6Q

    2、Single-frame Regularization for Temporally Stable CNNs(视频处理)
    中文:时间稳定CNNs的单帧正则化方法
    作者:Gabriel Eilertsen, Rafał K. Mantiuk, Jonas Unger
    论文链接:https://arxiv.org/abs/1902.10424
    来源:https://mp.weixin.qq.com/s/61C-k3Ijy_7ry5B5lRML6Q

    3、Neural RGB-D Sensing: Depth estimation from a video Camera
    中文:神经RGB-D传感:摄像机深度估计
    作者:Chao Liu, Jinwei Gu, Kihwan Kim, Srinivasa Narasimhan, Jan Kautz
    论文链接:https://arxiv.org/abs/1901.02571
    project链接:https://research.nvidia.com/publication/2019-06_Neural-RGBD

    4、Competitive Collaboration: Joint Unsupervised Learning of Depth, CameraMotion, Optical Flow and Motion Segmentation
    中文:竞争合作:深度、摄像运动、光流和运动分割的联合无监督学习
    作者:Anurag Ranjan, Varun Jampani, Kihwan Kim, Deqing Sun, Jonas Wulff, Michael J. Black
    论文链接:https://arxiv.org/abs/1805.09806

    5、Representation Flow for Action Recognition
    中文:动作识别的表示流
    作者:AJ Piergiovanni, Michael S. Ryoo
    论文链接:https://arxiv.org/abs/1810.01455
    项目链接:https://piergiaj.github.io/rep-flow-site/
    代码链接:https://github.com/piergiaj/representation-flow-cvpr19

    6、Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos
    中文:视频异常检测中骨架轨迹的学习规律
    作者:Romero Morais, Vuong Le, Truyen Tran, Budhaditya Saha, Moussa Mansour, Svetha Venkatesh
    论文链接:https://arxiv.org/abs/1903.03295

    7、Video Generation from Single Semantic Label Map
    中文:从单个语义标签图生成视频
    作者:Junting Pan, Chengyu Wang, Xu Jia, Jing Shao, Lu Sheng, Junjie Yan, Xiaogang Wang
    论文链接:https://arxiv.org/abs/1903.04480
    源码链接:https://github.com/junting/seg2vid/tree/master

    8、Inserting Videos into Videos
    中文:将视频插入视频
    作者:Donghoon Lee, Tomas Pfister, Ming-Hsuan Yang
    论文链接:https://arxiv.org/abs/1903.06571

    9、Recurrent Back-Projection Network for Video Super-Resolution
    中文:用于视频超分辨率的循环反投影网络
    作者:Muhammad Haris, Greg Shakhnarovich, Norimichi Ukita
    论文链接:https://arxiv.org/abs/1903.10128
    代码链接:https://github.com/alterzero/RBPN-PyTorch
    项目链接:https://alterzero.github.io/projects/RBPN.html

    10、Depth-Aware Video Frame Interpolation
    中文:
    作者:Wenbo Bao Wei-Sheng Lai, Chao Ma, Xiaoyun Zhang, Zhiyong Gao, and Ming-Hsuan Yang
    论文链接:https://sites.google.com/view/wenbobao/dain
         https://arxiv.org/abs/1904.00830
    代码链接:https://github.com/baowenbo/DAIN

    11、Video Relationship Reasoning using Gated Spatio-Temporal Energy Graph
    中文:使用门控时空能量图的视频关系推理
    作者:Yao-Hung Hubert Tsai, Santosh Divvala, Louis-Philippe Morency, Ruslan Salakhutdinov, Ali Farhadi
    论文链接:https://arxiv.org/abs/1903.10547

    12、Dual Encoding for Zero-Example Video Retrieval
    中文:双重编码实现零样本视频检索
    作者:Jianfeng Dong, Xirong Li, Chaoxi Xu, Shouling Ji, Yuan He, Gang Yang and Xun Wang
    论文链接:https://arxiv.org/abs/1809.06181
    代码链接:https://github.com/danieljf24/dual_encoding

    13、Rethinking the Evaluation of Video Summaries
    中文:重新思考视频摘要的评估
    作者:Jacques Manderscheid, Amos Sironi, Nicolas Bourdis, Davide Migliore, Vincent Lepetit
    论文链接:https://arxiv.org/abs/1903.11328

    14、End-to-End Time-Lapse Video Synthesis from a Single Outdoor Image
    中文:从单个室外图像进行端到端延时视频合成
    作者:Seonghyeon Nam, Chongyang Ma, Menglei Chai, William Brendel, Ning Xu, Seon Joo Kim
    论文链接:https://arxiv.org/abs/1904.00680

    15、GolfDB: A Video Database for Golf Swing Sequencing
    中文:GolfDB:用于高尔夫挥杆定序的视频数据库
    作者:William McNally, Kanav Vats, Tyler Pinto, Chris Dulhanty, John McPhee, Alexander Wong
    论文链接:https://arxiv.org/abs/1903.06528v1

    16、VORNet: Spatio-temporally Consistent Video Inpainting for Object Removal
    中文:VORNet:时空一致的视频修补,用于对象移除
    作者:Ya-Liang Chang, Zhe Yu Liu, Winston Hsu
    论文链接:https://arxiv.org/abs/1904.06726

    17、STEP: Spatio-Temporal Progressive Learning for Video Action Detection(Oral)
    中文:步骤:时空渐进学习,用于视频动作检测
    作者:Xitong Yang, Xiaodong Yang, Ming-Yu Liu, Fanyi Xiao, Larry Davis, Jan Kautz
    论文链接:https://arxiv.org/abs/1904.09288

    18、UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos
    中文:UnOS:通过观看视频实现统一的无监督光流和立体深度估计
    作者:Yang Wang, Peng Wang, Zhenheng Yang, Chenxu Luo, Yi Yang, and Wei Xu
    论文链接:https://arxiv.org/abs/1810.03654

    19、Memory-Attended Recurrent Network for Video Captioning
    中文:用于视频字幕的内存专用循环网络
    作者:Wenjie Pei, Jiyuan Zhang, Xiangrong Wang, Lei Ke, Xiaoyong Shen, Yu-Wing Tai
    论文链接:https://arxiv.org/abs/1905.03966

    更多相关内容
  • 针对人体行为最重要的motion特征,提出了基于时间上下文的二级递推异常行为识别方法.不同于传统深度学习的训练方法,本文方法不是直接从图像数据中学习特征,而是把提取的形状信息HOG特征作为训练输入.首先提取基于...
  • 该算法首先从每个视频中提取20帧图像,通过Inceptionv3模型提取图像中的深层特征,然后构建向前和向后的Bi-LSTM神经网络学习特征向量中的时序信息,接着利用注意力机制自适应地感知对识别结果有较大影响的网络权重,使...
  • 相比于2D 卷积神经网络,3D卷积神经网络更能很好的利用视频中的时序信息。因此,其主要应用视频、行为识别等领域居多。3D卷积神经网络是将时间维度看成了第三维。 人类行为识别的实际应用: 安防监控。(检测识别...
  • 为了更好地对人体动作的长时时域信息进行建模,提出了一种结合时序动态图和双流卷积网络的人体行为识别算法。首先,利用双向顺序池化算法来构建时序动态图,实现视频从三维空间到二维空间的映射,用来提取动作的表观和长...
  • 为了构建高质量的行为提议,将行为提议送入边界回归网络中修正边界,使之更为贴近真实数据,再将行为提议扩展为含有上下文信息的三段式特征设计,最后使用多层感知机对行为进行识别.实验结果表明,本算法在THUMOS ...
  • 为改善人体行为识别任务中准确率低的问题,提出了一种基于批归一化的卷积神经网络(CNN)与长短期记忆(LSTM)神经网络结合的神经网络。CNN部分引入批归一化思想,将输入网络的训练样本进行小批量归一化处理,经过全...
  • T-C3D 实时行为识别时序卷积网络

    千次阅读 2019-12-11 22:43:40
    对于行为识别,对于短动作的行为识别,目前的方法已经达取得的很好的结果,但是对于长时序的动作,目前方法还存在问题。其实对于分割和行为识别面临问题属于同一类问题,解决该问题的思路是:局部特征提取,最后进行...

    论文名称:T-C3D:TemporalConvolutional3D NetworkforReal-TimeActionRecognition 

    论文地址:https://aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17205

    代码地址:https://github.com/tc3d

    最近忙于写论文,也没有时间写博客,今天,我给大家带来一篇行为识别文章《T-C3D:TemporalConvolutional3D NetworkforReal-TimeActionRecognition 》,这篇文章是2018年发表在ECCV上的一篇经典文章,文章出自于北京邮电大学。T3D网络在baseline数据集UCF-101和HMDB-51数据集上精度分别达到了91.8%和62.8%。这篇文章的贡献如下:

    • 提出了一个基于3D-CNN的实时动作识别架构,来学习多种粒度的视频表示。学习的特征不仅能够模拟短视频片段之间随时间变化,而且能够模拟整个视频的时间动态;
    • 提出了一种具有聚合函数的时间编码技术来模拟整个视频的特征,这大大提高了识别性能;
    • 只使用RGB帧作为CNN的输入来实时处理动作识别,同时取得了与现有方法相当的性能。

    在开始文章讲解之前,我想简单介绍一些当下行为识别和语义分割的研究热点。其实行为识别和语义分割都属于分类任务,其区别在于分类的关注点不同,但是在随着这两个方向的不断发展,出现了很多要解决的问题,比如语义分割中的FCN网络存在对小目标分割丢失的问题或大目标分割不全的问题。对于行为识别,对于短动作的行为识别,目前的方法已经达取得的很好的结果,但是对于长时序的动作,目前方法还存在问题。其实对于分割和行为识别面临问题属于同一类问题,解决该问题的思路是:局部特征提取,最后进行局部特征融合形成全局的特征。典型网络代表:语义分割PSPNet,行为识别T-C3D。本段话纯属个人理解,如有问题请留言。

    按照我写博客的一贯作风,我首先介绍文章的创作灵感,之后当下的一些研究状况,紧接着是研究方法(文章的灵魂),最后是实验部分。

    本文创作的的目的是为了解决行为识别网络不实时问题和长时序动作识别问题。那么什么是实时呢?在行为识别领域,具体实时是指端到端的训练,而对于双流网络,由于其结合的光流信息,需要额外时间计算光流图,导致网络不能端到端训练。对于

                                                                                        图1 长短时序动作

    长时序动作,为了直观理解,看图1,“弹钢琴”和“射箭”可以很容易地通过静态画面或连续画面之间的小动作的外观信息来识别,然而,有时短剪辑不足以区分类似的类别(跳高和跳远),这时候需要考虑全局的时序特征来进行判别。同时该网络也可以在提取局部时序特征时候,几个卷积共享参数,所以可以大大减低参数量,这个后续用网络结构图来进行解释。

    接下来介绍一下行为识别的研究领域最新情况和面临的问题。面临的挑战具体有,视频尺度的变化,杂乱的背景,视点的变化,相机的移动等对网络判别行为有很大的影响,这也是行为识别精度上不去的原因之一,同时,和静态图片识别相比,行为识别是一个序列问题,动作要通过多帧结合来进行有效的识别。在过去的十年中,基于视频的行为识别一直在研究中,开始是基于手工设计的方式来获取视频局部的时空特征,然而,手工特征方式面临设计繁琐,存在大量冗余的特征,具体代表方法有IDT,HOG3D,SIFT-3D。之后随着深度学习的发展,利用卷积来自动提取时空特征成为了主流,这也是现阶段发展的主要方向,具体代表网络有C3D,双流网络。

    现在我们介绍本文的重点网络结构,具体如图2,输入为整个视频,分成多个片段作为网络的输入,之后每个片段通多3D CNN来提取局部的时空特征,这些3D CNN共享权重,之后将多个片段进行融合行为对整个视频的表示,最后通过softmax进行行为判别。为了详细阐述这个结构,文章引入了几个部分,具体由Temporal Encoding Model(时序编码模型),Video Components Generation(视频成分产生),3D Convolution Neural Network(3D卷积网络),Aggregation Functions(聚合函数)。接下来对每个部分进行详细介绍:

                                                                              图2 T-C3D网络结构

    Temporal Encoding Model

    为了刻画视频的整体特征,引入了Temporal Encoding Model。形式上,给定一个视频V,在时间维上把它统一划分为S部分{P1,P2,P3,…,Ps},然后从Pi中选择一系列帧组成片段Ci。接下来,通过将每个片段经过3D-CNN的作用,获得S个特征图。将S个clips通过聚合函数作用得到视频级特征。最后,根据视频级特征得出最终的类别分数。不同于以往的工作,T-C3D通过视频级而非帧级预测来优化和更新其参数。具体公式如图3,W表示3D CNN的权重,F:表示激活函数,Q:表示聚合函数,H:表示预测函数,用来产生每个类别的概率得分。关于分段损失函数如图4,其中 G = Q(F(C1; W); F(C2; W); ...;F(Cs; W)) ,模型参数导数计算如图5,用于参数更新。

                                                                         图3 视频最终的类别得分

                                                                                      图4 损失函数

                                                                                      图5 权重导数

    Video Components Generation

    与静止图像不同,视频是动态的,并且具有不同的序列。为了利用良好的方式对整个视频进行建模,作者首先在时间维度上将视频统一划分为几个部分。然后用两种常用的抽样方案从每个部分抽取多个帧,构成一个clip。第一种方案将前一步生成的视频片段统一划分为一定数量的fragments,并从每个fragments中随机选择一帧构成最终的片段。第二种方法从fragments中随机选择一定数量的连续帧来构造最终片段。实质上,第一采样方法随机选择均匀分布在整个视频中的非连续帧来表示整个视频。第二种方法从整个视频中均匀地选择S个片段,每个片段由一定数量的连续帧组成。后续实验部分给出了两种不同的下采样方法的分类精度。

    3D Convolution Neural Network

    首先,受深度残差CNN所获得的惊人的图像分类精度的启发,文章采用了一种带有残差块的深度3D-CNN网络。更特别的是,根据ConvNet架构搜索的工作,采用了17个卷积层和一个完全连接层的3D ResNet。实验表明,在给定的多帧图像中,深度残差的3D-CNN可以提取出更丰富、更强的时空特征层次。其次,对CNN的参数进行预训练在大规模数据集上,已被证明对各种视觉任务非常关键,例如目标检测、图像分类、语义分割等。对于3D-CNN,先前的工作如LTC已经表明,在Sprots-1M上预先训练的3D模型比从头训练的模型具有更高的分类精度。本文首先按照C3D中的策略,对Sports-1M模型进行了预训练,虽然Sports-1M有超过100万个视频,但由于没有人工标注,因此含有大量的噪声。最近,Kay(Kay等人。2017)等人提出了一个大规模、干净的数据集,称为Kinetics,涵盖400个人类行为类别,每个行为至少有400个视频clips。为了尽可能地激活3D-CNN中的神经元,作者采用时间编码的方法对3D-CNN进行了Kinetics数据集上训练,实验表明,Kinetics预训练显著提高了训练效果。

    Aggregation Functions

    聚合函数是T-C3D框架中非常重要的组件。文章详细描述和深入分析四个聚合函数,包括平均池、最大池、加权池和注意力池。接下来我进行一一阐述,这很重要。

    • 平均池:平均池的基本假设是利用所有片段的激活进行动作识别,并将其平均响应作为整体视频预测。从这个角度来看,平均池能够联合描述视频片段序列并从整个视频中获得视觉特征。然而,一些视频可能包含与动作无关的噪声序列,在这种情况下,对这些噪声片段进行平均无法准确地建模动作特征,可能导致识别性能的下降。
    • 最大池:max pooling的基本直觉是为每个动作类别选择最具辨别力的clip,并以这种最强的响应来表示整个视频,直观地说,它专注于单个clip,而不考虑其他剪辑的激活。在某些情况下,单个clip的辨别力不足以捕获整个视频信息。在某种程度上,T-C3D退化到了以前的工作,即在使用最大池时,用每个视频一个clip来训练网络。因此,这种聚合功能驱动T-C3D仅用一个片段来表示整个视频,这违背了T-C3D对整个视频建模的假设。
    • 加权池:此聚合函数的目标是生成一组线性权重,以便在每个clip的输出之间执行元素加权线性融合。实验中,网络权值W和融合权值ω同时优化。该聚合函数根据动作总是由多个阶段组成,这些不同的阶段在识别动作类时可能有不同的影响而产生,同时该聚合函数结合了最大池和均匀池的优点,能够同时减少相关片段的序和噪声片段的不良影响。具体是采用了以S×1为核的卷积层来实现该功能。具体函数定义为如图6.
    • 注意力池:此聚合函数的目标与加权池方法相同。它借用了一种端到端可训练记忆网络的记忆注意机制。直觉是利用一个神经模型通过一个可辩别的处理/注意方案读取外部记忆。具体作者将每个片段的输出视为记忆,将特征权重视为记忆处理程序。形式上,让Fs作为第s个片段的经过3D-CNN的特征图,然后聚合模块通过点积用核q对其进行过滤,生成相应的权值序列。具体如图7.

                                                                                     图6 加权池作用机理

                                                                                    图7 注意力池作用机理

    最后是实验部分,这部分主要是说明T-C3D最优性和探索实验。图8是T-C3D和一些主流方法的对比。图9帧两种采样方式对比,前面有阐述。图10不同聚合方式对比。图11不同训练方式比较,其中多尺度表示对输入进行裁剪和采用镜像(图像增强)。

                                                                                        图8 和一些主流模型对比

                                                                                          图9 不同采样方式对比

                                                                                        图10 不同聚合函数对比

                                                                                  图11 对于T-C3D不同训练方式比较

    展开全文
  • 视频行为识别与轻量化网络的前沿论文、代码等 https://zhuanlan.zhihu.com/c_1207774575393865728 CVPR 2020 行为识别/视频理解论文汇总 https://zhuanlan.zhihu.com/p/141429177 CVPR 2020 论文大盘点-动作识别篇 ...

    视频行为识别与轻量化网络的前沿论文、代码等
    https://zhuanlan.zhihu.com/c_1207774575393865728
    CVPR 2020 行为识别/视频理解论文汇总
    https://zhuanlan.zhihu.com/p/141429177
    CVPR 2020 论文大盘点-动作识别篇
    https://cloud.tencent.com/developer/article/1664055
    CVPR 2020 论文大盘点-动作检测与动作分割篇
    https://www.sohu.com/a/408454247_823210
    Shift思想在视频理解中的近期进展
    https://zhuanlan.zhihu.com/p/137385332
    视频行为识别2020最新研究进展(中科院深圳先进技术研究院-乔宇)
    https://zhuanlan.zhihu.com/p/109519047
    ECCV 2020 论文大盘点-动作检测与识别篇
    https://blog.csdn.net/moxibingdao/article/details/109140629
    Temporal Action Detection总结
    https://zhuanlan.zhihu.com/p/52524590
    https://www.zhihu.com/question/57523080/answer/158568414
    https://zhuanlan.zhihu.com/p/26603387
    https://blog.csdn.net/qq_33278461/article/details/80720104
    时序行为检测 & 弱监督时序行为检测 & 时序行为proposal生成 论文整理
    https://zhuanlan.zhihu.com/p/112811396?utm_source=wechat_session
    CVPR2019 | 论文之行为/动作识别、手势识别、时序动作检测及视频相关
    https://blog.csdn.net/leiduifan6944/article/details/109624879
    ECCV CVPR AAAI 2018年 Action recognition 的汇总
    https://www.sohu.com/a/298599618_100021558
    2018年 Action recognition 的汇总(ECCV CVPR AAAI)
    https://zhuanlan.zhihu.com/p/56061717

    Action Localization Benchmarks
    Papers and Results of Temporal Action Localization
    https://github.com/VividLe/awesome-weakly-supervised-action-localization

    Papers: temporal action proposals & detection
    Papers: weakly temporal action detection
    Features: Download link
    Benchmark Results (THUMOS14 Results)
    https://github.com/sming256/Materials-Temporal-Action-Detection


    AVA数据集:
    https://zhuanlan.zhihu.com/p/157869607
    时空行为定位相关论文:
    https://blog.csdn.net/irving512?t=1
    人类动作识别数据集AVA:
    https://blog.csdn.net/zchang81/article/details/78291527?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param

    https://blog.csdn.net/gh13uy2ql0n5/article/details/78302372?utm_medium=distribute.pc_relevant.none-task-blog-title-2&spm=1001.2101.3001.4242
    下载地址:
    https://research.google.com/ava/

     

    视频特征提取工具:
    (I3D models trained on Kinetics)
    https://github.com/piergiaj/pytorch-i3d


    一、行为识别:
    (1)ECCV2020 腾讯优图 时间差异表示学习
    Temporal Distinct Representation Learning for Action Recognition
    取得了现在轻量级模型最好的结果
    本文提出渐进式增强模块,用于 channel-level 信息滤波,有效地激发了不同帧的鉴别通道,同时避免了重复信息提取。
    另外,提出一个时序多样性损失来训练网络。该损失可以校准卷积核,从而使网络可以专注于并捕捉帧之间的变化。也提高了识别精度,且不增加额外的网络复杂性。

    https://arxiv.org/pdf/2007.07626.pdf
    https://zhuanlan.zhihu.com/p/162026102

    (2)CVPR2020 中科院+商汤 SmallBigNet
    SmallBigNet: Integrating Core and Contextual Views for Video Classification
    模型更加精简,最后得到的模型大小与2D CNN相近,FLOPs翻倍,在Kinetics-400、Something-Something V1&V2上都超过了最近的一些方法。

    https://arxiv.org/pdf/2006.14582v1.pdf
    https://zhuanlan.zhihu.com/p/153471137

    https://github.com/xhl-video/SmallBigNet

    (代码还在整理,还没放出来)

    (3)CVPR2019 Kaiming He  Non-local Neural Networks
    Non-local Neural Networks
    convolution和recurrent都是对局部区域进行的操作,所以它们是典型的local operations。受计算机视觉中经典的非局部均值(non-local means)的启发,本文提出一种non-local operations用于捕获长距离依赖(long-range dependencies)

    https://arxiv.org/pdf/1711.07971v1.pdf

    https://github.com/facebookresearch/video-nonlocal-net
    https://blog.csdn.net/elaine_bao/article/details/80821306
    https://www.zhihu.com/question/68473183
    https://zhuanlan.zhihu.com/p/102984842
    https://zhuanlan.zhihu.com/p/64988633

    (4)2020TR 南大+商汤 TAM 时间自适应模块
    TAM: Temporal Adaptive Module for Video Recognition
    在视频动作识别中,时序建模对学习视频中的时序结构信息至关重要。但由于受多种因素的影响(例如相机运动,视角切换,场景多样),导致视频数据在时序维度上具有及其复杂的动态特性。为了能够有效捕捉视频中的时序动态特性,提出了一种自适应的时序建模方法TAM (Temporal Adaptive Module)。

    https://arxiv.org/pdf/2005.06803v1.pdf

    https://github.com/liu-zhy/temporal-adaptive-module
    https://zhuanlan.zhihu.com/p/149429010
    https://zhuanlan.zhihu.com/p/141773949

    (5)CVPR 2020 Oral  FAIR X3D超轻量级行为识别模型
    X3D: Expanding Architectures for Efficient Video Recognition
    受机器学习中的特征选择方法启示,想到了一个简单的逐步扩张不同维度的方法,从基础的模型X2D出发,探索了帧率、帧数、分辨率、深度、宽度、bottleneck宽度对模型性能的影响。不同的是用了坐标下降+贪心策略进行快速“搜索”,方法简单但十分make sense

    https://arxiv.org/pdf/2004.04730.pdf

    https://github.com/facebookresearch/SlowFast
    https://zhuanlan.zhihu.com/p/131494746
    https://zhuanlan.zhihu.com/p/129279351

    (6)CVPR2020 南大+腾讯 TEA 轻量级视频行为识别模型
    TEA: Temporal Excitation and Aggregation for Action Recognition
    (TEA=TEINet的MEM+STM串联结构+Res2Net backbone)

    https://arxiv.org/pdf/2004.01398.pdf
    https://github.com/Phoenix1327/tea-action-recognition
    https://zhuanlan.zhihu.com/p/129282832
    https://zhuanlan.zhihu.com/p/130807086
    (7)ICCV2019 商汤 STM 行为识别时空与动作编码
    STM: SpatioTemporal and Motion Encoding for Action Recognition

    与TSM一样,也是利用2D卷积完成视频任务,但是是一种新的思路。行为识别中最重要的是时空特征以及运动特征,前者将不同时刻的空间特征关系编码,后者将相邻帧的运动特征表征,作者针对两种特征分别提出了CSTM(Channel-wise SpatioTemporal Module)以及CMM(Channel-wise Motion Module)

    https://arxiv.org/pdf/1908.02486.pdf
    https://zhuanlan.zhihu.com/p/87048160
    https://zhuanlan.zhihu.com/p/105341123
    (8)CVPR2020 CUHK+SenseTime Temporal Pyramid Network for Action Recognition

    现实中视频动作的速度(visual tempos)往往是不同的,如果我们不考虑速度的话,walking, jogging 和 running三个在形态上很相似的动作也很难被识别出来。而现有的视频模型设计时往往忽视了视觉速度这一个至关重要的点。
    本文提出TPN(Temporal Pyramid Network)网络结构,特点是金字塔,即时间金字塔网络,该网络以即插即用的方式灵活地集成到2D或3D主干网络中。起源于对视频动作快慢的研究,在多个数据集上取得优秀的结果。

    https://arxiv.org/pdf/2004.03548.pdf
    https://zhuanlan.zhihu.com/p/127366929
    https://blog.csdn.net/YoJayC/article/details/106989570
    https://blog.csdn.net/Amazingren/article/details/105631183
    https://github.com/decisionforce/TPN
    (9)ICCV2019  TSM  Temporal Shift Module for Efficient Video Understanding
    本文在对视频数据大量增长的情况下提出了一种Temporal Shift Module(TSM)网络方法,该方法是能够插入2D CNNs的网络中实现时序上的学习而不增加额外的性能上的花费。TSM是一个高效且识别率非常好的模型,相对于传统的一些算法其速度有数倍的提升。

    https://arxiv.org/pdf/1811.08383.pdf
    https://zhuanlan.zhihu.com/p/66251207
    https://zhuanlan.zhihu.com/p/64525610
    https://zhuanlan.zhihu.com/p/84868486

    官方代码(含nano的demo,TVM加速):

    https://github.com/MIT-HAN-LAB/temporal-shift-module

    训练代码:
    https://github.com/dionsaputra/tsm-retrain

    (10)CVPR2020  Gate-Shift Network

    为了获取时序信息,一般的做法是采用 3D 卷积,例如 C3D。这种方法有它的优点,可以学习到比较 powerful 的时空特征,但是这种方法也有它的缺点,参数量大计算成本高。为了解决这种方法存在的缺点,近年来涌现出许多改进的方法,例如 S3D,TSM,GST。

    这篇论文同属于对 3D 卷积进行改进,作者认为上述方法都是 hard-wired,意思是说网络结构非常固化,不能根据训练数据进行调整,特征从上一个 block 输出到下一个 block 经过的都是固定的网络。论文针对这点进行了改进,提出了 Gate-Shift Module,GSM 结合了 TSM 和 GST,共包括三个组件。

    https://arxiv.org/pdf/1912.00381.pdf

    https://github.com/swathikirans/GSM

    https://zhuanlan.zhihu.com/p/159203201

    (11)CVPR2020 oral 布里斯托大学
    Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

    基于多模态域适应的细粒度行为识别

    细粒度动作识别的多模态域适应技术,使用RGB与光流数据,解决动作识别在不同数据集上训练和测试性能下降的问题。

    https://arxiv.org/pdf/2001.09691.pdf
    https://blog.csdn.net/qq_41967539/article/details/105148467

    (12)ECCV2020  (浦项科技大学,韩国)
    MotionSqueeze: Neural Motion Feature Learning for Video Understanding

    在这项工作中,对内部和轻量级的运动特征学习,代替了外部和繁重的光流计算,提出了可训练的神经模块,称为MotionSqueeze,用于有效的运动特征提取。它被插入任何神经网络的中间,学习跨帧建立对应关系并将其转换为运动特征,然后将其轻松馈送到下一个下游层以进行更好的预测。

    https://arxiv.org/pdf/2007.09933.pdf
    https://github.com/arunos728/MotionSqueeze

    (13)ECCV2020 Spotlight (澳大利亚国立大学;牛津大学;Data61/CSIRO;香港大学等)
    Few-shot Action Recognition with Permutation-invariant Attention
    本文作者提出了一种新的少样本动作识别网络(ARN),由一个编码器、比较器和一个注意机制组成,来模拟短期和长期时空模式。作者研究了自监督的作用,通过空间和时间增强/辅助任务。
    此外,作者还提出了一种新的机制:attention by alignment ,解决了所谓的判别性长期块的时间位置的分布迁移问题。通过结合  self-supervision(自监督) 和 attention by alignment 的损失,得到高达6%的准确性的收益。

    https://arxiv.org/pdf/2001.03905.pdf

    (14)ECCV2020
    AR-Net: Adaptive Frame Resolution for Efficient Action Recognition
    MIT-IBM Watson AI Lab;波士顿大学;麻省理工学院
    动作识别是计算机视觉中的一个开放性和挑战性问题。现有的最先进的模型已经实现了很好的识别效果,但其昂贵的计算代码限制了其许多现实应用。
    本文中,提出一种新的方法:AR-Net(Adaptive Resolution Network),它可以根据输入条件为每一帧选择最佳的分辨率,以实现在长的未修剪视频中高效的动作识别。
    具体来说,给定一个视频帧,使用策略网络来决定动作识别模型应该使用什么样的输入分辨率进行处理,目的是提高准确性和效率。使用标准的反向传播有效地训练了策略网络与识别模型的联合。
    在几个具有挑战性的动作识别基准数据集上的广泛实验很好地证明了提出的方法比最先进的方法更有效。

    https://arxiv.org/pdf/2007.15796.pdf
    https://github.com/mengyuest/AR-Net

    (15)ECCV2020
    RubiksNet: Learnable 3D-Shift for Efficient Video Action Recognition
    斯坦福李飞飞团队 RubiksNet 可学习的三维移位
    本文作者提出RubiksNet,一种新型的高效的视频动作识别架构,基于提出的可学习的3D时空移位操作(RubiksShift),效果与先前工作相当或更好,参数减少了2.9 - 5.9倍,FLOP减少了2.1 - 3.7倍。

    https://stanfordvl.github.io/rubiksnet-site//assets/eccv20.pdf
    https://zhuanlan.zhihu.com/p/203239605?utm_source=wechat_session
    https://github.com/StanfordVL/rubiksnet

    (16)AAAI 2020 码隆科技实验室+南京大学
    KINet
    Knowledge Integration Networks for Action Recognition
    提出了用于视频动作识别的知识集成网络(KINet)。
    KINet能够聚合有意义的上下文特征,这些特征对于识别动作非常重要,例如人类信息和场景上下文。
    设计了一个由一个动作识别主分支和两个辅助分支组成的三分支体系结构,该结构允许模型对动作识别中的人和场景知识进行编码。

    https://arxiv.org/pdf/2002.07471.pdf
    https://blog.csdn.net/qq_41590635/article/details/105657688

    (17)AAAI2020 南京大学+腾讯优图实验室
    TEINet:Towards an Efficient Architecture for Video Recognition
    (个人感觉是SENet和TSM结合的升级版)
    在视频动作识别的架构设计中,效率是一个重要的问题。3D CNNs在视频动作识别方面取得了显著的进展。然而,与二维卷积相比,三维卷积往往引入大量的参数,导致计算量大。为了解决这个问题,我们提出了一个有效的时序模块,称为Temporal Enhancement-and-Interaction(TEI模块),它可以插入到现有的2D CNNs中。TEI模块通过分离通道相关和时间交互的建模,提出了一种不同的学习时间特征的范式。首先,它包含一个运动增强模块(MEM),该模块在抑制无关信息(例如背景)的同时增强与运动相关的特征。
    然后,介绍了一个时序交互模块(TIM),它以通道方式补充时序上下文信息。该两阶段建模方案不仅能够灵活有效地捕捉时间结构,而且能够有效地进行模型推理。
    https://arxiv.org/pdf/1911.09435.pdf
    https://blog.csdn.net/qq_41590635/article/details/105309977

    (18)CVPR2019 海康研究院

    Collaborative Spatio-temporal Feature Learning for Video Action Recognition
    协同时空特征学习在视频动作识别中的应用
    won  the  1st  place  in  the  Momentsin Time Challenge 2018.
    More importantly, richmotion information is embeddedwithin each frameratherthan between frames
    Given a 3D volumetric video tensor, we flattenit into three sets of 2D images by viewing it from differentangles.
    Then 2D convolution is applied to each set of 2Dimages.
    https://arxiv.org/pdf/1903.01197.pdf

     

     


    二、时序行为检测:
    https://blog.csdn.net/qq_33278461/article/details/80720104)这篇综述不错
    基本流程
    1.先找proposal,在对proposal分类和回归边界
    2.找proposal方法:主要就是以下几种

    如果刚开始看这方面,17工作直接看SSN(TAG找proposal)、R-C3D、CBR(TURN找proposal)就好了,找proposal方法简单看看TAG和TURN(网络其他部分不用看),github也有代码,对性能要求不高可以试试SSN(用到了光流),不然的话可以用一下R-C3D。
    SSN代码:https://github.com/yjxiong/action-detection
    CDC代码:https://github.com/ColumbiaDVMM/CDC
    R-C3D代码:https://github.com/VisionLearningGroup/R-C3D
    CBR代码:https://github.com/jiyanggao/CBR
    Learning Latent Super-Events to Detect Multiple Activities in Videos
    代码:https://github.com/piergiaj/super-events-cvpr18

    (1)CVPR2020     G-TAD: Sub-Graph Localization for Temporal Action Detection(THUMOS14, it reaches51.6% at IoU@0.5)

    一阶段temporal action localization
    对于动作检测而言,视频的文本信息是十分重要的线索之一,但是当前的工作主要集中于时序文本信息(temporal context),而忽视了另一个同样重要的语义文本信息(semantic context)。本文提出通过GCN模型自适应地融合多级语义文本信息,将时序动作检测问题转化为子图定位问题。具体就是将视频snippets作为图节点,将snippet-snippet correlations 作为边, 将于文本相关的动作实例作为目标子图。设计了GCNeXt模块,学习聚合了文本信息的特征,并动态更新图的边。设计了SGAlign layer将子图嵌入欧式空间来定位每一个子图。实验取得了state-of-the-art 的效果。
    On ActityNet-1.3, average mAP of 34.09%; on THUMOS14, 40.16% in mAP@0.5, 成为最好的one-stage方法。

    https://arxiv.org/pdf/1911.11462.pdf

    https://github.com/Frostinassiky/gtad
    https://www.pianshen.com/article/6083934521/
    https://blog.csdn.net/qq_41590635/article/details/105033360

    (2)2019 ICCV     P-GCN:Graph Convolutional Networks for Temporal Action Localization
    二阶段 temporal action localization任务中的SOTA

    https://openaccess.thecvf.com/content_ICCV_2019/papers/Zeng_Graph_Convolutional_Networks_for_Temporal_Action_Localization_ICCV_2019_paper.pdf

    https://github.com/Alvin-Zeng/PGCN
    https://www.pianshen.com/article/9204940808/
    https://blog.csdn.net/qq_24337529/article/details/104456819
    https://zhuanlan.zhihu.com/p/134638106
    (其中用到了SAGE,可参考https://blog.csdn.net/yyl424525/article/details/100532849)

    (3)CVPR2016  SCNN(Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs)
    多阶段网络,这篇文章是CVPR2016上的工作,时间较早,方法简单。
    主要提出了一个三阶段的3D卷积网络来做动作检测:(1)proposal network;(2)classification network;(3)localization network。

    https://arxiv.org/pdf/1601.02129v2.pdf

    https://github.com/zhengshou/scnn/

    https://blog.csdn.net/wzmsltw/article/details/65437295


    (4)2017  TAG(A Pursuit of Temporal Accuracy in General Activity Detection)

    The Chinese University of Hong Kong

    之前的工作中都是通过滑动窗口来提取proposal,就和RCNN一样,这种无法应对长度不一的视频动作。而且在一般的行为识别中,卷积都是作用在一个稠密的视频帧之间,对于长动作来说消耗巨大。

    所以文章提出了一个新的框架来对可变长度的视频精确地确定其动作的边界。

    • 建立完整动作的边界(temporal boundaries)

    • 检测片段的相关性和完整性(relevance and completeness)

    https://arxiv.org/pdf/1703.02716.pdf

    https://zhuanlan.zhihu.com/p/52524590

    (5)TURN TAG: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)
    利用了Faster-RCNN的思想来在时间维度上提取proposal
    提出了TURN模型预测proposal并用temporal coordinate regression来校正proposal的边界
    单元回归网络,SCNN中采用的滑窗找proposal的如果想要得到准确的结果,就需要增大窗口之间的重叠度,这样导致了一个问题就是计算量极大。为了减小计算量,增加时序定位精度,本文借鉴faster-rcnn引入边界回归的方法:将视频分为等长短单元,做单元水平的回归。
    https://www.cnblogs.com/demian/p/9720597.html
    https://www.bbsmax.com/A/qVde4Km85P/

    (6)SSN:ICCV 2017
    Temporal Action Detection with Structured Segment Networks
    SSN(structured segment network,结构化的段网络)通过结构化的时间金字塔对每个行为实例的时间结构进行建模。金字塔顶层有decomposed discriminative model(分解判别模型),包含两个分类器:用于分类行为(针对recognition)和确定完整性(针对localization)。集成到统一的网络中,可以以端到端的方式高效地进行训练。
    为了提取高质量行为时间proposal,采用temporal actionness grouping (TAG)算法。
    https://github.com/yjxiong/action-detection
    https://blog.csdn.net/zhang_can/article/details/79782387

    (7)CBR(Cascaded Boundary Regression for Temporal Action Detection)
    https://blog.csdn.net/jiachen0212/article/details/79092395

    (8)PBRNet:Progressive Boundary Refinement Network for Temporal Action Detection
    AAAI 2020 中国科学技术大学
    one-stage
    具有三个级联的探测模块,可以更精确地定位动作边界。
    PBRNet主要包括粗金字塔检测、精金字塔检测和细粒度检测。
    PBRNet集成了基于anchor和frame-level的方法。
    本文提出了一种渐进边界细化网络(PBRNet)来提高时序动作检测的精度和速度。
    https://blog.csdn.net/qq_41590635/article/details/105737819

    (9)TSA-Net:Scale Matters: Temporal Scale Aggregation Network for Precise Action Localization in Untrimmed Videos
    北大、腾讯
    (ICME 2020 oral)
    https://arxiv.org/pdf/1908.00707.pdf
    https://blog.csdn.net/qq_41590635/article/details/101553059
    提出的一种新的集成时间尺度聚合网络。主要观点是将不同膨胀率的卷积滤波器组合在一起,有效地以较低的计算成本放大感受野,从而设计多膨胀时间卷积(MDC)块。此外,为了处理不同持续时间的视频动作实例,TSA-Net由多个子网组成。它们中的每一个都采用了具有不同扩张参数的叠层MDC块,实现了针对特定持续时间动作而特别优化的时间感受野。该文遵循边界点检测的公式,检测三种临界点(即起点/中点/终点)并将它们配对生成方案。
    TSA-Net网络显示出清晰和一致的更好性能,并在两个基准上重新校准最新的技术状态。在THUMOS14上的记录是46.9%,而在MAP@0.5下,之前的最好记录是42.8%,是当前最好的效果。

    (10)Bottom-Up Temporal Action Localization with Mutual Regularization
     (ECCV2020)
    上交大、华为
    https://arxiv.org/pdf/2002.07358.pdf
    https://github.com/PeisenZhao/Bottom-Up-TAL-with-MR

    (11)Graph Attention Based Proposal 3D ConvNets for Action Detection
    (AGCN-P-3DCNNs)
    AAAI 2020
    北航、电子科大
    This paper proposes an attention based GCN for action detection in video, solving the problem that the proposal 3D CNNs based video action detection can not utilize the relations of temporal action proposals.
    Moreover, our AGCN can learn the intra long-range dependencies for every node
    in graph node matrix and learn the inter dependencies among proposals for adjacency matrix in the graph.
    Besides, to improve the whole network temporal action detection performance, we introduce the simple and effective framewise classifier module to enhance the backbone presentation capabilities.

    (12)CBR-Net: Cascade Boundary Refinement Network for Action Detection:Submission to ActivityNet Challenge 2020 (Task 1) (ActivityNet Challenge 2020)
    https://arxiv.org/pdf/2006.07526v2.pdf
    华科、达摩
    ActivityNet Challenge 2020
    achieve 42.788% on the test-ing set of ActivityNet v1.3 dataset in terms of mean AveragePrecision metrics and achieve Rank 1 in the competition.

    (13)(TGM)
    Temporal Gaussian Mixture Layer for Videos
    (ICML 2019)
    https://arxiv.org/pdf/1803.06316.pdf
    https://github.com/piergiaj/tgm-icml19

    (14)(Decouple-SSAD)
    Decoupling Localization and Classification in Single Shot Temporal Action Detection
    (ICME 2019)
    https://arxiv.org/pdf/1904.07442.pdf
    https://github.com/HYPJUDY/Decouple-SSAD

    (15)SF-Net: Single-Frame Supervision for Temporal Action Localization
    悉尼科技大学;Facebook
    (single-frame supervision)
    ECCV 2020 Spotlight
    https://github.com/Flowerfan/SF-Net

    (16) (S-2D-TAN)
    Learning Sparse 2D Temporal Adjacent Networks for Temporal Action Localization
    (winner solution for the HACS Temporal Action Localization Challenge at ICCV 2019)
    We extend our 2D-TAN approach to the temporal action localization task and win the 1st place in HACS Temporal Action Localization Challenge at ICCV 2019.
    罗切斯特大学、微软研究院
    https://arxiv.org/pdf/1912.03612.pdf

    用了自然语言处理的方法(2D-TAN)
    Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language
    (AAAI 2020)

    (17)(LCDC)
    Learning Motion in Feature Space: Locally-Consistent Deformable Convolution Networks for Fine-Grained Action Detection
    (ICCV 2019 oral)
    (Fine-grained action detection)
    https://arxiv.org/pdf/1811.08815.pdf
    https://github.com/knmac/LCDC_release

    (18)(BLP)
    BLP -- Boundary Likelihood Pinpointing Networks for Accurate Temporal Action Localization
    (ICASSP 2019)

    (19)(GTAN)
    Gaussian Temporal Awareness Networks for Action Localization
    (CVPR 2019 Oral)
    https://arxiv.org/pdf/1909.03877.pdf

     

    在线的行为检测:
    (1)Information Discrimination Units (IDU)  CVPR 2020
    学习鉴别信息进行在线动作检测
    Learning to Discriminate Information for Online Action Detection
    https://github.com/hjeun/idu

     

     


    三、基于弱监督方法的时序行为检测:
    (即不需要具体的行为动作的时间定位信息,只通过视频类别信息进行训练而得到人体动作行为间隔信息)
    Motivation:现有的行为识别方法严重依赖于剪切过的视频数据来训练模型,然而,获取一个大规模的剪切过的视频数据集需要花费大量人力和时间。
    1.为每个行为实例标注时间持续时间花费高且耗时。
    2.这些时间的注释可能是主观的,在不同人之间不一致。
    弱监督行为识别与检测:在训练时,只使用不含时序标注的未剪切视频进行训练;在测试时,训练好的模型能对未剪切的视频进行行为识别与检测。

    综述:
    弱监督时序行为检测(一)
    https://zhuanlan.zhihu.com/p/119302485
    弱监督时序行为检测(二)
    https://zhuanlan.zhihu.com/p/120361421
    时序行为检测论文综述①
    https://zhuanlan.zhihu.com/p/49977158
    时序行为检测论文综述②
    https://zhuanlan.zhihu.com/p/50352994
    [综述]弱监督动作定位Weakly Supervised Temporal Action Localization 论文阅读
    https://blog.csdn.net/weixin_41595062/article/details/107583125
    【资源】时序行为检测相关资源列表 (包括较新的论文和数据集)
    https://bbs.cvmart.net/articles/526/


    论文:
    (1)AutoLoc:弱监督时序行为检测方法(ECCV 2018)
    提出一种新奇的视频时序行为检测方法:AutoLoc,它能仅用视频级的标注预测出每个行为的时间边界。
    https://zhuanlan.zhihu.com/p/63092925

    (2)Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR2018)
    https://blog.csdn.net/nclgsj1028/article/details/79622731
    https://zhuanlan.zhihu.com/p/50943824

    (3)UntrimmedNet:弱监督行为识别与检测网络(CVPR 2017)
    UntrimmedNets for Weakly Supervised Action Recognition and Detection
    https://blog.csdn.net/qq_40760171/article/details/102662289
    https://zhuanlan.zhihu.com/p/63163024

    (4)Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization(ICCV 2017)
    在训练过程中,随机的隐藏一些帧,来让分类网络能够将注意力更平均的分配到各个区域帧上
    https://zhuanlan.zhihu.com/p/52531042

    (5)STPN:Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018)
    提出了Temporal Class Activation Maps(T-CAM)进行动作定位
    https://blog.csdn.net/weixin_41595062/article/details/107583125

    (6)Two-Stream Consensus Network for Weakly-Supervised Temporal Action Localization(ECCV 2020)
    https://blog.csdn.net/weixin_41595062/article/details/107583125
    引入帧级伪标签

    (7)BaSNet:Background Suppression Network for Weakly-supervised Temporal Action Localization(AAAI 2020)
    引入背景类,抑制非动作帧的激活
    之前的工作没有考虑到背景类别,会将背景帧误分为动作类别,造成大量FP。本文提出了背景抑制网络BaSNet,引入了额外的背景类,两支镜像网络(一支为base网络,一支为用attention抑制背景的suppression网络),实验表明这样设计可以有效抑制背景的影响,从而提高定位的准确性。
    https://www.cnblogs.com/demian/p/12052354.html
    https://github.com/Pilhyeon/BaSNet-pytorch

    Background Modeling via Uncertainty Estimation for Weakly-supervised Action Localization
    https://github.com/Pilhyeon/Background-Modeling-via-Uncertainty-Estimation

    (8)Completeness Modeling and Context Separation for Weakly Supervised Temporal Action Localization(CVPR2019)
    关于背景建模出现在弱监督时域动作定位领域最早的一篇
    基于动作的完整性建模以及动作-背景上下文分离的情况进行建模,提出了一个带有多样性损失(diversity loss)的多分支网络结构(a multi-branch network architecture)以用于动作的完整性建模,以及一个 hard negative 视频生成的方法(背景类)用于分离上下文。
    https://zhuanlan.zhihu.com/p/120361421
    https://github.com/Finspire13/CMCS-Temporal-Action-Localization

    (9)Weakly-Supervised Action Localization by Generative Attention Modeling(CVPR 2020)微软亚洲研究院
    提出了一种新的思路,从特征表示的角度捕捉上下文和动作片段的区别,进一步提高了动作定位效果。
    https://www.msra.cn/zh-cn/news/features/weakly-supervised-action-localization-by-gam
    https://github.com/bfshi/DGAM-Weakly-Supervised-Action-Localization

     

     


    四、时空行为定位:(需要画出人体框)最难
    (1)AlphAction -行为检测
    https://github.com/MVIG-SJTU/AlphAction
    Asynchronous Interaction Aggregation for Action Detection (上交大,ECCV 2020)
    https://arxiv.org/pdf/2004.07485.pdf
    https://blog.csdn.net/huangyiping12345/article/details/106839527

    (2)ECCV2020 南京大学 王利民 Actions as Moving Points
    MOC:提出了一套全新的时空动作检测 (spatio-temporal action detection) 框架
    受到最近anchor-free object detector的影响,提出了一个简洁、高效、准确的action tubelet detector, 称为MovingCenter detector (MOC-detector)
    https://github.com/MCG-NJU/MOC-Detector
    https://zhuanlan.zhihu.com/p/164968681

    (3)You Only Watch Once
    不同于以往类似Faster R-CNN两阶段方法,先生成大量proposals,再进行分类和位置提精,YOWO在一个网络中实现了时空信息的提取和融合,易于训练,精度高,而且速度也很快。
    https://www.jiqizhixin.com/articles/2019-11-22-2
    https://blog.csdn.net/qq_24739717/article/details/104900006
    https://github.com/wei-tim/YOWO

     

    展开全文
  • 基于CNN特征与HMM时序建模的人体行为识别研究,王冬雪,张磊,随着视频的总量和类别数量迅速增长,智能化的视频分析方法已经成为许多实际应用中的核心技术,例如异常监控、医疗诊断和视频检索
  • 基于时序行为检测的工作流识别.docx
  • 基于深度学习的骨骼行为识别项目论文合集。...基于骨骼时序散度特征的人体行为识别算法 多尺度方法结合卷积神经网络的行为识别项目 多模态轻量级图卷积人体骨架行为识别方法 多流卷积神经网络的骨架行为识别项目
  • 基于智能手机内置加速度传感器的人体行为识别是近年来人工智能领域的一个研究热点,传统的贝叶斯、极速学习机、决策树等识别方法都必须先针对加速度传感器采集数据提取时频域特征,并从大量的时频特征中进行特征优选...
  • 本文是基于深度学习的视频行为识别综述,对主流的行为识别方法Two-stream,c3d,r3d等进行简单介绍。
  • 选自丨机器之心本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。1.视频理解背景根据中国互联网络信息中心(CNNIC)第 47 次《中国...

    选自丨机器之心

    本文将介绍视频理解中的三大基础领域:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频 Embedding。

    1.视频理解背景

    根据中国互联网络信息中心(CNNIC)第 47 次《中国互联网络发展状况统计报告》,截至 2020 年 12 月,中国网民规模达到 9.89 亿人,其中网络视频(含短视频)用户规模达到 9.27 亿人,占网民整体的 93.7%,短视频用户规模为 8.73 亿人,占网民整体的 88.3%。

    回顾互联网近年来的发展历程,伴随着互联网技术(特别是移动互联网技术)的发展,内容的主流表现形式经历了从纯文本时代逐渐发展到图文时代,再到现在的视频和直播时代的过渡,相比于纯文本和图文内容形式,视频内容更加丰富,对用户更有吸引力。

    2992ef7ad405db8d372bbfb899dd9997.png

    图 1:互联网内容表现形式的 3 个阶段。本图源于《深度学习视频理解》

    随着近年来人们拍摄视频的需求更多、传输视频的速度更快、存储视频的空间更大,多种场景下积累了大量的视频数据,需要一种有效地对视频进行管理、分析和处理的工具。视频理解旨在通过智能分析技术,自动化地对视频中的内容进行识别和解析。视频理解算法顺应了这个时代的需求。因此,近年来受到了广泛关注,取得了快速发展。

    视频理解涉及生活的多个方面,目前视频理解已经发展成一个十分广阔的学术研究和产业应用方向。受篇幅所限,本文将介绍视频理解中的三大基础领域: 动作识别 (Action Recognition)、时序动作定位(Temporal Action Localization) 和视频 Embedding。

    d7a11fe69d360ed17e327b2c004c6007.png

    图 2:视频理解涉及的部分任务。本图源于《深度学习视频理解》

    2. 动作识别(Action Recognition)

    2.1 动作识别简介

    动作识别的目标是识别出视频中出现的动作,通常是视频中人的动作。视频可以看作是由一组图像帧按时间顺序排列而成的数据结构,比图像多了一个时间维度。动作识别不仅要分析视频中每帧图像的内容,还需要从视频帧之间的时序信息中挖掘线索。动作识别是视频理解的核心领域,虽然动作识别主要是识别视频中人的动作,但是该领域发展出来的算法大多数不特定针对人,也可以用于其他视频分类场景。

    动作识别看上去似乎是图像分类领域向视频领域的一个自然延伸,深度学习尽管在图像分类领域取得了举世瞩目的成功,目前深度学习算法在图像分类上的准确率已经超过普通人的水平,但是,深度学习在动作识别领域的进展并不像在图像分类领域那么显著,很长一段时间基于深度学习算法的动作识别准确率达不到或只能接近传统动作识别算法的准确率。概括地讲,动作识别面临以下几点困难:

    • 训练视频模型所需的计算量比图像大了一个量级,这使得视频模型的训练时长和训练所需的硬件资源相比图像大了很多,导致难以快速用实验进行验证和迭代;

    • 在 2017 年,Kinetics 数据集 (Carreira & Zisserman, 2017) 诞生之前, 缺少大规模通用的视频基准 (Benchmark) 数据集。在很长一段时间里,研究者都是在如 UCF-101 数据集 (Soomro et al., 2012) 上比较算法准 确率,而 UCF-101 只有 1.3 万条数据,共 101 个类别,平均每个类别只有约 100 个视频,相比于图像分类领域的 ImageNet 数据集有 128 万 条数据,共 1000 个类别,平均每个类别约有 1,000 个视频,UCF-101 数据集显得十分小。数据集规模制约了动作识别领域的发展;

    • 学习视频中帧之间的时序关系,尤其是长距离的时序关系,本身就比较难。不同类型的动作变化快慢和持续时长有所不同,不同的人做同一个动作的方式也存在不同,同时相机拍摄角度和相机自身的运动也会对识别带来挑战。此外,不是视频中所有的帧对于动作识别都有相同的作用,有许多帧存在信息冗余;

    • 网络结构设计缺少公认的方案。图像分类领域的网络结构设计有一些公认的指导理念,例如,端到端训练、小卷积核、从输入到输出空间分辨率不断降低且通道数不断增大等。然而,在动作识别领域,同时存在多个网络设计理念,例如,帧之间的时序关系应该如何捕捉、使用 2D 卷积还是 3D 卷积、不同帧的特征应该如何融合等都还没有定论。

    2.2 基于 2D 卷积的动作识别

    视频是由一系列图像帧(Frame)组成的,图像分类模型经过这些年的发展已经相对成熟。如何进行视频分类呢?一种直观的想法是将图像分类的模型直接运用到视频分类中。如下图所示,一个简单的想法是先把视频各帧提取出来,每帧图像各自前馈(Feedforward)一个图像分类模型,不同帧的图像分类模型之间相互共享参数。得到每帧图像的特征之后,对各帧图像特征进行汇合(Pooling),例如采用平均汇合,得到固定维度的视频特征,最后经过一个全连接层和 Softmax 激活函数进行分类以得到视频的类别预测。

    aac93636762a75700ff9e320daa6335f.png

    图 3:利用图像分类模型和平均汇合进行动作识别网络结构图。本图源于《深度学习视频理解》

    平均汇合方法十分简单,其视频分类的准确率与其他同时期专门为动作识别设计的深度学习模型相比差距并不大 (Karpathy et al., 2014) ,但是与传统动作识别算法的准确率相比还有很大差距,不过后来专门为动作识别设计的深度学习模型的准确率高了很多。

    最直观的想法是先把视频拆成一帧帧的图像,每帧图像各自用一个图像分类模型得到帧级别的特征,然后用某种汇合方法从帧级别特征得到视频级别特征,最后进行分类预测,其中的汇合方法包括: 平均汇合、NetVLAD/NeXtVLAD、NetFV、RNN、3D 卷积等。另外,我们可以借助一些传统算法来补充时序关系,例如,双流法利用光流显式地计算帧之间的运动关系,TDD 利用 iDT 计算的轨迹进行汇合等。基于 2D 卷积的动作识别方法的一个优点是可以快速吸收图像分类领域的最新成果,通过改变骨架网络,新的图像分类模型可以十分方便地迁移到基于 2D 卷积的动作识别方法中。

    827fdcc72b59b01bbb1a3d81fd6d50a6.png

    图 4:基于 2D 卷积的动作识别算法。本图源于《深度学习视频理解》

    2.3 基于 3D 卷积的动作识别

    另一方面,图像是三维的,而视频比图像多了一维,是四维。图像使用的是 2D 卷积,因此视频使用的是 3D 卷积。我们可以设计对应的 3D 卷积神经网络,就像在图像分类中利用 2D 卷积可以从图像中学习到复杂的图像表示一样,利用 3D 卷积可以从视频片段中同时学习图像特征和相邻帧之间复杂的时序特征,最后利用学到的高层级特征进行分类。

    相比于 2D 卷积,3D 卷积可以学习到视频帧之间的时序关系。我们可以将 2D 卷积神经网络扩展为对应的 3D 卷积神经网络,如 C3D、Res3D/3D ResNet、LTC、I3D 等。由于 3D 卷积神经网络的参数量和计算量比 2D 卷积神经网络大了很多,不少研究工作专注于对 3D 卷积进行低秩近似,如 FSTCN、P3D、R(2+1)D、S3D 等。TSM 对 2D 卷积进行改造以近似 3D 卷积的效果。3D 卷积 + RNN、ARTNet、Non-Local、SlowFast 等从不同角度学习视频帧之间的时序关系。此外,多网格训练和 X3D 等对 3D 卷积神经网络的超参数进行调整,使网络更加精简和高效。

    8fa2fd05ed5505fdfedad79feddb0bde.png

    图 5:基于 3D 卷积的动作识别算法。本图源于《深度学习视频理解》

    3. 时序动作定位(Temporal Action Localization)

    时序动作定位 (Temporal Action Localization) 也称为时序动作检测 (Temporal Action Detection),是视频理解的另一个重要领域。动作识别可以看作是一个纯分类问题,其中要识别的视频基本上已经过剪辑(Trimmed),即每个视频包含一段明确的动作,视频时长较短,且有唯一确定的动作类别。而在时序动作定位领域,视频通常没有被剪辑(Untrimmed),视频时长较长,动作通常只发生在视频中的一小段时间内,视频可能包含多个动作,也可能不包含动作,即为背景(Background) 类。时序动作定位不仅要预测视频中包含了什么动作,还要预测动作的起始和终止时刻。相比于动作识别,时序动作定位更接近现实场景。

    时序动作定位可以看作由两个子任务组成,一个子任务是预测动作的起止时序区间,另一个子任务是预测动作的类别。由于动作识别领域经过近年来的发展,预测动作类别的算法逐渐成熟,因此时序动作定位的关键是预测动作的起止时序区间,有不少研究工作专注于该子任务,ActivityNet 竞赛除了每年举办时序动作定位竞赛,还专门组织候选时序区间生成竞赛(也称为时序动作区间提名)。

    既然要预测动作的起止区间,一种最朴素的想法是穷举所有可能的区间,然后逐一判断该区间内是否包含动作。对于一个 T 帧的视频,所有可能的区间为 ,穷举所有的区间会带来非常庞大的计算量。

    时序动作检测的很多思路源于图像目标检测 (Object Detection),了解目标检测的一些常见算法和关键思路对学习时序动作定位很有帮助。相比于图像分类的目标是预测图像中物体的类别,目标检测不仅要预测类别,还要预测出物体在图像中的空间位置信息,以物体外接矩形的包围盒(Bounding Box) 形式表示。

    3.1 基于滑动窗的算法

    这类算法的基本思路是预先定义一系列不同时长的滑动窗,之后滑动窗在视频上沿着时间维度进行滑动,并逐一判断每个滑动窗对应的时序区间内具体是什么动作类别。图 6 (a) 中使用了 3 帧时长的滑动窗,图 6 (b) 中使用了 5 帧时长的滑动窗,最终汇总不同时长的滑动窗的类别预测结果。可以知道,该视频中包含的动作是悬崖跳水、动作出现的起止时序区间在靠近视频结尾的位置。

    68a24ae6f78ef2d9f10d4c60d498722c.png

    图 6:基于滑动窗的算法流程图。本图源于《深度学习视频理解》

    如果对目标检测熟悉的读者可以联想到,Viola-Jones 实时人脸检测器 (Viola & Jones, 2004) 中也采用了滑动窗的思想,其先用滑动窗在图像上进行密集滑动,之后提取每个滑动窗对应的图像区域的特征,最后通过 AdaBoost 级联分类器进行分类。Viola-Jones 实时人脸检测器是计算机视觉历史上具有里程碑意义的算法之一,获得了 2011 年 CVPR(Computer Vision and Pattern Recognition,计算机视觉和模式识别)大会用于表彰十年影响力的 Longuet-Higgins 奖。

    3.2 基于候选时序区间的算法

    目标检测算法中的两阶段 (Two-Stage) 算法将目标检测分为两个阶段: 第一阶段产生图像中可能存在目标 的候选区域(Region Proposal),一般一张图像可以产生成百上千个候选区域,这一阶段和具体的类别无关; 第二阶段逐一判断每个候选区域的类别并对候选区域的边界进行修正。

    类比于两阶段的目标检测算法,基于候选时序区间的时序动作定位算法也将整个过程分为两个阶段: 第一阶段产生视频中动作可能发生的候选时序区间; 第 二阶段逐一判断每个候选时序区间的类别并对候选时序区间的边界进行修正。最终将两个阶段的预测结果结合起来,得到未被剪辑视频中动作的类别和起止时刻预测。

    b10e085829e176e8593f079cb758e75d.png

    图 7:Faster R-CNN 和基于候选时序区间的方法类比。本图源于《深度学习视频理解》

    3.3 自底向上的时序动作定位算法

    基于滑动窗和基于候选时序区间的时序动作定位算法都可以看作是自顶向下的算法,其本质是预先定义好一系列不同时长的滑动窗或锚点时序区间,之后判断每个滑动窗位置或锚点时序区间是否包含动作并对边界进行微调以产生候选时序区间。这类自顶向下的算法产生的候选时序区间会受到预先定义的滑动窗或锚点时序区间的影响,导致产生的候选时序区间不够灵活,区间的起止位置不够精确。

    本节介绍自底向上的时序动作定位算法,这类算法首先局部预测视频动作开始和动作结束的时刻,之后将开始和结束时刻组合成候选时序区间,最后对每个候选时序区间进行类别预测。相比于自顶向下的算法,自底向上的算法预测的候选时序区间边界更加灵活。了解人体姿态估计 (Human Pose Estimation) 的读者可以联想到,人体姿态估计也可以分为自顶向下和自底向上两类算法,其中自顶 向下的算法先检测出人的包围盒,之后对每个包围盒内检测人体骨骼关键点,如 (Chen et al., 2018) 等; 自底向上的算法先检测所有的人体骨骼关键点,之后再组合成人,如 (Cao et al., 2021) 等。

    BSN(Boundary Sensitive Network,边界敏感网络)(Lin et al., 2018b)是自底向上的时序动作定位算法的一个实例,BSN 获得了 2018 年 ActivityNet 时序动作定位竞赛的冠军和百度综艺节目精彩片段预测竞赛的冠军。

    749071ab48a8ab02742426174c66214a.png

    图 8:BSN 网络结构图。本图源于《深度学习视频理解》

    3.4 对时序结构信息建模的算法

    假设我们的目标是识别视频中的体操单跳 (Tumbling) 动作和对应的动作起止区间,见图 9 中的绿色框。图 9 中的蓝色框表示模型预测的候选时序区间,有的候选时序区间时序上并不完整,即候选时序区间并没有覆盖动作完整的起止过程。图 9 上半部分的算法直接基于候选时序区间内的特征对候选时序区间内的动作类别进行预测,导致模型一旦发现任何和单跳动作有关的视频片段,就会输出很高的置信度,进而导致时序定位不够精准。

    2129ef94392804aed640892b0e9b31ee.png

    图 9:SSN 对动作不同的阶段进行建模。本图源于(Zhao et al., 2020)

    SSN(Structured Segment Network,结构化视频段网络)算法 (Zhao et al., 2020) 对动作不同的阶段 (开始、过程、结束) 进行建模,SSN 不仅会预测候选时序区间内的动作类别,还会预测候选时序区间的完整性,这样做的好处是可以更好地定位动作开始和结束的时刻,SSN 只在候选时序区间和动作真实起止区间对齐的时候输出高置信度。

    3.5 逐帧预测的算法

    我们希望模型对动作时序区间的预测能够尽量精细。CDC (Convolutional-De-Convolutional networks,卷积 - 反卷积网络)算法 (Shou et al., 2017) 和前文介绍的其他算法的不同之处在于,CDC 可以对未被剪辑的视频逐帧预测动作的类别,这种预测粒度十分精细,使得对动作时序区间边界的定位更加精确。

    如图 10 所示,输入一个未被剪辑的视频,首先利用动作识别网络提取视频特征,之后利用多层 CDC 层同时对特征进行空间维度的下采样和时间维度的上采样,进而得到视频中每帧的预测结果,最后结合候选时序区间得到动作类别和起止时刻的预测。CDC 的一个优点是预测十分高效,在单 GPU 服务器下,可以达到 500 FPS(Frames per Second,帧每秒)的预测速度。

    100bf63efe619387da2bb26540e8fd62.png

    图 10:CDC 网络结构图。本图源于《深度学习视频理解》

    3.6 单阶段算法

    目标检测算法可以大致分为两大类,其中一大类算法为两阶段算法,两阶段算法会先从图像中预测可能存在目标的候选区域,之后逐一判断每个候选区域的类别,并对候选区域边界进行修正。时序动作定位中也有一些算法采用了两阶段算法的策略,先从视频中预测可能包含动作的候选时序区间,之后逐一判断每个候选时序区间的类别,并对候选时序区间的边界进行修正,这部分算法已在 3.2 节介绍过。

    另一大类算法为单阶段 (One-Stage) 算法,单阶段算法没有单独的候选区域生成的步骤,直接从图像中预测。在目标检测领域中,通常两阶段算法识别精度高,但是预测速度慢,单阶段算法识别精度略低,但是预测速度快。时序动作定位中也有一些算法采用了单阶段算法的策略。

    到此为止,我们了解了许多时序动作定位算法,一种直观的想法是预先定义一组不同时长的滑动窗,之后滑动窗在视频上进行滑动,并逐一判断每个滑动窗对应的时序区间内的动作类别,如 S-CNN。TURN 和 CBR 以视频单元作为最小计算单位避免了滑动窗带来的冗余计算,并且可以对时序区间的边界进行修正; 受两阶段目标检测算法的启发,基于候选时序区间的算法先从视频中产生一些可能包含动作的候选时序区间,之后逐一判断每个候选时序区间内的动作类别,并对区间边界进行修正,如 R-C3D 和 TAL-Net; 自底向上的时序动作定位算法先预测动作开始和结束的时刻,之后将开始和结束时刻组合为候选时序区间,如 BSN、TSA-Net 和 BMN;SSN 不仅会预测每个区间的动作类别,还会 预测区间的完整性; CDC 通过卷积和反卷积操作可以逐帧预测动作类别。此外,单阶段目标检测的思路也可以用于时序动作定位中,如 SSAD、SS-TAD 和 GTAN。

    16d6abf54f8134d6a8aad72d2bbc3ea7.png

    图 11:时序动作定位算法。本图源于《深度学习视频理解》

    4. 视频 Embedding

    Embedding 直译为嵌入,这里译为向量化更贴切。视频 Embedding 的目标是从视频中得到一个低维、稠密、浮点的特征向量表示,这个特征向量是对整个视频内容的总结和概括。其中,低维是指视频 Embedding 特征向量的维度比较低,典型值如 128 维、256 维、512 维、1024 维等; 稠密和稀疏 (Sparse) 相对,稀疏是指特征向量中有很多元素为 0,稠密是指特征向量中很多元素为非 0; 浮点是指特征向量中的元素都是浮点数。

    不同视频 Embedding 之间的距离 (如欧式距离或余弦距离) 反映了对应视频之间的相似性。如果两个视频的语义内容接近,则它们的 Embedding 特征之间的距离近,相似度高; 反之,如果两个视频不是同一类视频,那么它们的 Embedding 特征之间的距离远,相似度低。在得到视频 Embedding 之后,可以用于视频推荐系统、视频检索、视频侵权检测等多个任务中。

    动作识别和时序动作定位都是预测型任务,即给定一个视频,预测该视频中出现的动作,或者更进一步识别出视频中出现的动作的起止时序区间。而视频 Embedding 是一种表示型任务,输入一个视频,模型给出该视频的向量化表示。视频 Embedding 算法可以大致分为以下 3 大类。

    第一类方法基于视频内容有监督地学习视频 Embedding。我们基于视频的类别有监督地训练一个动作识别网络,之后可以从网络的中间层 (通常是全连接层) 提取视频 Embedding。这类方法的重点在于动作识别网络的设计。

    第二类方法基于视频内容无监督地学习视频 Embedding。第一类方法需要大量的视频标注,标注过程十分耗时、耗力,这类方法不需要额外的标注,从视频自身的结构信息中学习,例如,视频重建和未来帧预测、视频帧先后顺序验证、利用视频 和音频信息、利用视频和文本信息等。

    第三类方法通过用户行为学习视频 Embedding。如果我们知道每个用户的视频观看序列,由于用户有特定类型的视频观看喜好,用户在短时间内一起观看的视频通常有很高的相似性,利用用户观看序列信息,我们可以学习得到视频 Embedding。

    其中,第一类和第二类方法基于视频内容学习视频 Embedding,它们的优点是没有视频冷启动问题,即一旦有新视频产生,就可以计算该视频的 Embedding 用于后续的任务中。例如,这可以对视频推荐系统中新发布的视频给予展示机会; 基于内容的视频 Embedding 的另一个优点是对所有的视频“一视同仁”,不会推荐过于热门的视频。另外,也可以为具有小众兴趣爱好的用户进行推荐。

    一旦新视频获得了展示机会,积累了一定量的用户反馈 (即用户观看的行为数据) 之后,我们就可以用第三类方法基于用户行为数据学习视频 Embedding, 有时视频之间的关系比较复杂,有些视频虽然不属于同一个类别,但是它们之间存在很高的相似度,用户常常喜欢一起观看。基于用户行为数据学习的视频 Embedding 可以学习到这种不同类别视频之间的潜在联系。

    第三大类方法通过用户行为学习视频 Embedding,其中 Item2Vec 将自然语言处理中经典的 Word2Vec 算法用到了用户行为数据中,并在后续工作中得到了优化,DeepWalk 和 Node2Vec 基于图的随机游走学习视频 Embedding,是介于图算法和 Item2Vec 算法之间的过渡,LINE 和 SDNE 可以学习图中结点的一阶和二阶相似度,GCN GraphSAGE 和 GAT 等将卷积操作引入到了图中,YouTube 召回模型利用多种信息学习视频 Embedding。

    1ad9a9c33aaa3e06c66d3813cd97867b.png

    图 12:视频 Embedding 算法。本图源于《深度学习视频理解》

    推荐阅读:

    我的2022届互联网校招分享

    我的2021总结

    浅谈算法岗和开发岗的区别

    互联网校招研发薪资汇总

    对于时间序列,你所能做的一切.

    什么是时空序列问题?这类问题主要应用了哪些模型?主要应用在哪些领域?

    公众号:AI蜗牛车

    保持谦逊、保持自律、保持进步

    80412b65d0bb88b603f4f24a3d3ac852.png

    发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著)

    发送【1222】获取一份不错的leetcode刷题笔记

    发送【AI四大名著】获取四本经典AI电子书

    展开全文
  • 针对疑似跌倒行为在跌倒监测中经常造成误报的问题,提出了一种基于时间序列分析异常数据的跌倒监测方法。该方法对手机加速度信号进行时间序列分析,通过计算相邻时间窗口之间的相关系数来检测异常数据,利用分类器...
  • 在计算机视觉的相关研究中,人体的动作、行为识别是一个基础研究问题。但目前识别、检测人类的动作/行为仍然是一个巨大的挑战。这里整理下当前相关的细分任务、数据集和开源代码(持续更新中)。
  • 鉴于这两类用户群体在长短时观测时间窗内的差异性,我们可通过 LSTM 神经网络的细胞状态有针对性的记录相邻时间点的信息,并结合输入门、遗忘门、输出门提取时序长短时潜在行为向量,用于识别具有相似行为 ...
  • 行为识别综述

    千次阅读 2021-08-23 08:52:20
    行为识别行为识别(Action Recognition) 任务是从视频剪辑(2D帧序列)中识别不同的动作,其中动作可以在视频的整个持续时间内执行或不执行。行为识别似乎是图像分类任务到多个帧的扩展,然后聚合来自每帧的预测...
  • 人体行为识别方法

    2014-08-13 17:16:35
    人体行为识别的基本方法,过程,人体人体行为识别的基本方法,过程,人体
  • 时序行为检测和分类

    千次阅读 2019-04-01 15:36:49
    时序动作提名任务由于⽆无需对时序⽚片段进⾏行行分类,所以通 常使⽤用average recall (AR) 来进⾏行行评估。在此次竞赛中,Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲线下的 ⾯面积...
  • 视频中行为识别与图像中行为识别最大的不同之处在于视频不仅包含了时序上的信息,而且需要巨大的计算量支撑。而该技术还受到许多外在因素的影响,如视频动态背景居多、相机视角多变以及光照变化等等。随着科学技术的...
  • 深度学习:行为识别综述

    千次阅读 2021-12-01 17:11:08
    在基于图卷积的行为识别工作和类似的工作中,研究重点在以下几个方面: 1.如何设计GCN的输入,用一些更加具有识别能力的特征来代替空间坐标,作为网络输入。 2.如何根据问题来定义卷积操作,这是非常硬核的问题。 3....
  • 本文基于LSTM来完成用户行为识别。数据集来源:https://archive.ics.uci.edu/ml/machine-learning-databases/00240/ 此数据集一共有6种行为状态: 行走; 站立; 躺下; 坐下; 上楼; 下楼; 以上6种行为数据是...
  • 姿态估计和行为识别作为计算机视觉的两个领域,对于新人来说,较为容易弄混姿态估计和行为识别两个概念。   姿态估计(Pose Estimation)是指检测图像和视频中的人物形象的计算机视觉技术,可以确定某人的某个...
  • 为了帮助初学者深入学习视频分类与行为识别相关内容,我们推出了《深度学习之视频分类》系列课程,目前已完成约8个小时的理论课与实践课程,为学员深入解读视频分类基础理论原理及经典网络结构,经合实际项目,将所...
  • 基于视频序列对于各种动作的检测方法即对视频中不同行为动作做分类识别 神经网络使用的是这两个月开源的实时动作序列强分类神经网络:Real Time Sensenet 它是对视频中的动作序列作强分类的网络,可以实时检测分类...
  • 经典StNet行为识别网络

    千次阅读 2019-10-31 16:16:47
    对于视频行为识别,我们除了要获取每个视频帧空间信息,不仅要获取动作的时序信息,这是为什么  图1. 局部信息和全局时空特征作用 呢?空间信息告诉我们图片中是什么东西,时序信息告诉我们如何变换,而...
  • 行为识别

    2020-03-04 16:33:18
    行为识别 行为识别常用深度网络 光流的作用 On the Integration of Optical Flow and Action Recognition(2017) (2018CVPR) 大多数表现优秀的动作识别算法使用光流作为“黑匣子”输入。 在这里,我们更深入地考察...
  • 也基于此,3D-based 的网络在Something-Something这种对时序信息比较敏感的video数据集上并不能取得很好的效果( 得靠 Kinetics 的pre-train来提点 :) 基于以上几点,我们组最近一直在探索更高效的2D-based的时序建模...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 12,939
精华内容 5,175
关键字:

行为识别的时序信息