精华内容
下载资源
问答
  • 人体行为识别算法
    2022-07-10 12:57:29

    在这里插入图片描述
    在这篇文章中,我们将介绍一些方法来制作用于人体行为识别的视频分类器。

    1人体行为识别介绍

    在我们讨论视频分类之前,让我们先了解一下什么是人体行为识别。

    简单地说,对某人正在执行的活动/动作进行分类或预测的任务称为活动识别。我们可能会有一个问题:这与普通的分类任务有什么不同?这里的问题是,在人体行为识别中,你实际上需要一系列的数据来预测正确执行的动作

    看看这个人做的这个后空翻动作,我们只有看完整的视频才能判断这是一个后空翻。


    如果我们提供的模型只是来自视频片段的随机快照(如下图),那么它可能会错误地预测动作。
    在这里插入图片描述
    如果一个模型只看到上面的图像,那么它看起来有点像这个人正在下降,所以它预测会下降。
    因此,人体行为是一种时间序列分类问题,您需要来自一系列时间序列的数据来正确地对正在执行的行为进行分类。

    那么行为识别传统上是如何解决的呢?
    最常见和最有效的技术是将可穿戴传感器(例如智能手机)连接到一个人身上,然后在传感器数据的输出上训练一个类似LSTM的时间模型。

    更多相关内容
  • 为改善人体行为识别任务中准确率低的问题,提出了一种基于批归一化的卷积神经网络(CNN)与长短期记忆(LSTM)神经网络结合...实验结果表明,本文设计的时空双流神经网络算法人体行为识别任务上具有较高的识别准确率。
  • 提出一种基于空-时域特征决策级融合的人体行为识别算法。在空间域提取人体的形状上下文特征,用于同一时刻模板图像与测试图像的轮廓匹配;在时间域用变化的空间特征序列表征运动特征,联合稳健的空间特征进行有效的...
  • 人体行为识别分两个过程:特征表征和动作的识别及理解。
  • 基于深度学习的人体行为识别算法.pdf
  • 主要讲述人体行为识别的基础流程,归纳了人体行为识别常用的数据集,总结了时域分割的发展现状和常用的方法,讲解了人体行为识别比较经典的方法,并归纳了人体行为识别最新、最热的深度学习方法。引入了动作分割,再...
  • 基于深度学习的人体行为识别算法综述.pdf
  • 系统利用优化算法对数据实现最优估计,并依据传感器信噪比对优化数据进一步修正,之后在系统设定的传感器信任级别和融合权重的基础上完成人体行为识别。实验结果表明,本文算法可以提高数据空间的精度和平滑度,可对...
  • 针对长短时记忆网络(LSTM)不能有效地提取动作前后之间相互关联的信息导致行为识别率偏低的问题,提出了一种基于Bi-LSTM-Attention模型的人体行为识别算法。该算法首先从每个视频中提取20帧图像,通过Inceptionv3模型...
  • 针对传统的双流网络不能有效提取视频序列中的有效帧和帧中的有效区域,而导致识别准确率低的问题,提出了一种基于时空交互注意力模型(STIAM)的人体行为识别算法。首先,利用两个不同的深度学习网络分别提取空间和时间...
  • 主要讲述人体行为识别的基础流程,归纳了人体行为识别常用的数据集,总结了时域分割的发展现状和常用的方法,讲解了人体行为识别比较经典的方法,并归纳了人体行为识别最新、最热的深度学习方法。引入了动作分割,再...
  • 大数据-算法-视频中的人体行为识别算法研究.pdf
  • Svm(支持向量机) SVM是由模式识别中广义肖像算法(generalized portrait algorithm)发展而来的分类器,其早期工作来自前苏联学者Vladimir N. Vapnik和Alexander Y. Lerner在1963年发表的研究。1964年,Vapnik和...

    光流特征:

    光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。通常将二维图像平面特定坐标点上的灰度瞬时变化率定义为光流矢量。一言以概之:所谓光流就是瞬时速率,在时间间隔很小(比如视频的连续前后两帧之间)时,也等同于目标点的位移。

    光流法用于目标跟踪的原理:

    (1)对一个连续的视频帧序列进行处理;

    (2)针对每一个视频序列,利用一定的目标检测方法,检测可能出现的前景目标;

    (3)如果某一帧出现了前景目标,找到其具有代表性的关键特征点(可以随机产生,也可以利用角点来做特征点);

    (4)对之后的任意两个相邻视频帧而言,寻找上一帧中出现的关键特征点在当前帧中的最佳位置,从而得到前景目标在当前帧中的位置坐标;

    (5)如此迭代进行,便可实现目标的跟踪;

    1.基本假设条件

    (1)亮度恒定不变。即同一目标在不同帧间运动时,其亮度不会发生改变。这是基本光流法的假定(所有光流法变种都必须满足),用于得到光流法基本方程;

    (2)时间连续或运动是“小运动”。即时间的变化不会引起目标位置的剧烈变化,相邻帧之间位移要比较小。同样也是光流法不可或缺的假定。

    2.基本约束方程

    考虑一个像素I(x,y,t)在第一帧的光强度(其中t代表其所在的时间维度)。它移动了 (dx,dy)的距离到下一帧,用了dt时间。因为是同一个像素点,依据上文提到的第一个假设我们认为该像素在运动前后的光强度是不变的,即:

    步骤:

    a.首先,对每一帧建立一个高斯金字塔,最低分辨率图像在最顶层,原始图片在底层。

    b.计算光流。从顶层(Lm层)开始,通过最小化每个点的邻域范围内的匹配误差和,得到顶层图像中每个点的光流。

    c.顶层的光流计算结果(位移情况)反馈到第Lm-1层,作为该层初始时的光流值的估计g。

    d.这样沿着金字塔向下反馈,重复估计动作,直到到达金字塔的底层(即原图像)。(准确值=估计值+残差) “残差”即本算法的关键对于每一层L,每个点的光流的计算都是基于邻域内所有点的匹配误差和最小化。

    Hog特征

    方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。

    1)主要思想:

    在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。(本质:梯度的统计信息,而梯度主要存在于边缘的地方)。

    2)具体的实现方法是:

    首先将图像分成小的连通区域,我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。之所以统计每一个小单元的方向走直方图,是因为,一般来说,只有图像区域比较小的情况,基于统计原理的直方图对于该区域才有表达能力,如果图像区域比较大,那么两个完全不同的图像的HOG特征,也可能很相似。但是如果区域较小,这种可能性就很小。

    3)优点:

    与其他的特征描述方法相比,HOG有很多优点。首先,由于HOG是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。其次,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。因此HOG特征是特别适合于做图像中的人体检测的。

    过程:

    HOG特征提取方法就是将一个image(你要检测的目标或者扫描窗口):

    1)灰度化(将图像看做一个x,y,z(灰度)的三维图像);

    2)采用Gamma校正法对输入图像进行颜色空间的标准化(归一化);目的是调节图像的对比度,降低图像局部的阴影和光照变化所造成的影响,同时可以抑制噪音的干扰;

    3)计算图像每个像素的梯度(包括大小和方向);主要是为了捕获轮廓信息,同时进一步弱化光照的干扰。

    4)将图像划分成小cells(例如6*6像素/cell);

    5)统计每个cell的梯度直方图(不同梯度的个数),即可形成每个cell的descriptor;

    6)将每几个cell组成一个block(例如3*3个cell/block),一个block内所有cell的特征descriptor串联起来便得到该block的HOG特征descriptor。

    7)将图像image内的所有block的HOG特征descriptor串联起来就可以得到该image(你要检测的目标)的HOG特征descriptor了。这个就是最终的可供分类使用的特征向量了。

    LBP特征:

    LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理特征的算子;它具有旋转不变性和灰度不变性等显著的优点。它是首先由T. Ojala, M.Pietikäinen, 和D. Harwood 在1994年提出,用于纹理特征提取。而且,提取的特征是图像的局部的纹理特征;原始的LBP算子定义为在3*3的窗口内,以窗口中心像素为阈值,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码,共256种),即得到该窗口中心像素点的LBP值,并用这个值来反映该区域的纹理信息。

    一个LBP算子可以产生不同的二进制模式,对于半径为R的圆形区域内含有P个采样点的LBP算子将会产生P2 种模式。很显然,随着邻域集内采样点数的增加,二进制模式的种类是急剧增加的。例如:5×5邻域内20个采样点,有220=1,048,576种二进制模式。如此多的二值模式无论对于纹理的提取还是对于纹理的识别、分类及信息的存取都是不利的。同时,过多的模式种类对于纹理的表达是不利的。例如,将LBP算子用于纹理分类或人脸识别时,常采用LBP模式的统计直方图来表达图像的信息,而较多的模式种类将使得数据量过大,且直方图过于稀疏。因此,需要对原始的LBP模式进行降维,使得数据量减少的情况下能最好的代表图像的信息。

    步骤

    1)首先将检测窗口划分为16×16的小区域(cell);

    2)对于每个cell中的一个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值;

    3)然后计算每个cell的直方图,即每个数字(假定是十进制数LBP值)出现的频率;然后对该直方图进行归一化处理。

    4)最后将得到的每个cell的统计直方图进行连接成为一个特征向量,也就是整幅图的LBP纹理特征向量;

    SIFT特征

    1、算法简介

    尺度不变特征转换即SIFT (Scale-invariant feature transform)是一种计算机视觉的算法。它用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David Lowe在1999年所发表,2004年完善总结。

    其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。局部影像特征的描述与侦测可以帮助辨识物体,SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。

    过程如下:

    1)以兴趣点为中心,从视频序列中抽取时空立方体并将其划分为大小相同且固定的cell立方体;

    2)统计每个cell立方体的时空梯度直方图;

    3)联合所有 cell立方体,构成该兴趣点的3Dsift特征.

    将四种特征等权拼接并作降维处理放入svm中做分类。

    Svm(支持向量机)

    SVM是由模式识别中广义肖像算法(generalized portrait algorithm)发展而来的分类器,其早期工作来自前苏联学者Vladimir N. Vapnik和Alexander Y. Lerner在1963年发表的研究。1964年,Vapnik和Alexey Y. Chervonenkis对广义肖像算法进行了进一步讨论并建立了硬边距的线性SVM。此后在二十世纪70-80年代,随着模式识别中最大边距决策边界的理论研究、基于松弛变量(slack variable)的规划问题求解技术的出现,和VC维(Vapnik-Chervonenkis dimension, VC dimension)的提出,SVM被逐步理论化并成为统计学习理论的一部分。1992年,Bernhard E. Boser、Isabelle M. Guyon和Vapnik通过核方法得到了非线性SVM。1995年,Corinna Cortes和Vapnik提出了软边距的非线性SVM并将其应用于手写字符识别问题,这份研究在发表后得到了关注和引用,为SVM在各领域的应用提供了参考。

    算法步骤

    a.假设现在存在这么一个超平面wx+b=0可以完全把训练数据集分开。

    思考这个超平面需要满足什么样的条件时才能够将数据完全分开。

    b.如果距离超平面最近的点都能够被正确分类,那么其他距离较远的点肯定都能够被正确分类。

    c.所以我们现在需要做的是找到距离超平面最近的样本点(前面几何间隔与函数间隔区别中有说)。

    d.找到最小值以后还不够,因为我们前面提到过,样本点到超平面的距离越大,分类的准确性越高,所以我们要尽可能的让求取的极小值尽可能的大。依据这个条件取求取满足调价的最佳分割超平面。 

    全局实现步骤:

    1. 提取视频光流特征,Hog特征,LBP特征以及SIFT特征
    2. 有效将四种特征等权拼接,作为视频的特征
    3. 对特征进行降维处理,提升模型的效率
    4. 使用svm对特征进行训练并预测最终结果。

    PCA(主成分分析):一种无监督降维方法,将一个矩阵中的样本数据,投影到一个新的空间中,将原来多个变量的复杂因素归结成为几个主要成分,使问题简单化,得到的结果更加科学高效。

    对一堆数据利用PCA进行降维,通俗的说就是类似于线性代数中给定一组线性相关的向量,所谓线性相关就是一个向量可以用其余向量进行线性表示,也就是说这个向量在这组向量中是多余的,PCA的功能就是去掉这部分多余的向量,然后把线性相关的向量组变成线性无关,这样实际上就大大降低了数据量,也保留了关键的数据

    展开全文
  • 基于选择性集成旋转森林的人体行为识别算法,期刊文章,人体行为算法的改进,对科研很有帮助,欢迎下载,学习交流。
  • 提出了一种基于卷积神经网络和长短期记忆(LSTM)神经网络的深度学习网络结构。采用特征融合的方法,通过卷积网络提取出浅层特征与深层特征并进行联接,对特征通过...实验结果表明,所提模型有效地提高了行为识别精度。
  • 库背景固定并且前景轮廓已经包含在数据库中,视角固定. 如图 2 为 Weizman 数据库部分动作示例.2) KTH 数据库[5]该人体行为数据库包括 6 种动
  • 人工智能-深度学习-基于深度学习的人体行为识别算法研究.pdf
  • 基于双流卷积神经网络的改进人体行为识别算法.pdf
  • 人工智能-深度学习-基于RGBD与深度学习的人体行为识别算法研究.pdf
  • 研究对人体行为的特征的提取方法,比如全局特征提取,局部特征提取,二维,三维全局特征,局部特征点提取等,从中选取适合基于轨迹的人体行为识别算法,掌握Weizmann、KTH、PETS、UCF等常用的人体行为识别常用的数据...
  • 本课题为基于形态学的人体行为检测系统,可以识别卧躺,站立,蹲坐等几种姿势。根据圈定的矩形长宽比例,带有一个GUI可视化界面,程序简单易懂通俗。
  • 针对现有人体行为识别系统识别精度不高,且不便于日常使用的缺点,提出了一种用于智能手表的神经网络分类算法。采用基于PCA的特征提取方法对Apple Watch智能手表采集到的三轴加速度数据进行特征提取,结合动量-...
  • 要做一个深度学习在人体姿态识别领域的一些调研,以前也没做调研相关的事情,连格式怎么写都不知道,前前后后看了接近20篇论文,然后就写下来这篇小总结,感觉都不能算是调研,文章主要列出了一些相关的数据集以及...

    from: https://zhuanlan.zhihu.com/p/27657196

    1. 写在前面

    大概两个月前,接到一个小任务,要做一个深度学习在人体姿态识别领域的一些调研,以前也没做调研相关的事情,连格式怎么写都不知道,前前后后看了接近20篇论文,然后就写下来这篇小总结,感觉都不能算是调研,文章主要列出了一些相关的数据集以及深度学习的方法包括基于无监督学习的行为识别、基于卷积神经网络的行为识别、基于循环神经网络以及一些拓展模型的方法。当然,这里面提到的很多模型都不是最新的技术,还有很多最新的模型和技术都没有包含进来。

    因为这篇文章写出来已经很久了,所以很多东西记得都有些模糊,这次只是将原来的md文件拿过来排个版,如果有哪里有什么问题,请指正,谢谢。

    2. 本文结构

    本文首先提出一共17个人体姿态识别相关的数据集及其链接,然后给出9个深度学习在人体姿态识别领域的应用模型,包括其论文提出的思路、模型结构、实验数据集和使用的加速硬件(如果有的话),本文不提供相关的实现方法。

    3. 数据集

    3.1 KTH

    链接

    介绍:视频数据集包括六种动作(走、慢跑、快跑、拳击、挥手和鼓掌),所有动作由25个人分别演示,并且融合了四种场景进行演示,一共有25 \times 6 \times 4 = 600个AVI视频文件。

    3.2 Weizmaan

    链接

    介绍:一共有90个视频文件,由9个人展示,每个人展示十种动作。

    3.3 HOHA

    链接

    介绍:从电影中采集的真实的人类活动。

    3.4 Keck Gesture

    链接

    介绍:包含14中不同手势(军用信号),使用彩色相机拍摄,分辨率为 640 \times 480,每个手势都有三个人演示,每个视频序列中,一个人重复演示三次同样的手势,训练的一共有3 \times 3 \times 14 = 126个视频序列。并且拍摄角度固定背景也固定。测试的一共4 \times 3 \times 14 = 168个视频序列,并且使用运动相机拍摄并且处于杂乱且有移动物体的背景中。视频格式为AVI。

    3.5 MSR action

    链接

    介绍:数据集包含16个视频序列,并且一共有63个动作,每一个视频序列包含复合动作,一些序列不同人的不同动作,同时有室内和室外场景,所有的视频都是在杂乱并且移动的背景中。视频分辨率为320 \times 240,帧率为15fps,视频序列的长度在32~76秒之间

    3.6 YouTube Action

    链接

    介绍:包含11种动作类,对于每一类动作,视频分为25组, 每一组有4个动作(分在同一组的视频有着一些共同的特征)

    3.7 UT-Interaction

    链接

    介绍:提供了一个人-人交互的数据集。包括6类动作,一共有20个视频序列(时长约1分钟),分辨率为720 \times 480,帧率30fps。

    3.8 TRECVID Data Availability

    链接

    3.9 UCF50

    链接

    介绍:YouTube Action的拓展。

    3.10 UCF101

    链接

    介绍:UCF50的拓展。

    3.11 UCF sport actions

    连接

    3.12 VTB

    链接

    3.13 VOT

    链接

    3.14 JHMDB

    链接

    3.15 MPII Cooking Activities

    连接

    3.16 HMDB51

    链接

    3.17 Spots-1M

    链接

    4. 深度学习算法

    4.1 基于无监督学习的行为识别

    4.1.1 案例1

    论文[1] 将独立子空间分析(Independent subspace analysis,ISA)扩展到三维的视频数据上,使用无监督的学习算法对视频块进行建模。这个方法首先在小的输入块上使用ISA算法,然后将学习到的网络和较大块的输入图像进行卷积,将卷积过程得到的响应组合在一起作为下一层的输入,将得到的描述方法运用到视频数据上。

    模型

    文章提出,为了克服过大数据量带来的ISA算法的低效,将ISA改为一种堆叠卷积ISA网络,网络结构如下:

    首先使用小批量的数据训练ISA网络,然后将训练好的网络与较大的输入卷积,然后使用PCA算法处理,最后再经过一层ISA网络训练。

    为了适应三维的视频信息,将一段视频序列压缩成一个向量作为输入,得到最终模型如下图所示:

    数据集

    KTH

    UCF sport actions

    Hollywood 2

    YouTube action

    加速硬件

    GPU

    4.2 基于卷积神经网络的行为识别

    4.2.1 案例1

    论文[2] 将传统的CNN拓展到具有时间信息的3D-CNN,在视频数据的时间维度和空间维度上进行特征计算,在卷积过程中的特征图与多个连续帧中的数据进行连接。

    模型

    简单来说,3D-CNN就是将连续的视频帧看作一个盒子,使用一个三维的卷积核进行卷积,通过这种结构,就能捕获动作信息,三维卷积如下所示:

    3D-CNN网络结构如下:

    使用7帧60 \times 40大小帧序列作为输入,第一层为硬编码的卷积核,然后进行两次卷积和下采样,最后得到一个128维的特征集合。

    数据集

    • TRECVID 2008

    • KTH

    4.2.2 案例2

    论文[3] 提出一种称为P-CNN的模型,使用单帧数据和光流数据,从而捕获运动信息。

    模型

    原理如下所示:

    首先,要对视频序列计算光流数据并且存储为图片的形式,对于给定的视频信息和相对应的骨骼位置,将RGB图片和光流图片分割为5类(左手、右手、上部分身体、下部分身体和整张图片),将其大小均初始化为224\times224,然后使用两个不同的卷积网络,每个网络都含有5个卷积层和3个全连层,然后通过聚合和归一化,最后整合为一个P-CNN的特征集合,最后使用线性SVM进行训练。

    数据集

    JHMDB

    MPII Cooking Activities

    4.2.3 案例3

    论文[4] 提出一种称为Long-term Temporal Convolutions(LTC-CNN)的网络,在定长时间的视频内使用三维的CNN。

    模型

    结构如下所示:

    相比于其他的将视频切分为短时间的序列,该模型最大限度的保留了视频的时空信息,网络有5个时空卷积层和3个全连层,对于每个时空卷积核尺寸都为3\times3\times3,都采用ReLU函数和最大值池化层(max pooling,除了第一层为2\times2\times1,其他尺寸均为 2\times2\times2),并且在卷积时采用1像素的边缘填充。

    在实验中,尝试使用不同大小的输入(时间长短,视频分辨率)和不同的数据(RGB数据,几种不同的光流数据)。

    数据集

    UCF101

    HMDB51

    加速硬件

    GPU

    4.2.4 案例4

    论文[5] 使用多分辨率的卷积神经网络对视频特征进行提取。输入视频被分作两组独立的数据流:低分辨率的数据流和原始分辨率的数据流。这两个数据流都交替地包含卷积层、 正则层和抽取层,同时这两个数据流最后合并成两个全连接层用于后续的特征识别。

    模型

    该论文首先考察了几种融合(fusion)方式,如下图所示:

    • Single Frame:使用单一帧进行训练。

    • Late Fusion:两个分离的单帧共享参数,然后在第一个全连层合并,分离的帧获取不到任何运动信息,但是全连层可以通过对比获取到运动特性。

    • Early Fusion:一段时间内的视频帧共享参数,这种连接可以精确获取局部运动方向和速度。

    • Slow Fusion:前两种方式的混合。

    上图中红色代表卷积,绿色代表归一化,蓝色代表池化。

    最终采用的模型网络结构如下:

    输入视频被分成两个独立的数据流:低分辨率和高分辨率,交替通过卷积、归一化和池化最后经过两个全连层。

    上图中红色代表卷积,绿色代表归一化,蓝色代表池化。

    数据集

    实验数据集:Spots-1M

    迁移学习数据集:UCF-101

    加速硬件

    GPU

    4.2.5 案例5

    论文[6] 使用两个数据流的卷积神经网络来进行视频行为识别。他们将视频分成静态帧数据流和帧间动态数据流,静态帧数据流可使用单帧数据,帧间动态的数据流使用光流数据,每个数据里都使用深度卷积神经网络进行特征提取。最后将得到的特征使用SVM进行动作的识别。他们提出只使用人体姿势的关节点部分的相关数据进行深度卷积网络进行特征提取,最后使用统计的方法将整个视频转换为一个特征向量,使用SVM进行最终分类模型的训练和识别。

    模型

    该模型输入为视频序列,然后将视频序列处理为两个流数据:代表空间信息单帧静态数据流和代表时间信息的动态数据流,其中,动态数据流为几种不同的光流数据的组合。

    数据集

    UCF-101

    HMDB-51

    在ImageNet ILSVRC-2012数据集上进行预训练

    实验平台

    使用Caffe toolbox训练

    使用OpenCV toolbox计算光流数据

    加速硬件

    使用4块NVIDIA的Titan训练一个ConvNet,时长1天,比单GPU训练速度快了3.2倍

    计算光流数据的时候也使用GPU

    4.3 循环神经网络及扩展模型

    4.3.1 案例1

    论文[7] 使用LSTM对视频进行建模,LSTM将底层CNN的输出连接起来作为下一时刻的输入,在UCF101数据库上获得了82.6% 的识别率。

    模型

    该文献的整体思路如下:

    将图像数据和光流数据分别通过底层CNN处理,然后输出的连接通过Feature pooling或者LSTM,文章对比了这两种处理手段。

    其中LSTM的结构如下所示:

    该模型首先将数据输入到卷积网络中,然后将卷积网络的输出作为输入传给一个深度LSTM结构,深度为5层,每一层都有512个记忆细胞,最后有一个softmax层用来做预测。其中卷积结构使用的是AlexNet和GoogLeNet。

    数据集

    Sports-1M

    UCF-101

    4.3.2 案例2

    论文[8]提出了长时递归卷积神经网络(Long-term recurrent convolutional network,LRCN),这个网络将CNN和LSTM结合在一起对视频数据进行特征提取,单帧的图像信息通过CNN获取特征,然后将CNN的输出按时间顺序通过LSTM,这样最终将视频数据在空间和时间维度上进行特征表征,在UCF101数据库上得到了82.92% 的平均识别率。

    模型

    模型结构如下:

    该模型将卷积神经网络和LSTM相结合,输入可以是一个单独的图片或者是一个视频的一帧,将该输入进行死绝特征提取,可以得到一个用来表示数据特征的定长向量,然后将其输入到LSTM中学习到其中时间相关的信息,最后做出预测。

    该模型的特点是可以根据不同的输入实现不同的的任务:

    • 动作识别:序列输入,固定输出

    • 图片描述:固定输入,序列输出

    • 视频描述:输入和输入均是序列

    数据集

    动作识别:UCF-101

    加速硬件

    NVIDA GPU

    4.3.3 案例3

    论文[9] 提出一种称为Part-Aware LSTM的模型,该模型主要是在针对使用Kinect采集的骨骼数据进行人体的姿态识别。

    模型

    Part-Aware LSTM结构如下:

    该模型在LSTM的基础上,允许有多个i、g和f门,但是只有一个o门,主要是将下图所示的25个人体骨骼根据动作的相关性分成5个组:躯干、双手和双腿。让这个5个组分别通过自己的i、g和f门,但是却共享一个o门,即每一个时间序列上,豆浆这5个组各自的状态存在细胞状态中,这样不仅可以得到人体关节在时间序列上的关联,也可以通过分组更好获取人体运动的特征。

    骨骼如下:

    数据集

    NTU RGB+D

    加速硬件

    NVIDIA Tesla K40 GPU

    5. 总结

    本文第一部分给了16个用于人体姿态识别的常用数据集,这些数据集在后面介绍的9种模型中也大多有使用到,只是不同的地方名字可能不同,这里没有进行统一,所有在后面模型中使用到的数据集均在前面列了出来。

    主要看了9个在人体姿态捕捉领域提出的深度学习模型,大体上分为三类:基于非监督学习的行为识别(主要以自编码器为代表);基于卷积神经网络的行为识别;基于循环神经网络与其扩展模型的行为识别

    • 非监督学习的行为识别(论文[1])主要通过ISA(独立子空间分析)的叠加,需要提前训练好ISA网络然后再将其与较大的数据进行卷积。

    • 卷积神经网络的使用比较广泛,但总体上都可以将其理解为三维的卷积神经网络即在时间上多了一个维度,其中论文[3]和[6]都借助了光流分析,将原本的视频数据和光流数据处理得到的结果进行整合,论文[5]提出了几种融合(fusion)方式,通过不同的方式可以得到不同的结果,有的可以提取出视频序列局部的运动方向和速度,有的可以进行对比得到运动方式,综合考虑,最后采用了低分辨率和高分辨率两种数据流作为模型的输入通过三维的卷积神经网络进行处理。

    • 对于循环神经网络及其拓展模型,给出了三个模型,前两种在结构上略微相似,都是将视频序列经过CNN处理提取出特征数据然后经过若干层LSTM,论文[7]也运用了光流的处理方法,而论文[8]提出的模型可以完成多项任务即行为识别、图像描述和视频描述,应用更为广泛,最后一个P-LSTM的模型与前面都略有不同,主要是基于骨骼的坐标信息而不是图像信息。

    这些论文的来源主要是文献[10]和文献[11],其中,文献[10]主要介绍的是深度学习在目标跟踪中的应用而文献[11]主要介绍的是深度学习在人体姿态识别上的应用,二者略有不同。在调研的时候,除了上面说的三类,其实还有其他一些分类,比如基于限制玻尔兹曼机及其扩展模型的一些方法(详细可见论文[12]和[13]),因为之前没有接触过玻尔兹曼机,所以没有记录下来。

    6. 参考文献

    [1] Le Q V, Zou W Y, Yeung S Y, Ng A Y. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI: IEEE, 2011. 3361-3368

    [2] Ji S W, Xu W, Yang M, Yu K. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35 (1) : 221–231.

    [3] Chéron G, Laptev I, Schmid C. P-CNN: pose-based CNN features for action recognition. In: Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015. 3218-3226

    [4] Varol G, Laptev I, Schmid C. Long-term temporal convolutions for action recognition. arXiV: 1604.04494, 2015

    [5] Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Li F F. Large-scale video classification with convolutional neural networks. In: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, OH: IEEE, 2014. 1725-1732

    [6] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos. In: Proceedings of Advances in Neural Information Processing Systems. Red Hook, NY: Curran Associates, Inc., 2014. 568-576

    [7] Ng J Y H, Hausknecht M, Vijayanarasimhan S, Vinyals O, Monga R, Toderici G. Beyond short snippets: deep networks for video classification. arXiv: 1503.08909, 2015

    [8] Donahue J, Hendricks L A, Guadarrama S, Rohrbach M, Venugopalan S, Saenko K, Darrell T. Long-term recurrent convolutional networks for visual recognition and description. arXiv: 1411.4389, 2014.

    [9] Amir Shahroudy, Jun Liu, Tian-Tsong Ng, Gang Wang. NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis. arXiv: 1604.02808

    [10] 管皓, 薛向阳, 安志勇. 深度学习在视频目标跟踪中的应用进展与展望[J]. 自动化学报, 2016, 42(6): 834-847. doi: 10.16383/j.aas.2016.c150705

    [11] 朱煜, 赵江坤, 王逸宁, 郑兵兵. 基于深度学习的人体行为识别算法综述[J]. 自动化学报, 2016, 42(6): 848-857. doi: 10.16383/j.aas.2016.c150710

    [12] Taylor G W, Hinton G E. Factored conditional restricted Boltzmann machines for modeling motion style. In: Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009. 1025-1032

    [13] Chen B, Ting J A, Marlin B, de Freitas N. Deep learning of invariant spatio-temporal features from video. In: Proceedings of Conferrence on Neural Information Processing Systems (NIPS) Workshop on Deep Learning and Unsupervised Feature Learning. Whistler BC Canada, 2010.



    作者:桑燊

    2017年7月2日

    转载于:https://www.cnblogs.com/dhcn/p/8425259.html

    展开全文
  • 基于SVM算法人体行为特征识别

    千次阅读 2020-03-14 21:09:32
    基于SVM算法人体行为特征识别 首先,很感谢您的阅读,个人能力原因,对于论文中的SVM算法分析,如若有错误的地方,欢迎留言,非常感谢您的阅读!! SVM算法 首先,简单介绍一下关于SVM算法:SVM算法又名支持向量机...

    首先,由于个人能力原因,对于论文中的提出的SVM算法只能做一些简单的分析,如若有错误的地方,欢迎留言,非常感谢您的阅读!!

    SVM算法

    首先,简单介绍一下关于SVM算法:SVM算法又名支持向量机,它是一种二分类模型,擅长处理小样本分类问题,有较强的泛化能力并且可以处理非线性分类问题,通过多个SVM的组合使用还可以用来处理多分类问题。

    关于支持向量机的根本思想:

    第一点:SVM是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本映射到高维特征空间使其线性可分,从而使得高维特征空间采用采用线性算法对样本的非线性特征进行线性分析成为可能。

    第二点:SVM基于结构风险最小化理论在特征空间中构建最优分割超平面,使得学习器全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

    关于具体在对人体行为的特征识别内容,将会在接下来的内容进行详细介绍,并且涵盖SVM算法的原理以及过程。

    特征采集

    人体行为特征的采集,主要通过CSI进行,采集的行为包括:(l)站立不动;(2)缓慢匀速行走;匀速推缩手臂;(5)水平方向挥臂;(6)垂直方向挥臂等一系列人的姿势,动作。

    自己简单的手画了一下人体行为:
    在这里插入图片描述
    收集并记录这些特征的信道状态信息(CSI),CSI呈现出不同频率下多径传播的幅度和相位,从而更加精确地刻画了具有频率选择性衰落特性的信道。

    在这直接引用论文中给出的CSI图像:
    在这里插入图片描述

    SVM算法的分类模型设计

    采用SVM算法把CSI幅度和相位信息的变化特征作为输入,并且训练在假设的空间中找到一个最优分隔面把正反样本分隔开,其学习的策略是间隔最大准则。

    所指的间隔就是样本点到分隔面的最小距离。分割正负样本的分隔面有很多,这个间隔最大准则实际上是:意味着要找到那个以最大的确信度将正负样本分隔开并是该模型应对局部干扰最大的分割面,作为最优分割面(如下图)。

    在这里插入图片描述
    使用SVM进行二分类,就需要找到最优分割面,令最优分割面为(Markdown编辑器的公式输入好麻烦,只能截图了):

    在这里插入图片描述
    其中,
    在这里插入图片描述
    为一个样本的特征向量,n为其特征维数。

    假定有一个线性可分的样本的样本集在这里插入图片描述
    要得到最优分割面,需要满足以下的表达式:

    在这里插入图片描述
    上式是目标函数,下式是约束条件,是个二次规划。表达式是一个以w为自变量的目标函数,而下式是以w的线性函数为约束条件,它的可行域是一个标准凸集,
    所以可得出结论该表达式拥有全局最优解。使用拉格朗日乘子方法计算求解,这里主要是数学求解方程的问题。

    但是面对非线行为特征的时候,就需要采用非线性SVM算法(个人的原因,这个没有学过(QAQ,以前太懒了(QAQ))

    总结

    首先,采用SVM算法解决人体行为特征识别是可行的,只是对于线性特征和非线性特征,需要使用不同类型的SVM分类器。

    本文的SVM采用了这样一种策略:将低维空间向高维空间转换,使得在低维空间不可分的样本在高维空间中变得可分,从而再按上述方法求解最优超平面。

    SVM是一种很典型的二分类算法,对于多分类问题SVM同样适用。可以采用组合多个SVM进行多分类,常用的多分类方式有“一对一”和“一对多”。SVM采用统计理论,广泛应用于图像处理、文本分类、姿态识别等领域。

    展开全文
  • 可穿戴传感器的人体行为识别具 有 极 其 广 泛 的 应 用前景。例如在智能家居、老人或病人监护等领域 使用可穿戴式传感器可以实时获 得 用 户 的 行 为 数 据,从而快速准确的判断出当前用户的活动情况。 文[1...
  • 针对传统方法在人体行为识别方面拓展性不强等问题,提出一种序列化的研究思想,提取骨骼图的特征矢量,用SVM训练和识别静态动作,形成序列即可表示动态动作,因此只要丰富静态动作库,就可以实现多种动态动作的识别...
  • 由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作, 本文提出基于多模态特征学习的人体行为识别算法. 首先采用两条通道分别提取行为视频的RGB特征和3D骨骼特征, 第1条通道C3DP-LA网络由两部分组成: (1) ...
  • Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 6,488
精华内容 2,595
关键字:

人体行为识别算法