精华内容
下载资源
问答
  • 为克服方向梯度直方图(HOG)特征在人体行为识别中仅表征动作的全局梯度特征、缺乏局部细节信息、对遮挡表现不佳的问题,改进了一种基于全局特征和局部特征的方法来实现人体行为识别。该算法首先使用背景减法获得人体...
  • 利用在视频的基础上提取出位置分布图、大小分布图等一系列的属性将行为进行分类。采用基于帧间差分和改进混合高斯模型的运动人体分割算法,解决了复杂背景下的运动目标检测问题。实验数据对提出的新的行为描述...
  • 图像处理人体行为特征识别
  • 基于SVM算法的人体行为特征识别

    千次阅读 2020-03-14 21:09:32
    基于SVM算法是人体行为特征识别 首先,很感谢您的阅读,个人能力原因,对于论文中的SVM算法分析,如若有错误的地方,欢迎留言,非常感谢您的阅读!! SVM算法 首先,简单介绍一下关于SVM算法:SVM算法又名支持向量机...

    首先,由于个人能力原因,对于论文中的提出的SVM算法只能做一些简单的分析,如若有错误的地方,欢迎留言,非常感谢您的阅读!!

    SVM算法

    首先,简单介绍一下关于SVM算法:SVM算法又名支持向量机,它是一种二分类模型,擅长处理小样本分类问题,有较强的泛化能力并且可以处理非线性分类问题,通过多个SVM的组合使用还可以用来处理多分类问题。

    关于支持向量机的根本思想:

    第一点:SVM是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本映射到高维特征空间使其线性可分,从而使得高维特征空间采用采用线性算法对样本的非线性特征进行线性分析成为可能。

    第二点:SVM基于结构风险最小化理论在特征空间中构建最优分割超平面,使得学习器全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

    关于具体在对人体行为的特征识别内容,将会在接下来的内容进行详细介绍,并且涵盖SVM算法的原理以及过程。

    特征采集

    人体行为特征的采集,主要通过CSI进行,采集的行为包括:(l)站立不动;(2)缓慢匀速行走;匀速推缩手臂;(5)水平方向挥臂;(6)垂直方向挥臂等一系列人的姿势,动作。

    自己简单的手画了一下人体行为:
    在这里插入图片描述
    收集并记录这些特征的信道状态信息(CSI),CSI呈现出不同频率下多径传播的幅度和相位,从而更加精确地刻画了具有频率选择性衰落特性的信道。

    在这直接引用论文中给出的CSI图像:
    在这里插入图片描述

    SVM算法的分类模型设计

    采用SVM算法把CSI幅度和相位信息的变化特征作为输入,并且训练在假设的空间中找到一个最优分隔面把正反样本分隔开,其学习的策略是间隔最大准则。

    所指的间隔就是样本点到分隔面的最小距离。分割正负样本的分隔面有很多,这个间隔最大准则实际上是:意味着要找到那个以最大的确信度将正负样本分隔开并是该模型应对局部干扰最大的分割面,作为最优分割面(如下图)。

    在这里插入图片描述
    使用SVM进行二分类,就需要找到最优分割面,令最优分割面为(Markdown编辑器的公式输入好麻烦,只能截图了):

    在这里插入图片描述
    其中,
    在这里插入图片描述
    为一个样本的特征向量,n为其特征维数。

    假定有一个线性可分的样本的样本集在这里插入图片描述
    要得到最优分割面,需要满足以下的表达式:

    在这里插入图片描述
    上式是目标函数,下式是约束条件,是个二次规划。表达式是一个以w为自变量的目标函数,而下式是以w的线性函数为约束条件,它的可行域是一个标准凸集,
    所以可得出结论该表达式拥有全局最优解。使用拉格朗日乘子方法计算求解,这里主要是数学求解方程的问题。

    但是面对非线行为特征的时候,就需要采用非线性SVM算法(个人的原因,这个没有学过(QAQ,以前太懒了(QAQ))

    总结

    首先,采用SVM算法解决人体行为特征识别是可行的,只是对于线性特征和非线性特征,需要使用不同类型的SVM分类器。

    本文的SVM采用了这样一种策略:将低维空间向高维空间转换,使得在低维空间不可分的样本在高维空间中变得可分,从而再按上述方法求解最优超平面。

    SVM是一种很典型的二分类算法,对于多分类问题SVM同样适用。可以采用组合多个SVM进行多分类,常用的多分类方式有“一对一”和“一对多”。SVM采用统计理论,广泛应用于图像处理、文本分类、姿态识别等领域。

    展开全文
  • 基于时空纹理特征的3D人体行为分析系统,王光超,范春晓,当前面向深度视频信息的三维人体行为视频被广泛应用到体感交互和行为分析领域中。为了在现实场景中更好的分析人体行为,提出了一
  • 行为实验的特征将心理健康的与抑郁的区分开
  • 提出了一种基于特征级融合的运动人体行为识别方法。应用背景差分法和阴影消除技术获得运动人体区域和人体轮廓; 采用R变换提取人体区域特征, 采用小波描述子提取人体轮廓特征; 然后将这两种具有一定互补性的特征采用K...
  • 人体运动行为特征识别在医疗健康、人机接口、体育竞技等诸多领域都有广泛应用。介绍了常见的用于运动数据采集的传感器和相应方法,简述了运动数据预处理的一般手段;介绍了运动数据特征提取的过程,重点描述了常见...
  • 为了提高监控视频中人体异常行为识别的实时性和准确率,提出了基于运动特征的人体异常行为识别方法。利用分块更新的背景差法从图像中提取出完整的人体轮廓,通过区域关联结合颜色直方图实现人体目标跟踪,解决了非...
  • 针对人体行为识别问题,比较了两种基于智能手机惯性加速度传感器数据的深度特征学习方法。先将传感器数据进行重叠加窗的预处理;然后将带标签的样本数据直接输入深度网络模型中,通过端到端的特征学习,最终输出行为...
  • 人类行为特征分析已从传统的2D特征演变为3D特征。 为了提高人类活动识别的性能,提出了一种人类行为识别方法,该方法基于混合纹理边缘局部模式编码特征提取以及RGB和深度视频信息的融合。 本文主要研究行为的RGB和...
  • 行为识别特征提取综述   摘要    人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而...

    转自:http://www.cnblogs.com/tornadomeet/archive/2012/06/22/2558548.html

    行为识别特征提取综述

     

    摘要

     

      人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。本文将较全面的总结了目前行为识别中特征提取的方法,并将其特征划分为全局特征和局部特征,且分开介绍了其优缺点。

     

    关键字: 行为识别 特征提取 全局特征 局部特征

     

     

    1. 前言

     

      如今人体行为识别是计算机视觉研究的一个热点,人体行为识别的目标是从一个未知的视频或者是图像序列中自动分析其中正在进行的行为。简单的行为识别即动作分类,给定一段视频,只需将其正确分类到已知的几个动作类别,复杂点的识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方,在干什么事情,即所谓的“W4系统”。

      下面将4个方面对行为识别做初步介绍。

     

    1.1    行为识别应用背景

      人体行为识别应用背景很广泛,主要集中在智能视频监控,病人监护系统,人机交互,虚拟现实,智能家居,智能安防,运动员辅助训练,另外基于内容的视频检索和智能图像压缩等有着广阔的应用前景和潜在的经济价值和社会价值,其中也用到了不少行为识别的方法。

     

    1.2    行为识别研究历史

      行为识别分析的相关研究可以追溯到1975年Johansson[1]的一个实验,作者提出了12点人体模型,这种描述行为的点模型方法对后来基于人体结构的行为描述算法起到了重要的指导作用。从那以后,行为识别的研历史究进展大致可以分为以下3个阶段,第1个是20世纪70年代行为分析的初步研究阶段,第2个是20世纪90年代行为分析的逐步发展阶段,第3个是最近几年来行为分析的快速发展阶段。从文献[2]~[7]这6篇较有名的行为识别综述论文可以看出, 研究行为识别的人数在不断增加,论文数量也是猛增,并且产生了许多种重要的算法和思想。

     

    1.3    行为识别方法分类体系

      关于视觉上人体运动分析和识别的方法论体系有很多种。Forsyth[8]等人侧重与将动作从视频序列中人的姿态和运动信息恢复过来,这属于一个回归问题,而人体行为识别是一个分类问题,这2个问题有很多类似点,比如说其特征的提取和描述很多是通用的。Turaga[5]等人将人体行为识别分为3部分,即移动识别(movement),动作识别(action)和行为识别(activity),这3种分类分别于低层视觉,中层视觉,高层视觉相对应。Gavrila[9]采用2D和3D的方法来分别研究人体的行为。

    对于行为识别方法论的划分中,最近出现了一种新的划分[7], Aggarwal将人体行为研究分为2大类,其一是基于单个层次来实现,其二是基于等级体系来实现。单层实现由分为时空特征和序列特征2种,等级体系实现分为统计方法,句法分析法和基于描述的方法3种。图1 Aggarwal对行为识别方法论体系的层次结构图。

     

      

    图1 行为识别方法层次结构

     

         该分类体系比较完善,也能很好的体现目前的研究进展。按照Turaga的3个层次划分理论,目前关于行为识别基本上还停留在第二个阶段,即action识别。而action识别比现实生活中的行为较简单,所以我们识别这些行为只需对这些行为进行正确的分类即可。这样一个行为识别系统就分成了行为特征提取和分类器的设计两个方面,通过对训练数据提取某种特征,采用有监督或无监督来训练一个分类模型,对新来的数据同样提取特征并送入该模型,得出分类结果。基于这个思想,本文主要是从行为识别的特征提取方面做了一个较为全面的介绍。

     

    1.4    行为识别研究难点

      行为识别发展至今,取得了很大的进展,在低层,中层和高层都取得了一定的突破,但是行为识别算法并不成熟,目前不存在一个算法适合所有的行为分类,3个视觉层次中都还有很多严峻的问题有待解决。其研究的难点主要体现在以下几个方面:

    1.4.1  动作类内类间的变化太大

      对于大多数的动作,即使是同一动作都有不同的表现形式。比如说走路,可以在不同的背景环境中完成,走路的速度也可以从慢到快,走路的步长亦有长有短。其它的动作也有类似的结果,特别是一些非周期的运动,比如过马路时候的走路,这与平时周期性的走路步伐明显不同。由此可见,动作的种类本身就很多,再加上每一种类又有很多个变种,所以给行为识别的研究带来了不少麻烦。

    1.4.2  环境背景等影响

      环境问背景等因素的影响可谓是计算机视觉各个领域的最大难点。主要有视角的多样性,同样的动作从不同的视角来观察会得到不同的二维图像;人与人之间,人与背景之间的相互遮挡也使计算机对动作的分类前期特征提取带来了困难,目前解决多视觉和遮挡问题,有学者提出了多摄像机融合通过3维重建来处理;另外其影响因素还包括动态变化和杂乱的背景,环境光照的变化,图像视频的低分辨率等。

    1.4.3  时间变化的影响

      总所周知,人体的行为离不开时间这个因素。而我们拍摄的视频其存放格式有可能不同,其播放速度有慢有快,这就导致了我们提出的系统需对视频的播放速率不敏感。

    1.4.4  数据的获取和标注

      既然把行为识别问题当成一个分类问题,就需要大量的数据来训练分类模型。而这些数据是视频数据,每一个动作在视频中出现的位置和时间都不确定,同时要考虑同一种动作的不同表现形式以及不同动作之间的区分度,即数据的多样性和全面性。这一收集过程的工作量不小,网上已经有一些公开的数据库供大家用来实验,这将在本文的第3部分进行介绍。

      另外,手动对视频数据标注非常困难。当然,有学者也提出了一些自动标注的方法,比如说利用网页图片搜索引擎[10],利用视频的字幕[11],以及利用电影描述的文本进行匹配[12][13][14]。

    1.4.5  高层视觉的理解

      上面一提到,目前对行为识别的研究尚处在动作识别这一层(action  recognition)。其处理的行为可以分为2类,一类是有限制类别的简单规则行为,比如说走、跑、挥手、弯腰、跳等。另一类是在具体的场景中特定的行为[15]~[19],如检测恐怖分子异常行为,丢包后突然离开等。在这种场景下对行为的描述有严格的限制,此时其描述一般采用了运动或者轨迹。这2种行为识别的研究都还不算完善,遇到了不少问题,且离高层的行为识别要求还相差很远。因此高层视觉的理解表示和识别是一个巨大的难题。

     

    2. 行为识别特征提取

     

      这一节中,将主要讨论怎样从图片序列中提取特征。本文将行为识别的特征分为2大类:全局特征和局部特征。

      全局特征是把一对象当做成一个整体,这是一种从上到下的研究思维。这种情况下,视频中的人必须先被定位出来,这个可以采用背景减图或者目标跟踪算法。然后对定位出来的目标进行某种编码,这样就形成了其全局特征。这种全局特征是有效的,因为它包含了人体非常多的信息。然而它又太依赖而底层视觉的处理,比如说精确的背景减图,人体定位和跟踪。而这些处理过程本身也是计算机视觉中的难点之处。另外这些全局特征对噪声,视角变化,遮挡等非常敏感。

      局部特征提取是收集人体的相对独立的图像块,是一种从下到上的研究思维。一般的做法是先提取视频中的一些时空兴趣点,然后在这些点的周围提取相应的图像块,最后将这些图像块组合成一起来描述一个特定的动作。局部特征的优点是其不依赖而底层的人体分割定位和跟踪,且对噪声和遮挡问题不是很敏感。但是它需要提取足够数量的稳定的且与动作类别相关的兴趣点,因此需要不少预处理过程。

    2.1    全局特征提取

      全局特征是对检测出来的整个感兴趣的人体进行描述,一般是通过背景减图或者跟踪的方法来得到,通常采用的是人体的边缘,剪影轮廓,光流等信息。而这些特征对噪声,部分遮挡,视角的变化比较敏感。下面分别从其二维特征和三维特征做介绍。

     

    2.1.1 二维全局特征提取

    Davis[20]等人最早采用轮廓来描述人体的运动信息,其用MEI和MHI 2个模板来保存对应的一个动作信息,然后用马氏距离分类器来进行识别。MEI为运动能量图,用来指示运动在哪些部位发生过,MHI为运动历史图,除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这2种特征都是从背景减图中获取的。图2是坐下,挥手,蹲伏这3个动作的运动历史图MHI。

                                 

    图2 三种动作对应的MHI

     

      为了提前剪影信息,Wang[21]等人利用r变换获取了人体的剪影。Hsuan-Shen[22]则提取了人体的轮廓,这些轮廓信息是用星型骨架描述基线之间夹角的,这些基线是从人体的手,脚,头等中心延长到人体的轮廓。而Wang[23]同时利用了剪影信息和轮廓信息来描述动作,即用基于轮廓的平均运动形状(MMS)和基于运动前景的平均能量(AME)两个模板来进行描述。当把轮廓和剪影模板保存下来后,新提取出的特征要与其进行比较,Daniel[24]采用欧式距离来测量其相似度,随后他又改为用倒角距离来度量[25],这样就消除了背景减图这一预处理步骤。

      除了利用轮廓剪影信息外,人体的运动信息也经常被采用。比如说基于像素级的背景差法,光流信息等。当背景差法不能很好的工作时,我们往往可以采用光流法,但是这样经常会引入运动噪声,Effos[26]只计算以人体中心点处的光流,这在一定程度上减少了噪声的影响。

     

    2.1.2  三维全局特征提取

      在三维空间中,通过给定视频中的数据可以得到3D时空体(STV),STV的计算需要精确的定位,目标对齐,有时还需背景减图。Blank[27][28]等人首次从视频序列中的剪影信息得到STV。如图3所示。然后用泊松方程导出局部时空显著点及其方向特征,其全局特征是通过对这些局部特征加权得到的,为了处理不同动作的持续时间不同的问题,Achard[29]对每一个视频采用了一系列的STV ,并且每个STV只是覆盖时间维上的一部分信息。

      还有一种途径是从STV中提取相应的局部描述子,这一部分将在局部特征提取一节中介绍,在这里,我们还是先把STV特征当做是全局特征。Batra[30]存储了STV的剪影,并且用很小的3D二进制空间块来采样STV。Yilmaz[31]提取了STV表面的不同几何特征,比如说其极大值点和极小值点。当然,也有学者Keel[32]将剪影的STV和光流信息结合起来,作为行为识别的全局特征。

                           

    图3  跳跃,走,跑3个动作的STV图

     

    2.2    局部特征提取

      人体行为识别局部特征提取是指提取人体中感兴趣的点或者块。因此不需要精确的人体定位和跟踪,并且局部特征对人体的表观变化,视觉变化和部分遮挡问题也不是很敏感。因此在行为识别中采用这种特征的分类器比较多。下面从局部特征点检测和局部特征点描述2部分来做介绍。

     

    2.2.1  局部特征点的检测

      行为识别中的局部特征点是视频中时间和空间中的点,这些点的检测发生在视频运动的突变中。因为在运动突变时产生的点包含了对人体行为分析的大部分信息。因此当人体进行平移直线运动或者匀速运动时,这些特征点就很难被检测出来。

      Laptev[33]将Harris角点扩展到3D Harris,这是时空兴趣点(STIP)族中的一个。这些时空特征点邻域的像素值在时间和空间都有显著的变化。在该算法中,邻域块的尺度大小能够自适应时间维和空间维。该时空特征点如图4所示。

                        

    图4  时空特征点检测图

     

         Dollar[34]指出上述那种方法存在一个缺点,即检测出来稳定的兴趣点的数量太少,因此Dollar单独的在时间维和空间维先采用gabor滤波器进行滤波,这样的话检测出来兴趣点的数目就会随着时间和空间的局部邻域尺寸的改变而改变。类似的,Rapantzikos[35]在3个维度上分别应用离散小波变换,通过每一维的低通和高通的滤波响应来选择时空显著点。同时,为了整合颜色和运动信息,Rapantzikos[36]加入了彩色和运动信息来计算其显著点。

         与检测整个人体中兴趣点的出发思路不同,Wong[37]首先检测与运动相关的子空间中的兴趣点,这些子空间对应着一部分的运动,比如说手臂摆动,在这些子空间中,一些稀疏的兴趣点就被检测出来了。类似的方法,Bregonzio[38]首先通过计算后面帧的不同来估计视觉注意的焦点,然后利用gabor滤波在这些区域来检测显著点。

     

    2.2.2  局部特征点的描述

      局部特征描述是对图像或者视频中的一个块进行描述,其描述子应该对背景的杂乱程度,尺度和方向变化等均不敏感。一个图像块的空间和时间尺寸大小通常取决于检测到的兴趣点的尺寸。图5显示的是cuboids描述子[34]。

                           

                                            图5 cuboids描述子

     

      特征块也可以用基于局部特征的网格来描述,因为一个网格包括了局部观察到的领域像素,将其看成一个块,这样就减少了时间和空间的局部变化的影响。二维的SURF特征[39]被Willems[40]扩展到了3维,这些eSURF特征的每个cell都包含了全部Harr-wavelet特征。Laotev[14]使用了局部HOG(梯度直方图)和HOF(光流直方图)。Klaser[41]将HOG特征扩展到3维,即形成了3D-HOG。3D-HOG的每个bin都是由规则的多面体构成,3D-HOG允许 在多尺度下对cuboids进行快速密度采样。这种将二维特征点检测的算法扩展到3维特征点类似的工作还有是将SIFT算法[42]扩展到3维SIFT Scovanner[43]。在Wang[44]的文章中,他比较了各种局部描述算子,并发现在大多数情况下整合了梯度和光流信息的描述算子其效果最好。

      另外还有一种描述子比较流行,即单词袋[45][46],这是利用的单词频率直方图特征。

     

    2.3    全局、局部特征融合

      全局和局部特征的融合,结合了全局特征的足够信息量和局部特征的对视角变化,部分遮挡问题不敏感,抗干扰性强的优点。这样的文章比较多,其主要思想结合从2.1和2.2的方法。Thi[47]就将这2种特征结合得很好,其全局特征是采用前面介绍的MHI算子,并且采用AIFT算法[48]进一步选择更好的MHI。局部特征也是采用前面提到的STIP特征,并且采用SBFC(稀疏贝叶斯特征选择)[49]算法过滤掉一些噪声比较大的特征点。最后将2种特征送入到扩展的3维ISM模型中,其ISM[50]是一种目标识别常用算法,即训练出目标的隐式形状模型。Thi[47]的方法结构如图6所示。

                                    

          图6 局部特征和全局特征结合

     

     

    3. 行为识别常见数据库

    3.1    Weizmann

      Weizmann[27]数据库包含了10个动作分别是走,跑,跳,飞跳,向一侧移动,单只手挥动,2只手挥动,单跳,2只手臂挥动起跳,每个动作有10个人执行。在这个视频集中,其背景是静止的,且前景提供了剪影信息。该数据集较为简单。

    3.2    KTH

      KTH[45]行人数据库包含了6种动作,分别为走,慢跑,跑挥手和鼓掌。每种动作由25个不同的人完成。每个人在完成这些动作时又是在4个不同的场景中完成的,4个场景分别为室外,室内,室外放大,室外且穿不同颜色的衣服。

    3.3    PETS

      PETS[51],其全称为跟踪与监控性能评估会议,它的数据库是从现实生活中获取的,主要来源于直接从视频监控系统拍摄的视频,比如说超市的监控系统。从2000年以后,基本上每年都会组织召开这个会议。

    3.4    UCF

        UCF包含个数据集,这里是指UCF的运动数据库[52],该视频数据包括了150个视频序列,共有13个动作。因为是现实生活中的视频数据,所以其背景比较复杂,这些种类的动作识别起来有些困难。

    3.5    INRIA XMAS

      INRIA XMAS数据库[53]是从5个视角拍摄的,室内的4个方向和头顶的1个方向。总共有11个人完成14种不同的动作,动作可以沿着任意方向执行。摄像机是静止的,环境的光照条件也基本不变。另外该数据集还提供有人体轮廓和体积元等信息。

    3.6    Hollywood

      Hollywood电影的数据库包含有几个,其一[14]的视频集有8种动作,分别是接电话,下轿车,握手,拥抱,接吻,坐下,起立,站立。这些动作都是从电影中直接抽取的,由不同的演员在不同的环境下演的。其二[54]在上面的基础上又增加了4个动作,骑车,吃饭,打架,跑。并且其训练集给出了电影的自动描述文本标注,另外一些是由人工标注的。因为有遮挡,移动摄像机,动态背景等因素,所以这个数据集非常有挑战。

     

     

    4. 总结

     

      本文较全面的介绍了行为识别中特征提取的方法,并将其分为全局特征提取和局部特征提取2个部分介绍,虽然自行为识别研究以来已经取得了不少成果,但是由于视觉中的动态环境,遮挡等问题存在,其挑战非常大,需要提取出鲁棒性更好,适应性更强,效果更好的特征,而这仍是后面几年甚至几十年不断追求努力才能达到的目标。

     

    参考文献:

    1. Johansson, G. (1975). "Visual motion perception." Scientific American.
    2. Aggarwal, J. K. and Q. Cai (1997). Human motion analysis: A review, IEEE.
    3. Moeslund, T. B. and E. Granum (2001). "A survey of computer vision-based human motion capture." Computer vision and image understanding 81(3): 231-268.
    4. Moeslund, T. B., A. Hilton, et al. (2006). "A survey of advances in vision-based human motion capture and analysis." Computer vision and image understanding 104(2): 90-126.
    5. Turaga, P., R. Chellappa, et al. (2008). "Machine recognition of human activities: A survey." Circuits and Systems for Video Technology, IEEE Transactions on 18(11): 1473-1488.
    6. Poppe, R. (2010). "A survey on vision-based human action recognition." Image and Vision Computing 28(6): 976-990.
    7. Aggarwal, J. and M. S. Ryoo (2011). "Human activity analysis: A review." ACM Computing Surveys (CSUR) 43(3): 16.
    8. Forsyth, D. A., O. Arikan, et al. (2006). Computational studies of human motion: Tracking and motion synthesis, Now Pub.
    9. Gavrila, D. M. (1999). "The visual analysis of human movement: A survey." Computer vision and image understanding 73(1): 82-98.

      10. Ikizler-Cinbis, N., R. G. Cinbis, et al. (2009). Learning actions from the web, IEEE.

      11. Gupta, S. and R. J. Mooney (2009). Using closed captions to train activity recognizers that improve video retrieval, IEEE.

      12. Cour, T., C. Jordan, et al. (2008). Movie/script: Alignment and parsing of video and text transcription.

      13. Duchenne, O., I. Laptev, et al. (2009). Automatic annotation of human actions in video, IEEE.

      14. Laptev, I., M. Marszalek, et al. (2008). Learning realistic human actions from movies, IEEE.

      15. Haritaoglu, I., D. Harwood, et al. (1998). "W 4 S: A real-time system for detecting and tracking people in 2 1/2D." Computer Vision—ECCV'98:      877-892.

      16. Tao, D., X. Li, et al. (2006). Human carrying status in visual surveillance, IEEE.

      17. Davis, J. W. and S. R. Taylor (2002). Analysis and recognition of walking movements, IEEE.

      18. Lv, F., X. Song, et al. (2006). Left luggage detection using bayesian inference.

      19. Auvinet, E., E. Grossmann, et al. (2006). Left-luggage detection using homographies and simple heuristics.

      20. Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence,        IEEE Transactions on 23(3): 257-267.

      21. Wang, Y., K. Huang, et al. (2007). Human activity recognition based on r transform, IEEE.

      22. Chen, H. S., H. T. Chen, et al. (2006). Human action recognition using star skeleton, ACM.

      23. Wang, L. and D. Suter (2006). Informative shape representations for human action recognition, Ieee.

      24. Weinland, D., E. Boyer, et al. (2007). Action recognition from arbitrary views using 3d exemplars, IEEE.

      25. Weinland, D. and E. Boyer (2008). Action recognition using exemplar-based embedding, Ieee.

      26. Efros, A. A., A. C. Berg, et al. (2003). Recognizing action at a distance, IEEE.

      27. Blank, M., L. Gorelick, et al. (2005). Actions as space-time shapes, IEEE.

      28. Gorelick, L., M. Blank, et al. (2007). "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions on 29(12):          2247-2253.

      29. Achard, C., X. Qu, et al. (2008). "A novel approach for recognition of human actions with semi-global features." Machine Vision and Applications        19(1): 27-34.

      30. Batra, D., T. Chen, et al. (2008). Space-time shapelets for action recognition, IEEE.

      31. Yilmaz, A. and M. Shah (2008). "A differential geometric approach to representing the human actions." Computer vision and image understanding           109(3): 335-351.

      32. Ke, Y., R. Sukthankar, et al. (2007). Spatio-temporal shape and flow correlation for action recognition, IEEE.

      33. Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

      34. Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

      35. Rapantzikos, K., Y. Avrithis, et al. (2007). Spatiotemporal saliency for event detection and representation in the 3D wavelet domain: potential in        human action recognition, ACM.

      36. Rapantzikos, K., Y. Avrithis, et al. (2009). Dense saliency-based spatiotemporal feature points for action recognition, Ieee.

      37. Wong, S. F. and R. Cipolla (2007). Extracting spatiotemporal interest points using global information, IEEE.

      38. Bregonzio, M., S. Gong, et al. (2009). Recognising action as clouds of space-time interest points, IEEE.

      39. Bay, H., T. Tuytelaars, et al. (2006). "Surf: Speeded up robust features." Computer Vision–ECCV 2006: 404-417.

      40. Willems, G., T. Tuytelaars, et al. (2008). "An efficient dense and scale-invariant spatio-temporal interest point detector." Computer Vision–ECCV        2008: 650-663.

      41. Klaser, A. and M. Marszalek (2008). "A spatio-temporal descriptor based on 3D-gradients."

      42. Mikolajczyk, K. and C. Schmid (2004). "Scale & affine invariant interest point detectors." International journal of computer vision 60(1): 63-86.

      43. Scovanner, P., S. Ali, et al. (2007). A 3-dimensional sift descriptor and its application to action recognition, ACM.

      44. Wang, H., M. M. Ullah, et al. (2009). "Evaluation of local spatio-temporal features for action recognition."

      45. Niebles, J. C., H. Wang, et al. (2008). "Unsupervised learning of human action categories using spatial-temporal words." International journal of        computer vision 79(3): 299-318.

      46. Schuldt, C., I. Laptev, et al. (2004). Recognizing human actions: A local SVM approach, IEEE.

      47. Thi, T. H., L. Cheng, et al. (2011). "Integrating local action elements for action analysis." Computer vision and image understanding.

      48. Liu, G., Z. Lin, et al. (2009). "Radon representation-based feature descriptor for texture classification." Image Processing, IEEE Transactions on        18(5): 921-928.

      49. Carbonetto, P., G. Dorkó, et al. (2008). "Learning to recognize objects with little supervision." International journal of computer vision 77(1): 219-       237.

      50. Leibe, B., A. Leonardis, et al. (2008). "Robust object detection with interleaved categorization and segmentation." International journal of

        computer vision 77(1): 259-289.

      51. http://www.cvg.rdg.ac.uk/slides/pets.html.

      52. Rodriguez, M. D. (2008). "Action mach a spatio-temporal maximum average correlation height filter for action recognition." CVPR.

      53. Weinland, D., R. Ronfard, et al. (2006). "Free viewpoint action recognition using motion history volumes." Computer vision and image

        understanding 104(2): 249-257.

      54. Marszalek, M., I. Laptev, et al. (2009). Actions in context, IEEE. 

     

     

     

     

     

    作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 欢迎转载或分享,但请务必声明文章出处。 (新浪微博:tornadomeet,欢迎交流!)
    展开全文
  • 基于运动特征的人体异常行为识别,桑海峰,郭昊,为了提高监控视频中人体异常行为识别的实时性和准确率,提出了基于运动特征的人体异常行为识别方法。利用分块更新的背景差法从图
  • 人体行为识别数据库

    千次阅读 2019-11-16 21:01:09
    视频行为数据集 传统的通用的数据集: 1、KTH数据集:2004年发布,包含 6 类人体行为:行走、慢跑、奔跑、拳击、挥手和鼓掌,每类行为由 25 个人在四种不同的场景(室外、伴有尺度变化的室外、伴有衣着变化的 室外、...

    视频行为数据集

    传统的通用的数据集:

    1、KTH数据集:2004年发布,包含 6 类人体行为:行走、慢跑、奔跑、拳击、挥手和鼓掌,每类行为由 25 个人在四种不同的场景(室外、伴有尺度变化的室外、伴有衣着变化的 室外、室内)执行多次,相机固定。该数据库总共有 2391个视频样本。视频帧率为 25 fps,分 辨率为 160×120,平均长度为 4 秒。
    在这里插入图片描述

    2、The Weizmann Dataset:2005年发布,数据库包含了 10个动作(bend, jack, jump, pjump, run,side, skip, walk, wave1,wave2),每个动作有 9 个不同的样本。视频的视角是固定的,背景相对简单,每一帧中只有 1 个人做动作。数据库中标定数据除了类别标记外还包括:前景的行为人剪影和用于背景抽取的背景序列。
    在这里插入图片描述

    真实场景数据集

    Hollywood系列

    3、Hollywood(HOHA)数据集来自32部电影,从中抽取由不同的演员在不同的环境下执行的相同动作,该数据集包括8中行为类别,接电话、下车、握手、拥抱、亲吻、坐下、端坐、起立,并具有一个或多个标签.该数据集被划分成两部分:从12部电影获得的2个训练集和从其余的20部电影获得的测试集.其中, 2个训练集包括一个自动训练集和一个干净训练集.自动训练集使用自动脚本进行行为标注, 包含233个视频样本, 并具有超过60 %的正确标签; 而干净训练集则包含219个视频样本, 具有手动验证标签.测试集包含211个视频样本, 均具有手动验证标签。

    4、Hollywood2数据集是Hollywood的扩展,Hollywood 2[29]数据集是Hollywood[27]的扩展, 来自69部电影, 包含12种行为类别和10类场景, 共有3 669个视频.该数据集包含两个子集:行为数据集(2 517个视频, 现实际有2 442个视频)和场景数据集(1 152个视频).行为数据集(Actions)在Hollywood[27]的基础上增加了4种行为类别:开车(DriveCar)、吃饭(Eat)、打架、跑。
    在这里插入图片描述
    5、Hollywood extended数据集是前面数据集的扩充,有937个视频,16个行为类,来自69个电影,每个视频都带有一个有序的动作序列,例如从走动到坐着然后到应答电话,在时间上定位每个动作,并给其表签,视频注释和动作标签出现的顺序一致。
    在这里插入图片描述
    UCF系列数据库

    美国University of central Florida(UCF)自2007年以来发布的一系列数据库:UCF sports action dataset(2008),UCF Youtube(2008),UCF50,UCF101等,引起了广泛关注。
    这些数据库样本来自从 BBC/ESPN的广播电视频道收集的各类运动样本、以及从互联网尤其是视频网站YouTube上下载而来的样本。

    6、ucf sports:包含10类人体行为:跳水、打高尔夫球,踢、举重、骑马、奔跑、滑板、鞍马、高低杠、行走。该数据库来源于广播电视频道:如bbc和espn,该数据库共包含150个分辨率为720*480的视频序列,帧率10fps,没个视频平均6.39s,数据库包含了大量行为视频、场景和视角的变化。
    在这里插入图片描述
    7、ucf youtube(ucf 11):包含11个行为类:投篮、骑自行车、跳水、打高尔夫球、骑马、足球杂耍、荡秋千、打网球、跳床、打排球、遛狗。由于相机运动,物体外观和姿态,物体比例,视点,杂乱的背景,照明条件等的巨大差异,此数据集非常具有挑战性。对于每个类别,视频都分为25组,其中包含4个以上的动作剪辑。 同一组中的视频片段具有一些共同的特征,例如相同的演员,相似的背景,相似的视点等等。
    在这里插入图片描述
    8、ucf 101:该数据集时ucf50数据集的扩充,包含101个行为,13320个时频,101个动作类别的视频分为25个组,每个组可以包含4-7个动作的视频动作类别可以分为五种类型:1)人与物体的互动2)仅身体动作3)人与人的互动4)演奏乐器5)运动。 来自同一组的视频可能具有一些共同的特征,例如相似的背景,相似的观点等。在动作方面具有最大的多样性,并且在摄像机运动,物体外观和姿势,物体比例,视点,杂乱的背景,照明条件等方面存在很大的差异。是目前为止类别较多,挑战度较大的数据集。
    在这里插入图片描述
    9、Olympic Sports数据集【Juan Carlos Niebles, Chih-Wei Chen and Li Fei-Fei. Modeling Temporal Structure of Decomposable Motion Segments for Activity Classification. 11th European Conference on Computer Vision (ECCV), 2010.】来自于YouTube, 包含运动员练习的783个视频.该数据集包含16种运动类别:跳高(high-jump)、跳远(long-jump)、三级跳远(triple-jump)、撑杆跳(pole-vault)、单手上篮(basketball lay-up)、打保龄球(bowling)、网球发球(tennis-serve)、10米跳台(platform)、铁饼(discus)、链球(hammer)、标枪(javelin)、铅球(shot put)、3米跳板(springboard)、举重抓举(snatch)、举重挺举(clean-jerk)和跳马(vault),.该数据集在亚马逊土耳其机器人的帮助下注释其类标签, 包含复杂运动、严重遮挡、相机运动等因素影响。
    在这里插入图片描述

    10、HMDB51数据集主要来源于电影, 只有一小部分来自公共数据库, 如Prelinger存档、YouTube和Google视频.该数据集包含6 849个视频, 分为51种行为类别, 每种行为包含至少101个视频.该数据集的行为类别可以归纳为5种类型: 1)普通面部动作:微笑、大笑、咀嚼、说话; 2)操纵对象的面部动作:抽烟、吃、喝; 3)普通身体运动:侧手翻、拍手、攀登、爬楼梯、俯冲、落地、反手空翻、倒立、跳、引体向上、俯卧撑、跑、坐下、仰卧起坐、翻筋斗、站起来、转身、走、挥手; 4)与对象交互的身体运动:梳头、抓球、拔剑、运球、打高尔夫、打东西、踢足球、捡东西、倒东西、推东西、骑自行车、骑马、投篮、射箭、射枪、打球棒、练剑、扔东西; 5)与人交互的身体运动:击剑、拥抱、踢人、亲吻、拳击、握手、斗剑,因为该数据集来源不同, 并伴有遮挡、相机移动、复杂背景、光照条件变化等诸多因素影响, 导致其识别准确率较低, 极具有挑战性。
    在这里插入图片描述
    11、Sports-1M[35]数据集是Google公布的一个大型视频数据集, 来自于公开的YouTube视频.该数据集包含487种体育运动项目, 共计1 133 158个视频.该数据集中每种行为类别包含1 000 ∼∼ 3 000个视频, 其中有大约5 %的视频带有多个标注.该数据集包含的体育运动项目可以分为6大类:水上运动、团队运动、冬季运动、球类运动、对抗运动、与动物运动.而且各类别在叶级层次差异很小, 如包含6个不同类型的保龄球和23个不同类型台球等.自数据集创建以来, 约有7 %的视频已经被用户删除.由于该数据集来自公开视频, 所以相机运动不受限制, 导致光流参数在视频间变化较大, 给视频的识别带来一定的困难。
    在这里插入图片描述
    12、Kinetics700
    Kinetics-700是一个大规模,高质量的YouTube视频网址数据集,其中包含各种人的动作。 还有Kinetics-600、Kinetics-400。
    该数据集由大约650000个视频组成,涵盖700个人类动作,每个动作至少有600个视频。 每个视频持续大约10秒钟,并标有一个类。 这些动作涵盖了广泛的范围,包括人 - 物体交互,如演奏乐器,以及人与人之间的互动,如握手和拥抱。

    13、Google的AVA数据集
    Google发布AVA:一个用于理解人类动作的精细标记视频数据集,是一个全新的数据集,为扩展视频序列中的每个人提供多个动作标签。AVA 由 YouTube 中公开视频的网址组成,注解了一组 80 种时空局部化的原子动作(如“走”、“踢(物体)”、“握手”等),产生了 5.76 万个视频片段、9.6 万个标记动作执行人以及总共 21 万个动作标签。见,每个示例只显示一个边界框)
    与其他动作数据集相比,AVA 具有以下重要特征:
    (1)以人为中心的注解。每个动作标签与人相关,而不是与视频或剪辑相关。因此,我们可以将不同标签分配到同一场景中执行不同动作的多个人(这种情况很常见)。
    (2)原子视觉动作。我们将动作标签限于很小的时间尺度(3 秒),在此范围内,动作的性质是身体活动,具有清晰的视觉特征。
    (3)现实视频材料。我们使用电影作为 AVA 的来源,从很多不同的流派和原产国取材。因此,数据中包含广泛的人类行为。
    在这里插入图片描述
    14、ActivityNet数据集旨在涵盖人们日常生活中感兴趣的各种复杂的人类活动,当前版本中包含203个行为类,每个类平均137个未修正的视频,每个视频平均有1.41个活动实例,共847小时。
    在这里插入图片描述
    15、NTU RGB+D 120:有120个类,114480个视频,每个实例都有RGB、深度、红外、3D骨骼4个版本的视频,通过三台Kinect V2 相机拍摄,RGB视频的分辨率为1920x1080,深度图和红外视频的分辨率均为512x424,并且3D骨骼数据包含每帧25个人体关节的3D坐标。

    跨光谱数据集

    16、InfAR红外数据集包括600各由红外热成像相机采集的视频序列,包含12个类,每个行为50个视频,每个视频平均4s,帧率25fps,分辨率293*256.各个视频由一个或多个人执行的单类或者多类行为,有一部分还包含多人交互。在这里插入图片描述

    跨视角数据库

    17、IXMAS IXMAS 数据库[114]包含 1650 个视频样本,共有 11 类行为,分别是:看表、叉 手、起来、踢、捡起、推、挠头、坐下、转向、行走和挥手。每类视频均包含 5 个 相机视角,其中 4 个侧视视角,1 个俯视视角。图 1.6 展示了 IXMAS 数据库中叉手 和挥手两个动作,可以看出,不同视角下,人体行为的外观差异很大。
    在这里插入图片描述
    18、NUMA 数据库[115]包含 1509 个视频样本,共有 10 类行为,分别是:单手捡起、 双手捡起、扔垃圾、四周走动、坐下、站起、穿衣服、脱衣服、扔和搬运。每类视 频分别由 3 个不同视角的 Kinect 相机在 5 种环境下采集,每类行为由 10 个人执行。 图 1.7 展示了 NUMA 数据库中搬运、单手拾起、坐下和扔四个动作。
    在这里插入图片描述
    19、WVU 数据库[116]包含 6240 个视频样本,共 12 类行为,分别是:站立、点头、 鼓掌、单手挥动、双手挥动、推、慢跑、跳跃、踢、拾起、扔和打保龄球。每类行为包含 65 个视频样本,8 个相机视角,和 IXMAS 和 NUMA 数据库相比, WVU 属于 规模较大、相机视角较多、难度较高的跨视角行为识别数据库。图 1.8 展示了 WVU 数据库中拾起和挥动双手两个动作。
    在这里插入图片描述
    20、MuHAVi 数据库[117]包含 8 个相机视角,共有 17 类行为,分别是:步行返回、跑 步停止、推、踢、突然跌倒、拉重物、拾起并扔掉物体、走路跌倒、往车内看、靠 膝盖爬行、挥动双臂、涂鸦、翻越栅栏、醉酒走路、爬楼梯、砸物体、跳跃沟壑。 每类行为同时由 7 个人执行,8 个相机分别部署在矩阵平面的 4 个侧边和 4 个角。图 1.9 展示了 MuHAVi 数据库中涂鸦和挥动手臂两个动作。
    在这里插入图片描述

    展开全文
  • 一种基于空-时快速鲁棒特征的视频词汇的人行为识别方法
  • (注:本人看过的行为识别特征提取方面的文章就10来篇,所以本综述大部分内容是参考其他的综述的,有些并不是自己的成果,个人功底还没这么雄厚…)     行为识别特征提取综述   摘要    人体行为识别...

    Reading papers_10(人体行为识别特征点提取小综述)

     

        这是本学期一门课程的论文。(注:本人看过的行为识别特征提取方面的文章就10来篇,所以本综述大部分内容是参考其他人的综述的,有些并不是自己的成果,个人功底还没这么雄厚…)

     

     

    行为识别特征提取综述

     

    摘要

     

      人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移动摄像头,视角和光照变化等因素的影响而具有很大的挑战性。本文将较全面的总结了目前行为识别中特征提取的方法,并将其特征划分为全局特征和局部特征,且分开介绍了其优缺点。

     

    关键字: 行为识别 特征提取 全局特征 局部特征

     

     

    1. 前言

     

      如今人体行为识别是计算机视觉研究的一个热点,人体行为识别的目标是从一个未知的视频或者是图像序列中自动分析其中正在进行的行为。简单的行为识别即动作分类,给定一段视频,只需将其正确分类到已知的几个动作类别,复杂点的识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方,在干什么事情,即所谓的“W4系统”。

      下面将4个方面对行为识别做初步介绍。

     

    1.1    行为识别应用背景

      人体行为识别应用背景很广泛,主要集中在智能视频监控,病人监护系统,人机交互,虚拟现实,智能家居,智能安防,运动员辅助训练,另外基于内容的视频检索和智能图像压缩等有着广阔的应用前景和潜在的经济价值和社会价值,其中也用到了不少行为识别的方法。

     

    1.2    行为识别研究历史

      行为识别分析的相关研究可以追溯到1975年Johansson[1]的一个实验,作者提出了12点人体模型,这种描述行为的点模型方法对后来基于人体结构的行为描述算法起到了重要的指导作用。从那以后,行为识别的研历史究进展大致可以分为以下3个阶段,第1个是20世纪70年代行为分析的初步研究阶段,第2个是20世纪90年代行为分析的逐步发展阶段,第3个是最近几年来行为分析的快速发展阶段。从文献[2]~[7]这6篇较有名的行为识别综述论文可以看出, 研究行为识别的人数在不断增加,论文数量也是猛增,并且产生了许多种重要的算法和思想。

     

    1.3    行为识别方法分类体系

      关于视觉上人体运动分析和识别的方法论体系有很多种。Forsyth[8]等人侧重与将动作从视频序列中人的姿态和运动信息恢复过来,这属于一个回归问题,而人体行为识别是一个分类问题,这2个问题有很多类似点,比如说其特征的提取和描述很多是通用的。Turaga[5]等人将人体行为识别分为3部分,即移动识别(movement),动作识别(action)和行为识别(activity),这3种分类分别于低层视觉,中层视觉,高层视觉相对应。Gavrila[9]采用2D和3D的方法来分别研究人体的行为。

    对于行为识别方法论的划分中,最近出现了一种新的划分[7], Aggarwal将人体行为研究分为2大类,其一是基于单个层次来实现,其二是基于等级体系来实现。单层实现由分为时空特征和序列特征2种,等级体系实现分为统计方法,句法分析法和基于描述的方法3种。图1 Aggarwal对行为识别方法论体系的层次结构图。

     

      

    图1 行为识别方法层次结构

     

         该分类体系比较完善,也能很好的体现目前的研究进展。按照Turaga的3个层次划分理论,目前关于行为识别基本上还停留在第二个阶段,即action识别。而action识别比现实生活中的行为较简单,所以我们识别这些行为只需对这些行为进行正确的分类即可。这样一个行为识别系统就分成了行为特征提取和分类器的设计两个方面,通过对训练数据提取某种特征,采用有监督或无监督来训练一个分类模型,对新来的数据同样提取特征并送入该模型,得出分类结果。基于这个思想,本文主要是从行为识别的特征提取方面做了一个较为全面的介绍。

     

    1.4    行为识别研究难点

      行为识别发展至今,取得了很大的进展,在低层,中层和高层都取得了一定的突破,但是行为识别算法并不成熟,目前不存在一个算法适合所有的行为分类,3个视觉层次中都还有很多严峻的问题有待解决。其研究的难点主要体现在以下几个方面:

    1.4.1  动作类内类间的变化太大

      对于大多数的动作,即使是同一动作都有不同的表现形式。比如说走路,可以在不同的背景环境中完成,走路的速度也可以从慢到快,走路的步长亦有长有短。其它的动作也有类似的结果,特别是一些非周期的运动,比如过马路时候的走路,这与平时周期性的走路步伐明显不同。由此可见,动作的种类本身就很多,再加上每一种类又有很多个变种,所以给行为识别的研究带来了不少麻烦。

    1.4.2  环境背景等影响

      环境问背景等因素的影响可谓是计算机视觉各个领域的最大难点。主要有视角的多样性,同样的动作从不同的视角来观察会得到不同的二维图像;人与人之间,人与背景之间的相互遮挡也使计算机对动作的分类前期特征提取带来了困难,目前解决多视觉和遮挡问题,有学者提出了多摄像机融合通过3维重建来处理;另外其影响因素还包括动态变化和杂乱的背景,环境光照的变化,图像视频的低分辨率等。

    1.4.3  时间变化的影响

      总所周知,人体的行为离不开时间这个因素。而我们拍摄的视频其存放格式有可能不同,其播放速度有慢有快,这就导致了我们提出的系统需对视频的播放速率不敏感。

    1.4.4  数据的获取和标注

      既然把行为识别问题当成一个分类问题,就需要大量的数据来训练分类模型。而这些数据是视频数据,每一个动作在视频中出现的位置和时间都不确定,同时要考虑同一种动作的不同表现形式以及不同动作之间的区分度,即数据的多样性和全面性。这一收集过程的工作量不小,网上已经有一些公开的数据库供大家用来实验,这将在本文的第3部分进行介绍。

      另外,手动对视频数据标注非常困难。当然,有学者也提出了一些自动标注的方法,比如说利用网页图片搜索引擎[10],利用视频的字幕[11],以及利用电影描述的文本进行匹配[12][13][14]。

    1.4.5  高层视觉的理解

      上面一提到,目前对行为识别的研究尚处在动作识别这一层(action  recognition)。其处理的行为可以分为2类,一类是有限制类别的简单规则行为,比如说走、跑、挥手、弯腰、跳等。另一类是在具体的场景中特定的行为[15]~[19],如检测恐怖分子异常行为,丢包后突然离开等。在这种场景下对行为的描述有严格的限制,此时其描述一般采用了运动或者轨迹。这2种行为识别的研究都还不算完善,遇到了不少问题,且离高层的行为识别要求还相差很远。因此高层视觉的理解表示和识别是一个巨大的难题。

     

    2. 行为识别特征提取

     

      这一节中,将主要讨论怎样从图片序列中提取特征。本文将行为识别的特征分为2大类:全局特征和局部特征。

      全局特征是把一对象当做成一个整体,这是一种从上到下的研究思维。这种情况下,视频中的人必须先被定位出来,这个可以采用背景减图或者目标跟踪算法。然后对定位出来的目标进行某种编码,这样就形成了其全局特征。这种全局特征是有效的,因为它包含了人体非常多的信息。然而它又太依赖而底层视觉的处理,比如说精确的背景减图,人体定位和跟踪。而这些处理过程本身也是计算机视觉中的难点之处。另外这些全局特征对噪声,视角变化,遮挡等非常敏感。

      局部特征提取是收集人体的相对独立的图像块,是一种从下到上的研究思维。一般的做法是先提取视频中的一些时空兴趣点,然后在这些点的周围提取相应的图像块,最后将这些图像块组合成一起来描述一个特定的动作。局部特征的优点是其不依赖而底层的人体分割定位和跟踪,且对噪声和遮挡问题不是很敏感。但是它需要提取足够数量的稳定的且与动作类别相关的兴趣点,因此需要不少预处理过程。

    2.1    全局特征提取

      全局特征是对检测出来的整个感兴趣的人体进行描述,一般是通过背景减图或者跟踪的方法来得到,通常采用的是人体的边缘,剪影轮廓,光流等信息。而这些特征对噪声,部分遮挡,视角的变化比较敏感。下面分别从其二维特征和三维特征做介绍。

     

    2.1.1 二维全局特征提取

    Davis[20]等人最早采用轮廓来描述人体的运动信息,其用MEI和MHI 2个模板来保存对应的一个动作信息,然后用马氏距离分类器来进行识别。MEI为运动能量图,用来指示运动在哪些部位发生过,MHI为运动历史图,除了体现运动发生的空间位置外还体现了运动的时间先后顺序。这2种特征都是从背景减图中获取的。图2是坐下,挥手,蹲伏这3个动作的运动历史图MHI。

                                 

    图2 三种动作对应的MHI

     

      为了提前剪影信息,Wang[21]等人利用r变换获取了人体的剪影。Hsuan-Shen[22]则提取了人体的轮廓,这些轮廓信息是用星型骨架描述基线之间夹角的,这些基线是从人体的手,脚,头等中心延长到人体的轮廓。而Wang[23]同时利用了剪影信息和轮廓信息来描述动作,即用基于轮廓的平均运动形状(MMS)和基于运动前景的平均能量(AME)两个模板来进行描述。当把轮廓和剪影模板保存下来后,新提取出的特征要与其进行比较,Daniel[24]采用欧式距离来测量其相似度,随后他又改为用倒角距离来度量[25],这样就消除了背景减图这一预处理步骤。

      除了利用轮廓剪影信息外,人体的运动信息也经常被采用。比如说基于像素级的背景差法,光流信息等。当背景差法不能很好的工作时,我们往往可以采用光流法,但是这样经常会引入运动噪声,Effos[26]只计算以人体中心点处的光流,这在一定程度上减少了噪声的影响。

     

    2.1.2  三维全局特征提取

      在三维空间中,通过给定视频中的数据可以得到3D时空体(STV),STV的计算需要精确的定位,目标对齐,有时还需背景减图。Blank[27][28]等人首次从视频序列中的剪影信息得到STV。如图3所示。然后用泊松方程导出局部时空显著点及其方向特征,其全局特征是通过对这些局部特征加权得到的,为了处理不同动作的持续时间不同的问题,Achard[29]对每一个视频采用了一系列的STV ,并且每个STV只是覆盖时间维上的一部分信息。

      还有一种途径是从STV中提取相应的局部描述子,这一部分将在局部特征提取一节中介绍,在这里,我们还是先把STV特征当做是全局特征。Batra[30]存储了STV的剪影,并且用很小的3D二进制空间块来采样STV。Yilmaz[31]提取了STV表面的不同几何特征,比如说其极大值点和极小值点。当然,也有学者Keel[32]将剪影的STV和光流信息结合起来,作为行为识别的全局特征。

                           

    图3  跳跃,走,跑3个动作的STV图

     

    2.2    局部特征提取

      人体行为识别局部特征提取是指提取人体中感兴趣的点或者块。因此不需要精确的人体定位和跟踪,并且局部特征对人体的表观变化,视觉变化和部分遮挡问题也不是很敏感。因此在行为识别中采用这种特征的分类器比较多。下面从局部特征点检测和局部特征点描述2部分来做介绍。

     

    2.2.1  局部特征点的检测

      行为识别中的局部特征点是视频中时间和空间中的点,这些点的检测发生在视频运动的突变中。因为在运动突变时产生的点包含了对人体行为分析的大部分信息。因此当人体进行平移直线运动或者匀速运动时,这些特征点就很难被检测出来。

      Laptev[33]将Harris角点扩展到3D Harris,这是时空兴趣点(STIP)族中的一个。这些时空特征点邻域的像素值在时间和空间都有显著的变化。在该算法中,邻域块的尺度大小能够自适应时间维和空间维。该时空特征点如图4所示。

                        

    图4  时空特征点检测图

     

         Dollar[34]指出上述那种方法存在一个缺点,即检测出来稳定的兴趣点的数量太少,因此Dollar单独的在时间维和空间维先采用gabor滤波器进行滤波,这样的话检测出来兴趣点的数目就会随着时间和空间的局部邻域尺寸的改变而改变。类似的,Rapantzikos[35]在3个维度上分别应用离散小波变换,通过每一维的低通和高通的滤波响应来选择时空显著点。同时,为了整合颜色和运动信息,Rapantzikos[36]加入了彩色和运动信息来计算其显著点。

         与检测整个人体中兴趣点的出发思路不同,Wong[37]首先检测与运动相关的子空间中的兴趣点,这些子空间对应着一部分的运动,比如说手臂摆动,在这些子空间中,一些稀疏的兴趣点就被检测出来了。类似的方法,Bregonzio[38]首先通过计算后面帧的不同来估计视觉注意的焦点,然后利用gabor滤波在这些区域来检测显著点。

     

    2.2.2  局部特征点的描述

      局部特征描述是对图像或者视频中的一个块进行描述,其描述子应该对背景的杂乱程度,尺度和方向变化等均不敏感。一个图像块的空间和时间尺寸大小通常取决于检测到的兴趣点的尺寸。图5显示的是cuboids描述子[34]。

                           

                                            图5 cuboids描述子

     

      特征块也可以用基于局部特征的网格来描述,因为一个网格包括了局部观察到的领域像素,将其看成一个块,这样就减少了时间和空间的局部变化的影响。二维的SURF特征[39]被Willems[40]扩展到了3维,这些eSURF特征的每个cell都包含了全部Harr-wavelet特征。Laotev[14]使用了局部HOG(梯度直方图)和HOF(光流直方图)。Klaser[41]将HOG特征扩展到3维,即形成了3D-HOG。3D-HOG的每个bin都是由规则的多面体构成,3D-HOG允许 在多尺度下对cuboids进行快速密度采样。这种将二维特征点检测的算法扩展到3维特征点类似的工作还有是将SIFT算法[42]扩展到3维SIFT Scovanner[43]。在Wang[44]的文章中,他比较了各种局部描述算子,并发现在大多数情况下整合了梯度和光流信息的描述算子其效果最好。

      另外还有一种描述子比较流行,即单词袋[45][46],这是利用的单词频率直方图特征。

     

    2.3    全局、局部特征融合

      全局和局部特征的融合,结合了全局特征的足够信息量和局部特征的对视角变化,部分遮挡问题不敏感,抗干扰性强的优点。这样的文章比较多,其主要思想结合从2.1和2.2的方法。Thi[47]就将这2种特征结合得很好,其全局特征是采用前面介绍的MHI算子,并且采用AIFT算法[48]进一步选择更好的MHI。局部特征也是采用前面提到的STIP特征,并且采用SBFC(稀疏贝叶斯特征选择)[49]算法过滤掉一些噪声比较大的特征点。最后将2种特征送入到扩展的3维ISM模型中,其ISM[50]是一种目标识别常用算法,即训练出目标的隐式形状模型。Thi[47]的方法结构如图6所示。

                                    

          图6 局部特征和全局特征结合

     

     

    3. 行为识别常见数据库

    3.1    Weizmann

      Weizmann[27]数据库包含了10个动作分别是走,跑,跳,飞跳,向一侧移动,单只手挥动,2只手挥动,单跳,2只手臂挥动起跳,每个动作有10个人执行。在这个视频集中,其背景是静止的,且前景提供了剪影信息。该数据集较为简单。

    3.2    KTH

      KTH[45]行人数据库包含了6种动作,分别为走,慢跑,跑挥手和鼓掌。每种动作由25个不同的人完成。每个人在完成这些动作时又是在4个不同的场景中完成的,4个场景分别为室外,室内,室外放大,室外且穿不同颜色的衣服。

    3.3    PETS

      PETS[51],其全称为跟踪与监控性能评估会议,它的数据库是从现实生活中获取的,主要来源于直接从视频监控系统拍摄的视频,比如说超市的监控系统。从2000年以后,基本上每年都会组织召开这个会议。

    3.4    UCF

        UCF包含个数据集,这里是指UCF的运动数据库[52],该视频数据包括了150个视频序列,共有13个动作。因为是现实生活中的视频数据,所以其背景比较复杂,这些种类的动作识别起来有些困难。

    3.5    INRIA XMAS

      INRIA XMAS数据库[53]是从5个视角拍摄的,室内的4个方向和头顶的1个方向。总共有11个人完成14种不同的动作,动作可以沿着任意方向执行。摄像机是静止的,环境的光照条件也基本不变。另外该数据集还提供有人体轮廓和体积元等信息。

    3.6    Hollywood

      Hollywood电影的数据库包含有几个,其一[14]的视频集有8种动作,分别是接电话,下轿车,握手,拥抱,接吻,坐下,起立,站立。这些动作都是从电影中直接抽取的,由不同的演员在不同的环境下演的。其二[54]在上面的基础上又增加了4个动作,骑车,吃饭,打架,跑。并且其训练集给出了电影的自动描述文本标注,另外一些是由人工标注的。因为有遮挡,移动摄像机,动态背景等因素,所以这个数据集非常有挑战。

     

     

    4. 总结

     

      本文较全面的介绍了行为识别中特征提取的方法,并将其分为全局特征提取和局部特征提取2个部分介绍,虽然自行为识别研究以来已经取得了不少成果,但是由于视觉中的动态环境,遮挡等问题存在,其挑战非常大,需要提取出鲁棒性更好,适应性更强,效果更好的特征,而这仍是后面几年甚至几十年不断追求努力才能达到的目标。

     

    参考文献:

    1. Johansson, G. (1975). "Visual motion perception." Scientific American.
    2. Aggarwal, J. K. and Q. Cai (1997). Human motion analysis: A review, IEEE.
    3. Moeslund, T. B. and E. Granum (2001). "A survey of computer vision-based human motion capture." Computer vision and image understanding 81(3): 231-268.
    4. Moeslund, T. B., A. Hilton, et al. (2006). "A survey of advances in vision-based human motion capture and analysis." Computer vision and image understanding 104(2): 90-126.
    5. Turaga, P., R. Chellappa, et al. (2008). "Machine recognition of human activities: A survey." Circuits and Systems for Video Technology, IEEE Transactions on 18(11): 1473-1488.
    6. Poppe, R. (2010). "A survey on vision-based human action recognition." Image and Vision Computing 28(6): 976-990.
    7. Aggarwal, J. and M. S. Ryoo (2011). "Human activity analysis: A review." ACM Computing Surveys (CSUR) 43(3): 16.
    8. Forsyth, D. A., O. Arikan, et al. (2006). Computational studies of human motion: Tracking and motion synthesis, Now Pub.
    9. Gavrila, D. M. (1999). "The visual analysis of human movement: A survey." Computer vision and image understanding 73(1): 82-98.

      10. Ikizler-Cinbis, N., R. G. Cinbis, et al. (2009). Learning actions from the web, IEEE.

      11. Gupta, S. and R. J. Mooney (2009). Using closed captions to train activity recognizers that improve video retrieval, IEEE.

      12. Cour, T., C. Jordan, et al. (2008). Movie/script: Alignment and parsing of video and text transcription.

      13. Duchenne, O., I. Laptev, et al. (2009). Automatic annotation of human actions in video, IEEE.

      14. Laptev, I., M. Marszalek, et al. (2008). Learning realistic human actions from movies, IEEE.

      15. Haritaoglu, I., D. Harwood, et al. (1998). "W 4 S: A real-time system for detecting and tracking people in 2 1/2D." Computer Vision—ECCV'98:      877-892.

      16. Tao, D., X. Li, et al. (2006). Human carrying status in visual surveillance, IEEE.

      17. Davis, J. W. and S. R. Taylor (2002). Analysis and recognition of walking movements, IEEE.

      18. Lv, F., X. Song, et al. (2006). Left luggage detection using bayesian inference.

      19. Auvinet, E., E. Grossmann, et al. (2006). Left-luggage detection using homographies and simple heuristics.

      20. Bobick, A. F. and J. W. Davis (2001). "The recognition of human movement using temporal templates." Pattern Analysis and Machine Intelligence,        IEEE Transactions on 23(3): 257-267.

      21. Wang, Y., K. Huang, et al. (2007). Human activity recognition based on r transform, IEEE.

      22. Chen, H. S., H. T. Chen, et al. (2006). Human action recognition using star skeleton, ACM.

      23. Wang, L. and D. Suter (2006). Informative shape representations for human action recognition, Ieee.

      24. Weinland, D., E. Boyer, et al. (2007). Action recognition from arbitrary views using 3d exemplars, IEEE.

      25. Weinland, D. and E. Boyer (2008). Action recognition using exemplar-based embedding, Ieee.

      26. Efros, A. A., A. C. Berg, et al. (2003). Recognizing action at a distance, IEEE.

      27. Blank, M., L. Gorelick, et al. (2005). Actions as space-time shapes, IEEE.

      28. Gorelick, L., M. Blank, et al. (2007). "Actions as space-time shapes." Pattern Analysis and Machine Intelligence, IEEE Transactions on 29(12):          2247-2253.

      29. Achard, C., X. Qu, et al. (2008). "A novel approach for recognition of human actions with semi-global features." Machine Vision and Applications        19(1): 27-34.

      30. Batra, D., T. Chen, et al. (2008). Space-time shapelets for action recognition, IEEE.

      31. Yilmaz, A. and M. Shah (2008). "A differential geometric approach to representing the human actions." Computer vision and image understanding           109(3): 335-351.

      32. Ke, Y., R. Sukthankar, et al. (2007). Spatio-temporal shape and flow correlation for action recognition, IEEE.

      33. Laptev, I. (2005). "On space-time interest points." International journal of computer vision 64(2): 107-123.

      34. Dollár, P., V. Rabaud, et al. (2005). Behavior recognition via sparse spatio-temporal features, IEEE.

      35. Rapantzikos, K., Y. Avrithis, et al. (2007). Spatiotemporal saliency for event detection and representation in the 3D wavelet domain: potential in        human action recognition, ACM.

      36. Rapantzikos, K., Y. Avrithis, et al. (2009). Dense saliency-based spatiotemporal feature points for action recognition, Ieee.

      37. Wong, S. F. and R. Cipolla (2007). Extracting spatiotemporal interest points using global information, IEEE.

      38. Bregonzio, M., S. Gong, et al. (2009). Recognising action as clouds of space-time interest points, IEEE.

      39. Bay, H., T. Tuytelaars, et al. (2006). "Surf: Speeded up robust features." Computer Vision–ECCV 2006: 404-417.

      40. Willems, G., T. Tuytelaars, et al. (2008). "An efficient dense and scale-invariant spatio-temporal interest point detector." Computer Vision–ECCV        2008: 650-663.

      41. Klaser, A. and M. Marszalek (2008). "A spatio-temporal descriptor based on 3D-gradients."

      42. Mikolajczyk, K. and C. Schmid (2004). "Scale & affine invariant interest point detectors." International journal of computer vision 60(1): 63-86.

      43. Scovanner, P., S. Ali, et al. (2007). A 3-dimensional sift descriptor and its application to action recognition, ACM.

      44. Wang, H., M. M. Ullah, et al. (2009). "Evaluation of local spatio-temporal features for action recognition."

      45. Niebles, J. C., H. Wang, et al. (2008). "Unsupervised learning of human action categories using spatial-temporal words." International journal of        computer vision 79(3): 299-318.

      46. Schuldt, C., I. Laptev, et al. (2004). Recognizing human actions: A local SVM approach, IEEE.

      47. Thi, T. H., L. Cheng, et al. (2011). "Integrating local action elements for action analysis." Computer vision and image understanding.

      48. Liu, G., Z. Lin, et al. (2009). "Radon representation-based feature descriptor for texture classification." Image Processing, IEEE Transactions on        18(5): 921-928.

      49. Carbonetto, P., G. Dorkó, et al. (2008). "Learning to recognize objects with little supervision." International journal of computer vision 77(1): 219-       237.

      50. Leibe, B., A. Leonardis, et al. (2008). "Robust object detection with interleaved categorization and segmentation." International journal of

        computer vision 77(1): 259-289.

      51. http://www.cvg.rdg.ac.uk/slides/pets.html.

      52. Rodriguez, M. D. (2008). "Action mach a spatio-temporal maximum average correlation height filter for action recognition." CVPR.

      53. Weinland, D., R. Ronfard, et al. (2006). "Free viewpoint action recognition using motion history volumes." Computer vision and image

        understanding 104(2): 249-257.

      54. Marszalek, M., I. Laptev, et al. (2009). Actions in context, IEEE. 

     

     

     

     

     

    作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 欢迎转载或分享,但请务必声明文章出处。 (新浪微博:tornadomeet,欢迎交流!)
    展开全文
  • 人体行为识别与理解

    2016-04-27 11:03:54
    人体行为识别与理解逐渐成为如图像分析、机交互、视频检索以及智能监控等领域的基础保障,其广泛的应用前景以及潜在的社会、经济价值,已使其成为计算机视觉分析领域中备受关注的前沿方向。在各种人体行为识别方法...
  • 人类行为动力学

    千次阅读 2020-02-10 21:49:19
    人类行为动力学:相似概念【人类...研究对象:日常的行为模式; 研究目标:力图挖掘新的统计规律,并建立相应的动力学模型; 研究方式 :观察—获取和分析数据—挖掘规律—建模再现; 研究方向: 1:探索人类非...
  • (注:本人看过的行为识别特征提取方面的文章就10来篇,所以本综述大部分内容是参考其他的综述的,有些并不是自己的成果,个人功底还没这么雄厚…)     行为识别特征提取综述   摘要    人体行为识别...
  • 223-44-城市老年公交出行行为特征分析——以郑州市为例-word资料.pdf
  • 在认知心理学与心理学研究的基础上,提出一种具有时空结合、多分辨率、动态等特点的面部认知行为特征识别模型,初步抽取了11种面部认知行为特征,并建立了它们与对应面部运动单元之间的对应关系;在面部认知行为模型的...
  • 针对人体行为的局部表达,提出了一种新的局部轮廓特征来描述人体的外观姿势,可以同时利用水平和竖直方向上的轮廓变化信息。该特征能有效区分不同动作,与轮廓起始点无关,具有平移、尺度和旋转不变性。针对该特征,...
  • 基于视觉的人体运动分析是计算机领域中备受关注的前沿方向之一,而人行为理解由于在智能监控、人机交互、虚拟现实和基于内容的视频检索等方面有着广泛的应用前景更是成为了未来研究的前瞻性方向之一。行为理解问题...
  • 行为识别特征提取综述

    千次阅读 2014-07-18 20:42:23
    行为识别特征提取综述 转自:http://www.cnblogs.com/tornadomeet/archive/2012/06/22/2558548.html 主要参考“Human Activity Analysis: A Review” 摘要  人体行为识别目前处在动作识别阶段,而动作...
  • 基于CNN和VLAD的人体行为识别研究

    千次阅读 2018-03-10 10:53:18
    人体行为识别在科技、生活中有着广泛的应用,如视频监控、机交互、虚拟现实和视频检索等,因此智能的人体识别技术具有很高的研究价值和应用前景,特别是现今视频数据呈指数增长。相对于传统的人工特征方法,CNN...
  • 为了构建高质量的行为提议,将行为提议送入边界回归网络中修正边界,使之更为贴近真实数据,再将行为提议扩展为含有上下文信息的三段式特征设计,最后使用多层感知机对行为进行识别.实验结果表明,本算法在THUMOS ...
  • 为实现机器视觉代替人眼观察、认知世界以及减少背景和噪声对视频中人体特征提取的...该方法可有效获得人体时空特征、人体边缘轮廓、的运动趋势和强烈程度。实验结果表明,该方法快速,相比其他算法识别率大致提高了2%~
  • Chapter8-行为交互 郭亚军金先级 81行为交互的特点 人们在相互交流过程中除了使用语音交互外,还常借助身体语 体的姿态和动作表达意思,这就是人体行为交互 人体行为 表达能力 到语言交互不能起到的作用,如时装表演...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 309,915
精华内容 123,966
关键字:

人的行为特点是