行人重识别 订阅
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。 展开全文
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。
信息
主要应用
智能监控/智能安保
外文名
Person re-identification (Person re-ID)
别    名
行人再识别
专业方向
计算机视觉
中文名
行人重识别
行人重识别定义
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。 [1]  给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合 [2]  ,可广泛应用于智能视频监控、智能安保等领域。 [3] 
收起全文
精华内容
下载资源
问答
  • 行人重识别

    2017-06-08 08:55:38
    行人重识别ppt,配合 基于行人重识别的深度嵌入鉴别特征学习
  • 行人重识别(5)——行人重识别Market1501数据集介绍-附件资源
  • 介绍本次行人重识别代码实践使用的算法性能指标

    !转载请注明原文地址!——东方旅行者

    更多行人重识别文章移步我的专栏:行人重识别专栏

    一、AP(Average Precision平均准确度)和mAP(mean Average Precision平均准确度均值)

    AP衡量的是模型在单个类别上判断结果的好坏(效果好坏),是每一次正确预测的准确率平均数。mAP衡量的是模型在所有类别上AP平均值

    二、CMC(Cumulative Match Characteristic累计匹配特征)

    CMC曲线(Cumulative Match Characteristic Curve)横轴代表Rank-n纵轴代表Accuracy。如果选取Rank-n排序列表为[1,2,5,10]的话,则CMC曲线就是一个由四个点连接而成的曲线。其中每个点的Rank-n的值都为所有测试数据的Rank-n的平均值
    Rank-n代表前n个预测是否包含正确预测,取值要么为1要么为0。

    三、举例计算AP、mAP与CMC Curve

    假设一次的测试结果为:
    数据1(标签为0)的测试结果(相似度前10的数据的标签):0,1,2,3,4,5,0,7,8,9
    数据2(标签为1)的测试结果(相似度前10的数据的标签):5,0,1,3,4,5,0,7,8,9
    数据3(标签为2)的测试结果(相似度前10的数据的标签):1,0,1,3,4,2,0,7,8,9
    

    1.AP、mAP

    数据1的十次预测一共有两次正确预测,第一次正确预测的准确率为1/1=100%,第二次正确预测的准确率为2/7=28.6%,则数据1的AP为((100+28.6)/2)%=64.3%。
    同理,数据2的AP为33.3%,数据3的AP为16.7%。
    则本次测试的mAP为((64.3+33.3+16.7)/3)%=38.1%。

    2.CMC Curve

    所以,按照上述例子,计算每个数据的Rank-n(1,2,5,10)为

    1. 数据1,[1,1,1,1]
    2. 数据2,[0,0,1,1]
    3. 数据3,[0,0,0,1]

    则CMC曲线中Rank-1为0.333,Rank-2为0.333,Rank-5为0.667,Rank-10为1。
    图像为:
    CMC曲线

    展开全文
  • 介绍行人重识别(基于图像)方向的相关方法、研究热点与相关数据集。

    !转载请注明原文地址!——东方旅行者

    更多行人重识别文章移步我的专栏:行人重识别专栏

    基于图像的行人重识别

    一、表征学习方法

    基于特征描述的方法关注如何找到较好的描述行人外貌特征的模型。

    1.浅层视觉特征

    颜色与纹理等是浅层视觉特征描述图像的主要手段。基本上都是将图像划分成多个区域,对每个区域提取多种不同的底层视觉特征,组合后得到鲁棒性更好的特征表示形式。最常用的就是颜色直方图,多数情况下行人的衣服颜色结构简单,因此颜色表示是有效的特征,通常用RGB、HSV直方图表示。把RGB空间的图像转化成HSL和YUV颜色空间,观察对数颜色空间中目标像素值的分布,颜色特征在不同光照或角度等行人识别的不适环境中具有一定的不变性。形状特征如方向梯度直方图(HOG)以及局部特征,如局部不变特征–尺度不变特征变换(SIFT),SURF和Covariance描述子ELF方法中,结合RGB、YUV颜色空间的颜色直方图,具有旋转不变性的Schmid和Gabor滤波器计算纹理直方图。还有局部二值模式(LBP)、Gabor滤波器、共生矩阵等。其中中国科学院自动化所模式识别国家重点实验室廖胜才副研究员等在《Person Re-identification by Local Maximal Occurrence Representation and Metric Learning》中提出了LOMO+XQDA的行人重识别方法,在VIPeR,GRID,CUHK01和CUHK03四个数据集上均提高了在当时(2015.05.07)四个数据集上的RANK-1准确率。

    2.中层视觉特征(语义属性)

    中层视觉特征(语义属性)就是如是否携带包、是否戴眼镜、头发长短颜色等信息。相同的行人在不同视频拍摄下语义属性很少变化,具体是使用SVM定义行人图像的语义情况。语义属性可以结合属性权值与浅层特征集合,最终描述行人图像。

    3.深层视觉特征

    特征的选择技术对行人重识别的识别率的性能进行提升,如Fisher向量编码;提取颜色或纹理直方图,预先定义块或条纹形状的图像区域;或者编码区域特征描述符来建立高级视觉特征。受到多视角行为识别研究和Fisher向量编码的影响,一种捕获软矩阵的方法,即DynFV特征和捕获步态和移动轨迹的Fisher向量编码的密集短轨迹时间金字塔特征被提出。Fisher向量编码方法是首先用来解决大尺度图像分类的方法,也能改善行为识别的性能。Karanam等对行人的n幅图像的每个图像分成6个水平条带,在每个条带上计算纹理和颜色直方图。在YUV、白化的RGB颜色空间计算直方图建立颜色描述符,并用LFDA降维。T.Matsukawa等提出GOG,把一幅图像分成水平条带和局部块,每个条带用一个高斯分布建模。每个条带看作一系列这样的高斯分布,然后用一个单一的高斯分布总体表示。GOG特征提取的方法好表现在用像素级特征的一个局部高斯分布来描述全局颜色和纹理分布,并且GOG是局部颜色和纹理结构的分层模型,可以从一个人的衣服的某些部分得到。
    此外,深度学习也被应用于行人重识别的特征提取中,在AlexNet-Finetune中,开始在ImageNet数据集上预训练的基于AlexNet结构的CNN,并用这个数据集对数据进行微调。在微调过程中,不修改卷积层的权重,训练后两个全连接层。McLaughlin等采用了类似的方法,对图像提取颜色和光流特征,采用卷积神经网络(CNN)处理得到高层表征,然后用循环神经网络(RNN)捕捉时间信息,然后池化得到序列特征。T.Xiao等对来自各个领域的数据训练出同一个卷积神经网络(CNN),有些神经元学习各个领域共享的表征,而其他的神经元对特定的某个区域有效,得到鲁棒的CNN特征表示。

    4.多种特征结合

    多特征组合往往会取得好的识别效果。有的研究将图像外表特征和姿态特征相结合解决图像拍摄视角不同给图像识别带来的困难。有的采用多种特征表示图像并进行相似度计算,对计算得到的相似得分进行融合,实现图像识别。有的研究结合图像视觉特征和部分标记信息生成图像表示向量在此基础上实现更准确的图像识别。有的研究结合不完整文字描述信息提出类似技术。。有的研究提出一种新的图像特征融合方法通过组合带重叠的条块加权直方图特征和颜色名描述特征采用KISSME度量方法实现图像识别。有的研究将来自于HSV颜色空间的多个通道颜色、纹理、空间结构等不同底层特征进行融合实现图像识别。有的研究通过多属性融合和多分类器集成提高行人识别精度。有的研究提出一种基于图的多特征描述融合方法并通过图优化学习一次性学习检测图像和画廊所有图像的相似度。有的研究抽取多种底层特征采用不同的度量方法并实现多度量方法的优化集成。有的研究通过超图融合有效利用现有多个图像描述特征,超图可同时获取识别对象间的成对和高阶关联通过超图优化获得检测图像和画廊图像间的相似性。有的研究抽取多层次图像描述特征以便获得图像更多的视觉判别线索和隐含的空间结构。有的研究同时抽取图像的底层和中间层特征计算相似得分并提出一种加权方法融合各种模式。有的研究综合分析了图像特征抽取与描述算法提出基于空间金字塔的统计特征抽取框架在此基础上综合评估了各种特征抽取方法和融合策略。

    二、度量学习方法

    基于度量学习的方法关注如何找到有效的行人特征相似度的度量准则。

    由于摄像机的视角、尺度、光照、服饰与姿态变化、分辨率不同以及存在遮挡,不同摄像头间可能会失去连续的位置和运动信息,使用欧氏距离、巴氏距离等标准的距离度量来度量行人表观特征的相似度不能获得很好的重识别效果,因此,研究者们提出通过度量学习的方法。该方法获得一个新的距离度量空间,使得同一行人不同图像的特征距离小于与不同人的距离。距离度量学习方法一般是基于马氏距离而进行。2002年,Xing等提出以马氏距离为基础的度量学习算法,根据样本的类别标签,将具有相同标签的样本组成正样本对,反之组成负样本对,并以此作为约束训练得到一个马氏矩阵,通过这样学习到的距离尺度变换,使得相同的人的特征距离减小,而不同的人特征距离增大,以此开创了行人重识别中距离度量学习的先河。

    目前在行人重识别研究中有一些普遍用于比较的度量学习算法。Weinberger等提出LMNN算法,通过学习一种距离度量,使在一个新的转换空间中,对于一个输入的k个近邻属于相同的类别,而不同类别的样本与输入样本保持一定大的距离。Dikmen等对LMNN进行改进提出LMNN-R方法,用所有样本点的平均近邻边界来代替LMNN中不同样本点所采用的各自近邻边界,相较于LMNN方法具有更强的约束效果。同一年,Guillaumin等基于概率论提出了LDML算法。LDML算法基于逻辑回归的思想,使用S型函数来表示样本对是否属于等值约束的概率。Prosser等将重识别问题抽象为相对排序问题,提出Rank SVM学习到一个子空间,在这个子空间中相匹配的图像有更高的排序。

    Zheng等提出PRDC算法,相同人的图像组成同类样本对,不同行人目标之间组成异类样本对,获得度量函数对应的系数矩阵,优化目标函数使得同类样本对之间的匹配距离小于异类样本对之间的距离,对每一个样本,选择一个同类样本和异类样本与其形成三元组,在训练过程通过最小化异类样本距离减去同类样本距离的和,得到满足约束的距离度量矩阵。算法的基本思想在于增加正确匹配之间会拥有较短距离的可能性。2013年,Zheng等在PRDC的基础上提出了一种相对距离比较算法RDC,RDC采用Adaboost算法来减少对标注样本的需求。

    Kostinger等提出KISSME算法,认为所有相似样本对和不相似样本对的差向量均满足一个高斯分布,因此可以通过相似和不相似训练样本对分别大致计算出均值向量和协方差矩阵。给定两个样本组成的样本对,作者分别计算该样本对属于相似样本对的概率和该样本属于不相似样本对的概率,并用其比值表示两个样本之间的距离,并把该距离变幻成马氏距离的形式,而马氏距离中的矩阵正好等于相似样本对高斯分布协方差矩阵的逆减去不相似样本对高斯分布协方差矩阵的逆。因此,该方法不要用迭代优化过程,适合用于大尺度数据的距离度量学习。

    Pedagadi等提出LFDA算法进行度量学习,该方法在进行特征提取的时候,首先提取不同特征的主要成分,然后拼接成特征向量。在距离度量学习上,该方法考虑不是对所有样本点都给予相同的权重,考虑到了局部样本点,应用局部Fisher判别分析方法为降维的特征提供有识别能力的空间,提高度量学习的识别率。

    Liao等提出了XQDA算法,这是KISSME算法在多场景下的推广。XQDA算法对多场景的数据进行学习,获得原有样本的一个子空间,同时学习一个与子空间对应的距离度量函数,该距离度量函数分别用来度量同类样本和非同类样本。

    三、深度学习方法

    深度学习方法中
    根据训练损失函数的不同可以分为基于表征学习的方法和基于度量学习的方法。
    根据方法原理不同可以将近几年行人重识别的研究分为区域(region)、注意力(attention)、姿势(pose)和生成对抗性网络(GAN)四类方法。下面分别从基于表征学习的方法、基于度量学习的方法和四类研究热点进行介绍。

    1.按照损失函数分类

    1.1基于表征学习的方法

    虽然行人重识别的最终目标是为了学习出两张图片之间的相似度,但是表征学习的方法并没有直接在训练网络的时候考虑图片间的相似度,而把行人重识别任务当做分类问题或者验证问题来看待。这类方法的特点就是网络的最后一层全连接层输出的并不是最终使用的图像特征向量,而是经过一个Softmax激活函数来计算表征学习损失,前一层(倒数第二层)FC层通常为特征向量层。具体言之,分类问题是指利用行人的ID或者属性等作为训练标签来训练模型,每次只需要输入一张图片;验证问题是指输入一对(两张)行人图片,让网络来学习这两张图片是否属于同一个行人。分类网络常用的两种损失分别是行人ID损失和属性损失。IDE网络将每一个行人当做分类问题的一个类别,用行人的ID作为训练数据的标签来训练CNN网络,这个网络损失被称为ID损失。IDE网络是行人重识别领域非常重要的baseline基准。后来部分研究者认为,光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。因此,他们利用了额外标注的行人图片的属性信息,例如性别、头发、衣着等属性,通过引入行人属性标签计算属性损失。训练好的网络不但要准确地预测出行人ID,还要预测出各项行人属性,这大大增加了网络的泛化能力。通过结合ID损失和属性损失能够提高网络的泛化能力。验证网络是另外一种常用于行人重识别任务的表征学习方法。和分类网络不同之处在于,验证网络每次需要输入两张图片,这两张图片经过一个共享的CNN,将网络输出的两个特征向量融合起来,输入到一个只有两个神经元的FC层,来预测这两幅图片是否属于同一个行人。因此,验证网络本质上是一个多输入单输出的二分类网络。通常,仅仅使用验证损失训练网络是非常低效的,所以验证损失会与ID损失一起使用来训练网络。
    表征学习可以近似看作为学习样本在特征空间的分界面。

    1.2基于度量学习的方法

    度量学习不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,表现为同一行人的不同图片间的相似度大于不同行人的不同图片。具体为,定义一个映射f(x):RF→RD,将图片从原始域映射到特征域,之后再定义一个距离度量函数D(x,y):RD×RD→R,来计算两个特征向量之间的距离。最后通过最小化网络的度量损失,来寻找一个最优的映射f(x),使得相同行人两张图片(正样本对)的距离尽可能小,不同行人两张图片(负样本对)的距离尽可能大。而这个映射f(x),就是我们训练得到的深度卷积网络。首先,假如有两张输入图片I1和I2,通过网络的前向传播我们可以得到它们(归一化后)的特征向量fI1和fI2。之后我们需要定义一个距离度量函数,这个函数并不唯一,只要能够在特征空间描述特征向量的相似度或差异度的函数均可以作为距离度量函数。通常,为了实现端对端训练的网络,度量函数尽可能连续可导,使用特征的欧氏距离或者余弦距离作为度量函数,同时曼哈顿距离、汉明距离、马氏距离等距离也可以作为度量学习的距离度量函数。常用的度量学习损失方法包括对比损失(Contrastive loss)、三元组损失(Triplet loss)、四元组损失(Quadruplet loss)。对比损失用于训练孪生网络。三元组损失是一种被广泛应用的度量学习损失,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组包括一对正样本对和一对负样本对。三张图片分别命名为固定图片a,正样本图片p和负样本图片n。图片a和图片p为一对正样本对,图片a和图片n为一对负样本对。四元组损失是三元组损失的另一个改进版本,四元组需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片a,正样本图片p,负样本图片n1和负样本图片n2。其中n1和n2是两张不同行人ID的图片。这些方法在计算度量损失时,样本对都是从训练集中随机挑选。随机挑选样本对的方法可能经常挑选出一些容易识别的样本对组成训练批次,使得网络泛化能力受限。为此,部分学者提出了难样本采样的方法,来挑选出难样本对训练网络。常用的思路是挑选出一个训练Batch中特征向量距离比较大(非常不像)的正样本对和特征向量距离比较小(非常像)的负样本对来训练网络。难样本采样技术可以明显改进度量学习方法的性能,加快网络的收敛,并且可以很方便地在原有度量学习方法上进行扩展,是目前广泛采用的一种技术。
    度量学习可以近似看作为样本在特征空间进行聚类。度量学习和表征学习相比,优势在于网络末尾不需要接一个分类的全连接层,因此对于训练集的行人ID数量不敏感,可以应用于训练超大规模数据集的网络。总体而言,度量学习比表征学习使用的更加广泛,性能表现也略微优于表征学习。但是目前行人重识别的数据集规模还依然有限,表征学习的方法也依然得到使用。同时,融合度量学习和表征学习训练网络的思路也在逐渐变得流行。

    1.3表征学习与度量学习的对比

    表征学习的优点在于数据集量不大的时候收敛容易,模型训练鲁棒性强,训练时间短。然而表征学习是将每一个ID的行人图片当做一个类别,当ID数量增加到百万、千万甚至更多的时候,网络最后一层是一个维度非常高的全连接层,使得网络参数量巨大并且收敛困难。
    由于直接计算特征之间的距离,度量学习的优点在于可以很方便地扩展到新的数据集,不需要根据ID数量来调整网络的结构,此外也可以非常好地适应ID数目巨大的训练数据。然而,度量学习相对来说收敛困难,需要比较丰富的训练经验来调整网络参数,另外收敛训练时间也比表征学习要长。
    表征学习和度量学习拥有各自的优缺点,目前学术界和工业界逐渐开始联合两种学习损失。联合的方式也比较直接,在传统度量学习方法的基础上,在特征层后面再添加一个全连接层进行ID分类学习。网络同时优化表征学习损失和度量学习损失,来共同优化特征层。

    2.按照研究方向分类

    2.1基于区域的方法

    基于区域的方法将行人图像分成水平条纹或者几个均匀的部分,可以有效的观察各个分区的差异值;可优化内部一致性,以便更好的提取颜色和纹理特征;结合卷积神经网络使模型具有学习的能力;对于部分遮挡和姿势小规模的变化具有鲁棒性;但是这类方法对于遮挡和姿势不对齐等问题还存在大的挑战,对于行人图像姿势的大幅度变化还有待提高。
    基于区域的方法大致可以分为水平条纹分区、局部特征与局部全局特征协同三种。
    水平条纹分区:由于图像的像素不稳定,故需要一个有效的表示来对行人进行特征提取和匹配。2014年Yi等人提出了深度量度学习方法(DML),此方法是受到孪生神经网络的启发,用孪生卷积神经网络、将目标行人图像强行分成三个大的部分来评估两图像的相似性,此方法从理论上说,应该是归类于基于部件的方法,但是深入观察,发现与基于条纹的方法也有相似之处。在此之前也有一些较好的量度学习方法,比如2012年Kostinger等人验证了KISSME方法比同类方法效果略优;Zheng等人提出相对距离比较(RDC)模型,并在三个公开的数据集上进行了实验,实验结果表明相对距离比较(RDC)明显优于当下流行的其它模型。多次实验还发现新的相对距离比较(RDC)模型对外观和视觉效果更好,更具鲁棒性,同时减少了模型的过度拟合性。在后续工作中Tao等人又在Zheng等人的基础上进行了优化和扩展。深度量度学习(DML)较前面几个方法优势在于模型中学习的多通道滤波器可以同时检测纹理和颜色特征,明显比传统方法中的简单融合更合理,也使得识别过程更具灵活性。
    局部特征:早期的一些研究会假设几何和光照等因素的变化,并且可以从样本中学习模型参数。2014年Li等人提出一种新的滤波器配对神经网络(FPNN)模型来进行行人重识别。文献中提出的滤波器配对神经网络,利用滤波器和最大分组层来学习光度变换。此模型较深度量度学习更细致,把行人分成更多小块来计算相似性,在深度神经网络下统一完成未对准、遮挡和光度变化等问题的处理,使识别通道的各个部件联合起来工作,提高了识别的灵活性。许多研究想通过改进原来的方法来提高行人的识别效率,然而不少识别方法中的视觉特征表示是手动的,但手动的方法容易失去空间信息导致辨别率下降,使用基于贴片的局部特征可以适当的提高辨别率,但是没有根本的解决问题,要更好解决问题还是要求模型有从数据中学习的能力。
    局部全局特征协同:前人利用深度学习的优势,使得行人重识别技术逐渐完善,现阶段还是要着力于如何降低外界因素对行人重识别的影响和加强局部特征之间的联系。2017年Yao等人提出部分损失网络(PL-Net)的深度学习的方法。文献提出只看全局特征是局限的,所以把目标人物分成几个部分来进行表示,但没有考虑几个局部特征之间的联系和不对齐,依然没有根本解决问题。2017年Zhang等人基于部件的方法提出了对齐识别(Aligned Reid)模型,实现了局部特征和全局特征协同工作。

    2.2基于注意力机制的方法

    针对行人的脸部是模糊的,可以考虑从行人身体上其它比较特别的局部特征入手。此类方法对于行人的遮挡和分辨率不高等问题有一定的帮助,但是在识别的过程中有可能丢失更重要的数据信息,导致识别效率不高。
    在实际情况中,行人姿势复杂,划分的边界框不一定能够适应所有的行人,实现起来和理想状态总有一定的差距,就算用复杂的匹配技术也不一定能够得到理想的结果。针对此问题,2017年Zhao等人受到注意力模型的启发提出了部分对齐(Part-Aligned)方法。主要步骤是,把在匹配的过程中有区别的局部进行检测。先计算局部的表示,最后汇总各个部分之间的相似性。文章中提出的局部对齐特征表示提取器,也是一个深度神经网络,是由完全卷积神经网络(FCNN)组成,实验得出较好的结果。通过研究者们分析得出,虽然在卷积神经网络的贡献下,结果有明显的提高,但还是存在一些识别死角。例如对细粒度综合特征的行人识别,没有得到充分的解决。故2017年Liu等人基于注意力神经网络,提出一种对细粒度特征识别有优势的HydraPlus-Net(HPnet)网络模型。它主要是通过将多层的注意力图以多方向地反馈到不同的层,从而达到识别目的。之前提到遮挡、背景杂波和行人姿势的大幅度形变等客观因素引起的问题依然存在。在检测过程中,为提高实验效果,研究者们针对这些客观因素引起的复杂问题提出许多行之有效的方法。如自动检测的行人检测框,此类基于注意力识别的方法模型,可以解决一定的遮挡和背景杂波等问题。还有一些思路是想通过选择注意力行人检测框来解决遮挡等问题,主流的方法是局部斑块校准匹配和显着性加权。2018年,在原来研究成果的基础上,受注意力神经网络启发,Li等人提出了注意力融合卷积神经网络(HA-CNN)模型,用于硬区域和软像素联合学习,同时优化特征表示,从而达到优化图像未对准情况的行人识别。在最近的研究中就遮挡的问题又有了新的成就。2018年Li等提出了一种新的时空注意力模型,此模型可以自动的发现行人身体的各个特殊部位。利用多个空间注意力模型提取每个图像帧的有用部位信息,并且通过时间注意力模型整合输出,允许从所有帧中提取可利用的部位信息,对遮挡和错位等问题有一定的改善,并且在三大数据集上进行评估,实验结果超过了部分先进的方法。

    2.3基于姿势分类的方法

    基于姿势的方法大多是从全局和局部特征出发来缓解姿势变化,利用全局图像的完整性与不同的局部部分相结合来学习特征表示,此类方法一定程度上可以解决因姿势变化引起的行人特征形变问题。
    最先提出基于姿势的工作是Spindel Net。近期基于姿势的行人识别方法,在该问题上也取得了阶段性的成果。2017年Su等人为解决此类问题,提出了一种姿势驱动的深度卷积(PDC)模型,此模型改进了常规的特征提取和匹配模型。首先是特征嵌入子网(FEN),实现的功能是,利用人体姿势信息,将身体全局图像转换为包含规范化部分区域的图像,再通过全局特征和不同局部特征相结合学习强大的特征表示。为了进行特征匹配还设计了特征加权子网(PWN)。实验操作中首先是将姿势的信息嵌入到结构化网络当中,然后生成modified结构图像,最后是对这个结构图像进行识别。实验在三个常用的数据集上得到验证,故得出结论考虑额外姿势线索可以提高Rank-1准确率。有研究提出Date Augment的方法,主要是通过引入存在遮挡的姿势的样本库,再结合GAN生成多姿态的样本标签,用于辅助后期的训练。但是训练GAN生成的样本数据集因辨识度不高对训练模型帮助不大,其中还提出了一种姿态迁移的行人重识别框架来提高实验结果。有些研究强调姿势和嵌入,如2018年Sarfraz等就是基于姿势和嵌入提出一种行之有效姿势敏感嵌入(PSE)的方法。此方法结合人细致(如人的关节等)和粗略的姿势(全局的人像)信息来学习嵌入。

    2.4基于生成对抗网络的方法

    此类方法大多数是通过改进GAN 来增强数据集,从而减少因域间隙引起的模型过度拟合性问题。一般会结合上述类型的方法,一起完成识别过程。从实验结果来看确实部分增强了数据集,但是整体的识别效率还有待提高。
    在以上行人重识别工作中,利用深度学习很好地解决遮挡和不对齐等问题。但是通过对各个方法在数据集上的表现进行分析时发现,部分方法在某个数据集上表现较好,却在另外一个数据集上训练可能就没有那么好的实验结果。像这样因为训练数据集的改变引起的实验效果变化,很可能是模型的过度拟合导致的。解决此类问题,可以从扩大数据集和增加数据多样性方面着手。故2017年zheng等利用生成对抗性网络来生成更多模拟的数据,从实验结果来看,模型对数据集的过度依赖确实得到部分的优化,但是数据集生成的样本存在辨识度不高和有些复杂的图像出现了扭曲等问题,与真实图像差距较大。针对以上问题Liu等人提出了一种姿态迁移的行人重识别框架。在传统GAN辨别器的基础上增加一个引导子网络,使得网络能够生成更具代表性的行人重识别样本。更近一步的研究是2018年Zhong等人提出的CamStyle,主要是利用CycleGAN和标签平滑正则化(LSR)来改善模型在训练中生成扭曲图像和产生噪声的问题,改进幅度可达到17%左右,但是对生成的数据集进行分析时发现,该论文中的方法只是学习了摄像机的风格(色调),没有对行人的姿势进行处理。对行人姿势处理较好的是Zhu等人提出的姿势转移对抗性网络,将给定的行人姿势转换成目标行人的姿势,从而实现生成新的行人姿势。转换姿势的还有Song等人的研究。传统的GAN模型生成的模拟数据集之间仍然存在差异性,导致不同的数据集,在相同的模型上训练出来的结果稍有偏差,也叫域间隙。2018年Wei等人也是针对域间隙的问题提出了人员转移生成对抗性网络,来弥补领域差距。同时还提供了一个叫做MSMT17的新数据集,此数据集增加许多重要的功能,并且提供许多较复杂的图像。结合此数据集进行实验,结果表明迁移生成对抗性网络确实缩小了域间隙。

    3.各种方法rank-1与mAP对比

    下表中所有技术组合在Market1501数据集上进行性能比较。
    经典算法的性能在Market数据集上的对比

    上表来自[40]《基于深度学习的行人重识别研究进展》^{[40]}

    四、基于图像的行人重识别常见数据集

    首先解释single-shot和multi-shot的区别。single-shot是指每个行人在每个场景中只有一幅图像;multi-shot是指每个行人在每个场景中对应若干图像序列。

    1. VIPeR
      公布于2007年。拍摄场景-大学校园。由2个摄像头拍摄,包含632个行人的1264张图片。图片分辨率统一为128X48。single-shot。该数据集图像分辨率较低,识别难度大。
    2. QMUL iLIDS
      公布于2009年。拍摄场景-机场大厅。由2个摄像头拍摄,包含个119行人的476张图片。图片未统一分辨率。multi-shot。
    3. GRID
      公布于2009年。拍摄场景-地铁站。由8个摄像头拍摄,包含个1025行人的1275张图片。图片未统一分辨率。multi-shot。
    4. CAVIAR4ReID
      公布于2011年。拍摄场景-购物中心。由2个摄像头拍摄,包含72个行人的1220张图片。图片未统一分辨率。multi-shot。
    5. CUHK01
      公布于2012年。拍摄场景-大学校园。由2个摄像头拍摄,包含971个行人的3884张图片。图片分辨率统一为160X60。multi-shot。
    6. CUHK02
      公布于2013年。拍摄场景-大学校园。由10个(5对)摄像头拍摄,包含1816个行人的7264张图片。图片分辨率统一为160X60。multi-shot。
    7. CUHK03
      公布于2014年。拍摄场景-大学校园。由10个(5对)摄像头拍摄,包含1467个行人的13164张图片。图片未统一分辨率。multi-shot。
    8. RAiD
      公布于2014年。拍摄场景-公共大厅。由4个摄像头(2室内2室外)拍摄,包含43个行人的6920张图片。图片分辨率统一为128X64。multi-shot。
    9. Market-1501
      公布于年。拍摄场景-大学校园。由6个摄像头拍摄,包含1501个行人的32217张图片。图片分辨率统一为128X64。multi-shot。

    五、参考文献

    [1] 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(06): 770-780.
    [2] 张化祥, 刘丽. 行人重识别研究综述[J]. 山东师范大学学报, 2018, 33(04): 379-387.
    [3] S. Liao,Y. Hu, Xiangyu Zhu and S. Z. Li, Person re-identification by Local Maximal Occurrence representation and metric learning[C]. CVPR, 2015: 2197-2206.
    [4] MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. ICCV, 2012: 413–422.
    [5] CHEN D, YUAN Z, HUA G, 等. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]. CVPR, 2015: 1565–1573.
    [6] GOU M, ZHANG X, RATES-BORRAS A, 等. Person re-identification in appearance impaired scenarios[C]. British Machine Vision Conference, 2016: 1–48.
    [7] KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]. ICCV, 2015: 4516–4524.
    [8] SUGIYAMA. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35-61.
    [9] MATSUKAWA T, OKABE T, SUZUKI E, 等. Hierarchical gaussian descriptor for person re-identification[C]. CVPR, 2016: 1363–1372.
    [10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems, 2012: 1097–1105.
    [11] MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]. CVPR, 2012: 51–58.
    [12] XIAO T, LI H, OUYANG W, 等. Learning deep feature representations with domain guided dropout for person re-identification[C]. CVPR, 2016: 1249–1258.
    [13] WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(1): 207–244.
    [14] DIKMEN M, AKBAS E, HUANG T S, 等. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010,6495: 501-512.
    [15] GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you? Metric learning approaches for face identification[C]. ICCV, 2009: 498–505.
    [16] ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]. CVPR, 2011: 649–656.
    [17] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.
    [18] YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]. CVPR, 2014: 34–39.
    [19] LIU H, MA B, QIN L, 等. Set-label modeling and deep metric learning on person re-identification[J]. Neurocomputing, 2015(151): 1283–1292.
    [20] LI W, ZHAO R, XIAO T, 等. Deepreid: Deep filter pairing neural network for person re-identification[C]. CVPR, 2014: 152–159.
    [21] DING S, LIN L, WANG G, 等. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993-3003.
    [22] PEDAGADI S, ORWELL J, VELASTIN S, 等. Local fisher discriminant analysis for pedestrian re-identification[C]. CVPR, 2013: 3318–3325.
    [23] KOESTINGER M, HIRZER M, WOHLHART P, 等. Large scale metric learning from equivalence constraint[C].CVPR , 2012: 2288–2295.
    [24] ENGEL C, BAUMGARTNE P, HOLZMANN M, 等. Person re-identification by support vector ranking[C]. British Machine Vision Conference, 2010: 1–11.
    [25] SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]. 15th ACM International Conference on Multimedia, 2007: 357–360.
    [28] BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]. Asian Conference on Computer Vision, 2014: 633–649.
    [29] SIMONNET D, LEWANDOWSKI M, VELASTIN S.A, 等. Re-identification of pedestrians in crowds using dynamic time warping[C]. ICCV, 2012: 423–432.
    [30] MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.
    [31] WANG T, GONG S G, ZHU X, 等. Person re-identification by video ranking[C]. European Conference on Computer Vision, 2014: 688–703.
    [32] KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]. British Machine Vision Conference, British, 2008: 152–159.
    [34] YOU J, WU A, LI X, 等. Top-push video-based person re-identification[C]. CVPR, 2016: 1345–1353.
    [35] YAN Y, NI B, SONG Z, 等. Person Re-identification via recurrent feature aggregation[C]. European Conference on Computer Vision. Springer International Publishing, 2016: 701–716.
    [36] ZHOU Z,HUANG Y, WANG W, 等. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]. CVPR, 2017: 143–147.
    [37] LIU H, JIE Z, JAYASHREE K, 等. Video-based person re-identification with accumulative motion context[J]. IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.
    [38] Zhang X , Luo H , Fan X , 等. AlignedReID: Surpassing Human-Level Performance in Person
    Re-Identification[J]. 2017.
    [39] WEI L, ZHANG S, GAO W, 等. Person transfer GAN to bridge domain gap for person re-identification[C]. CVPR, 2018: 79-88.
    [40] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019, 45(11): 2032-2049

    展开全文
  • 介绍行人重识别(基于视频)方向的相关方法、研究热点与相关数据集。

    !转载请注明原文地址!——东方旅行者

    更多行人重识别文章移步我的专栏:行人重识别专栏

    基于视频的行人重识别

    一、传统方法

    摄像机拍摄的数据大多都是视频信息,可以提供更多的信息帮助我们更好地进行行人匹配与再识别。不少方法尝试去提取视频中的三维数据来进行外貌表征,如HOG3D以及3DSIFT等特征都是从广泛使用的2D扩展而来的。不少工作拿步态来研究基于视频的行人再识别问题,然而步态的获取需要行人轮廓信息域者身体部位信息等,而没有考虑行人的外貌信息。在遮挡较多、背景较复杂的监控环境下,如何提取到精确的行人轮廓或身体部位信息,仍是一个比较棘手的问题。Simonnet等提出了用动态时间弯曲距离,对视频序列进行度量学习。Wang等提出一种基于时空描述子对行人进行重识别的方法,融合了HOG3D、步态能量图(GEI),提取视频中光流强度值(FEP)进行步态周期检测,进而提取出运动特征。提出通过运动能量强度,将视频在时间上分割为不同的片段,并在匹配的过程中通过学习的方法训练一个排序模型,自动地选择最具判定性的片段。You等提出TDL,在特征提取上融合了颜色特征、LBP特征和HOG3D特征,并通过改进了LMNN算法提出TDL算法。LMNN的目标是缩小附近正样本间的差异,惩罚附近所有的负样本;而TDL的目标是缩小正样本间的差异,惩罚离得最近的负样本;所以TDL比LMNN有更强的约束。

    二、深度学习方法

    近些年来,随着深度学习发展,在基于视频的行人重识别也有所应用。以往的数据集规模不大,因此Zheng等建立了一个更大规模的基于视频序列的行人重识别数据集MARS,并用深度学习的方法在此数据集上进行实验,获得了不错的结果。未来的研究中,包括MARS在内的越来越多的大规模数据集将会作为基准数据集使用,将深度学习的方法引入到研究中,可以获得较好的重识别结果。在基于视频的行人重识别任务中,数据集是由行人序列构成,仅采用和基于图像相同的研究方法不能很好地利用数据的时间信息。然而,由于行人重识别的数据集本身较为模糊,具有很大的挑战性,传统的光流、HOG3D以及步态等提取图像运动信息的方法已经很难取得突破性进展。随着CNN在基于图像的任务中应用的成熟,部分研究者把其运用到了基于视频的领域中,此外,为了弥补CNN只能处理空间维度信息的缺陷,获取更多的时间信息,研究者们开始将RNN以及其改进模型LSTM等用于序列建模。不同于CNN的深度体现在网络层数及参数规模上,RNN/LSTM的深度主要体现在时间节点上的深度。Yan等提出提出了一种RFA-Net,先提取图像的颜色特征和LBP特征,获得基于图像的特征,然后与LSTM结合,获得基于序列的特征,充分利用序列数据集的信息。Mclaughlin等提出将输入的信息分为外观特征和光流信息,将CNN和RNN网络相结合,在CNN的基础上加入RNN使得该网络可以处理视频序列,而在RNN层上加入时域池化层使得该网络可以处理任意长度的视频,进行联合调参。Zhou等提出利用深度神经网络将特征学习和度量学习统一在一个框架下,进行端到端的训练和推理。在特征学习阶段,我们利用基于时序的注意模型来自动识别具有判别力的帧,使其在特征学习阶段具有较大的权重;度量学习阶段,我们首先逐个位置计算一对视频片段的相似度量,然后利用基于空间的循环神经网络模型来考虑空间位置的信息,使得相似度度量融合进了上下文信息而变得鲁棒,目前都取得了不错的效果。Liu等提出基于是累积运动上下文的视频人重识别,采用了时间和空间分离的两路卷积网络结构,之后将获得的表观特征和运动特征融合,作为RNN的输入,和目前现有的方法相比,该方法的rank-1非常高。

    三、基于视频的行人重识别常见数据集

    首先解释single-shot和multi-shot的区别。single-shot是指每个行人在每个场景中只有一幅图像;multi-shot是指每个行人在每个场景中对应一个视频或者若干图像序列。

    1. ETH
      公布于2007年。拍摄场景-街景。由1个摄像头移动拍摄,包含个3个视频。快照版数据集包含853528行人的8580张图片,图片未统一分辨率。/图片分辨率统一为128X48。multi-shot。
    2. 3DPES
      公布于2011年。拍摄场景-大学校园。由8个摄像头拍摄。快照版数据集包含192行人的1011张图片,图片未统一分辨率。multi-shot。
    3. PRID2011
      公布于2011年。拍摄场景-街景。由2个摄像头拍摄。快照版数据集包含934行人的24541张图片,图片分辨率统一为128X64。multi-shot。
    4. iLIDS-VID
      公布于2014年。拍摄场景-机场大厅。由2个摄像头拍摄。快照版数据集包含300行人的42495张图片,图片未统一分辨率。multi-shot。
    5. MARS
      公布于2016年。拍摄场景-大学校园。由6个摄像头拍摄。快照版数据集包含1261行人的1191003张图片,图片分辨率统一为256X128。multi-shot。

    四、参考文献

    [1] 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(06): 770-780.
    [2] 张化祥, 刘丽. 行人重识别研究综述[J]. 山东师范大学学报, 2018, 33(04): 379-387.
    [3] S. Liao,Y. Hu, Xiangyu Zhu and S. Z. Li, Person re-identification by Local Maximal Occurrence representation and metric learning[C]. CVPR, 2015: 2197-2206.
    [4] MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. ICCV, 2012: 413–422.
    [5] CHEN D, YUAN Z, HUA G, 等. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]. CVPR, 2015: 1565–1573.
    [6] GOU M, ZHANG X, RATES-BORRAS A, 等. Person re-identification in appearance impaired scenarios[C]. British Machine Vision Conference, 2016: 1–48.
    [7] KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]. ICCV, 2015: 4516–4524.
    [8] SUGIYAMA. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35-61.
    [9] MATSUKAWA T, OKABE T, SUZUKI E, 等. Hierarchical gaussian descriptor for person re-identification[C]. CVPR, 2016: 1363–1372.
    [10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems, 2012: 1097–1105.
    [11] MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]. CVPR, 2012: 51–58.
    [12] XIAO T, LI H, OUYANG W, 等. Learning deep feature representations with domain guided dropout for person re-identification[C]. CVPR, 2016: 1249–1258.
    [13] WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(1): 207–244.
    [14] DIKMEN M, AKBAS E, HUANG T S, 等. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010,6495: 501-512.
    [15] GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you? Metric learning approaches for face identification[C]. ICCV, 2009: 498–505.
    [16] ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]. CVPR, 2011: 649–656.
    [17] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.
    [18] YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]. CVPR, 2014: 34–39.
    [19] LIU H, MA B, QIN L, 等. Set-label modeling and deep metric learning on person re-identification[J]. Neurocomputing, 2015(151): 1283–1292.
    [20] LI W, ZHAO R, XIAO T, 等. Deepreid: Deep filter pairing neural network for person re-identification[C]. CVPR, 2014: 152–159.
    [21] DING S, LIN L, WANG G, 等. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993-3003.
    [22] PEDAGADI S, ORWELL J, VELASTIN S, 等. Local fisher discriminant analysis for pedestrian re-identification[C]. CVPR, 2013: 3318–3325.
    [23] KOESTINGER M, HIRZER M, WOHLHART P, 等. Large scale metric learning from equivalence constraint[C].CVPR , 2012: 2288–2295.
    [24] ENGEL C, BAUMGARTNE P, HOLZMANN M, 等. Person re-identification by support vector ranking[C]. British Machine Vision Conference, 2010: 1–11.
    [25] SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]. 15th ACM International Conference on Multimedia, 2007: 357–360.
    [28] BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]. Asian Conference on Computer Vision, 2014: 633–649.
    [29] SIMONNET D, LEWANDOWSKI M, VELASTIN S.A, 等. Re-identification of pedestrians in crowds using dynamic time warping[C]. ICCV, 2012: 423–432.
    [30] MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.
    [31] WANG T, GONG S G, ZHU X, 等. Person re-identification by video ranking[C]. European Conference on Computer Vision, 2014: 688–703.
    [32] KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]. British Machine Vision Conference, British, 2008: 152–159.
    [34] YOU J, WU A, LI X, 等. Top-push video-based person re-identification[C]. CVPR, 2016: 1345–1353.
    [35] YAN Y, NI B, SONG Z, 等. Person Re-identification via recurrent feature aggregation[C]. European Conference on Computer Vision. Springer International Publishing, 2016: 701–716.
    [36] ZHOU Z,HUANG Y, WANG W, 等. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]. CVPR, 2017: 143–147.
    [37] LIU H, JIE Z, JAYASHREE K, 等. Video-based person re-identification with accumulative motion context[J]. IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.
    [38] Zhang X , Luo H , Fan X , 等. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification[J]. arXiv preprint arXiv:1711.08184, 2017.
    [39] WEI L, ZHANG S, GAO W, 等. Person transfer GAN to bridge domain gap for person re-identification[C]. CVPR, 2018: 79-88.
    [40] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019, 45(11): 2032-2049

    展开全文
  • 行人重识别相关论文

    2018-05-26 12:47:32
    行人重识别相关论文,包括: 行人识别研究进展综述 基于度量学习和深度学习的行人重识别研究 Person Re-identification past, Present and Future PersonNet_Person_Re-identification_with_Deep_Convo Re-...
  • 前言:行人重识别(Person Re-identification)也称行人识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,...

    转自:https://zhuanlan.zhihu.com/p/31921944 

    前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。

    在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,ReID就成为了一个非常重要的替代品技术。ReID有一个非常重要的特性就是跨摄像头,所以学术论文里评价性能的时候,是要检索出不同摄像头下的相同行人图片。ReID已经在学术界研究多年,但直到最近几年随着深度学习的发展,才取得了非常巨大的突破。因此本文介绍一些近几年基于深度学习的ReID工作,由于精力有限并不能涵盖所有工作,只能介绍几篇代表性的工作。按照个人的习惯,我把这些方法分为以下几类:

    • 基于表征学习的ReID方法

    • 基于度量学习的ReID方法

    • 基于局部特征的ReID方法

    • 基于视频序列的ReID方法

    • 基于GAN造图的ReID方法

    1.基于表征学习的ReID方法

    基于表征学习(Representation learning)的方法是一类非常常用的行人重识别方法[1-4]。这主要得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展。由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征(Representation),所以有些研究者把行人重识别问题看做分类(Classification/Identification)问题或者验证(Verification)问题:(1)分类问题是指利用行人的ID或者属性等作为训练标签来训练模型;(2)验证问题是指输入一对(两张)行人图片,让网络来学习这两张图片是否属于同一个行人。

    论文[1]利用Classification/Identification loss和verification loss来训练网络,其网络示意图如下图所示。网络输入为若干对行人图片,包括分类子网络(Classification Subnet)和验证子网络(Verification Subnet)。分类子网络对图片进行ID预测,根据预测的ID来计算分类误差损失。验证子网络融合两张图片的特征,判断这两张图片是否属于同一个行人,该子网络实质上等于一个二分类网络。经过足够数据的训练,再次输入一张测试图片,网络将自动提取出一个特征,这个特征用于行人重识别任务。

    但是也有论文认为光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。在这些工作中,它们额外标注了行人图片的属性特征,例如性别、头发、衣着等属性。通过引入行人属性标签,模型不但要准确地预测出行人ID,还要预测出各项正确的行人属性,这大大增加了模型的泛化能力,多数论文也显示这种方法是有效的。下图是其中一个示例[2],从图中可以看出,网络输出的特征不仅用于预测行人的ID信息,还用于预测各项行人属性。通过结合ID损失和属性损失能够提高网络的泛化能力。

    如今依然有大量工作是基于表征学习,表征学习也成为了ReID领域的一个非常重要的baseline,并且表征学习的方法比较鲁棒,训练比较稳定,结果也比较容易复现。但是个人的实际经验感觉表征学习容易在数据集的domain上过拟合,并且当训练ID增加到一定程度的时候会显得比较乏力。

    2.基于度量学习的ReID方法

    度量学习(Metric learning)是广泛用于图像检索领域的一种方法。不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片(正样本对)的距离尽可能小,不同行人图片(负样本对)的距离尽可能大。常用的度量学习损失方法有对比损失(Contrastive loss)[5]、三元组损失(Triplet loss)[6-8]、 四元组损失(Quadruplet loss)[9]、难样本采样三元组损失(Triplet hard loss with batch hard mining, TriHard loss)[10]、边界挖掘损失(Margin sample mining loss, MSML)[11]。首先,假如有两张输入图片和,通过网络的前馈我们可以得到它们归一化后的特征向量和。我们定义这两张图片特征向量的欧式距离为:

    (1)对比损失(Contrastive loss)

    对比损失用于训练孪生网络(Siamese network),其结构图如上图所示。孪生网络的输入为一对(两张)图片和,这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签,其中表示两张图片属于同一个行人(正样本对),反之表示它们属于不同行人(负样本对)。之后,对比损失函数写作:

    其中表示 ,是根据实际需求设计的阈值参数。为了最小化损失函数,当网络输入一对正样本对,会逐渐变小,即相同ID的行人图片会逐渐在特征空间形成聚类。反之,当网络输入一对负样本对时,会逐渐变大直到超过设定的。通过最小化,最后可以使得正样本对之间的距离逐渐变小,负样本对之间的距离逐渐变大,从而满足行人重识别任务的需要。

    (2)三元组损失(Triplet loss)

    三元组损失是一种被广泛应用的度量学习损失,之后的大量度量学习方法也是基于三元组损失演变而来。顾名思义,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。三张图片分别命名为固定图片(Anchor),正样本图片(Positive)和负样本图片(Negative)。图片和图片为一对正样本对,图片和图片为一对负样本对。则三元组损失表示为:

    如下图所示,三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。

    论文[8]认为原版的Triplet loss只考虑正负样本对之间的相对距离,而并没有考虑正样本对之间的绝对距离,为此提出改进三元组损失(Improved triplet loss):

    公式添加项,保证网络不仅能够在特征空间把正负样本推开,也能保证正样本对之间的距离很近。

    (3) 四元组损失(Quadruplet loss)

    四元组损失是三元组损失的另一个改进版本。顾名思义,四元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor) ,正样本图片(Positive) ,负样本图片1(Negative1)和负样本图片2(Negative2)。其中和是两张不同行人ID的图片,其结构如上图所示。则四元组损失表示为:

    其中和是手动设置的正常数,通常设置小于,前一项称为强推动,后一项称为弱推动。相比于三元组损失只考虑正负样本间的相对距离,四元组添加的第二项不共享ID,所以考虑的是正负样本间的绝对距离。因此,四元组损失通常能让模型学习到更好的表征。

    (4)难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss)

    难样采样三元组损失(本文之后用TriHard损失表示)是三元组损失的改进版。传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。论文[10]提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。

    TriHard损失的核心思想是:对于每一个训练batch,随机挑选个ID的行人,每个行人随机挑选张不同的图片,即一个batch含有张图片。之后对于batch中的每一张图片,我们可以挑选一个最难的正样本和一个最难的负样本和组成一个三元组。

    首先我们定义和为相同ID的图片集为,剩下不同ID的图片图片集为,则TriHard损失表示为:

    其中是人为设定的阈值参数。TriHard损失会计算和batch中的每一张图片在特征空间的欧式距离,然后选出与 距离最远(最不像)的正样本和距离最近(最像)的负样本来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。

    (5)边界挖掘损失(Margin sample mining loss, MSML)

    边界样本挖掘损失(MSML)是一种引入难样本采样思想的度量学习方法。三元组损失只考虑了正负样本对之间的相对距离。为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组。四元组损失也定义为:

    假如我们忽视参数和的影响,我们可以用一种更加通用的形式表示四元组损失:

    其中和是一对负样本对,和既可以是一对正样本对也可以是一对负样本对。之后把TriHard loss的难样本挖掘思想引入进来,便可以得到:

    其中,,,均是batch中的图片,,是batch中最不像的正样本对,,是batch 中最像的负样本对,,皆可以是正样本对也可以是负样本对。概括而言TriHard损失是针对batch中的每一张图片都挑选了一个三元组,而MSML损失只挑选出最难的一个正样本对和最难的一个负样本对计算损失。所以MSML是比TriHard更难的一种难样本采样,此外可以看作是正样本对距离的上界,可以看作是负样本对的下界。MSML是为了把正负样本对的边界给推开,因此命名为边界样本挖掘损失。总的概括,MSML是同时兼顾相对距离和绝对距离并引入了难样本采样思想的度量学习方法。其演变思想如下图:

    (6)各种loss的性能对比

    在论文[11]之中,对上面提到的主要损失函数在尽可能公平的实验的条件下进行性能对比,实验结果如下表所示。作为一个参考

    3.基于局部特征的ReID方法

    早期的ReID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。

    (1)图片切块是一种很常见的提取局部特征方式[12]。如下图所示,图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到水平切割。

    之后,被分割好的若干块图像块按照顺序送到一个长短时记忆网络(Long short term memory network, LSTM),最后的特征融合了所有图像块的局部特征。但是这种缺点在于对图像对齐的要求比较高,如果两幅图像没有上下对齐,那么很可能出现头和上身对比的现象,反而使得模型判断错误。

    (2)为了解决图像不对齐情况下手动图像切片失效的问题,一些论文利用一些先验知识先将行人进行对齐,这些先验知识主要是预训练的人体姿态(Pose)和骨架关键点(Skeleton) 模型。论文[13]先用姿态估计的模型估计出行人的关键点,然后用仿射变换使得相同的关键点对齐。如下图所示,一个行人通常被分为14个关键点,这14个关键点把人体结果分为若干个区域。为了提取不同尺度上的局部特征,作者设定了三个不同的PoseBox组合。之后这三个PoseBox矫正后的图片和原始为矫正的图片一起送到网络里去提取特征,这个特征包含了全局信息和局部信息。特别提出,这个仿射变换可以在进入网络之前的预处理中进行,也可以在输入到网络后进行。如果是后者的话需要需要对仿射变换做一个改进,因为传统的仿射变化是不可导的。为了使得网络可以训练,需要引入可导的近似放射变化,在本文中不赘述相关知识。

    (3)CVPR2017的工作Spindle Net[14]也利用了14个人体关键点来提取局部特征。和论文[12]不同的是,Spindle Net并没有用仿射变换来对齐局部图像区域,而是直接利用这些关键点来抠出感兴趣区域(Region of interest, ROI)。Spindle Net网络如下图所示,首先通过骨架关键点提取的网络提取14个人体关键点,之后利用这些关键点提取7个人体结构ROI。网络中所有提取特征的CNN(橙色表示)参数都是共享的,这个CNN分成了线性的三个子网络FEN-C1、FEN-C2、FEN-C3。对于输入的一张行人图片,有一个预训练好的骨架关键点提取CNN(蓝色表示)来获得14个人体关键点,从而得到7个ROI区域,其中包括三个大区域(头、上身、下身)和四个四肢小区域。这7个ROI区域和原始图片进入同一个CNN网络提取特征。原始图片经过完整的CNN得到一个全局特征。三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。之后这8个特征按照图示的方式在不同的尺度进行联结,最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。

    (4)论文[15]提出了一种全局-局部对齐特征描述子(Global-Local-Alignment Deor, GLAD),来解决行人姿态变化的问题。与Spindle Net类似,GLAD利用提取的人体关键点把图片分为头部、上身和下身三个部分。之后将整图和三个局部图片一起输入到一个参数共享CNN网络中,最后提取的特征融合了全局和局部的特征。为了适应不同分辨率大小的图片输入,网络利用全局平均池化(Global average pooling, GAP)来提取各自的特征。和Spindle Net略微不同的是四个输入图片各自计算对应的损失,而不是融合为一个特征计算一个总的损失。

    (5)以上所有的局部特征对齐方法都需要一个额外的骨架关键点或者姿态估计的模型。而训练一个可以达到实用程度的模型需要收集足够多的训练数据,这个代价是非常大的。为了解决以上问题,AlignedReID[16]提出基于SP距离的自动对齐模型,在不需要额外信息的情况下来自动对齐局部特征。而采用的方法就是动态对齐算法,或者也叫最短路径距离。这个最短距离就是自动计算出的local distance。

    这个local distance可以和任何global distance的方法结合起来,论文[15]选择以TriHard loss作为baseline实验,最后整个网络的结构如下图所示,具体细节可以去看原论文。

    4.基于视频序列的ReID方法

    目前单帧的ReID研究还是主流,因为相对来说数据集比较小,哪怕一个单GPU的PC做一次实验也不会花太长时间。但是通常单帧图像的信息是有限的,因此有很多工作集中在利用视频序列来进行行人重识别方法的研究[17-24]。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息,还考虑了帧与帧之间的运动信息等。

    基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征,而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。上图是非常典型的思路,网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征,之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。而这个特征用于代替前面单帧方法的图像特征来训练网络。

    视频序列类的代表方法之一是累计运动背景网络(Accumulative motion context network, AMOC)[23]。AMOC输入的包括原始的图像序列和提取的光流序列。通常提取光流信息需要用到传统的光流提取算法,但是这些算法计算耗时,并且无法与深度学习网络兼容。为了能够得到一个自动提取光流的网络,作者首先训练了一个运动信息网络(Motion network, Moti Nets)。这个运动网络输入为原始的图像序列,标签为传统方法提取的光流序列。如下图所示,原始的图像序列显示在第一排,提取的光流序列显示在第二排。网络有三个光流预测的输出,分别为Pred1,Pred2,Pred3,这三个输出能够预测三个不同尺度的光流图。最后网络融合了三个尺度上的光流预测输出来得到最终光流图,预测的光流序列在第三排显示。通过最小化预测光流图和提取光流图的误差,网络能够提取出较准确的运动特征。

    AMOC的核心思想在于网络除了要提取序列图像的特征,还要提取运动光流的运动特征,其网络结构图如下图所示。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。而相邻的两帧将会送到Moti Nets来提取光流图特征。之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。通过AMOC网络,每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。网络采用了分类损失和对比损失来训练模型。融合了运动信息的序列图像特征能够提高行人重识别的准确度。

    论文[24]从另外一个角度展示了多帧序列弥补单帧信息不足的作用,目前大部分video based ReID方法还是不管三七二十一的把序列信息输给网络,让网络去自己学有用的信息,并没有直观的去解释为什么多帧信息有用。而论文[24]则很明确地指出当单帧图像遇到遮挡等情况的时候,可以用多帧的其他信息来弥补,直接诱导网络去对图片进行一个质量判断,降低质量差的帧的重要度。

    如上图,文章认为在遮挡较严重的情况下,如果用一般的pooling会造成attention map变差,遮挡区域的特征会丢失很多。而利用论文的方法每帧进行一个质量判断,就可以着重考虑那些比较完整的几帧,使得attention map比较完整。而关键的实现就是利用一个pose estimation的网络,论文叫做landmark detector。当landmark不完整的时候就证明存在遮挡,则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络,让网络对每帧进行一个权重判断,给高质量帧打上高权重,然后对feature map进行一个线性叠加。思路比较简单但是还是比较让人信服的。

    5.基于GAN造图的ReID方法

    ReID有一个非常大的问题就是数据获取困难,截止CVPR18 deadline截稿之前,最大的ReID数据集也就小几千个ID,几万张图片(序列假定只算一张)。因此在ICCV17 GAN造图做ReID挖了第一个坑之后,就有大量GAN的工作涌现,尤其是在CVPR18 deadline截稿之后arxiv出现了好几篇很好的paper。

    论文[25]是第一篇用GAN做ReID的文章,发表在ICCV17会议,虽然论文比较简单,但是作为挖坑鼻祖引出一系列很好的工作。如下图,这篇论文生成的图像质量还不是很高,甚至可以用很惨来形容。另外一个问题就是由于图像是随机生成的,也就是说是没有可以标注label可以用。为了解决这个问题,论文提出一个标签平滑的方法。实际操作也很简单,就是把label vector每一个元素的值都取一样,满足加起来为1。反正也看不出属于哪个人,那就一碗水端平。生成的图像作为训练数据加入到训练之中,由于当时的baseline还不像现在这么高,所以效果还挺明显的,至少数据量多了过拟合能避免很多。

    论文[26]是上一篇论文的加强版,来自同一个课题组。前一篇的GAN造图还是随机的,在这一篇中变成了可以控制的生成图。ReID有个问题就是不同的摄像头存在着bias,这个bias可能来自光线、角度等各个因素。为了克服这个问题,论文使用GAN将一个摄像头的图片transfer到另外一个摄像头。在GAN方面依然还是比较正常的应用,和前作不同的是这篇论文生成的图是可以控制,也就是说ID是明确的。于是标签平滑也做了改进,公式如下:

    其中是ID的数量。是手动设置的平滑参数,当时就是正常的one-hot向量,不过由于是造的图,所以希望label不要这么hard,因此加入了一个平滑参数,实验表明这样做效果不错。最终整体的网络框架如下图:

    除了摄像头的bias,ReID还有个问题就是数据集存在bias,这个bias很大一部分原因就是环境造成的。为了克服这个bias,论文[27]使用GAN把一个数据集的行人迁移到另外一个数据集。为了实现这个迁移,GAN的loss稍微设计了一下,一个是前景的绝对误差loss,一个是正常的判别器loss。判别器loss是用来判断生成的图属于哪个域,前景的loss是为了保证行人前景尽可能逼真不变。这个前景mask使用PSPnet来得到的,效果如下图。论文的另外一个贡献就是提出了一个MSMT17数据集,是个挺大的数据集,希望能够早日public出来。

    ReID的其中一个难点就是姿态的不同,为了克服这个问题论文[28]使用GAN造出了一系列标准的姿态图片。论文总共提取了8个pose,这个8个pose基本涵盖了各个角度。每一张图片都生成这样标准的8个pose,那么pose不同的问题就解决。最终用这些图片的feature进行一个average pooling得到最终的feature,这个feature融合了各个pose的信息,很好地解决的pose bias问题。无论从生成图还是从实验的结果来看,这个工作都是很不错的。这个工作把single query做成了multi query,但是你没法反驳,因为所有的图都是GAN生成的。除了生成这些图需要额外的时间开销以外,并没有利用额外的数据信息。当然这个工作也需要一个预训练的pose estimation网络来进行pose提取。

    总的来说,GAN造图都是为了从某个角度上解决ReID的困难,缺啥就让GAN来补啥,不得不说GAN还真是一个强大的东西。

    后言:以上就是基于深度学习的行人重识别研究综述,选取了部分代表性的论文,希望能够帮助刚进入这个领域的人快速了解近几年的工作。当然还有很多优秀的工作没有放进来,ICCV17的ReID文章就有十几篇。这几年加起来应该有上百篇相关文章,包括一些无监督、半监督、cross-domain等工作都没有提到,实在精力和能力有限。

    参考文献

    [1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

    [2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

    [3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

    [4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

    [5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

    [6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.

    [7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

    [8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

    [9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

    [10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

    [11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

    [12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

    [13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

    [14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

    [15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment deor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

    [16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv preprint arXiv:1711.08184.

    [17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

    [18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

    [19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.

    [20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

    [21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

    [22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

    [23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

    [24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

    [25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

    [26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

    [27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

    [28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.

    展开全文
  • 机器学习行人重识别

    2018-08-14 20:56:40
    该资源是文档形式主要讲述的是如何利用度量学习与局部显著性学习相结合实现对行人重识别
  • 行人重识别必读论文

    热门讨论 2014-07-31 10:50:32
    行人重识别是我们课题组在做的一个项目,本文档里面包含了行人重识别的必读经典论文。
  • 图像分析与机器视觉课程作业,是一篇关于行人重识别的论文《Joint Discriminative and Generative Learning for Person Re-identification》的解读报告。
  • 随着深度学习的发展,研究人员开始探索将深度学习应用于行人重识别任务并提出了大量方法,随之也迎来了新的挑战。为系统地了解这一领域的研究现状和发展趋势,首先对行人重识别任务以及存在的问题进行简单介绍;其次...
  • 行人重识别论文五篇。
  • 最近,在网上搜索关于“行人重识别”及“行人识别”等关键词,发现几乎都是关于行人检测的内容。对于“行人重(再)识别”技术能找到的资料很少,这可能是因为“行人重(再)识别”技术最近才刚刚兴起吧。总之,...
  • 一种人脸识别行人重识别关联方法.pdf
  • 介绍行人重识别系统代码实现的思路。
  • 行人重识别–Video ReID 前言 目前主流的行人重识别方法大部分是基于单帧 图像的, 然而单帧图像给予的信息终究是有限的. 此外, 单帧的方法要求图像质量很高, 这对于相机 的布置和使用的场景是一个非常大的限制, 因此...
  • 行人重识别(ReID)概述

    万次阅读 多人点赞 2018-07-24 16:57:33
    行人重识别(Person Re-identification也称行人识别,简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的...
  • 针对非重叠视角下的行人重识别和高维特征提取等问题,提出基于块稀疏表示的行人重识别方法。采取典型相关分析( CCA) 方法进行特征投影变换,通过提高特征匹配能力来避免高维特征运算引起的维数灾难问题,并在 CCA ...
  • 该代码实现了对行人重识别,准确率达到88%左右,最好的情况的下可以达到90%。
  • 2021年 行人重识别 最新综述 郑哲东 郑良
  • 行人重识别简介:   首先拿到原始的视频,从对视频中的行人进行检测,将行人图片裁剪出来,得到一系列的行人图片(图中的gallery),对于任意一张想要检索的图片,比如图中的Cam1,假设Cam1中的行人标号为A,在...
  • 行人重识别系统概述

    2021-06-13 15:17:47
    1.行人重识别系统包括行人检测和行人重识别。 2.行人重识别研究课题主要研究特征提取和相似度度量。 3.行人重识别系统过程 输入:原始视频帧和待检索行人图像。 处理:将原始视频帧输入行人重识别系统后经过行人检测...
  • 在此基础上提出的基于典型相关分析的行人重识别算法仅是一种线性降维算法,很难从复杂的重识别系统(如目标行人图像受低分辨率、光照及行人姿态变化等因素影响)中提取有效的高层语义信息,用于行人重识别。为此,本文...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,051
精华内容 7,620
关键字:

行人重识别