行人重识别 订阅
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。 展开全文
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。
信息
主要应用
智能监控/智能安保
外文名
Person re-identification (Person re-ID)
别    名
行人再识别
专业方向
计算机视觉
中文名
行人重识别
行人重识别定义
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。 [1]  给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合 [2]  ,可广泛应用于智能视频监控、智能安保等领域。 [3] 
收起全文
精华内容
参与话题
问答
  • 行人重识别

    2017-06-08 08:55:38
    行人重识别ppt,配合 基于行人重识别的深度嵌入鉴别特征学习
  • 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,...

    转自:https://zhuanlan.zhihu.com/p/31921944 

    前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。

    在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,ReID就成为了一个非常重要的替代品技术。ReID有一个非常重要的特性就是跨摄像头,所以学术论文里评价性能的时候,是要检索出不同摄像头下的相同行人图片。ReID已经在学术界研究多年,但直到最近几年随着深度学习的发展,才取得了非常巨大的突破。因此本文介绍一些近几年基于深度学习的ReID工作,由于精力有限并不能涵盖所有工作,只能介绍几篇代表性的工作。按照个人的习惯,我把这些方法分为以下几类:

    • 基于表征学习的ReID方法

    • 基于度量学习的ReID方法

    • 基于局部特征的ReID方法

    • 基于视频序列的ReID方法

    • 基于GAN造图的ReID方法

    1.基于表征学习的ReID方法

    基于表征学习(Representation learning)的方法是一类非常常用的行人重识别方法[1-4]。这主要得益于深度学习,尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展。由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征(Representation),所以有些研究者把行人重识别问题看做分类(Classification/Identification)问题或者验证(Verification)问题:(1)分类问题是指利用行人的ID或者属性等作为训练标签来训练模型;(2)验证问题是指输入一对(两张)行人图片,让网络来学习这两张图片是否属于同一个行人。

    论文[1]利用Classification/Identification loss和verification loss来训练网络,其网络示意图如下图所示。网络输入为若干对行人图片,包括分类子网络(Classification Subnet)和验证子网络(Verification Subnet)。分类子网络对图片进行ID预测,根据预测的ID来计算分类误差损失。验证子网络融合两张图片的特征,判断这两张图片是否属于同一个行人,该子网络实质上等于一个二分类网络。经过足够数据的训练,再次输入一张测试图片,网络将自动提取出一个特征,这个特征用于行人重识别任务。

    但是也有论文认为光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。在这些工作中,它们额外标注了行人图片的属性特征,例如性别、头发、衣着等属性。通过引入行人属性标签,模型不但要准确地预测出行人ID,还要预测出各项正确的行人属性,这大大增加了模型的泛化能力,多数论文也显示这种方法是有效的。下图是其中一个示例[2],从图中可以看出,网络输出的特征不仅用于预测行人的ID信息,还用于预测各项行人属性。通过结合ID损失和属性损失能够提高网络的泛化能力。

    如今依然有大量工作是基于表征学习,表征学习也成为了ReID领域的一个非常重要的baseline,并且表征学习的方法比较鲁棒,训练比较稳定,结果也比较容易复现。但是个人的实际经验感觉表征学习容易在数据集的domain上过拟合,并且当训练ID增加到一定程度的时候会显得比较乏力。

    2.基于度量学习的ReID方法

    度量学习(Metric learning)是广泛用于图像检索领域的一种方法。不同于表征学习,度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上,具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片(正样本对)的距离尽可能小,不同行人图片(负样本对)的距离尽可能大。常用的度量学习损失方法有对比损失(Contrastive loss)[5]、三元组损失(Triplet loss)[6-8]、 四元组损失(Quadruplet loss)[9]、难样本采样三元组损失(Triplet hard loss with batch hard mining, TriHard loss)[10]、边界挖掘损失(Margin sample mining loss, MSML)[11]。首先,假如有两张输入图片和,通过网络的前馈我们可以得到它们归一化后的特征向量和。我们定义这两张图片特征向量的欧式距离为:

    (1)对比损失(Contrastive loss)

    对比损失用于训练孪生网络(Siamese network),其结构图如上图所示。孪生网络的输入为一对(两张)图片和,这两张图片可以为同一行人,也可以为不同行人。每一对训练图片都有一个标签,其中表示两张图片属于同一个行人(正样本对),反之表示它们属于不同行人(负样本对)。之后,对比损失函数写作:

    其中表示 ,是根据实际需求设计的阈值参数。为了最小化损失函数,当网络输入一对正样本对,会逐渐变小,即相同ID的行人图片会逐渐在特征空间形成聚类。反之,当网络输入一对负样本对时,会逐渐变大直到超过设定的。通过最小化,最后可以使得正样本对之间的距离逐渐变小,负样本对之间的距离逐渐变大,从而满足行人重识别任务的需要。

    (2)三元组损失(Triplet loss)

    三元组损失是一种被广泛应用的度量学习损失,之后的大量度量学习方法也是基于三元组损失演变而来。顾名思义,三元组损失需要三张输入图片。和对比损失不同,一个输入的三元组(Triplet)包括一对正样本对和一对负样本对。三张图片分别命名为固定图片(Anchor),正样本图片(Positive)和负样本图片(Negative)。图片和图片为一对正样本对,图片和图片为一对负样本对。则三元组损失表示为:

    如下图所示,三元组可以拉近正样本对之间的距离,推开负样本对之间的距离,最后使得相同ID的行人图片在特征空间里形成聚类,达到行人重识别的目的。

    论文[8]认为原版的Triplet loss只考虑正负样本对之间的相对距离,而并没有考虑正样本对之间的绝对距离,为此提出改进三元组损失(Improved triplet loss):

    公式添加项,保证网络不仅能够在特征空间把正负样本推开,也能保证正样本对之间的距离很近。

    (3) 四元组损失(Quadruplet loss)

    四元组损失是三元组损失的另一个改进版本。顾名思义,四元组(Quadruplet)需要四张输入图片,和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor) ,正样本图片(Positive) ,负样本图片1(Negative1)和负样本图片2(Negative2)。其中和是两张不同行人ID的图片,其结构如上图所示。则四元组损失表示为:

    其中和是手动设置的正常数,通常设置小于,前一项称为强推动,后一项称为弱推动。相比于三元组损失只考虑正负样本间的相对距离,四元组添加的第二项不共享ID,所以考虑的是正负样本间的绝对距离。因此,四元组损失通常能让模型学习到更好的表征。

    (4)难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss)

    难样采样三元组损失(本文之后用TriHard损失表示)是三元组损失的改进版。传统的三元组随机从训练数据中抽样三张图片,这样的做法虽然比较简单,但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对,那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力,而采样难样本对的方法很多。论文[10]提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。

    TriHard损失的核心思想是:对于每一个训练batch,随机挑选个ID的行人,每个行人随机挑选张不同的图片,即一个batch含有张图片。之后对于batch中的每一张图片,我们可以挑选一个最难的正样本和一个最难的负样本和组成一个三元组。

    首先我们定义和为相同ID的图片集为,剩下不同ID的图片图片集为,则TriHard损失表示为:

    其中是人为设定的阈值参数。TriHard损失会计算和batch中的每一张图片在特征空间的欧式距离,然后选出与 距离最远(最不像)的正样本和距离最近(最像)的负样本来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。

    (5)边界挖掘损失(Margin sample mining loss, MSML)

    边界样本挖掘损失(MSML)是一种引入难样本采样思想的度量学习方法。三元组损失只考虑了正负样本对之间的相对距离。为了引入正负样本对之间的绝对距离,四元组损失加入一张负样本组成了四元组。四元组损失也定义为:

    假如我们忽视参数和的影响,我们可以用一种更加通用的形式表示四元组损失:

    其中和是一对负样本对,和既可以是一对正样本对也可以是一对负样本对。之后把TriHard loss的难样本挖掘思想引入进来,便可以得到:

    其中,,,均是batch中的图片,,是batch中最不像的正样本对,,是batch 中最像的负样本对,,皆可以是正样本对也可以是负样本对。概括而言TriHard损失是针对batch中的每一张图片都挑选了一个三元组,而MSML损失只挑选出最难的一个正样本对和最难的一个负样本对计算损失。所以MSML是比TriHard更难的一种难样本采样,此外可以看作是正样本对距离的上界,可以看作是负样本对的下界。MSML是为了把正负样本对的边界给推开,因此命名为边界样本挖掘损失。总的概括,MSML是同时兼顾相对距离和绝对距离并引入了难样本采样思想的度量学习方法。其演变思想如下图:

    (6)各种loss的性能对比

    在论文[11]之中,对上面提到的主要损失函数在尽可能公平的实验的条件下进行性能对比,实验结果如下表所示。作为一个参考

    3.基于局部特征的ReID方法

    早期的ReID研究大家还主要关注点在全局的global feature上,就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈,于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。

    (1)图片切块是一种很常见的提取局部特征方式[12]。如下图所示,图片被垂直等分为若干份,因为垂直切割更符合我们对人体识别的直观感受,所以行人重识别领域很少用到水平切割。

    之后,被分割好的若干块图像块按照顺序送到一个长短时记忆网络(Long short term memory network, LSTM),最后的特征融合了所有图像块的局部特征。但是这种缺点在于对图像对齐的要求比较高,如果两幅图像没有上下对齐,那么很可能出现头和上身对比的现象,反而使得模型判断错误。

    (2)为了解决图像不对齐情况下手动图像切片失效的问题,一些论文利用一些先验知识先将行人进行对齐,这些先验知识主要是预训练的人体姿态(Pose)和骨架关键点(Skeleton) 模型。论文[13]先用姿态估计的模型估计出行人的关键点,然后用仿射变换使得相同的关键点对齐。如下图所示,一个行人通常被分为14个关键点,这14个关键点把人体结果分为若干个区域。为了提取不同尺度上的局部特征,作者设定了三个不同的PoseBox组合。之后这三个PoseBox矫正后的图片和原始为矫正的图片一起送到网络里去提取特征,这个特征包含了全局信息和局部信息。特别提出,这个仿射变换可以在进入网络之前的预处理中进行,也可以在输入到网络后进行。如果是后者的话需要需要对仿射变换做一个改进,因为传统的仿射变化是不可导的。为了使得网络可以训练,需要引入可导的近似放射变化,在本文中不赘述相关知识。

    (3)CVPR2017的工作Spindle Net[14]也利用了14个人体关键点来提取局部特征。和论文[12]不同的是,Spindle Net并没有用仿射变换来对齐局部图像区域,而是直接利用这些关键点来抠出感兴趣区域(Region of interest, ROI)。Spindle Net网络如下图所示,首先通过骨架关键点提取的网络提取14个人体关键点,之后利用这些关键点提取7个人体结构ROI。网络中所有提取特征的CNN(橙色表示)参数都是共享的,这个CNN分成了线性的三个子网络FEN-C1、FEN-C2、FEN-C3。对于输入的一张行人图片,有一个预训练好的骨架关键点提取CNN(蓝色表示)来获得14个人体关键点,从而得到7个ROI区域,其中包括三个大区域(头、上身、下身)和四个四肢小区域。这7个ROI区域和原始图片进入同一个CNN网络提取特征。原始图片经过完整的CNN得到一个全局特征。三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。之后这8个特征按照图示的方式在不同的尺度进行联结,最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。

    (4)论文[15]提出了一种全局-局部对齐特征描述子(Global-Local-Alignment Deor, GLAD),来解决行人姿态变化的问题。与Spindle Net类似,GLAD利用提取的人体关键点把图片分为头部、上身和下身三个部分。之后将整图和三个局部图片一起输入到一个参数共享CNN网络中,最后提取的特征融合了全局和局部的特征。为了适应不同分辨率大小的图片输入,网络利用全局平均池化(Global average pooling, GAP)来提取各自的特征。和Spindle Net略微不同的是四个输入图片各自计算对应的损失,而不是融合为一个特征计算一个总的损失。

    (5)以上所有的局部特征对齐方法都需要一个额外的骨架关键点或者姿态估计的模型。而训练一个可以达到实用程度的模型需要收集足够多的训练数据,这个代价是非常大的。为了解决以上问题,AlignedReID[16]提出基于SP距离的自动对齐模型,在不需要额外信息的情况下来自动对齐局部特征。而采用的方法就是动态对齐算法,或者也叫最短路径距离。这个最短距离就是自动计算出的local distance。

    这个local distance可以和任何global distance的方法结合起来,论文[15]选择以TriHard loss作为baseline实验,最后整个网络的结构如下图所示,具体细节可以去看原论文。

    4.基于视频序列的ReID方法

    目前单帧的ReID研究还是主流,因为相对来说数据集比较小,哪怕一个单GPU的PC做一次实验也不会花太长时间。但是通常单帧图像的信息是有限的,因此有很多工作集中在利用视频序列来进行行人重识别方法的研究[17-24]。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息,还考虑了帧与帧之间的运动信息等。

    基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征,而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。上图是非常典型的思路,网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征,之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。而这个特征用于代替前面单帧方法的图像特征来训练网络。

    视频序列类的代表方法之一是累计运动背景网络(Accumulative motion context network, AMOC)[23]。AMOC输入的包括原始的图像序列和提取的光流序列。通常提取光流信息需要用到传统的光流提取算法,但是这些算法计算耗时,并且无法与深度学习网络兼容。为了能够得到一个自动提取光流的网络,作者首先训练了一个运动信息网络(Motion network, Moti Nets)。这个运动网络输入为原始的图像序列,标签为传统方法提取的光流序列。如下图所示,原始的图像序列显示在第一排,提取的光流序列显示在第二排。网络有三个光流预测的输出,分别为Pred1,Pred2,Pred3,这三个输出能够预测三个不同尺度的光流图。最后网络融合了三个尺度上的光流预测输出来得到最终光流图,预测的光流序列在第三排显示。通过最小化预测光流图和提取光流图的误差,网络能够提取出较准确的运动特征。

    AMOC的核心思想在于网络除了要提取序列图像的特征,还要提取运动光流的运动特征,其网络结构图如下图所示。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。而相邻的两帧将会送到Moti Nets来提取光流图特征。之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。通过AMOC网络,每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。网络采用了分类损失和对比损失来训练模型。融合了运动信息的序列图像特征能够提高行人重识别的准确度。

    论文[24]从另外一个角度展示了多帧序列弥补单帧信息不足的作用,目前大部分video based ReID方法还是不管三七二十一的把序列信息输给网络,让网络去自己学有用的信息,并没有直观的去解释为什么多帧信息有用。而论文[24]则很明确地指出当单帧图像遇到遮挡等情况的时候,可以用多帧的其他信息来弥补,直接诱导网络去对图片进行一个质量判断,降低质量差的帧的重要度。

    如上图,文章认为在遮挡较严重的情况下,如果用一般的pooling会造成attention map变差,遮挡区域的特征会丢失很多。而利用论文的方法每帧进行一个质量判断,就可以着重考虑那些比较完整的几帧,使得attention map比较完整。而关键的实现就是利用一个pose estimation的网络,论文叫做landmark detector。当landmark不完整的时候就证明存在遮挡,则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络,让网络对每帧进行一个权重判断,给高质量帧打上高权重,然后对feature map进行一个线性叠加。思路比较简单但是还是比较让人信服的。

    5.基于GAN造图的ReID方法

    ReID有一个非常大的问题就是数据获取困难,截止CVPR18 deadline截稿之前,最大的ReID数据集也就小几千个ID,几万张图片(序列假定只算一张)。因此在ICCV17 GAN造图做ReID挖了第一个坑之后,就有大量GAN的工作涌现,尤其是在CVPR18 deadline截稿之后arxiv出现了好几篇很好的paper。

    论文[25]是第一篇用GAN做ReID的文章,发表在ICCV17会议,虽然论文比较简单,但是作为挖坑鼻祖引出一系列很好的工作。如下图,这篇论文生成的图像质量还不是很高,甚至可以用很惨来形容。另外一个问题就是由于图像是随机生成的,也就是说是没有可以标注label可以用。为了解决这个问题,论文提出一个标签平滑的方法。实际操作也很简单,就是把label vector每一个元素的值都取一样,满足加起来为1。反正也看不出属于哪个人,那就一碗水端平。生成的图像作为训练数据加入到训练之中,由于当时的baseline还不像现在这么高,所以效果还挺明显的,至少数据量多了过拟合能避免很多。

    论文[26]是上一篇论文的加强版,来自同一个课题组。前一篇的GAN造图还是随机的,在这一篇中变成了可以控制的生成图。ReID有个问题就是不同的摄像头存在着bias,这个bias可能来自光线、角度等各个因素。为了克服这个问题,论文使用GAN将一个摄像头的图片transfer到另外一个摄像头。在GAN方面依然还是比较正常的应用,和前作不同的是这篇论文生成的图是可以控制,也就是说ID是明确的。于是标签平滑也做了改进,公式如下:

    其中是ID的数量。是手动设置的平滑参数,当时就是正常的one-hot向量,不过由于是造的图,所以希望label不要这么hard,因此加入了一个平滑参数,实验表明这样做效果不错。最终整体的网络框架如下图:

    除了摄像头的bias,ReID还有个问题就是数据集存在bias,这个bias很大一部分原因就是环境造成的。为了克服这个bias,论文[27]使用GAN把一个数据集的行人迁移到另外一个数据集。为了实现这个迁移,GAN的loss稍微设计了一下,一个是前景的绝对误差loss,一个是正常的判别器loss。判别器loss是用来判断生成的图属于哪个域,前景的loss是为了保证行人前景尽可能逼真不变。这个前景mask使用PSPnet来得到的,效果如下图。论文的另外一个贡献就是提出了一个MSMT17数据集,是个挺大的数据集,希望能够早日public出来。

    ReID的其中一个难点就是姿态的不同,为了克服这个问题论文[28]使用GAN造出了一系列标准的姿态图片。论文总共提取了8个pose,这个8个pose基本涵盖了各个角度。每一张图片都生成这样标准的8个pose,那么pose不同的问题就解决。最终用这些图片的feature进行一个average pooling得到最终的feature,这个feature融合了各个pose的信息,很好地解决的pose bias问题。无论从生成图还是从实验的结果来看,这个工作都是很不错的。这个工作把single query做成了multi query,但是你没法反驳,因为所有的图都是GAN生成的。除了生成这些图需要额外的时间开销以外,并没有利用额外的数据信息。当然这个工作也需要一个预训练的pose estimation网络来进行pose提取。

    总的来说,GAN造图都是为了从某个角度上解决ReID的困难,缺啥就让GAN来补啥,不得不说GAN还真是一个强大的东西。

    后言:以上就是基于深度学习的行人重识别研究综述,选取了部分代表性的论文,希望能够帮助刚进入这个领域的人快速了解近几年的工作。当然还有很多优秀的工作没有放进来,ICCV17的ReID文章就有十几篇。这几年加起来应该有上百篇相关文章,包括一些无监督、半监督、cross-domain等工作都没有提到,实在精力和能力有限。

    参考文献

    [1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

    [2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

    [3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

    [4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

    [5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

    [6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.

    [7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

    [8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

    [9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

    [10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

    [11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

    [12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

    [13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

    [14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

    [15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment deor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

    [16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv preprint arXiv:1711.08184.

    [17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

    [18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

    [19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.

    [20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

    [21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

    [22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

    [23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

    [24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

    [25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

    [26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

    [27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

    [28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.

    展开全文
  • 行人重识别相关论文

    2018-05-26 12:47:32
    行人重识别相关论文,包括: 行人再识别研究进展综述 基于度量学习和深度学习的行人重识别研究 Person Re-identification past, Present and Future PersonNet_Person_Re-identification_with_Deep_Convo Re-...
  • 1 Reid技术常见数据集 2 Reid技术难点 3 Reid数据采集的特点 1 Reid技术常见数据集 属性 Market1501 DukeMTMC-reID CUHK03 拍摄地点 清华大学 Duke大学 ... 行人数量 1501...


    1 Reid技术常见数据集

    属性 Market1501 DukeMTMC-reID CUHK03
    拍摄地点 清华大学 Duke大学 香港中文大学
    图片数量 32217 36441 13164
    行人数量 1501 1812 1467
    摄像头 6 8 10

    2 Reid技术难点

    Reid技术在实际应用场景下面挑战是很大的。在实际场景下的数据是非常复杂的,会受到各种因素影响。
    1. 没有正脸照,可能是背影或者是侧脸。
    2. 对于行人而言,姿态是多变的。
    3. 在不同的场景下,同一个人的配饰可能是不同的。
    4. 遮挡问题。
    5. 监控图片模糊。
    6. 季节穿衣风格变化。
    7. 相机拍摄角度差异大。
    8. 光线差异。

    上面只是Reid技术的一部分难点,真正的对行人在实际场景下进行重识别是十分苦难的。

    3 Reid数据采集的特点

    1.必须跨摄像头采集,因此对实际的采集提出了较高的要求。
    2.公开数据集的数据规模非常小。
    3.数据一般都是视频的连续截图。
    4.同一个人最好有多个全身照片。
    5.互联网提供的照片基本无法用于Reid技术。

    参考地址:https://zhuanlan.zhihu.com/p/38603624

    展开全文
  • 行人重识别必读论文

    热门讨论 2014-07-31 10:50:32
    行人重识别是我们课题组在做的一个项目,本文档里面包含了行人重识别的必读经典论文。
  • 行人重识别课程主要包括三大核心模块:1.2020经典算法(论文)详细解读;2.项目源码分析;3.实战应用;通俗讲解CVPR等会议最新行人重识别方向算法及其实现,基于PyTorch框架展开实战,逐行讲解全部项目源码及其应用...
  • 行人重识别论文

    2017-04-03 21:28:32
    行人重识别论文
  • 往往会包含行人的大部分外观信息,然而现实中并不只需要在可视条件极佳的条件下进行监控,在夜晚或者可视条件极差的场景中也有监控的需要,这个时候,红外相机拍摄的图像便可用于行人的再识别。据我所知,现阶段大...

    感谢前辈总结的论文列表,为了方便自己以后翻阅,链接搁这儿


    1. 背景

    在我们现实生活中,可见光条件下的摄像机拍到的图像,往往会包含行人的大部分外观信息,然而现实中并不只需要在可视条件极佳的条件下进行监控,在夜晚或者可视条件极差的场景中也有监控的需要,这个时候,红外相机拍摄的图像便可用于行人的再识别。据我所知,现阶段大部分ReID工作都聚焦在RGB图像这种单一模态上,而基于RGB-IR的跨模态ReID工作还没有充分引起大家的关注,虽然这方面也有一些比较有创新性的文献,但是或许碍于数据集不够丰富,或者其他什么原因,相对来说关注度还是挺低的,所以我来啦Cross-Modality Person Re-Identification。

    2. 面临的问题

    1. 数据集少(ReID界普遍存在的问题,学术界没有场景复杂,规模庞大的数据集来研究,工业界有大量数据却因为隐私问题开源不出来,害)
    2. 两种模态之间存在较大差别,RGB三通道图像,存在颜色等可见光信息,而IR(红外)图像为单通道图像,只包含非可见光信息,而且二者之间的波长范围也是不同的,因此由这两种模态的图像组成的数据集称为“异构数据”。后面提供两个这样的数据集。
    3. 除此之外,单模态ReID中的低分辨率、遮挡、视角变化等问题在跨模态中必然也是存在的。(真令人头秃)

    3. 数据集

    3.1 SYSU-MM01数据集

    这个数据集在之前一篇文章中提到过传送门
    下载链接 提取码:sysu

    3.2 RegDB数据集

    该链接需要申请才能下载,学术研究有需要的私信我

    展开全文
  • 针对行人重识别中已有方法难以解决行人图像光照、视角变化大的问题,提出了一种基于特征融合的行人重识别方法。首先利用Retinex变换对图像进行预处理;然后将CN特征与原有的颜色和纹理特征融合,并通过区域和块划分...
  • 最近,在网上搜索关于“行人重识别”及“行人再识别”等关键词,发现几乎都是关于行人检测的内容。对于“行人重(再)识别”技术能找到的资料很少,这可能是因为“行人重(再)识别”技术最近才刚刚兴起吧。总之,...

            最近,在网上搜索关于“行人重识别”及“行人再识别”等关键词,发现几乎都是关于行人检测的内容。对于“行人重(再)识别”技术能找到的资料很少,这可能是因为“行人重(再)识别”技术最近才刚刚兴起吧。总之,除了能在谷歌学术中搜到一些Person re-identification的学术论文外,其他的资料明显没有行人检测的多。由于本人主要是学习“行人重(再)识别”技术的,每次和别人提起自己的研究方向时都要费力的解释一番,因此,本人打算在这里对“行人重(再)识别”进行阐述,同时,也为以后读者阅读相关的技术文献提供一个参考。

    一、 概念解释

           “行人重(再)识别”:首先从字面上将就是对“行人”进行“识别”。其中的“重(再)”则是指“重新”、“再一次”的意思。“行人重(再)识别”技术主要是应用在视频监控方面。在刑侦工作中,刑侦人员经常要浏览多个摄像头中的视频,查找某个特定的行人在哪些摄像头曾经出现过。计算机视觉领域的学者们形象地将针对特定行人的监控视频检索问题称为行人重识别(Personre-identification)

     

     

    图1 行人重识别过程的实际应用场景可以想象成上图的样子:一个行人沿着图中红色的轨迹从左到右先后经过了拐角处的两个摄像头。注意:这两个摄像头拍摄的范围没有交叉的部分,即经过一个摄像头后,中间有一段时间没有被任何摄像头拍摄到,然后再经过第二个摄像头。

    二、“行人重(再)识别”与“行人检测”的区别

    (1)     主要应用领域的区别:

    “行人重(再)识别”主要应用于刑侦工作、图像检索等方面。

    “行人检测”主要用于智能驾驶、辅助驾驶和智能监控等相关领域。

    (2)     主要目的区别:

    “行人重(再)识别”主要目的是:判断某个摄像头中的某个行人是否曾经出现在其他的摄像头中,即需要将某个行人特征与其他行人特征进行对比,判断是否属于同一个行人。

    “行人检测”主要的目的是:检测图像或视频中是否存在行人,而不需要判断该行人特征与其他行人特征是否属于同一个行人。

    三、小结

      其实,本人一直认为 “行人重(再)识别”与“行人检测”本身就有许多的关联之处:本人在平时学习“行人重识别”过程中,使用的数据库都是从视频中剪切好的行人图片,如图2    

     

    图2 上面一行的图片由A摄像头拍摄得到,下面一行的图片由B摄像头拍摄得到。并且,上下对应的两张图片都属于同一个人的图片,只是由于光照、拍摄角度等因素,导致同一个人的两张图片有所不同。

        即数据库中的图片里一定含有行人。“行人重识别”所要做的就是先对图像进行特征提取,然后接下来做的是判断某个测试图片的特征与训练集中的哪个图片最接近。“行人检测”一般是在一张图片或一段视频中判断是否存在行人,如图3。从图2和图3中可以看出“行人重识别”和“行人检测”两种技术的区别和联系。因此,在实际的监控视频应用中,应该是先进行行人检测,把视频或图片中的行人筛选出来,输出类似图2中的结果,然后,再使用行人重识别技术识别行人。(个人观点)(注意:我们现在的行人重识别研究主要是在图片库中进行的,这些图片也都是从监控视频中剪切得到的。)

        

     

    图3 行人检测示意图

    四、 国内外研究现状(行人重识别领域)

             行人重识别问题中的图片来源于不同的摄像头,然而,由于不同摄像头所处的角度、光照等环境的影响,行人重识别问题具有以下几个特点:

             1.  由于实际监控环境中,无法使用脸部的有效信息,所以,只能利用行人的外貌特征来进行识别。

             2.  在不同摄像头中,由于尺度、光照和角度的变化,同一个行人的不同图片中,外貌特征会有一定程度的变化。

             3.  由于行人姿势及摄像头角度的变化,在不同摄像头中,不同行人的外貌特征可能比同一个人的外貌特征更相似。

             针对以上几个特点,计算机视觉领域的研究人员在最近几年里进行了大量的研究工作。

             目前,行人重识别领域的研究工作主要分为大致两类:

             1.研究行人对象的特征表示方法,提取更具有鲁棒性的鉴别特征对行人进行表示。

             2.使用距离度量学习方法,通过学习一个有判别力的距离度量函数,使得同一个人的图像间距离小于不同行人图像间的距离。

    下面分别从上述两个方面来介绍国内外研究现状:

           (1)     基于特征表示的方法

            在视频监控环境中,行人的外貌特征比较容易提取和表示。因此,同一行人的不同外貌特征具有一定的鲁棒性。

    最近几年的一些论文:

           1)  “Person re-identification by symmetry-drivenaccumulation of local features”, CVPR, 2010. 为了减少视角变化导致的外貌变化,本文提出通过基于人身体对称性的特征提取方法。首先通过一个预处理过程在人身体上划分头、躯干、腿部和左右对称中轴,然后提取除了头部以外的各区域的多种特征,包括累积颜色特征和纹理特征。并基于对称中轴对特征进行加权,越靠近中轴权值越高。下面是论文示例图。

     

    2) “Custom pictorial structures for re-identification”, BMVC,2011.本文提出类似的方法,将绘画结构应用于行人重识别。用一个自适应的身体外形结构来表示行人像,包括头、胸、大腿和小腿,然后提取每个部分的颜色特征进行精确匹配。

     

             3)“Multiple-shot person re-identification by chromatic andepitomic analyses”, Pattern Recognition Letters, Vol.33, PP. 898–903, 2012.  本文结合行人的全局和局部外貌特征进行重识别,首先根据行人在单摄像头下的连续运动提取多个关键帧图像,并用多帧图像的累积 HSV 颜色直方图表示全局特征;其次,在把人身体分割成上、下半身并去除头部区域后,提取各上、下半身多帧图像中频繁出现的块信息表示局部特征;最后加权融合全局和局部特征进行行人重识别。

           (2)     基于距离度量学习的方法

            上述基于特征的方法都是使用标准距离(如曼哈顿距离、欧氏距离和巴氏距离等)进行相似性度量。然而同一身份行人在跨越多个无重叠区摄像头时,不同外貌特征受视角、光照等因素的影响不同。标准的距离度量方法平等的对待每一种特征,而不会摒弃那些独立使用时效果很差的特征。因此,研究者尝试通过距离学习的方法,获得一个新的距离度量空间,使得同一行人不同图像的距离小于不同人间的距离。距离学习方法一般在 Mahalanobis 距离的基础上进行,通过学习一个投影矩阵,使得在投影空间中同类样本之间的距离较小,而不同类样本之间的距离较大。

            1)“Distance metric learning with application to clustering withside-information”, NIPS, 2003.本文首次提出距离测度学习的问题,他在 Mahalanobis 距离的基础上,根据样本的类别,将具有相同类别标签的样本组成正样本对,不同类别标签的样本构成负样本对,然后利用这些样本对作为约束条件来训练得到一个 Mahalanobis 矩阵,从而使得最终的距离度量函数能够尽可能地满足所给定的约束条件。

            2)“Distance metric learning for large margin nearest neighborclassification”,  Journal of Machine LearningResearch, vol. 10, pp. 207–244, 2009. 本文提出最大近邻分类间隔(large marginnearest neighbor classification, LMNN)的算法,其思想类似于支持向量机,即希望寻求一个分类超平面,使得该超平面与最靠近点的距离尽可能大。同样,LMNN 希望通过投影后,数据的邻域内的同类点向内部紧缩,不同类点向外扩张,并且之间的间隔尽可能大。

             3)“Pedestrianrecognition with a learned metric”, ACCV, 2011. 本文对 LMNN进行改进提出 LMNN-R方法,其用所有样本点的平均近邻边界来代替 LMNN 中不同样本点所采用的各自近邻边界,取得了比 LMNN 方法更强的约束效果。

             4)“PersonRe-identification by Probabilistic Relative Distance Comparison”, CVPR, 2011. 本文提出概率相对距离比较(probabilisticrelative distance comparison PRDC)的方法,在学习距离度量函数时考虑相对约束,与之前的同类距离尽可能小,不同类距离尽可能大的要求不同,其要求同类的距离小于不同类之间的距离。对每一个样本,选择一个同类样本和不同类样本形成 3 元组,在训练过程通过最小化不同类样本距离减去同类样本距离的和,得到满足约束的距离度量矩阵。

    五、总结

             第四节中介绍的两类方法各有利弊,根据本文近一年来的学习经验,基于特征表示的方法虽然运算复杂度相对度量学习方法简单,没有复杂的学习过程,但是,效果可能并不理想。基于距离度量学习方法需要一个复杂的学习过程,但是,效果比前者要好。另外,有个特例,Large Scale Metric Learning from Equivalence Constraints中将样本之间的差向量看做是高斯分布中的一个点,同类样本的差向量分布在同一个高斯分布中,而不同样本之间的差向量分布在另一个高斯分布中,然后用概率的比值来度量样本之间的距离。作者通过转换最终将高斯分布的比值转换成马氏距离的形式,马氏距离矩阵为同类样本差向量协方差的逆减去不同类样本差向量协方差的逆。该方法由于没有使用到迭代优化的算法,算法速度快,但是该方法也属于距离度量学习方法

        对于行人重识别感兴趣的读者可以关注一下相关的研究人员的个人主页,比如:郑伟诗(中山大学)、龚少刚、赵瑞、陶大成、Hirzer等,一般主页上会提供论文和代码。

     

     

     

    展开全文
  • 机器学习行人重识别

    2018-08-14 20:56:40
    该资源是文档形式主要讲述的是如何利用度量学习与局部显著性学习相结合实现对行人重识别
  • DukeMTMC-reID 下载地址:https://github.com/layumi/DukeMTMC-reID_evaluation Terms of Use You will use the data only for non-commercial research and educational purposes. You will NOT distribute t...
  • 图像分析与机器视觉课程作业,是一篇关于行人重识别的论文《Joint Discriminative and Generative Learning for Person Re-identification》的解读报告。
  • 针对因检测到的行人图像存在遮挡、不完整、分辨率低等问题而导致重识别精度差,本文提出了如下解决思路:1. 通过基模型的特征提取部分,来提取行人图像的特征图,将特征图水平切成六部分,每部分单独全局平均池化...
  • 行人重识别的综述 一个行人沿着图中红色的轨迹从左往右经过了拐角处的两个摄像头。(两个摄像头拍摄的范围没有交叉的部分),即经过一个摄像头后,中间有一段时间没有被任何摄像头拍到,然后再经过第二个摄像头,即...
  • 跨模态行人重识别数据集 Nguyen Dat Tien, Hong Hyung Gil, Kim Ki Wan, et al. Person Recognition System Based on a Combination of Body Images from Visible Light and Thermal Cameras.. 2017, 17(3)
  • 行人重识别–Video ReID 前言 目前主流的行人重识别方法大部分是基于单帧 图像的, 然而单帧图像给予的信息终究是有限的. 此外, 单帧的方法要求图像质量很高, 这对于相机 的布置和使用的场景是一个非常大的限制, 因此...
  • 针对行人重识别中传统的人工提取的行人浅层特征因受摄像机角度、光照等外界环境的影响,鲁棒性不好,收敛速度慢的问题,研究使用预训练卷积神经网络模型在行人数据库上进行微调的方法,对行人图片进行特征提取,从而...
  • 2017-2018年行人重识别算法在开源数据集上的表现 Market-1501 Method Time Single Query Multi. Query rank-1 mAP rank-1 mAP ...
  • 行人重识别(ReID)概述

    万次阅读 多人点赞 2018-07-24 16:57:33
    行人重识别(Person Re-identification也称行人再识别,简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的...
  • https://blog.csdn.net/qq_38451119/article/details/83000061
  • 该代码实现了对行人重识别,准确率达到88%左右,最好的情况的下可以达到90%。
  • 论文题目1、Joint Discriminative and Generative Learning for Person Re-identification. Zhedong Zheng; Xiaodong Yang; Zhiding Yu; Liang Zheng ; Yi Yang ; Jan KautzMotivation2、Unsupervised Person Re-...
  • 行人重识别(ReID) ——概述

    万次阅读 2018-10-30 14:21:03
    行人重识别(Person re-identification,简称Re-ID)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下...
  • 人脸重识别:行人重识别开源github

    千次阅读 2018-10-05 21:38:13
    original url: ...amp;fps=1 ...关于行人重识别综述,推荐一下liang zheng 2016年的综述: Past, Present and Future 写了从传统方法到深度学习,从图片到视频的行人重识别的方法。 以下为一些公开...

空空如也

1 2 3 4 5 ... 20
收藏数 950
精华内容 380
关键字:

行人重识别