精华内容
下载资源
问答
  • 为解决实际行人重识别系统中识别率低、识别速度慢的问题,从创新和工程应用出发,提出了一种行人重识别算法。对行人图片进行预处理,采用色调、饱和度、亮度(hue,saturation,value,HSV)空间非线性量化的方法...
  • 在此基础上提出的基于典型相关分析的行人重识别算法仅是一种线性降维算法,很难从复杂的识别系统(如目标行人图像受低分辨率、光照及行人姿态变化等因素影响)中提取有效的高层语义信息,用于行人重识别。为此,本文...
  • 针对目前行人重识别出现网络模型复杂化、识别率低的问题,提出一种基于全局特征拼接的行人重识别算法。首先利用卷积神经网络(CNN)提取全局特征;然后把不同卷积层提取的特征进行拼接,使特征信息互补;最后将拼接...
  • 介绍本次行人重识别代码实践使用的算法性能指标

    !转载请注明原文地址!——东方旅行者

    更多行人重识别文章移步我的专栏:行人重识别专栏

    一、AP(Average Precision平均准确度)和mAP(mean Average Precision平均准确度均值)

    AP衡量的是模型在单个类别上判断结果的好坏(效果好坏),是每一次正确预测的准确率平均数。mAP衡量的是模型在所有类别上AP平均值

    二、CMC(Cumulative Match Characteristic累计匹配特征)

    CMC曲线(Cumulative Match Characteristic Curve)横轴代表Rank-n纵轴代表Accuracy。如果选取Rank-n排序列表为[1,2,5,10]的话,则CMC曲线就是一个由四个点连接而成的曲线。其中每个点的Rank-n的值都为所有测试数据的Rank-n的平均值
    Rank-n代表前n个预测是否包含正确预测,取值要么为1要么为0。

    三、举例计算AP、mAP与CMC Curve

    假设一次的测试结果为:
    数据1(标签为0)的测试结果(相似度前10的数据的标签):0,1,2,3,4,5,0,7,8,9
    数据2(标签为1)的测试结果(相似度前10的数据的标签):5,0,1,3,4,5,0,7,8,9
    数据3(标签为2)的测试结果(相似度前10的数据的标签):1,0,1,3,4,2,0,7,8,9
    

    1.AP、mAP

    数据1的十次预测一共有两次正确预测,第一次正确预测的准确率为1/1=100%,第二次正确预测的准确率为2/7=28.6%,则数据1的AP为((100+28.6)/2)%=64.3%。
    同理,数据2的AP为33.3%,数据3的AP为16.7%。
    则本次测试的mAP为((64.3+33.3+16.7)/3)%=38.1%。

    2.CMC Curve

    所以,按照上述例子,计算每个数据的Rank-n(1,2,5,10)为

    1. 数据1,[1,1,1,1]
    2. 数据2,[0,0,1,1]
    3. 数据3,[0,0,0,1]

    则CMC曲线中Rank-1为0.333,Rank-2为0.333,Rank-5为0.667,Rank-10为1。
    图像为:
    CMC曲线

    展开全文
  • 针对现存行人重识别算法不能较好地适应光照、姿态、遮挡等变化的问题, 提出一种基于特征融合与子空间学习的行人重识别算法。该算法对整幅行人图像提取方向梯度(HOG)直方图特征和HSV(Hue,Saturation,Value)直方图特征...
  • 基于Camstyle改进的行人重识别算法.pdf 更多资源请点击:https://blog.csdn.net/weixin_44155966
  • 2017-2018年行人重识别算法在开源数据集上的表现 Market-1501 Method Time Single Query Multi. Query rank-1 mAP rank-1 mAP ...

    2017-2018年行人重识别算法在开源数据集上的表现

    Market-1501

    Method

    Time

    Single Query

    Multi. Query

    rank-1

    mAP

    rank-1

    mAP

    Verif-Identif.

    + LSRO [1]

    2017 ICCV

    83.97

    66.07

    88.42

    76.10

    Basel. + LSRO [1]

    2017 ICCV

    78.06

    56.23

    85.12

    68.52

    SVDNet(C) [2]

    2017 ICCV

    80.5

    55.9

     

     

    SVDNet(R,1024-dim) [2]

    2017 ICCV

    82.3

    62.1

     

     

    M-net [3]

    2017 ICCV

    73.1 

     

     

     

    HP-net [3]

    2017 ICCV

    76.9

     

     

     

    CADL [7]

    2017 CVPR

    73.84

    47.11

    80.85

    55.58

    Fusion [9]

    2017 CVPR

    80.31  

    57.53

    86.79

    66.70

    SSM [10]

    2017 CVPR

    82.21

    68.80

    88.18

    76.18

    Spindle [12]

    2017 CVPR

    76.9

     

     

     

    DeepAlign. [13]

    2017 ICCV

    81.0

    63.4

     

     

    Zhong et al. [14]

    2017 CVPR

    77.11

    63.63

     

     

    TriNet (Re-

    ranked) [15]

    2017 ICCV

    86.67

    81.07

    91.75

    87.18

    PDC [16]

    2017 ICCV

    84.14

    63.41

     

     

    DPFL [17]

    2017 ICCV

    88.6

    72.6

    92.2

    80.4

    DPFL(2+) [17]

    2017 ICCV

    88.9

    73.1

    92.3

    80.7

    PSE [18]

    2018 CVPR

    87.7

    69.0

     

     

    PSE+ ECN

    (rank-dist) [18]

    2018 CVPR

    90.3

    84.0

     

     

    IDE∗+Cam

    Style+RE [19]

    2018 CVPR

    89.49

    71.55

     

     

    MobileNet+DML [20]

    2018 CVPR

    87.73

    68.83

    91.66

    77.14

    Resnet50-res5c (multi-scale) 83.58 64.25+DSR (fine-tuning model) [21]

    2018 CVPR

    83.58

    64.25

     

     

    DuATM [23]

    2018 CVPR

    91.42

    76.62

     

     

    HA-CNN [25]

    2018 CVPR

    91.2

    75.7

    93.8

    82.8

    SPReIDcombined-ft*+re-ranking [26]

    2018 CVPR

    94.63

    90.96

     

     

    MLFN [27]

    2018 CVPR

    90.0

    74.3

    92.3

    82.4

    BraidNet-CS

    + SRL [29]

    2018 CVPR

    83.70

    69.48

     

     

    Pose-transfer

    (D, Tri) [30]

    2018 CVPR

    87.65

    68.92

     

     

    DaRe(De)+RE+RR [31]

    2018 CVPR

    90.9

    86.7

     

     

    TFusion-sup [32]

    2018 CVPR

    73.13

     

     

     

    Chen et al. [33]

    2018 ECCV

    81.8

    93.3

    87.9

    95.3

    HAP2S_E [34]

    2018 ECCV

    84.20

    69.76

     

     

    HAP2S_P [34]

    2018 ECCV

    84.59

    69.43

     

     

    Mancs [35]

    2018 ECCV

    93.1

    82.3

    95.4

    87.5

    Suh et al. [37]

    2018 ECCV

    93.4

    89.9

    95.4

    93.1

    Base Model

    + SGGNN [38]

    2018 ECCV

    92.3

    82.8

     

     

     

     

    DukeMTMC-reID

    Method

    Time

    rank-1

    mAP

    Basel. + LSRO [1]

    2017 ICCV

    67.68

    47.13

    SVDNet (C) [2]

    2017 ICCV

    67.6

    45.8

    SVDNet (R) [2]

    2017 ICCV

    76.7

    56.8

    DPFL [17]

    2017 ICCV

    79.2

    60.6

    PSE [18]

    2018 CVPR

    79.8

    62.0

    PSE+ ECN

    (rank-dist) [18]

    2018 CVPR

    85.2

    79.8

    IDE∗+Cam

    Style+RE [19]

    2018 CVPR

    78.32

    57.61

    DuATM [23]

    2018 CVPR

    81.82

    64.58

    HA-CNN [25]

    2018 CVPR

    80.5

    63.8

    Inception-V3ft*+re-ranking [26]

    2018 CVPR

    89.41

    84.82

    SPReIDcombined-ft*+re-ranking [26]

    2018 CVPR

    88.96

    84.99  

    MLFN [27]

    2018 CVPR

    81.0

    62.8

    BraidNet-CS

    + SRL [29]

    2018 CVPR

    76.44

    59.49

    DaRe(De)+RE+RR [31]

    2018 CVPR

    84.4

    80.0

    HAP2S_E [34]

    2018 ECCV

    76.08

    59.58

    HAP2S_P [34]

    2018 ECCV

    75.94

    60.64

    Mancs [35]

    2018 ECCV

    84.9

    71.8

    Suh et al. [37]

    2018 ECCV

    88.3

    83.9

    Base Model

    + SGGNN [38]

    2018 ECCV

    81.1

    68.2

     

     

    CUHK03-labeled

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    mAP

    Basel.+LSRO [1]

    2017 ICCV

    73.1

    92.7

    96.7

     

    77.4

    Verif-Identif. + LSRO [1]

    2017 ICCV

    84.6

    97.6

    98.9

     

    87.4

    SVDNet(C) [2]

    2017 ICCV

    68.5

     

     

     

    73.3

    SVDNet(R,1024-dim) [2]

    2017 ICCV

    81.8

     

     

     

    84.8

    M-net [3]

    2017 ICCV

    88.2

    98.2

    99.1

    99.5

     

    HP-net [3]

    2017 ICCV

    91.8

    98.4

    99.1

    99.6

     

    Quadruplet + MargOHNM [6]

    2017 CVPR

    75.53

    95.15

    99.16

     

     

    Quadruplet [6]

    2017 CVPR

    74.47

    96.92

    98.95

     

     

    Fusion [9]

    2017 CVPR

    74.21

    94.33

    97.54

    99.25

     

    SSM [10]

    2017 CVPR

    76.6

     

    94.6

    98.0

     

    Spindle [12]

    2017 CVPR

    88.5

    97.8

    98.6

    99.2

     

    DeepAlign. [13]

    2017 ICCV

    85.4

    97.6

    99.4

    99.9

    90.9

    PDC [16]

    2017 ICCV

    88.70

    98.61

    99.24

    99.67

     

    DPFL [17]

    2017 ICCV

    86.7

    82.8

     

     

     

    Guo et al. [24]

    2018 CVPR

    87.50

    97.85

    99.45

     

     

    SPReIDcombined-ft*+re-ranking [26]

    2018 CVPR

    96.22

    99.34

    99.7

     

     

    MLFN [27]

    2018 CVPR

    82.8

     

     

     

     

    BraidNet-CS

    + SRL [29]

    2018 CVPR

    88.18

     

    98.66

    99.48

     

    DaRe(De)+RE+RR [31]

    2018 CVPR

    73.8

     

     

     

    74.7

    Chen et al. [33]

    2018 ECCV

    92.5

    98.8

     

     

     

    HAP2S_P [34]

    2018 ECCV

    90.39

    99.54

    99.90

     

     

    Mancs [35]

    2018 ECCV

    93.8

    99.3

    99.8

     

     

    Suh et al. [37]

    2018 ECCV

    91.5  

    99.0

    99.5

    99.9

     

    Base Model

    + SGGNN [38]

    2018 ECCV

    95.3 

    99.1

    99.6

     

    94.3

    MC-PPMN (hnm) [39]

    2018 AAAI

    86.36 

    98.54

    99.66

     

     

     

     

    CUHK01(p=486)

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    Quadruplet + MargOHNM [6]

    2017 CVPR

    62.55

    83.44

    89.71

     

    CSBT [8]

    2017 CVPR

    51.2

    76.3

     

    91.8

    Spindle [12]

    2017 CVPR

    79.9

    94.4

    97.1

    98.6

    DeepAlign. [13]

    2017 ICCV

    75.0  

    93.5

    95.7

    97.7

    Chen et al. [33]

    2018 ECCV

    84.8

    95.1

    98.4

     

    Suh et al. [37]

    2018 ECCV

    80.7

    94.4

    97.3

    98.6

    MC-PPMN (hnm) [39]

    2018 AAAI

    78.95

    94.67

    97.64

     

     

     

    CUHK01(p=100)

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    DeepAlign. [13]

    2017 ICCV

    88.5   

    98.4

    99.6

    99.9

    Guo et al. [24]

    2018 CVPR

    88.20

    98.20

    99.35

     

    BraidNet-CS

    + SRL [29]

    2018 CVPR

    93.04

     

    99.97

    100.00

    Suh et al. [37]

    2018 ECCV

    90.4

    97.1

    98.1

    98.9

    MC-PPMN (hnm) [39]

    2018 AAAI

    93.45

    99.62

    99.98

     

     

     

    Viper

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    M-net [3]

    2017 ICCV

    51.6  

    73.1

    81.6

    88.3

    HP-net [3]

    2017 ICCV

    76.9

    91.3

    94.5

    96.7

    SHaPE [5]

    2017 ICCV

    34.26

    57.34

    67.86

    80.78

    Quadruplet + MargOHNM [6]

    2017 CVPR

    49.05 

    73.10

    81.96

     

    CSBT [8]

    2017 CVPR

    36.6

    66.2

     

    88.3

    Fusion [9]

    2017 CVPR

    38.08

    64.14

    73.52

    82.91

    SSM [10]

    2017 CVPR

    53.73 

     

    91.49

    96.08

    Spindle [12]

    2017 CVPR

    53.8

    74.1

    83.2

    92.1

    DeepAlign. [13]

    2017 ICCV

    48.7 

    74.7

    85.1

    93.0

    PDC [16]

    2017 ICCV

    51.27

    74.05

    84.18

    91.46

    Guo et al. [24]

    2018 CVPR

    50.10

    73.10

    84.35

     

    MC-PPMN [39]

    2018 AAAI

    50.13 

    81.17

    91.46

     

     

     

    PRW

    Method

    Time

    rank-1

    mAP

    NPSM [4]

    2017 ICCV

    53.1

    24.2

    Zhong et al. [14]

    2017 CVPR

    52.54

    31.51

     

     

    MARS

    Method

    time

    Single Query

    rank-1

    rank-5

    rank-20

    mAP

    Fusion+XQDA [9]

    2017 CVPR

    71.77 

    86.57

    93.08

    56.05

    STRN [11]

    2017 CVPR

    70.6

    90.0

    97.6

    50.7

    Zhong et al. [14]

    2017 CVPR

    73.94

     

     

    68.45

    TriNet (Re-

    ranked) [15]

    2017 ICCV

    81.21

    90.76

     

    77.43

    PSE [18]

    2018 CVPR

    72.1

     

     

    56.9

    PSE+ ECN

    (rank-dist) [18]

    2018 CVPR

    76.7

     

     

    71.8

    SpaAtn+Q+TemAtn+Ind [22]

    2018 CVPR

    82.3

     

     

    65.8

    DuATM [23]

    2018 CVPR

    78.74

    90.86

    95.76

    62.26

    Zhang et al. [28]

    2018 CVPR

    71.2  

    85.7

    91.8

    94.3

    DaRe(De)+RE+RR [31]

    2018 CVPR

    85.1

     

     

    81.9

    Suh et al. [37]

    2018 ECCV

    85.1

    94.2

    97.4

    83.9

     

     

    QMUL GRID

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    SSM[ [10]

    2017 CVPR

    27.20

     

    61.12

    70.56

    TFusion-sup [32]

    2018 CVPR

    64.10

    91.90

    96.50

     

    NK3ML [36]

    2018 ECCV

    27.20

     

    60.96

    71.04

     

     

    iLIDS-VID

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    STRN [11]

    2017 CVPR

    55.2

     

    86.5

    97.0

    Spindle [12]

    2017 CVPR

    66.3  

    86.6

    91.8

    95.3

    SpaAtn+Q+TemAtn+Ind [22]

    2018 CVPR

    80.2

     

     

     

    Zhang et al. [28]

    2018 CVPR

    60.2

    84.7

    91.7

    95.2

    MC-PPMN [39]

    2018 AAAI

    62.69

    84.80

    93.31

     

     

     

    PRID2011

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    SSM [10]

    2017 CVPR

    72.98

     

    96.76

    99.11

    STRN [11]

    2017 CVPR

    79.4

     

    94.4

    99.3

    Spindle [12]

    2017 CVPR

    67.0

    89.0

    89.0

    92.0

    SpaAtn+Q+TemAtn+Ind [22]

    2018 CVPR

    93.2

     

     

     

    Zhang et al. [28]

    2018 CVPR

    85.2

    97.1

    98.9

    99.6

    MC-PPMN [39]

    2018 AAAI

    34.00

    60.00

    69.00

     

     

     

     

     

     

     

     

     

    3DPeS

    Method

    Time

    rank-1

    rank-5

    rank-10

    rank-20

    Spindle [12]

    2017 CVPR

    62.1

    83.4

    90.5

    95.7

     

    参考文献:

    [1] Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro

    [2] SVDNet for Pedestrian Retrieval

    [3] HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

    [4] Neural Person Search Machines

    [5] SHaPE: A Novel Graph Theoretic Algorithm for Making Consensus-based Decisions in Person Re-identification Systems

    [6] Beyond triplet loss: a deep quadruplet network for person re-identification

    [7] Consistent-Aware Deep Learning for Person Re-identification in a Camera Network

    [8] Fast Person Re-identification via Cross-camera Semantic Binary Transformation

    [9] Learning Deep Context-aware Features over Body and Latent Parts for Person Reidentification

    [10] Scalable Person Re-identification on Supervised Smoothed Manifold

    [11] see the forest for the trees:spitial and temporal recurrent neural networks for video-based re-id

    [12] Spindle Net: Person Re-identification with Human Body Region Guided Feature Decomposition and Fusion

    [13] Deeply-Learned Part-Aligned Representations for Person Re-Identification

    [14] Re-ranking Person Re-identification with k-reciprocal Encoding

    [15] In Defense of the Triplet Loss for Person Re-Identification

    [16] Pose-driven Deep Convolutional Model for Person Re-identification

    [17] Person Re-Identification by Deep Learning Multi-Scale Representations

    [18] A Pose-Sensitive Embedding for Person Re-Identification with Expanded Cross Neighborhood Re-Ranking

    [19] Camera Style Adaptation for Person Re-identification

    [20] Deep Mutual Learning

    [21] Deep Spatial Feature Reconstruction for Partial Person Re-identification: Alignment-Free Approach

    [22] Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification

    [23] Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification

    [24] Efficient and Deep Person Re-Identification using Multi-Level Similarity

    [25] Harmonious Attention Network for Person Re-Identification

    [26] Human Semantic Parsing for Person Re-identification

    [27] Multi-Level Factorisation Net for Person Re-Identification

    [28] Multi-shot Pedestrian Re-identification via Sequential Decision Making

    [29] Person Re-identification with Cascaded Pairwise Convolutions

    [30] Pose Transferrable Person Re-Identification

    [31] Resource Aware Person Re-identification across Multiple Resolutions

    [32] Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

    [33] Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association

    [34] Hard-Aware Point-to-Set Deep Metric for Person Re-identification

    [35] Mancs: A Multi-task Attentional Network with Curriculum Sampling for Person Re-identification

    [36] Maximum Margin Metric Learning Over Discriminative Nullspace for Person Re-identification

    [37] Part-Aligned Bilinear Representations for Person Re-identification

    [38] Person Re-identification with Deep Similarity-Guided Graph Neural Network

    [39] Multi-Channel Pyramid Person Matching Network for Person Re-Identification

    展开全文
  • CVPR2020行人重识别算法论文解读

    千次阅读 2020-03-14 08:51:20
    CVPR2020行人重识别算法论文解读 Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer 具有特定共享特征变换的跨模态行人重识别 摘要: 跨模态行人重识别对智能视频分析是一个难点,而又关键...

    CVPR2020行人重识别算法论文解读

    Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer

    具有特定共享特征变换的跨模态行人重识别

    摘要:

    跨模态行人重识别对智能视频分析是一个难点,而又关键的技术。过去的研究主要集中在,将嵌入式不同模态放到同一个特征空间中,来训练常用的表现形式。但是,仅仅训练这些常用的特性,意味着会丢失大量的信息,降低特征显著性的上限。

    本文中,通过推荐一个新的特定跨模态特征转换算法(称为cm-SSFT),探测模态共享信息和特定模态特性来克服这个限制,提升重识别的性能。依据不同模态特征示例内容,在不同模态之间转换共享和特定特征。推荐辅助特征研究策略,包括模态适应性,目标对抗训练,重构增强性能,分别学习每种形态的区别性和互补性的共同特征和具体特征。整个cm-SSFT算法能用端到端方式训练。用综合实验验证真个算法的优势,以及各个环节的效果。这个算法在两个主流数据集上将mAP分别提高22.5% 和 19.3%。

    关注的任务是红外线-RGB跨模态行人重识别。主要想解决的问题是:以往大部分跨模态行人重识别算法一般都只关注shared
    feature learning,而很少关注Specific
    feature。因为Specific
    feature在对面模态中是不存在的。例如在红外线图片中是没有彩色颜色信息的。反之在彩图中也不会有热度信息。而实际上做过ReID的都知道,传统ReID之所以性能很高,很大程度上就是有些“过拟合”到了这些specific信息上。比如衣服颜色一直是传统ReID的一个重要的cue。于是从这个角度出发,想试图利用specific特征。主要思路是利用近邻信息。思路(motivation)是这样:给定一红外线query。当搜索彩色target时,可以先找到一些简单的置信度高的彩色样本(这些样本大概率是红外线query的positive样本),把这些彩色样本的颜色特异特征给与红外线query。做了这件事后,红外线query样本可以利用这些彩色信息再去搜索更难的彩色样本。这样做与传统做法的对比如下:

    在这里插入图片描述

    图1:motivation和与传统基于特征学习的方法的对比

    基于这个思路,参考了以往使用GCN做传统ReID的一些方法。提出了自己的算法。本文会大致介绍一下该算法的流程。也会从介绍一些bad
    case和问题。欢迎各位讨论。整体pipeline如下:

    在这里插入图片描述

    shared and specific feature learning:

    这里就是follow了以往的做法。现在主流工作都会有shared支路和specific支路去提取两种特征。在两个支路上进行训练,会使得backbone的整体判别力(discriminative)很强。具体细节可以参考。这里也同样follow了这个做法,使用two-stream网络学习shared和specific特征。

    在这里插入图片描述

    1. Shared and Specific Transfer Network

    这里的思路主要是借鉴自SGGCN和Spectral Feature Transfer。这两篇工作使用GCN去做跨样本特征融合,本质上是平滑了特征,挖掘了样本间的联系。而这种做法恰好与要做的事情很吻合。前面的思路,即利用近邻关系将specific特征在样本间进行传递,本质也是个message passing的过程,所以在这里也利用这种思维。pipeline如下:

    在这里插入图片描述

    首先将每个样本的特征表示成三段式的形式:【RGB-sp,
    sh, IR-sp】。
    在这里插入图片描述

    即认为每一个样本都有RGB特异特征,shared特征和红外线特异特征三段。只是对于RGB样本,其红外线特异部分是0。同样对于红外线样本,RGB特异部分是零。这种表示会便利于矩阵运算。整体特征矩阵写为:
    在这里插入图片描述

    之后使用特征计算出样本间的相似度矩阵A。而后利用矩阵A进行跨样本特征融合,会同时propagate三种特征,利用GCN公式进行特征传播:

    在这里插入图片描述

    这块的细节可以去参考原文,整体的思路就是利用近邻关系进行信息传递。会补全每个样本缺失的对面模态的specific
    feature,而且GCN的平滑特性也会使得shared feature鲁棒性有所提高。最后三段式feature会被fusion进行训练。

    1. Complementary Learning

    这一段其实是当初投NIPS时被argue后加入的点。即有review认为specific和shared feature很容易学成一个feature,即实际上差不多。specific并不是真正的specific。所以这里利用了很多方式去给特征做解纠缠,这块思路恰好与CVPR另一篇做本任务的算法类似。大家可以去阅读那一篇。这里也示例下sh与sp特征是什么样子,进行了可视化:

    在这里插入图片描述

    Bad case讨论:实验细节可以见原文。本文最大的bad case其实是,这种做法在testing的时候需要multi-query。因为训练的时候其实每个batch内RGB和红外线图片有多张,但在测试时理论上query模态的图片只有一张(query自己),这会引起模态不平衡。所以初始Test时也包含了其他的query图片(当然是不会包含label的),但是这个做法实际上一定程度上违背了ReID的限制,即理论上不应该看见其他的query图片(所以定义除了当前query图片外的其他query图片为辅助集)。在原文中同样利用实验证明了辅助集对性能的影响:

    在这里插入图片描述

    可见即便单query也是有提高的。这里单query提高的原因思考为。即便query模态图片只有一张。但是gallery模态的图片有多张,gallery模态特异信息同样是有利用价值的。所以会带来提高。而在实际应用中,辅助集其实容易获得。库存中很容易会留存以往被检索过的query图片,所以并不会阻碍实际的应用潜力。这个问题也是未来会尝试解决的事情。

    展开全文
  • 基于HSV模型和特征点匹配的行人重识别算法,彭志勇,常发亮,在视频内容分析和多媒体检索等应用中,行人重识别是一项关键的技术,该技术的研究在刑事侦查领域具有重要的现实意义。本文提出了
  • 哈尔滨工业大学硕士论文-基于机器学习的行人重识别算法研究-数学-18S012020-薛超杰
  • 学习率对行人重识别模型的影响很大,初始的学习率一般都设得比较大,但有人提出Warm up的策略对行人重识别模型更有效。具体的操作方法是将初始的学习率设置得很小,然后慢慢增大至预设的学习率,如下图红色曲线。 ...

    论文原文 - Bags of Tricks and A Strong Baseline for Deep Person Re-identification

    现有baseline对比

    作者在Market1501和DukeMTMC-reID数据集上对比了ECCV2018和CVPR2018的一些baseline的性能,并与自己提出的baseline进行对比。
    在这里插入图片描述
    在这里插入图片描述
    大多数baseline都比较弱,在Market1501上23个baseline中只有2个的top1准确率超过了90%,而有4个低于80%;DukeMTMC-reID数据集上则所有baseline的top1准确率都没有超过80%。有些文章改进的方式并不是方法本身,而是训练的技巧,但是训练技巧在文章中却轻描淡写的带过,让读者很容易错过这些信息,这会夸大了论文中方法的重要性。

    标准Baseline

    在这里插入图片描述
    作者提出的标准baseline大致流程如下:

    • 使用一个带有ImageNet预训练参数的ResNet50,并改变最后一层FC层的输出维度为训练集行人的ID数目。
    • 随机采样P个身份以及每个人的K幅图片,构成一个batch,batchsize=P×K。文章中设置的P=16,K=4。将图片resize到256×128像素大小,并进行10个像素的zero-padding,接着随机crop成256×128矩形样本,以此进行数据增强。
    • 进行概率0.5的随机翻转,并进行归一化处理,RGB通道分别减去均值0.485,0.456,0.406,并分别除以0.229,0.224,0.225。
    • 模型输出的ReID特征f用于计算triplet loss,triplet loss的margin设置为0.3。ID预测值用于计算交叉熵损失。
    • 使用Adam方法进行优化,初始学习率设置为3.5e-4。在第40和70个epoch时,学习率缩小为原来的10%,共训练120个epoch。

    训练技巧

    学习率变化(Warm up)策略

    学习率对行人重识别模型的影响很大,初始的学习率一般都设得比较大,但有人提出Warm up的策略对行人重识别模型更有效。具体的操作方法是将初始的学习率设置得很小,然后慢慢增大至预设的学习率,如下图红色曲线。
    在这里插入图片描述
    公式可表示为:
    lr(t)={3.5×105×t10 if t103.5×104 if 10<t403.5×105 if 40<t703.5×106 if 70<t120 l r(t)=\left\{\begin{array}{ll}{3.5 \times 10^{-5} \times \frac{t}{10}} & {\text { if } t \leq 10} \\ {3.5 \times 10^{-4}} & {\text { if } 10<t \leq 40} \\ {3.5 \times 10^{-5}} & {\text { if } 40<t \leq 70} \\ {3.5 \times 10^{-6}} & {\text { if } 70<t \leq 120}\end{array}\right.

    随机擦除数据扩展

    这是一种常见的分类问题数据增强方式,对行人检测效果明显。使用该方法能有效降低遮挡问题带来的影响,提高模型的鲁棒性。
    在这里插入图片描述
    随机抽取一张图片,每张图片被选中的概率为pep_{e}。对于图像I,随机选择一块矩形区域IeI_{e},大小为(We,He)\left(W_{e}, H_{e}\right),将该区域的像素值设置为图像I的像素均值。作者使用的超参数设置为p=0.5,0.02<Se<0.4,r1=0.3,r2=3.33p=0.5,0.02<S_{e}<0.4, r_{1}=0.3, r_{2}=3.33。随机擦除后图像效果如下。
    在这里插入图片描述

    标签平滑

    标签平滑也是分类问题中使用的一种技巧。假设网络分类数为NNyy为某一样本真实的ID标签,pip_{i}是第i类的预测概率。交叉熵损失函数计算如下:
    L(ID)=i=1Nqilog(pi){qi=0,yiqi=1,y=i L(I D)=\sum_{i=1}^{N}-q_{i} \log \left(p_{i}\right)\left\{\begin{array}{l}{q_{i}=0, y \neq i} \\ {q_{i}=1, y=i}\end{array}\right. 因为测试集中出现的行人ID不会出现在训练集中,所以需要防止模型过拟合训练数据中的ID。标签的形式通常是one-hot编码的形式,也就是qiq_{i}只会取0和1两个值。标签平滑的思想是对真实标签进行改造,使其不再是one-hot编码。
    qi={1N1Nε if i=yε/N otherwise  q_{i}=\left\{\begin{array}{ll}{1-\frac{N-1}{N} \varepsilon} & {\text { if } i=y} \\ {\varepsilon / N} & {\text { otherwise }}\end{array}\right. 其中ε\varepsilon是一个很小的常量,来降低模型在训练集上的置信度,作者设置ε=0.1\varepsilon=0.1
    假设N=5,ε=0.1N=5,\varepsilon=0.1,真实标签为[1, 0, 0, 0],经过标签平滑后变成了[0.92, 0.02, 0.02, 0.02],这样进行优化是模型输出的预测标签与真实标签总会存在损失,从而降低了过拟合的风险。

    移除最后一个降采样操作(Last Stride)

    有人发现在backbone网络中移除最后一个降采样操作, 提升了特征图的尺寸以此丰富特征的粒度。ResNet50中的原本最后一个卷积层的步幅(stride)为2,当输入一张256×128的样本,ResNet50网络输出的特征图尺寸大小为8×4。如果将最后一个卷积层的步幅从2改为1,可以得到尺寸为16×8空间大小的特征图。这样在仅仅增加了微小的计算量,并且没有引入更多的需要训练的参数条件下,能带来明显的性能改善。

    BNNeck

    在训练行人重识别模型时,通常会使用同时ID loss和Triplet loss,但是两种loss函数的目标并不协调。在行人重识别中,ID loss使用余弦距离进行优化比欧式距离更加合适,而Triplet loss则更加注重在欧式空间中提高类内紧凑型和类间可分性。因此,二者关注的度量空间不一致,这可能会导致出现当一个loss减小时,另一个loss振荡或增大的现象。
    在这里插入图片描述
    为解决上述问题,作者提出了BNNeck。BNNeck仅仅在特征层和FC分类层之间增加了一个BN层。网络原先提取的特征为ftf_{t},通过BN层后变为fif_{i}。在训练阶段,分别用ftf_{t}fif_{i}来计算Triplet loss与ID loss。
    在这里插入图片描述
    由于fif_{i}经过了正则化,ID loss更容易收敛。此外,BNNeck减少了ID loss对ftf_{t}优化的限制,使得Triplet loss同时更容易收敛。由于超平面相对于原始坐标来说几乎是对称的,BNNeck的另外一个作用是去除分类FC层的偏差。
    在这里插入图片描述
    在这里插入图片描述

    Center Loss

    Triplet loss计算公式为:
    LTri=[dpdn+α]+ L_{T r i}=\left[d_{p}-d_{n}+\alpha\right]_{+} 其中,dpd_{p}dnd_{n}分别表示正样本对与负样本对的特征距离,α\alpha是Triplet loss的margin。然而Triplet loss只考虑dpd_{p}dnd_{n}的差别,不考虑它们的绝对值。例如,当dp=0.3,dn=0.5d_{p}=0.3, d_{n}=0.5时,Triplet loss为0.1;当dp=1.3,dn=1.5d_{p}=1.3, d_{n}=1.5时,Triplet loss也是0.1。因此很难保证在整个训练数据集中dp<dnd_{p}<d_{n}
    为了使类内更加紧凑,作者又加入了人脸识别中提出的Center Loss,它在学习到一个类中心的同时,将深度特征的距离与他们对应的类中心作为惩罚项,这可以弥补Triplet loss的缺点。Center Loss公式为:
    LC=12j=1Bftjcyj22 \mathcal{L}_{C}=\frac{1}{2} \sum_{j=1}^{B}\left\|\boldsymbol{f}_{t_{j}}-\boldsymbol{c}_{y_{j}}\right\|_{2}^{2} 其中,cyjc_{y_{j}}表示深度特征第yjy_{j}个类的中心,BB是batchsize。将三种loss相加,一起优化整个网络:
    L=LID+LTriplet+βLC L=L_{I D}+L_{T r i p l e t}+\beta L_{C} ββ是Center Loss的平衡权重,作者将ββ设置成了0.0005。

    修改后的baseline

    使用上述技巧进行改进,模型的整体结构图如下。
    在这里插入图片描述

    对比测试

    同数据域每个trick的效果

    作者首先在同一个数据域下进行试验,在Market1501和DukeMTMC-ReID数据集上面分别测试了每个trick的效果。每个trick都能有效提升识别准确性,其中REA、BNNeck涨幅比较明显的。
    在这里插入图片描述

    跨数据域每个trick的效果

    为了展示这些trick的鲁棒性和泛化能力,作者还做了跨数据域的实验,即在一个数据集上训练,在另外一个数据集上测试。结果显示REA会大大降低跨域的性能,其他的trick都还是有一定程度的提升。最后删除REA,只使用其他五个trick,M→D的结果达到了41.4的rank1。目前M→D的SOTA方法也就50左右的水平,这已经是个不错的Baseline了。当然也值得深思,为什么REA数据增广会降低跨域性能。
    在这里插入图片描述

    和State-of-the-Arts的方法进行比较

    作者把baseline的结果直接和SOTA的方法进行比较,除了少数几个能够达到95+的结果以外,其他方法的结果均低于改进的baseline。值得一提的是,本文只是使用一个简单global feature,加了一层BN而已。目前主流能够达到93+的方法都concatenate多个local feature。腾讯的金字塔结构更是融合21个不同尺度的local feature。在所有只使用一个global feature的方法里,该方法的性能是大大领先的,而且训练代价非常小,就是加了一些trick而已。
    在这里插入图片描述

    Backbone扩展

    对Backbone网络进行了扩展,包括ResNet、SENet、SeResNet等等。大致结果呈现网络越深,效果越好,这也符合正常的结论。其中SeResNeXt101取得了95%的rank1和88%的mAP,基本已经相当高了。可能是Market1501数据集太小,并且比较简单,使用ResNet152训练有些过拟合了。
    在这里插入图片描述

    展开全文
  • 该技术团队通过最新算法,在不使用任何时序信息的情况下,在行人重识别主流数据库(Market1501,DukeMTMC-reid和CUHK03)上各项指标均取得第一的好成绩,刷新了业内的最好成绩。   其性能的提高主要来源于技术层面...
  • 基于全局特征的行人重识别算法主要使用交叉熵损失函数和三元组损失函数来监督网络的学习。然而,原始三元组损失函数在增大类间距离的同时并未很好地优化类内距离,为了解决这个问题,提出一种基于全局特征的行人重识别...
  • 行人属性识别算法合集包括DeepMar,attention-heat-map-refining,RstarCNN,Weakly-supervised-Network
  • 最后,利用行人识别通用公开数据集VIPeR对改进算法的有效性进行验证,并与SLDDL、RDC、ITML、PCCA、QARR-RSVM和KISSME等算法精度相比较,实验结果表明基于半监督的改进KISSME算法在不同排名下都有明显的优势,尤其...
  • 行人重识别课程主要包括三大核心模块:1.2020经典算法(论文)详细解读;2.项目源码分析;3.实战应用;通俗讲解CVPR等会议最新...整体风格通俗易懂,用最接地气的方式带领同学们掌握最新行人重识别算法并进行项目实战。
  • Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,...
  • 针对行人重识别中行人检测误差引起的空间错位,基于局部的深度网络模型仅学习相邻局部关系,导致远距离局部相关性缺失,因此,提出了一种结合一阶和二阶空间信息的行人重识别算法。在主干网络上,学习一阶空间掩模对输入...
  • 介绍行人重识别(基于图像)方向的相关方法、研究热点与相关数据集。
  • 本人做行人重识别工程的数据准备过程。借鉴人脸的数据聚类清洗方法实现半自动行人重识别数据标注。 一、行人截取 使用行人跟踪算法,讲视频中行人截取出来: 使用yolov5 + deepsort 实现行人跟踪参考此方法Yolov5_...
  • 介绍行人重识别(基于视频)方向的相关方法、研究热点与相关数据集。
  • 基于卡方核的正则化线性判别分析行人识别算法,雷大江,滕君,针对行人再识别过程中存在获取的训练样本较少、真实的样本分布不一定线性可分和算法识别率低的问题,提出基于卡方核的正则化线性
  • 针对现有的基于卷积神经网络的行人重识别方法对于遮挡和复杂背景引起的判别信息缺失问题,提出了一种基于多尺度卷积特征融合的行人重识别算法。在训练阶段,使用金字塔池化方法对卷积特征图进行分块和池化,获得包含...
  • 在确定我们的识别方法之前,我们分析了现在主流的行人重识别算法,主要分为两类,一是表征学习,二是度量学习。 2.1 表征学习(Representation learning) 表征学习把行人重识别的问题当作分类问题,最开始只用...
  • 前言:行人重识别(Person Re-identification)也称行人识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,...
  • 基于多特征子空间的核学习图嵌入线性判别分析行人识别算法,雷大江,滕君,针对行人再识别过程中存在特征提取复杂、真实的样本分布不一定线性可分和算法识别率低的问题,提出基于多特征子空间的核学习图嵌
  • 介绍行人重识别系统代码实现的思路。

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 13,539
精华内容 5,415
关键字:

行人重识别算法