精华内容
下载资源
问答
  • 细粒度图像识别
    2022-01-11 09:18:53

    细粒度识别的对象是区分同一类别下的不同子类别物体;细粒度图像识别的物体具有相似的形状和纹理,物体间的差异非常细微

    1.    研究现状背景概括
    细粒度识别中所采用的目标定位可以分为两类:一类是关键点定位,一类是区分性区域定位。
    1.1.    关键点定位
    关键点定位是在图像中寻找并定位预定义物体关键点,主要应用于人脸关键点检测、人体姿态估计和骨骼关键点定位。原理也就是求解图像I到关键点L的映射φ(就是求这俩个集合之间的函数关系)。在之前的研究中主要提出了基于回归的方法、基于热力图的方法和基于图网络的方法。
    1.1.1    基于回归的方法
    就是把关键点转化为坐标数值的回归问题,这种方法通常由单阶段或多阶段网络,每阶段通过修改原始卷积神经网络的全连接层实现,最终网络输出为k个关键点的2k个坐标数值。Toshev提出DeepPose,将关键点定位转化为坐标数值问题。Fan提出双流网络的方法(从图像整体和图像块(比如把256*256的图像分为好多个8*8的图像块)俩个尺度)。Pfister采用AlexNet结构网(Alexnet的整个网络结构是由5个卷积层和3个全连接层组成的,深度总共8层。),也就是拆分图像或视频的每一帧然后进行回归。Sun等人基于ResNet50网络(将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分。
    意味着后面的特征层的内容会有一部分由其前面的某一层线性贡献。)提出一种结构感知方案。Lv等人提出俩阶段关键点回归问题,可以实现高分辨率人脸图像上的精细关键点定位。Valle等人基于循环神经网络,设计了多层级联回归方法,实现了人脸关键点定位。
    这种基于回归的关键点定位方法是早先的主流方法,局限性在于:1.神经网络具有平移不变性(不变性意味着即使目标的外观发生了某种变化,但是你依然可以把它识别出来。这对图像分类来说是一种很好的特性,因为我们希望图像中目标无论是被平移,被旋转,还是被缩放,甚至是不同的光照条件、视角,都可以被成功地识别出来),所以对关键点空间位置感知较弱。2.受网络正则化(任何减小模型泛化误差的方法都可视为正则化)的影响,神经网络在回归任务上对小数值相对准确,对长距离的回归精度较差。
    1.1.2    基于热力图方法
    基于热力图的方法将关键点定位任务转化为每个关键点在图像中概率分布的估计任务,从他的发展现状上来看,基于热力图的方法适合于人体姿态估计特征提取。汤普森等人最先发现了该项应用。
    Wei则从该思想上提出了多阶段从粗到细的多阶段热力图估计方法,实现复杂场景和遮挡场景实现精确定位。Toshev等人设计了多层级联中继监督的方案,采用堆叠沙漏结构,每一个沙漏网络预测关键点分布热力图,实现了层层优化的监督方法。Xiao等人采用RestNet50网络结构,设计了轻量简洁的热力图估计方法,有效实现了图像和视频上的人体姿态估计。Sun等人提出HRNet网络,这一网络是在上下采样过程中通过特征聚合,有效地解决了神经网络在采样过程中造成的分辨率降低问题,实现了更加精准的姿态估计。而Yang等人设计一种俩阶段网络,第一阶段进行单独的关键点回归,第二阶段融入人手结构信息以修正。
    基于热力图可以有效地学习关键点的局部纹理特征,因此有较好的定位精度,但是对于畸形、遮挡(考虑预测人体姿态行为???)等情况,由于缺失局部关键点信息,其定位精度较低。

    1.1.3基于混合方法
    回归方法对局部短距离预测更加精准,而热力图方法对大尺度上的关键点定位更加可靠,基于混合的方法就是回归方法和热力图混合。这类方法采用多任务学习,先是在整体图上通过热力图预测关键点大致位置H,得到初步预测后,在局部尺度上预测像素点与关键点的偏移,然后再通过局部区域内像素的投票平均得到关键点的定位结果。
    弊端就是很难做到端对端的训练
    1.1.4基于图网络方法
    物体关键点之间往往具有长距离上的结构依赖关系,相比卷积神经网络,图网络对捕捉这样的非欧关系更加具有优势。一部分研究者因此将图的概念引入关键点定位当中,通过网络学习关键点L、特征图F以及连接关系E之间的图谱关系G。
        Ling等人设计一种分层学习的方法,通过自上而下的节点聚合和自下而上的卷积操作,学习关键点之间的图结构关系。Wang等人提出设计一种两阶段方法,将关键点结构信息通过图网络引入,对关键点位置得到了精细修正。同时该方法也做到了即插即用,对当前主流方法均取得性能提升。Li等人提出一种拓扑自适应的方法,利于图像全局特征和关键点局部特征构造图知识,通过层层迭代修正的方式获得精准关键点定位。
    1.2    区域定位
    旨在从一幅图像中对预定义的物体进行定位和分类,目标检测主要应用于目标检测、人脸检测、遥感图像检测等。主要有多阶段的检测方法,一阶段的检测方法、基于特征融合的方法、基于无锚点框的方法和最新基于Transform的方法。
    1.2.1    多阶段的检测方法
    多阶段的检测模型一般建模为两个阶段:第一个阶段将一组预定义的锚点框(anchorbox)分类和回归成为较粗精度的候选框,第二个阶段则根据第一个阶段得到的候选框从原始特征图上获取感兴趣的特征区域,进行进一步的回归与分类,最终得到细化后的候选框和分类结果。
        Girshick等人提出了RCNN方法,利用选择性搜索(selective search)来提取一组候选框,再将对应区域的图片分别送入卷积神经网络来提取特征,最后利用全连接层进行分类和回归。随后又提出了Fast RCNN方法,将整张图片进行特征提取后,再根据候选区域进行分类和回归,由于共享了特征的计算,加快了模型的速度。Ren等人提出了Faster RCNN的方法,采用候选区域网络(Region Proposal Network, RPN)代替选择性搜索来提取特征,大大提升了模型的速度。He等人提出了Mask R-CNN方法,在Faster R-CNN的基础上引入了特征金字塔(Feature Pyramid Networks, FPN)和感兴趣区域对齐(ROI Align),通过特征融合和减少量化误差达到了更高的检测精度。Cai等人提出了CascadeR-CNN方法,在Faster R-CNN的基础上级联多个检测头进行分类和回归,不断迭代和调优定位框。Li等人深入分析了病变检测任务上两阶段检测方法的假阳性问题(图片里没人,你识别「有人」——叫做「假阳性(False postive)」),提出“box-to-map”方法,使用连续的回归图代替回归框,以克服数据不平衡问题和监督信息不足问题。进一步地,该研究者提出尺度自适应的" box-to-map”机制提升定位精度
    1.2.2单阶段的检测方法
    将整张图片输入并提取特征后,直接进行分类和回归。本质上是一种回归的方法,在图片的每一点上对预设的锚点框直接进行回归和分类。单阶段模型要比多阶段模型快。Redmon等提出YOLO方法,将图品网格化成多个区域,然后在每个区域中预测定位框和分类概率。Liu等人提出SSD方法,在不同网络层次检测不同尺度的物体,提高了对多尺度物体的检测能力。Lin等人提出RetinaNet方法,引入Focal Loss损失函数以解决网络训练中的前景与背景不均衡的问题。Zhang等人提出了ATSS方法,根据候选框和真实框的交并比(它等于两个集合的交集里面所包含的元素个数,除以它们的并集里面所包含的元素个数)的统计特征来分配正负样本。
    1.2.3    基于特征融合的方法
    早期的特征检测器主要基于作为骨干网络的卷积神经网络提取的某一层特征图进行分类和回归。尽管ssD在多层特征图上进行了检测,但各特征之间彼此独立。当特征金字塔网络为体系的方法问世后,多层特征的融合使得检测器的性能得到提升。Lin等人提出了FPN方法,将上下两层特征图相融合,将高一层的适合于分类的特征和低一层的适合于定位的特征结合。Liu等人提出了PANet方法,其中的PA-FPN在自顶向下融合的基础上,引入了自底向上融合的分支。Ghiasi等人提出了NAS-FPN方法,通过神经结构搜索计算出了结构较为复杂和性能较好的特征金字塔。Tan等人提出了EfficientDet方法,其中的BiFPN在PANet的基础上引入了残差连接,并通过多级连接迭代得到深度融合的特征金字塔。
    1.2.4基于无锚点框的方法
    有锚点框就是对定位框的回归目标通常为4个值:中心点的坐标以及定位框的长度和宽度。无锚点框就是运用与其不同的方法建模定位框。Tian等人提出FCOS方法,就是对图像中每一个像素点回归4个值,即以该点作为中心到一个正样本的定位框四条边的距离,并引入CornerNet方法,将定位框建模为左上角和右下角俩个坐标点形成的矩形。
    1.2.5基于transform的方法
    近年来诞生于自然语言处理领域的Transforme:系列方法在计算机视觉领域
    也得到了很好的应用,由此也产生了一系列基于Transformer架构的目标检测模
    型。Carion等人提出的DETR方法,率先将Transformer架构运用到目标检测任务中,将卷积神经网络提取的特征输入到标准的Transformer编码器与解码器架构中,输出定位与分类结果。Zhu等人提出了Deformable DETR方法,在DETR的基础上引入了多尺度特征图和可变形注意力机制,加快了DETR的收敛速度和提高了对多尺度目标的检测性能。Beal等人[}s1]提出的ViT FRCNN方法,则是以Transformer在图像分类领域的应用ViT作为骨干网络,搭建了类似Faster R-CNN的目标检测框架。该方法抛弃了传统的以CNN作为骨干网络的架构,是完全基于Transformer架构在目标检测领域的一次尝试。
    1.3特征提取相关工作
    作者说明当前研究者在设计特征提取器都是要求要有更强的性能和泛化性
    1.3.1特征提取器
    (1)    传统手工特征提取器
    主要就是利用一些特征算子,就是基于图像中存在的边缘、角点和纹理等低层次的图像信息,按照固定的范式进行处理。Ojala等人提出二值模式算子(LBP),该算子具有多种变体,但是检测模式单一并且易受光照不均影响的缺陷。为解决该劣势,Dalal等人提出HOG算子,该算子具有较好的几何和光照不变性,但算法速度慢且对噪点敏感。随后,Lowe等人提出关键点检测算子SIFT,该算子通过建立图像拆分金字塔获得多尺度的检测能力,通过基于特征点主方向的角度变换来保证旋转不变性,提取出的特征具有较强的变换不变性,但仍需要较长的处理过程。为实现快速高效,Viola等人提出基于矩形块的Harr-like小波特征,使用积分图保存图像从起点开始的累计像素和,这样通过坐标索引即可快速计算特定区域的特征值。ORB算子结合了FAST中的快速角点检测技术和BRIEF特征描述子,并分别优化了其尺度不变性和旋转不变性
    (2)    深度学习特征提取器
    人工特征提取器表征能力和泛化性不足的问题引入了基于深度卷积网络的特征提取方法(拥有数据学习和非线性表征能力)。
     Alex等人在特征网络中加入ReLU激活函数和Dropout层来加快收敛和防止过拟合。VGG-Net采用预训练和多阶段继续训练的策略,在AlexNet的基础上加深了可训练的网络参数。GoogleNet提出了由不同感受野卷积核组成的Inception层和特征提取过程的中继监督策略,在增加了网络的深度和宽度的同时减少了所需的参数量。残差网络ResNet解放了网络层的约束,并通过引入残差单元让网络学习输入输出建的残差,避免了深层网络的模型退化问题,使得训练任意复杂度的特征提取网络成为可能,残差网络有从18层网络到152层网络的多种不同版本。在ResNet基础上,DenseNet使用更为密集的层间连接来最大限度地复用已有特征,在减少模型参数量的同时强化了特征信息的。SENet使用特征压缩与激活操作自适应的学习不同特征通道的重要性权重,从通道层面强化有效特征,抑制无用特征。现代深度学习特征提取器具有模型复杂度高、拟合能力强和处理速度快的特性,能充分挖掘图像数据与识别标签间的深层关系,己经成为图像识别任务中最常用的特征提取方式。
    1.3.2数据增广策略
    数据增广是深度学习模型训练的常用策略之一。它的目的是利用各种平移旋转、翻转、裁剪、添加噪声等方法,从现有数据中人为地扩充训练数据集。通过数据增广,使训练数据变得更加多样化,保证了模型更好的特征提取能力和鲁棒性。根据操作的目标,现有的数据增广可分为两个分支:1)全局图像数据增广,在整个图像上采用了一种通用的策略;2)局部区域数据増广,给局部区域带来随机变化。
    1)全局图像数据增广
    全局图像数据増广的数据增广方式在整个图像上采用相同的策略,例如高斯模糊,椒盐噪声,随机裁剪等。从图像中提取随机子块(应用于深度学习)
    。Cubuk提出数据增广策略,将这些增广策略组合到一个策略空间中,这样可以在训练过程中自动搜索特定的策略。该团队又提出将两幅图片叠加成一幅图片进行学习训练,增加了鲁棒性和准确性。
    2)局部区域数据増广
    随即屏蔽图像中的某个区域,叫做CutOut。Singh等人提出Hide-and-Seek随机隐藏图像块,然后强迫CNN对物体各个区域进行广泛的关注。他们在弱监督目标检测方面取得了优异的成绩。Zhong等人提出了一种新的数据增强方法,称为随机擦除。它在图像中随机选择一个矩形区域,并用随机值擦除其像素,最终在目标分类、目标检测和重识别方面带来一致的改进。Chen等人改进了CutOut数据增广方法,提出Gridcut方法,在图像上通过格点布局的方式生成个栽剪区域,这类方法对原始方法取得了进一步提升。YUN等人融合CutOut数据增广策略和Mixup数据增广策略,提出CutMix方法,对图像一局部区域叠加其他图像局部区域,并改进了损失函数设计。
     

    更多相关内容
  • 基于卷积神经网络的细粒度图像识别关键技术分析与研究 基于卷积神经网络的细粒度图像识别关键技术分析与研究 基于卷积神经网络的细粒度图像识别关键技术分析与研究 基于卷积神经网络的细粒度图像识别关键技术分析...
  • 细粒度图像识别

    千次阅读 2021-10-29 15:25:56
    一般而言,图像识别分为两种:传统图像识别和细粒度图像识别。前者指的是对一些大的类别比如汽车、动物、植物等大的类别进行分类,这是属于粗粒度的图像识别。而后者则是在某个类别下做进一步分类。比如在狗的类别下...

    转自:https://nicehuster.github.io/2019/06/12/fine-grain/

    一般而言,图像识别分为两种:传统图像识别和细粒度图像识别。前者指的是对一些大的类别比如汽车、动物、植物等大的类别进行分类,这是属于粗粒度的图像识别。而后者则是在某个类别下做进一步分类。比如在狗的类别下区分狗的品种是哈士奇、柯基、萨摩还是阿拉斯加等等,这是属于细粒度图像识别。

    数据集

    在细粒度图像识别领域,经典的基准数据集包括:

    • 鸟类数据集CUB200-2011,11788张图像,200个细粒度分类
    • 狗类数据集Stanford Dogs,20580张图像,120个细粒度分类
    • 花类数据集Oxford Flowers,8189张图像,102个细粒度分类
    • 飞机数据集Aircrafts,10200张图像,100个细粒度分类
    • 汽车数据集Stanford Cars,16185张图像,196个细粒度分类

    细粒度图像分类作为一个热门的研究方向,每年的计算机视觉顶会都会举办一些workshop和挑战赛,比如Workshop on Fine-Grained Visual Categorization和iFood Classification Challenge。

    挑战


    上图展示的是CUB20鸟类数据集的部分图片。不同行表示的不同的鸟类别。很明显,这些鸟类数据集在同一类别上存在巨大差异,比如上图中每一行所展示的一样,这些差异包括姿态、背景等差异。但在不同类别的鸟类上却又存在着差异性小的问题,比如上图展示的第一列,第一列虽然分别属于不同类别,但却又十分相似。

    因此可以看出,细粒度图像识别普遍存在类内差异性大(large intra-class variance)和类间差异性小(small inter-class variance)的特点。

    方法

    细粒度图像识别同样是作为图像分类任务,因此也可以直接使用通用图像识别中一些算法来做,比如直接使用resnet,vgg等网络模型直接训练识别,通常在数据集上,比如CUB200上就可以达到75%的准确率,但这种方法离目前的SOTA方法的精度至少差了10个点。

    目前细粒度图像识别方法大致可以分为两类:

    1.基于强监督学习方法:这里指的强监督信息是指bounding box或者landmark,举个例子,针对某一种鸟类,他和其他的类别的差异一般在于它的嘴巴、腿部,羽毛颜色等


    主流的方法像Part-based R-CNN,Pose Normalized CNN,Part-Stacked CNN等。

    2.基于弱监督学习方法:什么是弱监督信息呢?就是说没有bounding box或者landmark信息,只有类别信息,开山之作应该属于2015年Bilinear CNN,这个模型当时在CUB200上是state of the art,即使和强监督学习方法相比也只是差1个点左右。

    关于前几年细粒度图像分析的综述,可以参考这里。由于强监督学习方法中对于大规模数据集来说,bounding box和landmark标注成本较高,因此,现在主流的研究方法都是是基于弱监督学习方法。

    下面是我要介绍的近1/2年来比较有代表性的顶会paper,这些paper都是基于弱监督信息,自主去挖掘Discriminative Region。

    Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition

    代码链接:https://github.com/Jianlong-Fu/Recurrent-Attention-CNN
    这篇文章是CVPR2017的一篇oral paper。细粒度图像识别的挑战主要包括两个方面:判别力区域定位以及从判别力区域学习精细化特征。RA-CNN以一种相互强化的方式递归地学习判别力区域attention和基于区域的特征表示。具体模型结构如下:

    主要思路

    如上图,每一行表示一个普通的CNN网络,
    (1)图片a1进入b1(堆叠多个卷积层)之后,分成两个部分,一个部分到c1连接fc+softmax进行普通的分类;另一个部分进入d1,Attention Proposal Network得到一个region proposal。
    (2)在原图上利用d1提出的region proposal,在原图上crop出一个更有判别性的小区域,插值之后得到a2,同样的道理得到a3。
    可以看出特征区域经过两个APN之后不断放大和精细化,为了使得APN选取的特征区域是图像中最具有判别性的区域,作者引入了一个Ranking loss:即强迫a1、a2、a3区域的分类confidence score越来越高(图片最后一列的对应Pt概率越来越大)。这样以来,联合普通的分类损失,使网络不断细化discriminative attention region。

    部分细节

    attention 定位和放大
    作者使用二维boxcar函数作为attention mask与原图相乘得到候选区域位置。这样做的目的在于实现APN的端对端训练。因为普通的crop操作不可导。
    损失函数
    该模型的损失函数包含两个部分,一部分是每一路经过fc和softmax之后的一个分类误差;一部分是Ranking loss使得越精细化的区域得到了置信度分数越高。

    对于ranking loss,

    在训练的过程中,迫使p(s+1)t>p(s)tpt(s+1)>pt(s)。

    实验结果

    在CUB-200-2011数据集上

    Pairwise Confusion for Fine-Grained Visual Classification

    代码链接:https://github.com/abhimanyudubey/confusion
    这是ECCV2018的一篇文章,这篇文章提出了一种Pairwise Confusion正则化方法,主要用于解决在细粒度图像分类问题上类间相似性和样本少导致过拟合的问题。在通用图像分类问题上,由于数据集一般较大,直接使用交叉熵损失函数就可以迫使网络学习类间差异性。然而对于细粒度图像分类问题而言,数据集小,且普遍存在类间差异较小,类内差异较大的特点。假如对于两张鸟类图像样本,内容相似却有着不同的标签,直接最小化交叉熵损失将会迫使网络去学习图像本身的差异比如一些差异性较大的背景,而不能很好的挖掘不同鸟类的细粒度区别。


    因此,作者提出了Pairwise Confusion方法 ,网络结构如上图所示。网络采用Siamese结构共享权值,对于一个Batch的图片会分成两部分,组成很多“图片对”,如果这些图片对属于相同的label,那么就把两张图片分别求Cross entropy loss;如果有一对图片属于不同的label,那么在分别对他们求Cross Entropy Loss的同时还要附加一个Euclidean Confusion作为惩罚项

    论文的主要出发点还是制约不同类别图片表示的特征向量之间的距离。作为一个涨点的trick。可以加在任何细粒度识别算法中。下面是一些实验对比结果,可以看出,添加PC之后在每个数据集都能带来1-2个点。

    Learning to Navigate for Fine-grained Classification

    代码链接:https://github.com/yangze0930/NTS-Net
    这也是ECCV2018的文章,这篇文章借鉴了RPN的思路,通过在原图上生成anchors,利用rank loss选出信息量最大的一些proposal,然后crop出这些区域,和原图一起提取特征然后进行决策判断。这是这篇文章方法的一个大致结构。

    Navigator

    这个结构和FPN类似,在三个不同尺度的feature map上生成候选框,Navigator就是给每一个候选区域的“信息量”打分,信息量大的区域分数高。

    Teacher

    展开全文
  • 深度细粒度图像识别研究综述.pdf
  • 双线性神经网络 ... python bilinear_ResNet_linear_layer.py 在此步骤中,需要计算图像数据的平均值和方差,以进行图像预处理 模型中的所有参数都经过训练。 运行以下代码。 python bilinear_ResNet_fine_tunin
  • 本文通过场景文字从人类知识库(Wikipedia)中挖掘其背后丰富的上下文语义信息,并结合视觉信息来共同推理图像内容。

    本文分享自华为云社区《[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法》,作者:谷雨润一麦。

    本文简要介绍CVPR 2022录用的论文“Knowledge Mining with Scene Text for Fine-Grained Recognition”的主要工作。该论文旨在利用场景文本的线索来提升细粒度图像识别的性能。本文通过场景文字从人类知识库(Wikipedia)中挖掘其背后丰富的上下文语义信息,并结合视觉信息来共同推理图像内容。数据集和代码已开源,下载地址见文末。

    研究背景

    文字是人类传达信息、知识和情感的重要载体,其蕴含了丰富的语义信息。利用文字的语义信息,可以更好地理解图像中的内容。和文档文本不同,场景文字具有稀疏性,通常以少许关键词的形式存在于自然环境中,通过稀疏的关键词,机器难以获取精准的语义。然而,人类能够较为充分地理解稀疏的场景文字,其原因在于,人类具有大量的外部知识库,能够通过知识库来弥补稀疏的场景文字所带来的语义损失。

    如图1所示:该数据集是关于细粒度图像分类任务,旨在区分图像中的瓶子属于哪种饮品或酒类。图中3张图像均属于soda类饮品,尽管(a)(b)两案例的瓶子具有不同的视觉属性(不同材质、形状),但是关键词soda提供了极具区分力的线索来告知样本属于soda饮品。尽管案例(c)同样属于soda类饮品,但是其附属的场景文本的表面信息无法提供明显的线索。表格(d)中列出了案例(c)中的场景文字在Wikipedia中的描述,Wikipedia告知我们,场景文本leninade代表某种品牌,其属于soda类饮品。因此,挖掘场景文本背后丰富的语义信息能够进一步弥补场景文本的语义损失,从而更为准确地理解图像中的目标。

    • Bottle数据集中的案例,3张图像均属于soda类别

    方法简述

    算法框架:如图2所示,网络框架由视觉特征分支、知识提取分支和知识增强分支、视觉-知识注意力模块和分类器构成。算法输入包括3部分:图像,图像中包含的场景文本实例,外部知识库。其中场景文本实例通过已有的文字识别器从输入图像中获取,外部知识库采用了Wikipedia。知识提取分支提取场景文本实例背后的语义信息(知识特征),知识增强分支融合场景文本实例和挖掘出的知识特征。随后,视觉-知识注意力模块融合视觉和知识特征,并将其输入给分类器进行分类。

    • 算法框架图,由视觉特征分支、知识提取分支和知识增强分支、视觉-知识注意力模块(VKAC)和分类器构成。

    知识提取分支:该分支由实体候选选择器和实体编码器构成。在知识库中,同一关键词能够表示多个实体,比如apple可表示fruit apple,也可表示company apple。实体候选选择器预先在大量语料库上统计单词在所有可能实体上的概率分布,根据概率分布选取前10个候选实体,并将其输入给实体编码器进行特征编码。实体编码器在Wikipedia的数据库上进行预训练,预训练任务旨在通过Wikipedia上实体的描述来预测该页面的标题(实体名称)。通过此任务的学习,实体名称对于的特征编码了该词条的上下文信息。

    知识增强特征分支:该分支主要由bert[1]构成,在bert的第10层后插入知识注意力模块(KARC),该模块融合了文本实例特征和知识特征后,接着输入给bert剩余的层。Bert第12层输出的特征给VKAC模块。KARC的网络结构如图3所示。

    视觉-知识注意力模块:并非所有的场景文本或知识对理解图像有积极作用,为选取和图像内容相关的场景文本和知识来加强对图像的理解。该模块以图像全局特征作为访问特征,从增强的知识特征中选取相关的知识特征来加强视觉特征。其网络结构由注意力模型构成。

    • 知识注意力模块(KARC),橙色和绿色模块是模块的两种输入

    实验结果

    为研究场景文本背后的知识对图像识别的帮助,我们收集了一个关于人群活动的数据集。该数据集中的类别主要分为游行示威和日常人群密集活动两大类,细分为21类。数据集案例如图4所示。

    • 人群活动数据集样例

    和SOTA对比:在公开数据集Con-Text、Bottles以及我们收集的Activity数据集上,在使用resnet50[3]和E2E-MLT[4]作为视觉特征提取器和文字提取器时,我们方法能在同等情况下取得最佳结果。当使用ViT和Google OCR时,其模型性能结果能进一步提升。

    视觉、文本、知识特征对识别的影响:可以看出,文本的表面语义(Glove,fastText)在视觉网络为Resne50[3]的时候,能对识别性能有较大提升。当视觉网络为ViT[2]时,提升极其有限。如图5所示,Resnet50关注于主要于视觉目标具有区分力的区域,而ViT能同时关注在视觉目标和场景文字上。因此,再使用场景文字的表语含义难以对ViT有较大促进作用。而挖掘文本的背后语义后,能进一步提升ViT作为视觉backbone的模型的性能。

    • 上下两行分别为resnet50和ViT模型的注意力热图

    总结与结论

    本文提出了一种通过挖掘场景文本背后语义来增强分类模型理解图像内容的方法,该方法的核心是利用场景文字作为关键词,到wikipedia知识库中检索出相关的知识,并获取其特征表达,和图像视觉特征进行融合理解,而并非仅仅利用场景文字的表面语义信息。得益于挖掘场景文本背后的知识,该方法能够更好地理解文字语义并不非常直观的内容。实验表明,该方法在3个数据集上均取得了最佳结果。

    相关资源

    论文地址:https://arxiv.org/pdf/2203.14215.pdf

    数据集和代码链接:https://github.com/lanfeng4659/KnowledgeMiningWithSceneText

    点击关注,第一时间了解华为云新鲜技术~​

    展开全文
  • 利用文字的语义信息,可以更好地理解图像中的内容。和文档文本不同,场景文字具有稀疏性,通常以少许关键词的形式存在于自然环境中,通过稀疏的关键词,机器难以获取精准的语义。然而,人类能够较为充分地理解稀疏的...

    Knowledge Mining with Scene Text for Fine-Grained Recognition

    一、研究背景

    文字是人类传达信息、知识和情感的重要载体,其蕴含了丰富的语义信息。利用文字的语义信息,可以更好地理解图像中的内容。和文档文本不同,场景文字具有稀疏性,通常以少许关键词的形式存在于自然环境中,通过稀疏的关键词,机器难以获取精准的语义。然而,人类能够较为充分地理解稀疏的场景文字,其原因在于,人类具有大量的外部知识库,能够通过知识库来弥补稀疏的场景文字所带来的语义损失。

    如图1所示:该数据集是关于细粒度图像分类任务,旨在区分图像中的瓶子属于哪种饮品或酒类。图中3张图像均属于Soda类饮品,尽管(a)(b)两案例的瓶子具有不同的视觉属性(不同材质、形状),但是关键词Soda提供了极具区分力的线索来告知样本属于Soda饮品。尽管案例(c)同样属于soda类饮品,但是其附属的场景文本的表面信息无法提供明显的线索。表格(d)中列出了案例(c)中的场景文字在Wikipedia中的描述,Wikipedia告知我们,场景文本Leninade代表某种品牌,其属于Soda类饮品。因此,挖掘场景文本背后丰富的语义信息能够进一步弥补场景文本的语义损失,从而更为准确地理解图像中的目标。

     

    二、方法简述

    算法框架

    如图2所示,网络框架由视觉特征分支、知识提取分支和知识增强分支、视觉-知识注意力模块和分类器构成。算法输入包括3部分:图像,图像中包含的场景文本实例,外部知识库。其中场景文本实例通过已有的文字识别器从输入图像中获取,外部知识库采用了Wikipedia。知识提取分支提取场景文本实例背后的语义信息(知识特征),知识增强分支融合场景文本实例和挖掘出的知识特征。随后,视觉-知识注意力模块融合视觉和知识特征,并将其输入给分类器进行分类。

     

    知识提取分支

    该分支由实体候选选择器和实体编码器构成。在知识库中,同一关键词能够表示多个实体,比如Apple可表示Fruit Apple,也可表示Company Apple。实体候选选择器预先在大量语料库上统计单词在所有可能实体上的概率分布,根据概率分布选取前10个候选实体,并将其输入给实体编码器进行特征编码。实体编码器在Wikipedia的数据库上进行预训练,预训练任务旨在通过Wikipedia上实体的描述来预测该页面的标题(实体名称)。通过此任务的学习,实体名称对于的特征编码了该词条的上下文信息。

    知识增强特征分支

    该分支主要由Bert[1]构成,在bert的第10层后插入知识注意力模块(KARC),该模块融合了文本实例特征和知识特征后,接着输入给Bert剩余的层。Bert第12层输出的特征给VKAC模块。KARC的网络结构如图3所示。

    视觉-知识注意力模块

    并非所有的场景文本或知识对理解图像有积极作用,为选取和图像内容相关的场景文本和知识来加强对图像的理解。该模块以图像全局特征作为访问特征,从增强的知识特征中选取相关的知识特征来加强视觉特征。其网络结构由注意力模型构成。

     

    三、实验结果

    为研究场景文本背后的知识对图像识别的帮助,我们提出了一个关于人群活动的数据集。该数据集中的类别主要分为游行示威和日常人群密集活动两大类,细分为21类。数据集案例如图4所示。(Crowd Activity dataset)

     

    和SOTA对比

    在公开数据集Con-Text、Bottles以及我们收集的Activity数据集上,在使用resnet50[3]和E2E-MLT[4]作为视觉特征提取器和文字提取器时,我们方法能在同等情况下取得最佳结果。当使用ViT和Google OCR时,其模型性能结果能进一步提升。

     

    视觉、文本、知识特征对识别的影响

    可以看出,文本的表面语义(Glove,fastText)在视觉网络为Resne50[3]的时候,能对识别性能有较大提升。当视觉网络为ViT[2]时,提升极其有限。如图5所示,Resnet50主要关注于视觉目标具有区分力的区域,而ViT能同时关注在视觉目标和场景文字上。因此,再使用场景文字的表语含义难以对ViT有较大促进作用。而挖掘文本的背后语义后,能进一步提升ViT作为视觉Backbone的模型的性能。

     

    展开全文
  • 细粒度图像识别算法Mask-CNN

    千次阅读 2019-07-18 17:40:22
    传统的图像识别一般都是识别花、鸟、汽车等不同类别物体,而细粒度图像识别则是要识别同一类物体下的不同子类。举个例子,识别一张图片是猫、狗、汽车还是飞机就是传统的图像识别,而识别一张图片是贵宾犬、边境牧羊...
  • 学习精细有区分度的特征(例如鸟喙和鸟的眼睛)在细粒度图像识别中起着十分重要的作用。现有的基于注意力的方法通过定位和放大重要部位来学习细粒度细节,但常常受到part数量和繁重的计算开销的限制。在这篇文章中...
  • 基于用户点击数据的细粒度图像识别方法概述
  • 人工智能-基于卷积神经网络的细粒度图像识别方法研究.pdf
  • 百度ai—细粒度图像识别

    千次阅读 2017-12-06 15:33:11
    代码实现图像识别植物,并给出植物的详细介绍。
  • 细粒度图像识别 (fine-grained image recognition),即 精细化分类 。 精细化分类 识别出物体的大类别(比如:计算机、手机、水杯等)较易,但如果进一步去判断更为精细化的物体分类名称,则难度极大。 最大...
  • 人脸识别属于细粒度图像识别吗? 是不是同类物体的识别问题都属于细粒度图像识别
  • 人工智能-深度学习-基于深度学习的细粒度图像识别算法研究及应用.pdf
  • Fine-Grained Global Second-order Pooling Convolutional Networks ... (WS...
  • 网络游戏-基于深度卷积神经网络的细粒度图像识别与分类算法研究.zip
  • 本科毕业设计使用src和crc算法实现对图像的分类,采用卷积神经网络模型,使用软件Matlab
  • 细粒度图像识别引起广泛关注,这具有挑战性,因为需要具有在子类别中发现视觉差异的能力。许多工作依赖边界框和部位标注,但费时费力并具有人的主观成分,这不是细粒度识别的最佳方法。 不带边界框和部位标注的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,067
精华内容 4,026
关键字:

细粒度图像识别

友情链接: HMI程序模板.rar