精华内容
下载资源
问答
  • 关于大自然的场景
    千次阅读
    2022-02-16 08:36:20

    上文链接 https://blog.csdn.net/dzcera/article/details/122955738

    4实验结果及设置

    4.1数据集

    本文采用ICDAR2013,ICDAR2015数据集并将ICDAR2013,ICDAR2015 dataset 转化为 PASCAL_VOC dataset 格式对于模型进行训练和验证。其中ICDAR2013数据集样本多为自然场景水平字符,同时包含字符图片和单词图片,训练集共有3567张裁剪后的图片,测试集共有1439张裁剪后的图片。ICDAR2015数据集样本多为复杂自然场景中倾斜模糊等受背景影响较大的图片。

    4.2本文实验环境

    本文实验开发环境为Intel i7-9750h,GPU为NVIDIA GTX1050
    lmdb0.97
    numpy
    1.17.2
    Pillow6.1.0
    six
    1.12.0
    torch1.2.0
    torchvision
    0.4.0

    4.3实验结果及分析

    根据Faster R-CNN中的“image-centric”采样策略,RPN通过反向传播(BP,back-propagation)和随机梯度下降(SGD,stochastic gradient descent)进行端到端(end-to-end)的网络训练。依照RPN和Faster R-CNN两者之间的特征共享技术,两个网络共享一个相同的卷积层,构成一个统一的网络。Faster R-CNN模型分别用转化为PASCAL_VOC dataset格式后的ICDAR2013和ICDAR2015中的自然图像进行训练。同时VGG16 是基于大量真实图像的 ImageNet 图像库预训练的网络,本项目训练时将学习好的 VGG16 的权重迁移到Faster R-CNN上作为网络的初始权重,通过迁移学习的方式提高了训练速度。本文训练的模型经过多次训练后的文字检测方法识别准确率为90.91%,检测精度高。
    为了测试本项目的性能,实验模型测试采用多张自然场景,不同干扰因素的文字图片。以其中的三个样本为例,首先我们选取三个样本中场景干扰因素较小,文字较为清晰的图片进行测试。可以看到训练好的模型可以准确的检测识别出文字的内容,遮挡部分文字的干扰因素并没有对识别结果造成严重的影响。检测结果逐词分割,有较高的识别率。其次选取一张常见的自然场景文字图片,以自然环境为场景文字识别图片的主体,文字所占图片中的空间占比较小且较为分散,由不同颜色的文字组成,并有类似文字的告示牌图样干扰。可以看到训练后的网络可以准确识别该类文字,基本不受自然场景干扰因素的影响。最后一个样本中,训练模型选择了场景内容较为复杂的自然场景图片,该图片中自然场景较为复杂,有人为建筑和人群等干扰因素。图中有多处文字片段,且文字的颜色、样式、倾斜程度和文字所处光照条件均不相同,占据图片中的空间比例极小。训练后的模型在检测这张图片的时候仅能检测识别到一处图片占比空间较大的文字。而将图片裁剪后,所有文字内容均可识别检测出,这也是目前需要进一步改进的地方。
    在这里插入图片描述
    在这里插入图片描述
    图 1场景干扰因素较小,文字较为清晰的文字图片
    在这里插入图片描述
    在这里插入图片描述
    图 2场景干扰因素较大,文字较为清晰的文字图片
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    图 3场景干扰因素较大,文字较为模糊的文字图片

    文字检测识别是一种通用识别技术,特别是自然场景的检测与识别近些年已成为深度学习计算机视觉方向的研究热点。如今传统的文字识别技术已经相对成熟,但自然场景文字识别准确率较低,至今还未能达到实用的程度。本文实验尝试从不同于现有方法的角度,利用Faster R-CNN和CRNN结合的方法提高了检测精度。通过考虑文字特征实现文本检测定位,利用卷积神经网络检测自然场景中的英文文本,操作步骤简单,可行度高。实验测试图片来自已公开的训练集和网络,包括背景干扰、倾斜弯曲、低分辨率、模糊等极端场景,实验结果证明本文采用的方法适应性强,在复杂场景下鲁棒性能好,在场景干扰情况,也能保证文字的准确检测和识别。本文未能实现多语言的混合文本识别,相关问题还需要进一步的研究。

    更多相关内容
  • 本数据集包括3273类汉字,共47万张汉字图片,解压后,每类汉字归类在一个文件夹下,各图像尺寸不一,包含在自然场景下能见到的各种字体。本人由于需要大量的自然场景中文汉字数据集,因此从各处搜来大量标注的自然...
  • FOTS:自然场景的文本检测与识别

    千次阅读 2021-03-07 09:48:44
    在这篇文章里,我将分享我实现这篇论文的...可以在任何自然场景中检测和识别任何文本。 在上面的图像中,FOTS给出了结果,它检测到“间隙”文本区域和图像(场景)中的所有文本区域,并识别出它是“间隙”、“50”和“GA

    在这篇文章里,我将分享我实现这篇论文的方法。

    • 问题描述
    • 数据集
    • 关于数据
    • 使用的损失函数
    • 准备检测数据
    • 准备识别数据
    • 训练检测模型和识别模型
    • 代码整合
    • 显示结果
    • 引用

    问题描述

    我们需要从任何图像(包含文本)检测文本区域,这个图像可以是任何具有不同背景的东西。在检测到图像后,我们也必须识别它。

    FOTS的完整形式是快速定向文本点亮。可以在任何自然场景中检测和识别任何文本。

    在上面的图像中,FOTS给出了结果,它检测到“间隙”文本区域和图像(场景)中的所有文本区域,并识别出它是“间隙”、“50”和“GAP”等。这就是我们在这篇文章中要做的。

    现在这个任务可以用两个不同的部分检测和识别来完成。在检测部分检测场景中的文本区域,在识别部分识别文本,什么是文本?(见上图)所以对于检测,我们使用CNN,对于识别,我们将在每个检测区域上使用一些序列解码器。

    数据集

    对于这个问题,我们将使用ICDAR 2015数据集。我们也将使用一个合成的文本图像数据集。

    这里我们将使用ICDAR 2015数据集。其中有三种类型的数据。

    训练集图像-

    ​ 我们有1000个图像用于检测文本目的。

    训练集定位和转录目标标注-

    ​ 我们有1000个带有角坐标和标签(文本)的文本文件。假设在一个文本文件中,我们有5行,这意味着我们在相应的图像中有5个文本多边形。在每一行,我们有8个坐标(x1, y1, x2, y2…)和一个标签。

    训练集文字图像,文本标注-

    ​ 提供了与单词的轴向包围框相对应的~4468个切出的单词图像,并提供了单个文本文件,其中包含每个单词图像内包围形状的相对坐标。在一个单一的文本文件中提供的真实值。

    同时也有测试图像来进行识别和检测。

    但是对于训练识别模型,我使用了数据的增广,从合成的文本数据中提取了近15万幅文本图像。

    在合成数据中,我们有文本图像,而在图像中写入的文本就是图像的名称,因此我们可以从图像的名称中提取图像名称。

    损失函数

    我们将使用在实际论文中建议的损失函数。对于score-map,我们将使用交叉熵损失。

    在这一损失中,我们正在计算score-map中的预测概率与实际概率的差异

    对于边框,我们使用IOU,对于旋转,我们使用λθ(1−cos(θx, θ∗x)旋转角损失。

    这里R_cap是预测的边界框,R*是实际的边界框,所以这里log中的分子项是预测和实际之间的交叉区域,而标记项是这两个区域的并集。现在我们用这个来求截面积

    其中d1、d2、d3、d4为一个像素到上、右、下、左边界的距离。这里w_i和h_i是截面积的宽度和高度,现在我们可以通过两者相乘得到截面积。

    现在联合区域将是- area_real+area_pred-intersected_area

    对于角度,我们用-

    其中,ta_cap是预测的角度,而ta_*是实际的角度。

    现在合并这两个损失的最后损失的方位是-

    现在检测的全部损失是-

    这里的L_reg和L_g是一样的。

    对于识别部分,使用的损失是CTC loss-

    准备检测数据

    我们必须转换数据以便我们可以将其输入我们的模型并对输出计算损失。对于输入,我们只会在一次输入一批图像和输出score-map(代表文本在哪里,不是0和1)和geo-map(这有5通道与图片相同的高度和宽度,前四个分别是 上下左右,最后一个是角度)。基于这两个输出,我们的模型通过损失计算和优化将会收敛,我们也将返回一个训练掩码,以便在计算损失时,我们将不考虑那些非常小的文本区域,标签文本没有给出。

    对于每个图像,输入的形状是(512,512,3),输出的形状是(512,512,6),这里有6个通道,一个是score map,四个是top, right, bottom, and left的距离,还有一个是training mask。

    如果我们的批大小是32,那么输入形状将是(32,512,512,3),输出形状将是(32,512,512,6)。

    现在来看geo-map的样子,因为我们知道它的通道与一个真正的文本矩形只有像素的距离,这个矩形的文本有上方、右侧、底部和左侧。你可以看这个图像更清楚-

    我也根据论文画了图,看起来像这样


    准备识别数据

    对于识别任务,我们必须提供文本图像作为输入,以及编码的文本序列(在该图像中)。在给出图像作为输入之前,我们将调整所有图像的高度和宽度。在我的例子中,我将所有图像的大小调整为(15,64,3)。我对所有与图像对应的文本进行了编码,并在Keras预处理库的帮助下依次进行了转换。因此,在编码之后,我们的输出将是(1,15)的形状,这15从哪里来,我将所有编码的文本填充为15个长度。

    如果批大小为32,则输入形状为(32,15,64,3),输出形状为(32,1,15)。

    训练检测与识别模型

    检测模型-

    第一篇研究论文是https://arxiv.org/pdf/1801.01671.pdf,它解释了整个工作。在本文“FOTS”中,他们同时进行了检测和识别,这是端到端系统,意思是如果我们给出一个有文本的场景,那么它将返回检测到的文本区域,并对文本进行识别。首先,他们提取特征图,用一些CNN检测文本区域,然后,他们在检测区域的序列解码的帮助下进行识别部分。

    首先,他们从图像中提取特征的帮助下共享层的卷积,然后这些特征在文本检测分支(这又是一堆褶积层)然后文本检测分支预测b框(边界框)和边界框的方向,本预测输出和ROI旋转使面向文本区域固定高度和长宽比不变,然后这个转到文本识别分支(也就是RNN)和CTC解码器,它给出预测的文本。

    但我已经实现了两部分,首先我有一个训练过检测模型,然后我有一个训练过的识别模型。因为我们有这两个任务的数据。

    所以我们的检测部分是受East 论文的启发,https://arxiv.org/abs/1704.03155。本文介绍了一种从不同背景的场景中检测文本的方法。该网络使用的架构由卷积层、池化层和规范化层组成。

    这个网络的灵感来自于u形网络,正如你所看到的,从特征提取器的中层,我们将信息提取到特征合并分支。

    这里我们使用了预先训练的resnet50模型,该模型在imagenet数据集上进行了训练,用于提取特征并将其用于特征合并分支。你可以看到前50个训练时代的检测模型-

    识别模型

    对于识别模型,我们使用了一些初始的Conv层、批处理归一化层和max-pooling层从图像中提取信息,之后我们必须使用一个双向LSTM层。

    对于如何构建数据的识别模型,我已经在上面的准备数据一节中解释过了。

    你可以在这里看到识别模型的训练时代

    训练代码整合

    现在我们需要创建一个管道或者说是python函数,它可以获取图像并返回带有高亮文本区域和文本的图像。

    为了编写这个函数,我们将使用NMS(Non-Max suppression)技术和一个ROI-ROTATE方法。问题是什么是NMS, NMS是一种选择与文本区域相交较高的边框的技术。在预测之后我们将得到shape的输出(512,512,6)。geo-map,score-map和angle的帮助下,我们将首先制作很多边界框要。假设图像中已有文本,现在将该图像提供给检测模型,我们将获得6个通道的结果图,现在我们将只提取所有6个通道中的像素,这些像素在预测得分图中的值为1,这样我们就拥有了文本区域像素的位置及其与像素顶部,右侧,底部和左侧的预测距离矩形。每个像素都有它自己的边界框(我们知道区域的面积,像素和距离两边的像素),所以最后得分图和距离的帮助下,我们将得到一个为每个像素边界框。此后,NMS的工作就开始了,NMS选择其中包含大部分文本的最佳边界框。然后,我们用ROI旋转技术旋转这些边界框中的区域。现在我们在边界框的帮助下裁剪文本图像,并将其发送到识别模型,识别模型给出文本输出。现在我们将在TensorFlow ctc_decoder方法的帮助下解码这个输出。在这之后,我们可以很容易地得到我们的文本。

    显示结果

    我已将此图片提供给我的管道

    得到如下结果:

    正如我们在此处看到的那样,它正在检测“ fendi”和更多的单词,并且可以正确识别“ fendi”单词。

    现在我们可以看到更多示例

    我们可以在上图中看到该模型的检测和识别能力还是可以的

    但是,有些图像在模型上表现不佳,例如,如果图像中的单词很大或单词的角度一定,则无法正确检测到它们,也无法正确识别它们。 查看一些示例-

    因此,要解决此问题,首先,我们可以使用更多数据,我们仅在1300张图像上训练了我的检测模型,并且您也可以在识别模型的训练中获取更多数据。 因此,如果我们训练更多的数据,则该模型可能会为包含文本的每个像素预测更准确的标注。

    完整代码:https://github.com/vishwas-upadhyaya/mercari_price_suggestion

    引用

    1. https://arxiv.org/abs/1704.03155
    2. https://arxiv.org/pdf/1801.01671.pdf
    3. https://www.youtube.com/watch?v=c86gfVGcvh4
    4. https://github.com/Pay20Y/FOTS_TF
    5. https://github.com/yu20103983/FOTS/tree/master/FOTS
    6. https://github.com/Masao-Taketani/FOTS_OCR
    7. https://www.appliedaicourse.com/course/11/Applied-Machine-learning-course
    8. https://machinelearningmastery.com/how-to-use-transfer-learning-when-developing-convolutional-neural-network-models/

    作者:VISHWAS UPADHYAY

    作者:VISHWAS UPADHYAY

    deephub翻译组

    展开全文
  • 首先介绍应用背景,包括面临的技术挑战、典型应用场景、系统实施框架等。接着介绍搭建图文识别模型过程中经常被引用到的多种特征提取基础网络、物体检测网络框架,以及它们被应用到图文识别任务中所面临的场景适配...

    摘要

    本文介绍图像文本识别(OCR)领域的最新技术进展。首先介绍应用背景,包括面临的技术挑战、典型应用场景、系统实施框架等。接着介绍搭建图文识别模型过程中经常被引用到的多种特征提取基础网络、物体检测网络框架,以及它们被应用到图文识别任务中所面临的场景适配问题。然后介绍最近三年来出现的各种文本边框检测模型、文字内容识别模型、端到端图文识别模型。最后介绍图文识别领域的大型公开数据集。

    应用概述

    OCR(Optical Character Recognition, 光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息。场景文字识别(Scene Text Recognition,STR) 指识别自然场景图片中的文字信息。自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:

    • 允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等。 文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。
    • 图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
    • 自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。
      在这里插入图片描述

    也有人用OCR技术泛指所有图像文字检测和识别技术, 包括传统OCR技术与场景文字识别技术。这是因为,场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。

    图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

    已经有不少服务商在提供图像文字检测和识别服务,这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业,也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务,也可以使用客户提供的数据集训练定制化模型(如票据识别模型),以及提供定制化AI服务系统集成等。

    如下图所示,传统技术解决方案中,是先分别训练文字检测和文本识别两个模型,然后在服务实施阶段将这两个模型串联到数据流水线中组成图文识别系统。
    在这里插入图片描述

    如下图所示,最近流行的技术解决方案中,是用一个多目标网络直接训练出一个端到端的模型。在训练阶段,该模型的输入是训练图像及图中文本坐标、文本内容,模型优化目标是输出端边框坐标预测误差与文本内容预测误差的加权和。在服务实施阶段,原始图片流过该模型直接输出预测文本信息。相比于传统方案,该方案中模型训练效率更高、服务运营阶段资源开销更少。
    在这里插入图片描述
    文本检测和识别技术处于一个学科交叉点,其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量,又需要借助自然语言处理技术来解码图像特征向量为文字结果。

    模型基础

    从公开论文中可以看到,起源于图像分类、检测、语义分割等视觉处理任务的各个基础网络(backbone network),纷纷被征用来提取图像中文字区域的特征向量。同时,起源于物体检测、语义分割任务的多个网络框架,也被改造后用于提升图文识别任务中的准确率和执行速度。本章将简单温习一下这些基础网络、网络框架的实现原理,并介绍图文识别任务中应用它们时所面临的各种场景适配问题。

    基础网络

    图文识别任务中充当特征提取模块的基础网络,可以来源于通用场景的图像分类模型。例如,VGGNet,ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。

    图文识别任务中的基础网络,也可以来源于特定场景的专用网络模型。例如,擅长提取图像细节特征的FCN网络,擅长做图形矫正的STN网络。

    由于大家对通用网络模型已经很熟悉,所以本节只简单介绍上述专用网络模型。

    FCN网络

    全卷积网络(FCN,fully convolutional network), 是去除了全连接(fc)层的基础网络,最初是用于实现语义分割任务。FC的优势在于利用反卷积(deconvolution)、上池化(unpooling)等上采样(upsampling)操作,将特征矩阵恢复到接近原图尺寸,然后对每一个位置上的像素做类别预测,从而能识别出更清晰的物体边界。基于FCN的检测网络,不再经过候选区域回归出物体边框, 而是根据高分辨率的特征图直接预测物体边框。因为不需要像Faster-RCNN那样在训练前定义好候选框长宽比例,FCN在预测不规则物体边界时更加鲁棒。由于FCN网络最后一层特征图的像素分辨率较高,而图文识别任务中需要依赖清晰的文字笔画来区分不同字符(特别是汉字),所以FCN网络很适合用来提取文本特征。当FCN被用于图文识别任务时,最后一层特征图中每个像素将被分成文字行(前景)和非文字行(背景)两个类别。
    在这里插入图片描述
    (选自arXiv:1411.4038,’ Fully Convolutional Networks for Semantic Segmentation’)

    STN网络

    空间变换网络(STN,Spatial Transformer Networks)的作用是对输入特征图进行空间位置矫正得到输出特征图,这个矫正过程是可以进行梯度传导的,从而能够支持端到端的模型训练。
    如下图所示,STN网络由定位网络(Localization Network) ,网格生成器(Grid generator),采样器(Sampler)共3个部分组成。定位网络根据原始特征图U计算出一套控制参数,网格生成器这套控制参数产生采样网格(sampling grid),采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。
    空间变换的控制参数是根据原始特征图U动态生成的,生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重(weights)矩阵中。
    在这里插入描述
    (选自arXiv: 1506.02025,’Spatial Transformer Networks’)

    检测网络框架

    Faster RCNN

    Faster RCNN作为一个检测网络框架,其目标是寻找紧凑包围被检测对象的边框(BBOX,Bounding Box)。如下图所示,它在Fast RCNN检测框架基础上引入区域建议网络(RPN,Region Proposal Network),来快速产生与目标物体长宽比例接近的多个候选区域参考框(anchor);它通过ROI(Region of Interest) Pooling层为多种尺寸参考框产生出归一化固定尺寸的区域特征;它利用共享的CNN卷积网络同时向上述RPN网络和ROI Pooling层输入特征映射(Feature Maps),从而减少卷积层参数量和计算量。训练过程中使用到了多目标损失函数,包括RPN网络、ROI Pooling层的边框分类loss和坐标回归loss。通过这些loss的梯度反向传播,能够调节候选框的坐标、并增大它与标注对象边框的重叠度/交并比(IOU,Intersection over Union)。RPN网格生成的候选框初始值有固定位置以及长宽比例。如果候选框初始长宽比例设置得与图像中物体形状差别很大,就很难通过回归找到一个紧凑包围它的边框。
    在这里插入图片描述
    (摘自arXiv:1506.01497,’Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks’)

    SSD

    SSD(Single Shot MultiBox Detector),是2016年提出的一种全卷积目标检测算法,截止到目前仍是主要的目标检测框架之一,相比Faster RCNN有着明显的速度优势。如下图所示,SSD是一种one stage算法,直接预测被检测对象的边框和得分。检测过程中,SSD算法利用多尺度思想进行检测,在不同尺度的特征图(feature maps)上产生与目标物体长宽比例接近的多个默认框(Default boxes),进行回归与分类。最后利用非极大值抑制(Non-maximum suppression)得到最终的检测结果。训练过程中,SSD采用Hard negative mining策略进行训练,使正负样本比例保持为1:3,同时使用多种数据增广(Data augmentation)方式进行训练,提高模型性能。
    在这里插入图片描述
    (摘自arxiv: 1512.02325, “SSD: Single Shot MultiBox Detector”)

    文本检测模型

    文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。

    但是,视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果并不理想, 主要原因如下:

    • 相比于常规物体,文字行长度、长宽比例变化范围很大。
    • 文本行是有方向性的。常规物体边框BBox的四元组描述方式信息量不充足。
    • 自然场景中某些物体局部图像与字母形状相似,如果不参考图像全局信息将有误报。
    • 有些艺术字体使用了弯曲的文本行,而手写字体变化模式也很多。
    • 由于丰富的背景图像干扰,手工设计特征在自然场景文本识别任务中不够鲁棒。

    针对上述问题根因,近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。例如:

    • CTPN方案中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。
    • RRPN等方案中,文本框标注采用BBOX +方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。
    • DMPNet等方案中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。
    • SegLink 将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。
    • TextBoxes等方案中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。
    • FTSN方案中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
    • WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。

    下面用近年来出现的多个模型案例,介绍如何应用上述各方法提升图像文本检测的效果。

    CTPN模型

    CTPN是目前流传最广、影响最大的开源文本检测模型,可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence,而不是一般物体检测中单个独立的目标。同一文本行上各个字符图像间可以互为上下文,在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律,可以使得预测阶段有效提升文本块预测准确率。CTPN模型的图像预测流程中,前端使用当时流行的VGG16做基础网络来提取各字符的局部图像特征,中间使用BLSTM层提取字符序列上下文特征,然后通过FC全连接层,末端经过预测分支输出各个文字块的坐标值和分类结果概率值。在数据后处理阶段,将合并相邻的小文字块为文本行。

    在这里插入图片描述
    (选自arXiv: 1609.03605,’Detecting Text in Natural Image with Connectionist Text Proposal Network’)

    RRPN模型

    基于旋转区域候选网络(RRPN, Rotation Region Proposal Networks)的方案,将旋转因素并入经典区域候选网络(如Faster RCNN)。这种方案中,一个文本区域的ground truth被表示为具有5元组(x,y,h,w,θ)的旋转边框, 坐标(x,y)表示边框的几何中心, 高度h设定为边框的短边,宽度w为长边,方向是长边的方向。训练时,首先生成含有文本方向角的倾斜候选框,然后在边框回归过程中学习文本方向角

    在这里插入图片描述
    (选自arXiv: 1703.01086,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)
    RRPN中方案中提出了旋转感兴趣区域(RRoI,Rotation Region-of-Interest)池化层,将任意方向的区域建议先划分成子区域,然后对这些子区域分别做max pooling、并将结果投影到具有固定空间尺寸小特征图上。
    在这里插入图片描述
    (选自arXiv: 1703.01086,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)

    FTSN模型

    FTSN(Fused Text Segmentation Networks)模型使用分割网络支持倾斜文本检测。它使用Resnet-101做基础网络,使用了多尺度融合的特征图。标注数据包括文本实例的像素掩码和边框,使用像素预测与边框检测多目标联合训练。
    在这里插入图片描述
    (选自arXiv: 1709.03272,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)
    基于文本实例间像素级重合度的Mask-NMS, 替代了传统基于水平边框间重合度的NMS算法。下图左边子图是传统NMS算法执行结果,中间白色边框被错误地抑制掉了。下图右边子图是Mask-NMS算法执行结果, 三个边框都被成功保留下来。
    在这里插入图片
    (选自arXiv: 1709.03272,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)

    DMPNet模型

    DMPNet(Deep Matching Prior Network)中,使用四边形(非矩形)来更紧凑地标注文本区域边界,其训练出的模型对倾斜文本块检测效果更好。

    如下图所示,它使用滑动窗口在特征图上获取文本区域候选框,候选框既有正方形的、也有倾斜四边形的。接着,使用基于像素点采样的Monte-Carlo方法,来快速计算四边形候选框与标注框间的面积重合度。然后,计算四个顶点坐标到四边形中心点的距离,将它们与标注值相比计算出目标loss。文章中推荐用Ln loss来取代L1、L2 loss,从而对大小文本框都有较快的训练回归(regress)速度。
    在这里插入图片描述
    (选自arXiv:1703.01425,’Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection’)

    EAST模型

    EAST(Efficient and Accuracy Scene Text detection pipeline)模型中,首先使用全卷积网络(FCN)生成多尺度融合的特征图,然后在此基础上直接进行像素级的文本块预测。该模型中,支持旋转矩形框、任意四边形两种文本区域标注形式。对应于四边形标注,模型执行时会对特征图中每个像素预测其到四个顶点的坐标差值。对应于旋转矩形框标注,模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角。

    根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。

    上述过程中,省略了其他模型中常见的区域建议、单词分割、子块合并等步骤,因此该模型的执行速度很快。
    在这里插入图片描述
    (选自arXiv: 1704.03155,’EAST: An Efficient and Accurate Scene Text Detector’)

    SegLink模型

    SegLink模型的标注数据中,先将每个单词切割为更易检测的有方向的小文字块(segment),然后用邻近连接(link )将各个小文字块连接成单词。这种方案方便于识别长度变化范围很大的、带方向的单词和文本行,它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。相比于CTPN等文本检测模型,SegLink的图片处理速度快很多。
    在这里插入图片描述
    (选自arXiv: 1703.06520,’Detecting Oriented Text in Natural Images by Linking Segments’)
    如下图所示,该模型能够同时从6种尺度的特征图中检测小文字块。同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。
    在这里插入图片描述
    (选自arXiv: 1703.06520,’Detecting Oriented Text in Natural Images by Linking Segments’)

    PixelLink模型

    自然场景图像中一组文字块经常紧挨在一起,通过语义分割方法很难将它们识别开来,所以PixelLink模型尝试用实例分割方法解决这个问题。

    该模型的特征提取部分,为VGG16基础上构建的FCN网络。模型执行流程如下图所示。首先,借助于CNN 模块执行两个像素级预测:一个文本二分类预测,一个链接二分类预测。接着,用正链接去连接邻居正文本像素,得到文字块实例分割结果。然后,由分割结果直接就获得文字块边框, 而且允许生成倾斜边框。

    上述过程中,省掉了其他模型中常见的边框回归步骤,因此训练收敛速度更快些。训练阶段,使用了平衡策略,使得每个文字块在总LOSS中的权值相同。训练过程中,通过预处理增加了各种方向角度的文字块实例。
    在这里插入图片描述
    (选自arXiv: 1801.01315,’Detecting Scene Text via Instance Segmentation’)

    Textboxes/Textboxes++模型

    Textboxes是基于SSD框架的图文检测模型,训练方式是端到端的,运行速度也较快。如下图所示,为了适应文字行细长型的特点,候选框的长宽比增加了1,2,3,5,7,10这样初始值。为了适应文本行细长型特点,特征层也用长条形卷积核代替了其他模型中常见的正方形卷积核。为了防止漏检文本行,还在垂直方向增加了候选框数量。为了检测大小不同的字符块,在多个尺度的特征图上并行预测文本框, 然后对预测结果做NMS过滤。
    在这里插入图片描述
    (选自arXiv: 1611.06779,’TextBoxes: A Fast Text Detector with a Single Deep Neural Network’)
    Textboxes++是Textboxes的升级版本,目的是增加对倾斜文本的支持。为此,将标注数据改为了旋转矩形框和不规则四边形的格式;对候选框的长宽比例、特征图层卷积核的形状都作了相应调整。
    在这里插入图片描述
    (选自arXiv: 1801.02765,’TextBoxes++: A Single-Shot Oriented Scene Text Detector’)

    WordSup模型

    如下图所示,在数学公式图文识别、不规则形变文本行识别等应用中,字符级检测模型是一个关键基础模块。由于字符级自然场景图文标注成本很高、相关公开数据集稀少,导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。WordSup提出了一种弱监督的训练框架, 可以文本行、单词级标注数据集上训练出字符级检测模型。
    在这里插入图片描述
    如下图所示,WordSup弱监督训练框架中,两个训练步骤被交替执行:给定当前字符检测模型,并结合单词级标注数据,计算出字符中心点掩码图; 给定字符中心点掩码图,有监督地训练字符级检测模型.
    在这里插入图片描述
    如下图,训练好字符检测器后,可以在数据流水线中加入合适的文本结构分析模块,以输出符合应用场景格式要求的文本内容。该文作者例举了多种文本结构分析模块的实现方法。
    在这里插入图片描述
    (选自arXiv: 1708.06720,’WordSup: Exploiting Word Annotations for Character based Text Detection’)

    文本识别模型

    文本识别模型的目标是从已分割出的文字区域中识别出文本内容。

    CRNN模型

    CRNN(Convolutional Recurrent Neural Network)是目前较为流行的图文识别模型,可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。 它利用BLSTM和CTC部件学习字符图像中的上下文关系, 从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层(CTC rule)进行预测得到文本序列。
    在这里插入图片描述
    (选自arXiv: 1507.05717,’An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’)

    RARE模型

    RARE(Robust text recognizer with Automatic Rectification)模型在识别变形的图像文本时效果很好。如下图所示,模型预测过程中,输入图像首先要被送到一个空间变换网络中做处理,矫正过的图像然后被送入序列识别网络中得到文本预测结果。
    在这里插入图片描述
    如下图所示,空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后,它可以根据输入图像的特征图动态地产生空间变换网格,然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS(thin-plate splines)的空间变换,从而能够比较准确地识别透视变换过的文本、以及弯曲的文本.
    在这里插入图片描述
    (选自arXiv: 1603.03915,’Robust Scene Text Recognition with Automatic Rectification’)

    端到端模型

    端到端模型的目标是一站式直接从图片中定位和识别出所有文本内容来。

    FOTS Rotation-Sensitive Regression

    FOTS(Fast Oriented Text Spotting)是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域(RoIRotate), 可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别.
    在这里插入图片描述
    在这里插入图片描述
    (选自arXiv: 1801.01671,’FOTS: Fast Oriented Text Spotting with a Unified Network’)

    STN-OCR模型

    STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络(STN)来对原始输入图像进行仿射(affine)变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。作者也提到,如果从头开始训练则网络收敛速度较慢,因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。
    在这里插入图片描述
    (选自arXiv: 1707.08831,’STN-OCR: A single Neural Network for Text Detection and Text Recognition’)

    训练数据集

    本章将列举可用于文本检测和识别领域模型训练的一些大型公开数据集, 不涉及仅用于模型fine-tune任务的小型数据集。

    Chinese Text in the Wild(CTW)

    该数据集包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。图像大小2048*2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。
    文献链接:https://arxiv.org/pdf/1803.00085.pdf
    数据集下载地址:https://ctwdataset.github.io/
    在这里插入图片描述

    Reading Chinese Text in the Wild(RCTW-17)

    该数据集包含12263张图像,训练集8034张,测试集4229张,共11.4GB。大部分图像由手机相机拍摄,含有少量的屏幕截图,图像中包含中文文本与少量英文文本。图像分辨率大小不等。
    下载地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
    文献:http://arxiv.org/pdf/1708.09585v2
    在这里插入图片描述

    ICPR MWI 2018 挑战赛

    大赛提供20000张图像作为数据集,其中50%作为训练集,50%作为测试集。主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。文件大小为2GB。
    下载地址:
    https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe
    在这里插入图片描述

    Total-Text

    该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300
    下载地址:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
    文献:http:// arxiv.org/pdf/1710.10400v
    在这里插入图片描述

    Google FSNS(谷歌街景文本数据集)

    该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志,每一张包含同一街道标志牌的不同视角,图像大小为600*150,训练集1044868张,验证集16150张,测试集20404张。
    下载地址:http://rrc.cvc.uab.es/?ch=6&com=downloads
    文献:http:// arxiv.org/pdf/1702.03970v1
    在这里插入图片描述

    COCO-TEXT

    该数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张
    文献: http://arxiv.org/pdf/1601.07140v2
    下载地址:https://vision.cornell.edu/se3/coco-text-2/
    在这里插入图片描述

    Synthetic Data for Text Localisation

    在复杂背景下人工合成的自然场景文本数据。包含858750张图像,共7266866个单词实例,28971487个字符,文件大小为41GB。该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。
    下载地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext/
    文献:http://www.robots.ox.ac.uk/~ankush/textloc.pdf
    Code: https://github.com/ankush-me/SynthText (英文版)
    Code https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)
    在这里插入图片描述

    Synthetic Word Dataset

    合成文本识别数据集,包含9百万张图像,涵盖了9万个英语单词。文件大小为10GB
    下载地址:http://www.robots.ox.ac.uk/~vgg/data/text/
    在这里插入图片描述

    Caffe-ocr中文合成数据

    数据利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,共360万张图片,图像分辨率为280x32,涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB
    下载地址:https://pan.baidu.com/s/1dFda6R3
    在这里插入图片描述

    参考文献

    1. “光学字符识别技术:让电脑像人一样阅读”, 新浪微博, 霍强
      http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

    2. “Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038,Jonathan Long, Evan Shelhamer, Trevor Darrell
      https://arxiv.org/pdf/1411.4038

    3. “Spatial Transformer Networks”,arXiv:1506.02025,Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu
      https://arxiv.org/pdf/1506.02025

    4. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,arXiv:1506.01497,Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun
      https://arxiv.org/pdf/1506.01497

    5. “SSD: Single Shot MultiBox Detector”,arxiv:1512.02325,Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg
      https://arxiv.org/pdf/1512.02325

    6. “Detecting Text in Natural Image with Connectionist Text Proposal Network”,arXiv:1609.03605,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao
      https://arxiv.org/pdf/1609.03605

    7. “Arbitrary-Oriented Scene Text Detection via Rotation Proposals”,arXiv:1703.01086,Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue
      https://arxiv.org/pdf/1703.01086

    8. “Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”,arXiv:1709.03272,Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu
      https://arxiv.org/pdf/1709.03272

    9. “Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”,arXiv:1703.01425,Yuliang Liu, Lianwen Jin
      https://arxiv.org/pdf/1703.01425

    10. “EAST: An Efficient and Accurate Scene Text Detector”,arXiv:1704.03155,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang
      https://arxiv.org/pdf/1704.03155

    11. “Detecting Oriented Text in Natural Images by Linking Segments”,arXiv:1703.06520,Baoguang Shi, Xiang Bai, Serge Belongie
      https://arxiv.org/pdf/1703.06520

    12. “Detecting Scene Text via Instance Segmentation”,arXiv:1801.01315,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai
      https://arxiv.org/pdf/1801.01315

    13. “TextBoxes: A Fast Text Detector with a Single Deep Neural Network”,arXiv:1611.06779,Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu
      https://arxiv.org/pdf/1611.06779

    14. “TextBoxes++: A Single-Shot Oriented Scene Text Detector”,arXiv:1801.02765,Minghui Liao, Baoguang Shi, Xiang Bai
      https://arxiv.org/pdf/1801.02765

    15. “WordSup: Exploiting Word Annotations for Character based Text Detection”,arXiv:1708.06720,Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding
      https://arxiv.org/pdf/1708.06720

    16. “An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”,arXiv:1507.05717,Baoguang Shi, Xiang Bai, Cong Yao
      https://arxiv.org/pdf/1507.05717

    17. “Robust Scene Text Recognition with Automatic Rectification”,arXiv:1603.03915,Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai
      https://arxiv.org/pdf/1603.03915

    18. “FOTS: Fast Oriented Text Spotting with a Unified Network”,arXiv:1801.01671,Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan
      https://arxiv.org/pdf/1801.01671

    19. “STN-OCR: A single Neural Network for Text Detection and Text Recognition”,arXiv:1707.08831,Christian Bartz, Haojin Yang, Christoph Meinel
      https://arxiv.org/pdf/1707.08831

    20. “Chinese Text in the Wild”,arXiv:1803.00085,Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu
      https://arxiv.org/pdf/1803.00085.pdf

    21. “ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”,arXiv:1708.09585,Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai
      http://arxiv.org/pdf/1708.09585

    22. “Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”,arXiv:1710.10400,Chee Kheng Chng, Chee Seng Chan
      https://arxiv.org/pdf/1710.10400

    23. “End-to-End Interpretation of the French Street Name Signs Dataset”,arXiv:1702.03970,Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin
      https://arxiv.org/pdf/1702.03970

    24. “COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”,arXiv:1601.07140,Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie
      http://arxiv.org/pdf/1601.07140

    25. “Synthetic Data for Text Localisation in Natural Images”,arXiv:1604.06646, Ankush Gupta, Andrea Vedaldi, Andrew Zisserman
      https://arxiv.org/pdf/1604.06646

    展开全文
  • 自然场景文本检测识别技术综述

    万次阅读 2018-07-19 08:32:23
    白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。 青蛇...

    转载自https://blog.csdn.net/SIGAI_CSDN/article/details/80858565

    番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么?

    白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。

    青蛇: 文本检测模型CTPN中为什么选用VGG16作基础网络?

    白蛇: CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基础网络。如果今年实施文本检测, 可以试试Resnet、FCN、Densenet等后起之秀作基础网络,或许有惊喜。


    摘要本文介绍图像文本识别(OCR)领域的最新技术进展。首先介绍应用背景,包括面临的技术挑战、典型应用场景、系统实施框架等。接着介绍搭建图文识别模型过程中经常被引用到的多种特征提取基础网络、物体检测网络框架,以及它们被应用到图文识别任务中所面临的场景适配问题。然后介绍最近三年来出现的各种文本边框检测模型、文字内容识别模型、端到端图文识别模型。最后介绍图文识别领域的大型公开数据集。

    应用概述

    OCR(Optical Character Recognition, 光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息。场景文字识别(Scene Text Recognition,STR) 指识别自然场景图片中的文字信息。自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:

    ·允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等。
    ·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。
    ·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
    ·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。

    也有人用OCR技术泛指所有图像文字检测和识别技术, 包括传统OCR技术与场景文字识别技术。这是因为,场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。

    图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

    已经有不少服务商在提供图像文字检测和识别服务,这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业,也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务,也可以使用客户提供的数据集训练定制化模型(如票据识别模型),以及提供定制化AI服务系统集成等。

    如下图所示,传统技术解决方案中,是先分别训练文字检测和文本识别两个模型,然后在服务实施阶段将这两个模型串联到数据流水线中组成图文识别系统。

    如下图所示,最近流行的技术解决方案中,是用一个多目标网络直接训练出一个端到端的模型。在训练阶段,该模型的输入是训练图像及图中文本坐标、文本内容,模型优化目标是输出端边框坐标预测误差与文本内容预测误差的加权和。在服务实施阶段,原始图片流过该模型直接输出预测文本信息。相比于传统方案,该方案中模型训练效率更高、服务运营阶段资源开销更少。

    文本检测和识别技术处于一个学科交叉点,其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量,又需要借助自然语言处理技术来解码图像特征向量为文字结果。

    模型基础

    从公开论文中可以看到,起源于图像分类、检测、语义分割等视觉处理任务的各个基础网络(backbone network),纷纷被征用来提取图像中文字区域的特征向量。同时,起源于物体检测、语义分割任务的多个网络框架,也被改造后用于提升图文识别任务中的准确率和执行速度。本章将简单温习一下这些基础网络、网络框架的实现原理,并介绍图文识别任务中应用它们时所面临的各种场景适配问题。

    基础网络

    图文识别任务中充当特征提取模块的基础网络,可以来源于通用场景的图像分类模型。例如,VGGNet,ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。

    图文识别任务中的基础网络,也可以来源于特定场景的专用网络模型。例如,擅长提取图像细节特征的FCN网络,擅长做图形矫正的STN网络。

    由于大家对通用网络模型已经很熟悉,所以本节只简单介绍上述专用网络模型。

    FCN网络

    全卷积网络(FCN,fully convolutional network), 是去除了全连接(fc)层的基础网络,最初是用于实现语义分割任务。FC的优势在于利用反卷积(deconvolution)、上池化(unpooling)等上采样(upsampling)操作,将特征矩阵恢复到接近原图尺寸,然后对每一个位置上的像素做类别预测,从而能识别出更清晰的物体边界。基于FCN的检测网络,不再经过候选区域回归出物体边框, 而是根据高分辨率的特征图直接预测物体边框。因为不需要像Faster-RCNN那样在训练前定义好候选框长宽比例,FCN在预测不规则物体边界时更加鲁棒。由于FCN网络最后一层特征图的像素分辨率较高,而图文识别任务中需要依赖清晰的文字笔画来区分不同字符(特别是汉字),所以FCN网络很适合用来提取文本特征。当FCN被用于图文识别任务时,最后一层特征图中每个像素将被分成文字行(前景)和非文字行(背景)两个类别。

     

    STN网络

    空间变换网络(STN,Spatial Transformer Networks)的作用是对输入特征图进行空间位置矫正得到输出特征图,这个矫正过程是可以进行梯度传导的,从而能够支持端到端的模型训练。

    如下图所示,STN网络由定位网络(Localization Network) ,网格生成器(Grid generator),采样器(Sampler)共3个部分组成。定位网络根据原始特征图U计算出一套控制参数,网格生成器这套控制参数产生采样网格(sampling grid),采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。

    空间变换的控制参数是根据原始特征图U动态生成的,生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重(weights)矩阵中。

    选自arXiv: 1506.02025,’Spatial Transformer Networks

     

    检测网络框架

    Faster RCNN作为一个检测网络框架,其目标是寻找紧凑包围被检测对象的边框(BBOX,Bounding Box)。如下图所示,它在Fast RCNN检测框架基础上引入区域建议网络(RPN,Region Proposal Network),来快速产生与目标物体长宽比例接近的多个候选区域参考框(anchor);它通过ROI(Region of Interest) Pooling层为多种尺寸参考框产生出归一化固定尺寸的区域特征;它利用共享的CNN卷积网络同时向上述RPN网络和ROI Pooling层输入特征映射(Feature Maps),从而减少卷积层参数量和计算量。训练过程中使用到了多目标损失函数,包括RPN网络、ROI Pooling层的边框分类loss和坐标回归loss。通过这些loss的梯度反向传播,能够调节候选框的坐标、并增大它与标注对象边框的重叠度/交并比(IOU,Intersection over Union)。RPN网格生成的候选框初始值有固定位置以及长宽比例。如果候选框初始长宽比例设置得与图像中物体形状差别很大,就很难通过回归找到一个紧凑包围它的边框。

    摘自arXiv:1506.01497,’Faster R-CNN: Towards Real-Ti

     

    SSD(Single Shot MultiBox Detector),是2016年提出的一种全卷积目标检测算法,截止到目前仍是主要的目标检测框架之一,相比Faster RCNN有着明显的速度优势。如下图所示,SSD是一种one stage算法,直接预测被检测对象的边框和得分。检测过程中,SSD算法利用多尺度思想进行检测,在不同尺度的特征图(feature maps)上产生与目标物体长宽比例接近的多个默认框(Default boxes),进行回归与分类。最后利用非极大值抑制(Non-maximum suppression)得到最终的检测结果。训练过程中,SSD采用Hard negative mining策略进行训练,使正负样本比例保持为1:3,同时使用多种数据增广(Data augmentation)方式进行训练,提高模型性能。

    摘自arxiv: 1512.02325, “SSD: Single Shot MultiBox

     

    文本检测模型

    文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。

    但是,视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果并不理想, 主要原因如下:

    ·相比于常规物体,文字行长度、长宽比例变化范围很大。
    ·文本行是有方向性的。常规物体边框BBox的四元组描述方式信息量不充足。
    ·自然场景中某些物体局部图像与字母形状相似,如果不参考图像全局信息将有误报。
    ·有些艺术字体使用了弯曲的文本行,而手写字体变化模式也很多。
    ·由于丰富的背景图像干扰,手工设计特征在自然场景文本识别任务中不够鲁棒。
    

    针对上述问题根因,近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。例如:

    ·CTPN方案中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。
    ·RRPN等方案中,文本框标注采用BBOX +方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。
    ·DMPNet等方案中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。
    ·SegLink 将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。
    ·TextBoxes等方案中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。
    ·FTSN方案中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
    ·WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。
    

    下面用近年来出现的多个模型案例,介绍如何应用上述各方法提升图像文本检测的效果。

    CTPN模型

    CTPN是目前流传最广、影响最大的开源文本检测模型,可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence,而不是一般物体检测中单个独立的目标。同一文本行上各个字符图像间可以互为上下文,在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律,可以使得预测阶段有效提升文本块预测准确率。CTPN模型的图像预测流程中,前端使用当时流行的VGG16做基础网络来提取各字符的局部图像特征,中间使用BLSTM层提取字符序列上下文特征,然后通过FC全连接层,末端经过预测分支输出各个文字块的坐标值和分类结果概率值。在数据后处理阶段,将合并相邻的小文字块为文本行。

    选自arXiv: 1609.03605,’Detecting Text in Natural Im

     

    RRPN模型

    基于旋转区域候选网络(RRPN, Rotation Region Proposal Networks)的方案,将旋转因素并入经典区域候选网络(如Faster RCNN)。这种方案中,一个文本区域的ground truth被表示为具有5元组(x,y,h,w,θ)的旋转边框, 坐标(x,y)表示边框的几何中心, 高度h设定为边框的短边,宽度w为长边,方向是长边的方向。训练时,首先生成含有文本方向角的倾斜候选框,然后在边框回归过程中学习文本方向角。

    选自arXiv: 1703.01086,’Arbitrary-Oriented Scene Tex

    RRPN中方案中提出了旋转感兴趣区域(RRoI,Rotation Region-of-Interest)池化层,将任意方向的区域建议先划分成子区域,然后对这些子区域分别做max pooling、并将结果投影到具有固定空间尺寸小特征图上。

    选自arXiv: 1703.01086,’Arbitrary-Oriented Scene Tex

     

    FTSN模型

    FTSN(Fused Text Segmentation Networks)模型使用分割网络支持倾斜文本检测。它使用Resnet-101做基础网络,使用了多尺度融合的特征图。标注数据包括文本实例的像素掩码和边框,使用像素预测与边框检测多目标联合训练。

    选自arXiv: 1709.03272,’Fused Text Segmentation Netw

     

    基于文本实例间像素级重合度的Mask-NMS, 替代了传统基于水平边框间重合度的NMS算法。下图左边子图是传统NMS算法执行结果,中间白色边框被错误地抑制掉了。下图右边子图是Mask-NMS算法执行结果, 三个边框都被成功保留下来。

    DMPNet模型

    DMPNet(Deep Matching Prior Network)中,使用四边形(非矩形)来更紧凑地标注文本区域边界,其训练出的模型对倾斜文本块检测效果更好。

    如下图所示,它使用滑动窗口在特征图上获取文本区域候选框,候选框既有正方形的、也有倾斜四边形的。接着,使用基于像素点采样的Monte-Carlo方法,来快速计算四边形候选框与标注框间的面积重合度。然后,计算四个顶点坐标到四边形中心点的距离,将它们与标注值相比计算出目标loss。文章中推荐用Ln loss来取代L1、L2 loss,从而对大小文本框都有较快的训练回归(regress)速度。

    选自arXiv:1703.01425,’Deep Matching Prior Network:

     

    EAST模型

    EAST(Efficient and Accuracy Scene Text detection pipeline)模型中,首先使用全卷积网络(FCN)生成多尺度融合的特征图,然后在此基础上直接进行像素级的文本块预测。该模型中,支持旋转矩形框、任意四边形两种文本区域标注形式。对应于四边形标注,模型执行时会对特征图中每个像素预测其到四个顶点的坐标差值。对应于旋转矩形框标注,模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角。

    根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。

    上述过程中,省略了其他模型中常见的区域建议、单词分割、子块合并等步骤,因此该模型的执行速度很快。

    选自arXiv: 1704.03155,’EAST: An Efficient and Accur

     

    SegLink模型

    SegLink模型的标注数据中,先将每个单词切割为更易检测的有方向的小文字块(segment),然后用邻近连接(link )将各个小文字块连接成单词。这种方案方便于识别长度变化范围很大的、带方向的单词和文本行,它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。相比于CTPN等文本检测模型,SegLink的图片处理速度快很多。

    选自arXiv: 1703.06520,’Detecting Oriented Text in Na

     

    如下图所示,该模型能够同时从6种尺度的特征图中检测小文字块。同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。

    选自arXiv: 1703.06520,’Detecting Oriented Text in Na

     

    PixelLink模型

    自然场景图像中一组文字块经常紧挨在一起,通过语义分割方法很难将它们识别开来,所以PixelLink模型尝试用实例分割方法解决这个问题。

    该模型的特征提取部分,为VGG16基础上构建的FCN网络。模型执行流程如下图所示。首先,借助于CNN 模块执行两个像素级预测:一个文本二分类预测,一个链接二分类预测。接着,用正链接去连接邻居正文本像素,得到文字块实例分割结果。然后,由分割结果直接就获得文字块边框, 而且允许生成倾斜边框。

    上述过程中,省掉了其他模型中常见的边框回归步骤,因此训练收敛速度更快些。训练阶段,使用了平衡策略,使得每个文字块在总LOSS中的权值相同。训练过程中,通过预处理增加了各种方向角度的文字块实例。

    选自arXiv: 1801.01315,’Detecting Scene Text via Inst

     

    Textboxes/Textboxes++模型

    Textboxes是基于SSD框架的图文检测模型,训练方式是端到端的,运行速度也较快。如下图所示,为了适应文字行细长型的特点,候选框的长宽比增加了1,2,3,5,7,10这样初始值。为了适应文本行细长型特点,特征层也用长条形卷积核代替了其他模型中常见的正方形卷积核。为了防止漏检文本行,还在垂直方向增加了候选框数量。为了检测大小不同的字符块,在多个尺度的特征图上并行预测文本框, 然后对预测结果做NMS过滤。

    选自arXiv: 1611.06779,’TextBoxes: A Fast Text Detect

     

    (Textboxes++是Textboxes的升级版本,目的是增加对倾斜文本的支持。为此,将标注数据改为了旋转矩形框和不规则四边形的格式;对候选框的长宽比例、特征图层卷积核的形状都作了相应调整。

    选自arXiv: 1801.02765,’TextBoxes++: A Single-Shot O

     

    WordSup模型

    如下图所示,在数学公式图文识别、不规则形变文本行识别等应用中,字符级检测模型是一个关键基础模块。由于字符级自然场景图文标注成本很高、相关公开数据集稀少,导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。WordSup提出了一种弱监督的训练框架, 可以文本行、单词级标注数据集上训练出字符级检测模型。

    如下图所示,WordSup弱监督训练框架中,两个训练步骤被交替执行:给定当前字符检测模型,并结合单词级标注数据,计算出字符中心点掩码图; 给定字符中心点掩码图,有监督地训练字符级检测模型.

    选自arXiv: 1708.06720,’WordSup: Exploiting Word Anno

     

    如下图,训练好字符检测器后,可以在数据流水线中加入合适的文本结构分析模块,以输出符合应用场景格式要求的文本内容。该文作者例举了多种文本结构分析模块的实现方式。

    文本识别模型的目标是从已分割出的文字区域中识别出文本内容。

    CRNN模型

    CRNN(Convolutional Recurrent Neural Network)是目前较为流行的图文识别模型,可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。 它利用BLSTM和CTC部件学习字符图像中的上下文关系, 从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层(CTC rule)进行预测得到文本序列。

    选自arXiv: 1507.05717,’An End-to-End Trainable Neura

     

    RARE模型

    RARE(Robust text recognizer with Automatic Rectification)模型在识别变形的图像文本时效果很好。如下图所示,模型预测过程中,输入图像首先要被送到一个空间变换网络中做处理,矫正过的图像然后被送入序列识别网络中得到文本预测结果。

    如下图所示,空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后,它可以根据输入图像的特征图动态地产生空间变换网格,然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS(thin-plate splines)的空间变换,从而能够比较准确地识别透视变换过的文本、以及弯曲的文本.

    选自arXiv: 1603.03915,’Robust Scene Text Recognition

     

    端到端模型

    端到端模型的目标是一站式直接从图片中定位和识别出所有文本内容来。

    FOTS Rotation-Sensitive Regression

    FOTS(Fast Oriented Text Spotting)是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域(RoIRotate), 可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别.

     

    选自arXiv: 1801.01671,’FOTS: Fast Oriented Text Spot

     

    STN-OCR模型

    STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络(STN)来对原始输入图像进行仿射(affine)变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。作者也提到,如果从头开始训练则网络收敛速度较慢,因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。

    选自arXiv: 1707.08831,’STN-OCR: A single Neural Netw

     

    训练数据集

    本章将列举可用于文本检测和识别领域模型训练的一些大型公开数据集, 不涉及仅用于模型fine-tune任务的小型数据集。

    Chinese Text in the Wild(CTW)

    该数据集包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。图像大小2048*2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。

    文献链接:https://arxiv.org/pdf/1803.00085.pdf 
    数据集下载地址:https://ctwdataset.github.io/
    

     

    Reading Chinese Text in the Wild(RCTW-17)

    该数据集包含12263张图像,训练集8034张,测试集4229张,共11.4GB。大部分图像由手机相机拍摄,含有少量的屏幕截图,图像中包含中文文本与少量英文文本。图像分辨率大小不等。

    下载地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
    文献:http://arxiv.org/pdf/1708.09585v2
    

     

    ICPR MWI 2018 挑战赛

    大赛提供20000张图像作为数据集,其中50%作为训练集,50%作为测试集。主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。文件大小为2GB。

    下载地址:
    https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe 
    

     

    Total-Text

    该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300

    下载地址:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
    文献:http:// arxiv.org/pdf/1710.10400v
    

     

    Google FSNS(谷歌街景文本数据集)

    该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志,每一张包含同一街道标志牌的不同视角,图像大小为600*150,训练集1044868张,验证集16150张,测试集20404张。

    下载地址:http://rrc.cvc.uab.es/?ch=6&com=downloads
    文献:http:// arxiv.org/pdf/1702.03970v1
    

     

    替换高清大图

    COCO-TEXT

    该数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张

    文献: http://arxiv.org/pdf/1601.07140v2
    下载地址:https://vision.cornell.edu/se3/coco-text-2/
    

     

    Synthetic Data for Text Localisation

    在复杂背景下人工合成的自然场景文本数据。包含858750张图像,共7266866个单词实例,28971487个字符,文件大小为41GB。该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。

    下载地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext/
    文献:http://www.robots.ox.ac.uk/~ankush/textloc.pdf
    Code: https://github.com/ankush-me/SynthText (英文版)
    Code https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)
    

     

    Synthetic Word Dataset

    合成文本识别数据集,包含9百万张图像,涵盖了9万个英语单词。文件大小为10GB

    下载地址:http://www.robots.ox.ac.uk/~vgg/data/text/
    

     

    Caffe-ocr中文合成数据

    数据利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,共360万张图片,图像分辨率为280x32,涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB

    下载地址:https://pan.baidu.com/s/1dFda6R3
    

     

    参考文献

    1. “光学字符识别技术:让电脑像人一样阅读”, 新浪微博, 霍强

    http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

    2. “Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038,Jonathan Long, Evan Shelhamer, Trevor Darrell

    https://arxiv.org/pdf/1411.4038

    3. “Spatial Transformer Networks”,arXiv:1506.02025,Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

    https://arxiv.org/pdf/1506.02025

    4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,arXiv:1506.01497,Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

    https://arxiv.org/pdf/1506.01497

    5.“SSD: Single Shot MultiBox Detector”,arxiv:1512.02325,Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

    https://arxiv.org/pdf/1512.02325

    6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”,arXiv:1609.03605,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

    https://arxiv.org/pdf/1609.03605

    7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”,arXiv:1703.01086,Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

    https://arxiv.org/pdf/1703.01086

    8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”,arXiv:1709.03272,Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

    https://arxiv.org/pdf/1709.03272

    9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”,arXiv:1703.01425,Yuliang Liu, Lianwen Jin

    https://arxiv.org/pdf/1703.01425

    10.“EAST: An Efficient and Accurate Scene Text Detector”,arXiv:1704.03155,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

    https://arxiv.org/pdf/1704.03155

    11.“Detecting Oriented Text in Natural Images by Linking Segments”,arXiv:1703.06520,Baoguang Shi, Xiang Bai, Serge Belongie

    https://arxiv.org/pdf/1703.06520

    12. “Detecting Scene Text via Instance Segmentation”,arXiv:1801.01315,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

    https://arxiv.org/pdf/1801.01315

    13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”,arXiv:1611.06779,Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

    https://arxiv.org/pdf/1611.06779

    14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”,arXiv:1801.02765,Minghui Liao, Baoguang Shi, Xiang Bai

    https://arxiv.org/pdf/1801.02765

    15.“WordSup: Exploiting Word Annotations for Character based Text Detection”,arXiv:1708.06720,Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

    https://arxiv.org/pdf/1708.06720

    16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”,arXiv:1507.05717,Baoguang Shi, Xiang Bai, Cong Yao

    https://arxiv.org/pdf/1507.05717

    17. “Robust Scene Text Recognition with Automatic Rectification”,arXiv:1603.03915,Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

    https://arxiv.org/pdf/1603.03915

    18.“FOTS: Fast Oriented Text Spotting with a Unified Network”,arXiv:1801.01671,Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

    https://arxiv.org/pdf/1801.01671

    19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”,arXiv:1707.08831,Christian Bartz, Haojin Yang, Christoph Meinel

    https://arxiv.org/pdf/1707.08831

    20.“Chinese Text in the Wild”,arXiv:1803.00085,Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

    https://arxiv.org/pdf/1803.00085.pdf

    21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”,arXiv:1708.09585,Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

    http://arxiv.org/pdf/1708.09585

    22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”,arXiv:1710.10400,Chee Kheng Chng, Chee Seng Chan

    https://arxiv.org/pdf/1710.10400

    23.“End-to-End Interpretation of the French Street Name Signs Dataset”,arXiv:1702.03970,Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

    https://arxiv.org/pdf/1702.03970

    24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”,arXiv:1601.07140,Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

    http://arxiv.org/pdf/1601.07140

    25. “Synthetic Data for Text Localisation in Natural Images”,arXiv:1604.06646, Ankush Gupta, Andrea Vedaldi, Andrew Zisserman

    https://arxiv.org/pdf/1604.06646

    推荐文章

    [1] 机器学习-波澜壮阔40年 SIGAI 2018.4.13.

    [2] 学好机器学习需要哪些数学知识?SIGAI 2018.4.17.

    [3] 人脸识别算法演化史 SIGAI 2018.4.20.

    [4] 基于深度学习的目标检测算法综述 SIGAI 2018.4.24.

    [5] 卷积神经网络为什么能够称霸计算机视觉领域? SIGAI 2018.4.26.

    [6] 用一张图理解SVM的脉络 SIGAI 2018.4.28.

    [7] 人脸检测算法综述 SIGAI 2018.5.3.

    [8] 理解神经网络的激活函数 SIGAI 2018.5.5.

    [9] 深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读 SIGAI 2018.5.8.

    [10] 理解梯度下降法 SIGAI 2018.5.11.

    [11] 循环神经网络综述—语音识别与自然语言处理的利器 SIGAI 2018.5.15

    [12] 理解凸优化 SIGAI 2018.5.18

    [13]【实验】理解SVM的核函数和参数 SIGAI 2018.5.22

    [14] 【SIGAI综述】行人检测算法 SIGAI 2018.5.25

    [15] 机器学习在自动驾驶中的应用—以百度阿波罗平台为例(上) SIGAI 2018.5.29

    [16] 理解牛顿法 SIGAI 2018.5.31

    [17]【群话题精华】5月集锦—机器学习和深度学习中一些值得思考的问题 SIGAI 2018.6.1

    [18] 大话Adaboost算法 SIGAI 2018.6.2

    [ 19] FlowNet到FlowNet2.0:基于卷积神经网络的光流预测算法 SIGAI 2018.6.4

    [20] 理解主成分分析(PCA) SIGAI 2018.6.6

    [21] 人体骨骼关键点检测综述 SIGAI 2018.6.8

    [22] 理解决策树 SIGAI 2018.6.11

    [23] 用一句话总结常用的机器学习算法 SIGAI 2018.6.13

    [24] 目标检测算法之YOLO SIGAI 2018.6.15

    [25] 理解过拟合 SIGAI 2018.6.18

    [26] 理解计算:从√2到AlphaGo ——第1季 从√2谈起 SIGAI 2018.6.20

    [27] 场景文本检测——CTPN算法介绍 SIGAI 2018.6.22

    [28] 卷积神经网络的压缩和加速 SIGAI 2018.6.2

    [29]k近邻算法SIGAI 2018.6.2

    展开全文
  • Unity密度建筑场景加载解决方案

    万次阅读 多人点赞 2018-09-07 09:41:09
    我们可以设置摄像机的远裁剪面距离做一些优化操作,当然如果是在飞行模拟,这种方法是不可取的,因为我们要求视野是足够的,这样摄像机视锥体内的物体肯定会很多的,效率就会下降,解决这个问题很自然的想到LOD...
  • 自然场景OCR检测(YOLOv3+CRNN)

    万次阅读 多人点赞 2019-03-14 16:14:27
    简介 目前的主流自然场景OCR模型:文字检测+文字识别 文字检测:解决的问题是哪里有文字,文字的范围有多。 主要方法: 1.CTPN:水平文字检测,四个自由度,类似物体检测(常用成熟基础)。 2.目标检测:如YOLO、...
  • 自然场景实时交互技术是一种能表达自然场景的真实感,同时给用户极强的 沉浸感的元素。自然场景的交互式实时渲染已成为目前的研究热点,尽管目前已 取得了不少成果,但是早期的研究工作主要集中在草体外形的真实感...
  • 深度学习 场景识别Recognizing the environment in one glance is one of the human brain’s most accomplished deeds. While the tremendous recent progress in object recognition tasks originates from the ...
  • 自然场景人脸检测技术实践

    千次阅读 2020-02-07 17:57:13
    一、 背景 人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用...因拍摄的场景不同,自然场景环境复杂多变,光照因素也不可控,人脸本身多姿态以及群体间的相互遮挡...
  • 目前主流的自然场景文字识别主要分为两个部分,即文字检测和文字识别。1)在文字检测方面,目前在水平文字检测和斜向文字检测方面均有较为成熟的研究成果。乔宇团队发表的CTPN算法在水平文字检测方面取得了不错的...
  • 基于深度学习的自然场景文字识别

    万次阅读 2017-05-27 09:09:48
    与文档文字识别不同,自然场景中的文字识别 -----图像背景复杂、分辨率低下、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。 图像理解:仅利用一般的视觉元素(如太阳、大海、山、天空等)及其相互...
  • TDEngine 的特点及应用场景
  • CTPN - 自然场景文本检测

    万次阅读 多人点赞 2017-12-22 14:57:55
    体现在要检测出一个完整的文本线,同一文本线上不同字符可能差异,距离远,要作为一个整体检测出来难度比单个目标更——因此,作者认为 预测文本的竖直位置(文本bounding box的上下边界)比水平位置(文本...
  • 大型场景裁剪渲染

    万次阅读 2017-11-23 16:55:49
    3D游戏特别是网络在线游戏中,室外大场景渲染是一块非常重要的内容,它也是3D图形引擎的核心。它是图形学和图像处理理论最直接的应用,其涉及的技术还可以应用于其它领域,比如虚拟现实、3D GIS、数据可视化等,其...
  • 8月23日,华为正式发布算力最强的AI处理器Ascend 910(昇腾910)及全场景AI计算框架MindSpore。华为公司轮值董事长徐直军表示,昇腾910、MindSpore的推出,标志着华为已完成全栈全场景AI解决方案(Portfolio)的构建...
  • 自然场景中文汉字数据集 本数据集包括3273类汉字,共47万张汉字图片,每类汉字归类在一个文件夹下,各图像尺寸不一,包含在自然场景下能见到的各种字体。 本人由于需要大量的自然场景中文汉字数据集,而手头只有少...
  • 人工智能系列图谱:八热点公司以及九应用场景本文来自微信公众号“IT桔子”(ID:itjuzi521),作者IT桔子数据分析部。根据 IT 桔子数据,国内人工智能产业中「计算机视觉与图像」领域的公司数量已达 111 家,仅...
  • 今天是进入公司实习的第三周了,在小组内负责的工作主要是和自然场景文本检测相关的内容。这里把看过的论文做一下翻译和整理,也方便自己日后查看。 Paper:STN-OCR: A single Neural Network for Text Detection ...
  • http://vision.cornell.edu/se3/coco-text/
  • 构建场景数据库

    千次阅读 2021-03-09 02:58:38
    驾驶场景测试用例主要通过虚拟仿真环境及工具链进行复现,因此建设虚拟场景数据库是连接场景数据与场景应用的关键桥梁。虚拟场景数据库具有无限性、扩展性、批量化、自动化的特点。 中国汽车技术研究中心有限...
  • 自然场景文字是图像高层语义的一种重要载体,近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。特别是近年来ICDAR的历界比赛,更是逐渐将这一领域的score不断提升。如...
  • python+opencv+EAST做自然场景文本检测

    万次阅读 热门讨论 2018-08-21 21:54:01
    自行感受,能定出来部分,但还是有缺漏: 使用方法: 1.下载源码: 打开英文原文链接,点击下载,输入邮箱号,通过邮箱中的链接下载压缩包。 如果下载后解压缩失败的话,可以去我的CSDN资源下载...
  • 大多数最先进的场景文本检测算法是基于深度学习的方法,其依赖于边界框回归并且执行至少两种预测:文本/非文本分类和位置回归。回归在这些方法中获取边界框中起着关键作用,但它不是必不可少的,因为文本/非文本预测...
  • MSER — 自然场景文本检测

    千次阅读 2018-11-26 13:08:19
    MSER多用于自然场景的文本检测的前期阶段,产生尽可能多的proposals,首先回顾一下在调用这个函数过程中踩过的坑: 1、不知道如何修改MSER中的参数,如灰度值的变化量,检测到的组块面积的范围以及最大的变化率,...
  • 资产管理公司八落地场景 场景1 资产证照及文档识别 在资产采购和尽调等环节,涉及大量的PDF、图片、扫描件等格式的证照和文档,如身份证、营业执照、开户许可证、不动产权证书、税务登记证、房地产证等几十种...
  • 产品场景化设计

    千次阅读 2019-11-05 21:00:28
    在戏剧或影视剧里,场景由人物,时空,事件(行为),环境(社会环境和自然环境)等等要素构成。 互联网产品 “场景” 分为两类 第一类,为了实现用户目标而产生的场景,这种类型的场景需要明确用户目标,可能并不...
  • 三维场景重建整合笔记

    千次阅读 2020-11-02 23:13:36
    对真实场景一般需要借助 专业三维扫描设备,此方法测量精度高,但设备价格昂贵, 不利于范围推广。为此本文将多视图三维重建技术应用于 VR,实现真实场景的建模。该方法直接从多个视角的 2D 图 像提取场景的三维...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 274,320
精华内容 109,728
关键字:

关于大自然的场景