精华内容
下载资源
问答
  • 基于深度学习的场景文字检测与识别综述.pdf
  • [深度学习]场景文字检测与识别

    千次阅读 2018-12-19 13:20:54
    文字为什么重要? 问题定义 那么会有那些挑战呢? 近期前沿和有代表性算法 Holistic, Multi-Channel Prediction TextBoxes Rotation Proposals Corner Localization and Region Segmentation(A Megvii work ...

    目录

    背景

    文字为什么重要?

    问题定义

    那么会有那些挑战呢?

    近期前沿和有代表性算法

    Holistic, Multi-Channel Prediction

    TextBoxes

    Rotation Proposals

    Corner Localization and Region Segmentation(A Megvii work in CVPR 2018)

    Simpler Pipelines

    EAST (A Megvii work in CVPR 2017)

    任意形状的文字检测

    TextSnake (A Megvii work in ECCV 2018)

    Mask TextSpotter (A Megvii work in ECCV 2018)

    文字识别

    CRNN

    ASTER

    FAN

    资源推荐


    背景

    文字为什么重要?

    因为人类创造了文字,它具有两种特点:

    1. 具有丰富和精确的高层语义信息
    2. 传达了人类的思想和感情

    同时文字在自然场景中可以作为一种视觉线索,具有互补的作用,比如边缘,纹理等等。

    问题定义

    文字检测是指通过算法判断文字的位置以及检测字符的过程。

    那么会有那些挑战呢?

    与传统的OCR不同,

    自然场景更杂乱,OCR 更规整

    文字类型千变万化,格式,颜色等

    具体的挑战分为三类:

    1. 不同的大小,语言,格式等
    2. 背景中的干扰,符号,交通信号灯等结构具有局部相似性
    3. 成像过程,噪声模糊遮挡阴影等等。

    近期前沿和有代表性算法

    有一些算法从目标检测和语义分割中得到灵感启发:

    Holistic, Multi-Channel Prediction

    Yao et al.. Scene Text Detection via Holistic, Multi-Channel Prediction. 2016. arXiv preprint arXiv:1606.09002

    • lholistic vs. local
    • ltext detection is casted as a semantic segmentation problem
    • lconceptionally and functionally different from previous sliding-window or connected component based approaches
    •  
    • lholistic, pixel-wise predictions: text region map, character map and linking orientation map
    • ldetections are formed using these three maps
    • lcan simultaneously handle horizontal, multi-oriented and curved text in real-world natural images

    TextBoxes

    Liao et al.. TextBoxes: A Fast Text Detector with a Single Deep Neural Network. AAAI, 2017.

     

    • la text detection method inspired by SSD
    • lboth high accuracy and efficiency

    Rotation Proposals

    Ma et al.. Arbitrary-Oriented Scene Text Detection via Rotation Proposals. arxiv, 2017.

     

    • la multi-oriented text detection method based on Faster RCNN
    • lpropose several modifications to better detect scene text

    Corner Localization and Region Segmentation
    (A Megvii work in CVPR 2018)

    Lyu et al.. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation. CVPR, 2018.

    • la compound text detection method: corner localization and region segmentation

    • lcorner localization: corner detection with SSD
    • lregion segmentation: position-sensitive segmentation with R-FCN

    Simpler Pipelines

    EAST (A Megvii work in CVPR 2017)

    Zhou et al.. EAST: An Efficient and Accurate Scene Text Detector. CVPR, 2017.

    lmain idea: predict location, scale and orientation of text with a single model and multiple loss functions (multi-task training)

    ladvantanges:

              (a). accuracy: allow for end-to-end training and optimization

              (b). efficiency: remove redundant stages and processings

    任意形状的文字检测

    TextSnake (A Megvii work in ECCV 2018)

    Long et al.. TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes, ECCV, 2018.

     

    • la novel and flexible representation
    • lable to effectively and precisely describe the geometric properties, such as location, scale, and bending of curved text, while the other representations (axis-aligned rectangle, rotated rectangle or quadrangle) struggle

    la text instance is described as a sequence of ordered, overlapping disks centered at symmetric axes, each of which is associated with potentially variable radius and orientation

    Mask TextSpotter (A Megvii work in ECCV 2018)

    Lyu et al.. Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes, ECCV, 2018.

     

    • lan end-to-end system for both text detection and recognition
    • linspired by Mask R-CNN

    • lRPN for text proposal generation
    • lFast R-CNN for proposal classification and regression
    • lmask branch for character segmentaion and recognition

    文字识别

    CRNN

    Shi et al.. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition, TPAMI, 2017.

    ASTER

    Shi et al.. ASTER: An Attentional Scene Text Recognizer with Flexible Rectification, TPAMI, 2018.

    FAN

    资源推荐

     

    Survey

    Scene Text Detection and Recognition: The Deep Learning Era

    arXiv: https://arxiv.org/abs/1811.04256     (draft version)

    Github: https://github.com/Jyouhou/SceneTextPapers (compiled papers, datasets & codes)

     

    Laboratories and Papers

    https://github.com/chongyangtao/Awesome-Scene-Text-Recognition

     

    Datasets and Codes

    https://github.com/seungwooYoo/Curated-scene-text-recognition-analysis

     

    Projects and Products

    https://github.com/wanghaisheng/awesome-ocr

     

    展开全文
  • 场景文字检测识别是传统OCR 在自然图片上的延续和升级,它的应用极其广泛,例如无人超市、智能导盲和无人驾驶等新兴技术等都离不开场景文字识别。 相比传统OCR,场景文字的检测和识别面临着巨大的挑战。 首先,相比...

    本文选自《中国人工智能学会通讯》 2020年 第10卷 第2期 优秀博士学位论文精华版,CAAI会员中心编辑。

    该博士论文原作者石葆光2018年毕业于华中科技大学,师从于白翔老师,目前就职于微软雷德蒙德总部。

    下载原始博士论文,请在我爱计算机视觉公众号后台回复“200427”。

    摘 要

    本文基于深度学习框架,构建了一套场景文字检测与识别算法系统。针对检测问题,提出一种快速任意方向文字检测方法,该方法基于“片段链接”思想,将长文字拆解为局部的片段,以及片段之间的链接;针对识别问题,提出一种端到端可训练的文字识别神经网络模型,该模型将卷积神经网络、循环神经网络和联结时序分类三者结合,能够直接从图片中识别出文字内容,并且可以端到端的训练。

    关 键 字

    场景文字;文字检测;文字识别;卷积神经网络;循环神经网络

    引言

    现代社会是高度符号化的社会,大量信息通过文字和符号来记载和传递。因此,文字在图像和视频中广泛存在。文字是书籍、报刊、文件和名片等印刷品的基本组成元素,并且广泛存在于自然场景的各种物体上,例如路牌、商品包装、车辆牌照和店铺门面等。广义上的文字还包含自然语言文字以外的书写系统,例如摩斯码和五线谱等。理解图片中的文字在计算机视觉中一直处于重要的位置。从图像中识别文字的技术通常被称作光学字符识别(OCR),它是计算机视觉最早的应用之一。

    传统的OCR 方法大多针对扫描文档图片设计。这些图片通常由扫描仪等设备获取,成像过程受控;识别方法往往基于二值化和浅层分类器等技术。自然图片中的文字通常被称作场景文字(scene text)。场景文字检测识别是传统OCR 在自然图片上的延续和升级,它的应用极其广泛,例如无人超市、智能导盲和无人驾驶等新兴技术等都离不开场景文字识别。

    相比传统OCR,场景文字的检测和识别面临着巨大的挑战。

    首先,相比文档图片,场景文字的背景更为复杂;

    其次,场景文字的字体、颜色和排布相比文档文字复杂得多;

    最后,传统的OCR 系统常由许多子模块组成,系统复杂程度高,其研发耗费较多的人力。

    近年来,随着深度学习算法的兴起,计算机视觉领域的多项重要问题都取得了重大突破。到如今,深度学习已经渗入了计算机视觉研究的方方面面,对学术界和工业界产生了深远的影响。深层神经网络是深度学习的核心,其强大的特征学习能力、灵活的结构、能够端到端训练的特点,使得它成为解决场景文字识别问题的有效手段。本文基于深度学习算法,结合卷积神经网络和循环神经网络(RNN) 等结构,提出一套完整的场景文字检测与识别系统。

    “片段链接”: 快速任意方向文字检测方法

    作为端到端识别系统的第一级,文字检测的目标是在输入图像中定位文字的位置。检测输出的形式可以是水平的矩形包围盒、带角度的矩形包围盒和任意多边形等;根据任务的不同,检测目标可以是每个单词或每条文字行。文字检测可以被视为物体检测的特例。然而,由于场景文字和一般物体存在形状上的区别,一般物体检测方法并不是理想的解决方案——一般物体检测方法受其候选区域提取算法的限制,输出包围盒的长宽比往往只能在小范围内变化,因此难以输出长文字、非水平的包围盒。

    “片段链接”算法的核心是将文字分解为片段(segments) 和链接(links) 两种基本元素。如图1 所示,片段是覆盖一小段单词或文本行的局部包围盒,它由一个带角度的矩形框表示。矩形的高度和整词的高度接近,但长度只占全部长度的一部分; 链接存在于相邻两个片段之间,它指示片段之间的连接关系。即相连的片段属于同一单词,不相连的属于不同单词。检测时,该方法在全图密集地检测片段和链接,并将相连的片段根据几何规则组合为整词的包围盒,得到检测结果。


    片段链接的核心优势在于,它可以检测非水平的长词或长文本行。片段和链接都具有局部性,片段只占整个单词的一小部分,它的检测只需要局部的图像特征; 链接存在于相连的两两片段之间,因此它也同样有局部性。由于片段和链接的局部性,两者都可以在任意尺寸的图片上密集检测,并组合成任意长度的文字,从而显著缓解了长文字的检测困难。

    检测片段和链接的网络结构如图2 所示。该结构基于VGG-16,能够在一次前向传导中同时地在多个尺度上密集地检测片段和链接,因此有着很高的检测效率。

    此外,我们还提出了同层链接和跨层链接两种链接类型,前者连接同一个特征层中检测到的片段;后者连接不同层上的片段。同层和跨层链接使得相同或不同尺度上的片段都可以被组合在一起,从而避免了漏检和重复检测的问题。

    在对所有片段和链接作置信度和几何偏移的估计之后,该模型输出一组片段和一组链接。接下来,片段和链接分别通过各自的置信度阈值进行过滤,去除置信度低于阈值α 的片段和置信度低于阈值β 的链接。最后,过滤后的片段根据过滤后的链接组合成完成的包围盒。

    图 3 显示了片段链接在长文本检测上的表现。可以看出,片段和链接沿着文本行被密集检测,它们将细长的文本分解为了更容易检测的局部视觉元素。相比之下,当下流行的物体检测器难以输入长宽比如此极端的包围盒,而片段链接很好地解决了这个问题。


    此外,尽管英文和中文文本在外观上有很大的差异,但我们的模型仍能够在不改变其结构的情况下同时处理它们。这也显示了片段链接在多语种场景下的适用性。

     CRNN:端到端文字识别网路

    卷积RNN(CRNN) 是本文提出的可以端到端训练的文字识别网络,该网络结合了卷积神经网络(CNN) 和RNN。其特点在于无需单个字符的标注,可直接用文字行图片和对应的标签训练,相比传统方法大幅降低了训练和部署成本。CRNN 的总体网络结构如图 4 所示。

    它从下至上主要由CNN、RNN 翻译层三个部分组成:

    1)CNN 负责提取卷积特征图; 

    2)特征图被转换为特征序列后交由RNN 进行预测,输出单帧预测结果;

    3)最后,翻译层将单帧预测结果翻译为字母序列。尽管CRNN 包含不同类型的网络结构,它仍然能被端到端的训练,并且只需要一项损失函数。

    CRNN 只在Synth90k 数据集上进行训练一次,然后在其他数据集上测试,不作额外的微调。尽管只用合成数据训练,CRNN 仍然能够在真实数据集上取得良好效果。在有词汇表模式下,CRNN 的识别准确度超过了同时期的大多数其他方法。在无词汇表模式下,CRNN 在IIIT5k 和SVT 两个数据集上都取得了最高的识别准确度。


    值得一提的是,CRNN 的性能超过了Google 公司开发的PhotoOCR 系统。PhotoOCR 使用了近800万张训练图片,并且这些训练图片有字符级别的标注;而CRNN 仅仅在合成图片上训练,完全没有使用人工标注的数据,却能够大幅度地在识别准确率上超出PhotoOCR 系统。这说明CRNN 是高性能且低成本的识别方法。

    结束语

    本文对场景文字检测与识别问题完成了一次系统和全面的研究。针对不同的问题及问题的不同方面,分别提出了检测方法片段链接和识别方法CRNN,在识别准确性、方法通用性及工程实用性三个方面都相比先前工作取得了显著进步。

    (参考文献略)

    选自《中国人工智能学会通讯》  

    2020年  第10卷  第2期  优秀博士学位论文精华版

    END

    备注:OCR

    文字检测与识别交流群

    OCR、文本检测与识别、文本编辑等最新技术,

    若已为CV君其他账号好友请直接私信。

    我爱计算机视觉

    微信号:aicvml

    QQ群:805388940

    微博知乎:@我爱计算机视觉

    投稿:amos@52cv.net

    网站:www.52cv.net

    在看,让更多人看到  

    展开全文
  • SceneTextPapers - 场景文字检测与识别文献/代码汇总
  • [开源代码数据集]场景文字检测与识别(from McLab) [开源代码数据集]场景文字检测与识别(from McLab) 端到端场景文本识别M. Liao, B. Shi, X. Bai, X. Wang, W. Liu. TextBoxes: A fast text detector with a...

    [开源代码与数据集]场景文字检测与识别(from McLab)  [开源代码与数据集]场景文字检测与识别(from McLab) 


    端到端场景文本识别



    场景文本检测
    https://github.com/stupidZZ/Symmetry_Text_Line_Detection

    场景文本识别


    中文场景文本检测与识别数据集
    Dataset: ( http: //mclab.eic.hust.edu.cn/icdar2017chinese/)
    Competition Report: ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17).  B Shi, C Yao, M Liao, M Yang, P Xu, L Cui, S Belongie, S Lu, X Bai ( arXiv preprint arXiv:1708.09585)


    场景语种识别数据集



    多方向文本检测数据集(MSRA-TD 500)




    多方向文本识别数据集(HUST-TR 400)
    • C. Yao, X. Bai, W. Liu. A Unified Framework for Multi-Oriented Text Detection and Recognition. IEEE Transactions on Image Processing (TIP), 23(11): 4737 - 4749, 2014. [[url=http://mc.eistar.net/UpLoadFiles/Papers/[21]%202014%20TIP%20Yaocong.pdf]PDF[/url]][HUST-TR 400 Dataset]



    后续会继续更新
    展开全文
  • 文字检测Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentationhttps://arxiv.org/abs/1802.08948B. Shi, X. Bai, S. Belongie. Detecting oriented text in natural images ...

    一 文字检测

    Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

    https://arxiv.org/abs/1802.08948

    B. Shi, X. Bai, S. Belongie. Detecting oriented text in natural images by linking segments. In: Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition (CVPR'17), Honolulu, Hawaii, 2017. (Spotlight) [ppt] [code]

    Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, X. BaiMulti-oriented text detection with fully convolutional networks. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, 2016. [code]

    Z. Zhang, W. Shen, C. Yao, X. BaiSymmetry-based text line detection in natural scenes. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR'15), Boston, MA, June 2015.[code]


    二 文字识别

    B. Shi, X. Bai, C. Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), accepted. [CODE][Music Score Recognition Datasets]

    B. Shi, X. Wang, P. Lv, C. Yao, X. BaiRobust scene text recognition with automatic rectification. In: Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition (CVPR'16), Las Vegas, 2016. (代码整理中)

    X. Bai, C. Yao, W. Liu. Strokelets: A learned multi-scale mid-level representation for scene text recognition. IEEE Transactions on Image Prococessing (TIP), 25(6): 2789-2802, 2016. [code][readme]


    三 端到端的文字检测识别

    M. Liao, B. Shi, X. Bai, X. Wang, W. Liu. TextBoxes: A fast text detector with a single deep neural network. In: Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI'17), San Francisco, California, 2017.  [code]

    展开全文
  • 最近在搞文字检测相关的项目,小女子才疏学浅,本来打算用yolov3来试一下,没想到读到这篇文章也算大开眼界了,满满的干货…… 《深度学习时代的场景文字检测与识别技术》 ————...
  • (欢迎关注“我爱计算机视觉”公众号,一个有价值有深度的公众号~)52CV君曾经分享过多篇关于文字检测与识别的文章:华科白翔老师团队ECCV2018 OCR论文:Mask TextSpot...
  • 场景文本检测与识别的最新进展2.1 场景文本检测相关工作2.2 场景文本识别相关工作2.3 端到端文本识别相关工作2.4 场景文本检测与识别的相关应用及产品3 基准数据集和评估协议3.1基准数据集3.2评估协议3.2.1文本检测...
  • 今天很高兴来这里做一个关于场景文字检测识别最新进展的报告,来到华中科技大学做这个报告压力很大,因为大家知道华中科技大学白老师团队在场景文字检测和识别领域做得非常好,比我们好多了,所以来这里感觉有一点...
  • 摘要 本文介绍图像文本识别(OCR)领域的最新技术进展。...然后介绍最近三年来出现的各种文本边框检测模型、文字内容识别模型、端到端图文识别模型。最后介绍图文识别领域的大型公开数据集。 应用概述 OCR...
  • 本项目基于yolo3 crnn 实现中文自然场景文字检测识别
  • mser场景文字检测,优化后的tesseract识别引擎对单行进行识别
  • 自然场景中的文字检测与识别是图像理解中的重要部分,在大部分的系统设计中,检测和识别被看成是孤立的两部分进行处理,本文提出使用多类霍夫森林建立一个统一的检测识别框架。同时为了解决霍夫森林在类别增多时识别...
  • 文字检测与识别资料整理(比心心心
  • 基于yolo3 crnn 实现中文自然场景文字检测识别 github地址:基于yolo3 crnn 实现中文自然场景文字检测识别 实现功能: 文字方向检测 0、90、180、270度检测(支持dnn/tensorflow)  支持(darknet/...
  • 自然场景文字检测CTPN

    2018-05-25 10:37:53
    本文工作基于faster RCNN , 区别在于 1.改进了rpn,anchor产生的window的宽度固定为3。 2.rpn后面不是直接接全连接+分类/回归,而是再通过一个LSTM,再接全连接层。 3.坐标仅仅回归一个y,而不是x1, y1, x2, y2 ...
  • 近年来自然场景图像中的文字检测与识别越来越得到人们的关注,主要是因为图像中的文字检测与识别对于理解图片内容、建立图像索引具有重要的意义。本文针对图像文字检测与识别这一领域的核心的问题即文字检测与定位,...
  • http://vision.cornell.edu/se3/coco-text/
  • 场景文字检测(matlab)

    热门讨论 2014-06-24 22:31:13
    就我所知,十分完善的场景文字检测的代码网上是没有的,有的只是一些算法,或者比较过时的系统,本文的出现正是希望通过本人的一点努力填补这个空白,方便广大研究者能够更快入门,至少一开始研究就有一个基本框架。...
  • 自然场景文字检测

    2020-07-04 14:23:24
    感兴趣领域,文字检测与识别在现实场景中充满应用需求,现有算法仍有改善和提升空间; 数据公开度,有些比赛数据集是不公开的,或者脱敏做得过度,这样不利于通过比赛提升对客观世界认知,缺少这种认知提升的话,不...
  • [python3.6] 运用tf实现自然场景文字检测,keras/pytorch实现ctpn crnn ctc实现不定长场景文字OCR识别
  • ICDAR 2017 RCTW 中文场景文本检测识别数据集-附件资源
  • 自然场景文字检测识别 综述

    千次阅读 2017-04-11 18:29:15
    Scene Text Detection and Recognition: Recent Advances and Future Trends. Frontier of Computer Science (FCS), 2015 http://mclab.eic.hust.edu.cn/UpL ... TextSurvey_2015.pdf
  • 场景文字识别 实时场景文本识别算法。 我们的系统能够在不受限制的背景下识别文本。 该算法基于,并用C / C ++实现。 环境依赖 3.1或更高版本 3.10或以上 Visual Studio 2017社区或更高版本(仅Windows) 如何...
  • 基于深度学习的自然场景文字识别

    千次阅读 2018-08-09 14:56:32
      1.1引言 传统光学字符识别主要面向高质量的文档图像,此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求...文档文字识别不同,自然场景中的文字识别 -----图像背景复杂、分辨率低下、字体...
  • 华南理工大学 金连文老师 自然场景文本检测与识别中的深度学习方法综述
  • 本文基于https://github.com/ouyanghuiyu/chineseocr_lite.git,先学会使用,在了解... 环境 pytorch 1.2.0 python3(笔者使用的环境是python3.6) ... linux/macos/windows(笔者的环境是win10 家庭版) ...进入...
  • 检测与识别共享卷积特征的场景文字识别

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 19,245
精华内容 7,698
关键字:

场景文字检测与识别