精华内容
下载资源
问答
  • 自然场景人脸检测技术实践

    千次阅读 2020-02-07 17:57:13
    人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用的核心组成部分,具有广泛的学术研究价值和业务应用价值,比如人脸识别、人脸属性分析(年龄估计、性别识别、颜值...

    一、 背景

    人脸检测技术是通过人工智能分析的方法自动返回图片中的人脸坐标位置和尺寸大小,是人脸智能分析应用的核心组成部分,具有广泛的学术研究价值和业务应用价值,比如人脸识别、人脸属性分析(年龄估计、性别识别、颜值打分和表情识别)、人脸Avatar、智能视频监控、人脸图像过滤、智能图像裁切、人脸AR游戏等等。因拍摄的场景不同,自然场景环境复杂多变,光照因素也不可控,人脸本身多姿态以及群体间的相互遮挡给检测任务带来了很大的挑战(如图1所示)。在过去20年里,该任务一直是学术界和产业界共同关注的热点。

    自然场景人脸检测在美团业务中也有着广泛的应用需求,为了应对自然场景应用本身的技术挑战,同时满足业务的性能需求,美团视觉智能中心(Vision Intelligence Center,VIC)从底层算法模型和系统架构两个方面进行了改进,开发了高精度人脸检测模型VICFace。而且VICFace在国际知名的公开测评集WIDER FACE上达到了行业主流水平。

    图1 自然场景人脸检测样本示例

    二、 技术发展现状

    跟深度学习不同,传统方法解决自然场景人脸检测会从特征表示和分类器学习两个方面进行设计。最有代表性的工作是Viola-Jones算法[2],它利用手工设计的Haar-like特征和Adaboost算法来完成模型训练。传统方法在CPU上检测速度快,结果可解释性强,在相对可控的环境下可以达到较好的性能。但是,当训练数据规模成指数增长时,传统方法的性能提升相对有限,在一些复杂场景下,甚至无法满足应用需求。

    随着计算机算力的提升和训练数据的增长,基于深度学习的方法在人脸检测任务上取得了突破性进展,在检测性能上相对于传统方法具有压倒性优势。基于深度学习的人脸检测算法从算法结构上可以大致分为三类:

    1)基于级联的人脸检测算法。

    2)两阶段人脸检测算法。

    3)单阶段人脸检测算法。

    其中,第一类基于级联的人脸检测方法(如Cascade CNN[3]、MTCNN[4])运行速度较快、检测性能适中,适用于算力有限、背景简单且人脸数量较少的场景。第二类两阶段人脸检测方法一般基于Faster-RCNN[6]框架,在第一阶段生成候选区域,然后在第二阶段对候选区域进行分类和回归,其检测准确率较高,缺点是检测速度较慢,代表方法有Face R-CNN[9] 、ScaleFace[10]、FDNet[11]。最后一类单阶段的人脸检测方法主要基于Anchor的分类和回归,通常会在经典框架(如SSD[12]、RetinaNet[13])的基础上进行优化,其检测速度较两阶段法快,检测性能较级联法优,是一种检测性能和速度平衡的算法,也是当前人脸检测算法优化的主流方向。

    三、 优化思路和业务应用

    在自然场景应用中,为了同时满足精度需求以及达到实用的目标,美团视觉智能中心(Vision Intelligence Center,VIC)采用了主流的Anchor-Based单阶段人脸检测方案,同时在数据增强和采样策略、模型结构设计和损失函数等三方面分别进行了优化,开发了高精度人脸检测模型VICFace,以下是相关技术细节的介绍。

    1. 数据增强和采样策略

    单阶段通用目标检测算法对数据增强方式比较敏感,如经典的SSD算法在VOC2007[50]数据集上通过数据增强性能指标mAP提升6.7。经典单阶段人脸检测算法S3FD[17]也设计了样本增强策略,使用了图片随机裁切,图片固定宽高比缩放,图像色彩扰动和水平翻转等。

    百度在ECCV2018发表的PyramidBox[18]提出了Data-Anchor采样方法,将图像中一个随机选择的人脸进行尺度变换变成一个更小Anchor附近尺寸的人脸,同时训练图像的尺寸也进行同步变换。这样做的好处是通过将较大的人脸生成较小的人脸,提高了小尺度上样本的多样性,在WIDER FACE[1]数据集Easy、Medium、Hard集合上分别提升0.4(94.3->94.7),0.4(93.3->93.7),0.6(86.1->86.7)。ISRN[19]将SSD的样本增强方式和Data-Anchor采样方法结合,模型检测性能进一步提高。

    而VICFace在ISRN样本增强方式的基础上对语义模糊的超小人脸做了过滤。而mixup[22]在图像分类和目标检测中已经被验证有效,现在用于人脸检测,有效地防止了模型过拟合问题。考虑到业务数据中人脸存在多姿态、遮挡和模糊的样本,且这些样本在训练集中占比小,检测难度大,因此在模型训练时动态的给这些难样本赋予更高的权重从而有可能提升这些样本的召回率。

    2. 模型结构设计

    人脸检测模型结构设计主要包括检测框架、主干网络、预测模块、Anchor设置与正负样本划分等四个部分,是单阶段人脸检测方法优化的核心。

    • 检测框架

    近年来单阶段人脸检测框架取得了重要的发展,代表性的结构有S3FD[17]中使用的SSD,SFDet[25]中使用的RetinaNet,SRN[23]中使用的两步结构(后简称SRN)以及DSFD[24]中使用的双重结构(后简称DSFD),如下图2所示。其中,SRN是一种单阶段两步人脸检测方法,利用第一步的检测结果,在小尺度人脸上过滤易分类的负样本,改善正负样本数量的均衡性,针对大尺度的人脸采用迭代求精的方式进行人脸定位,改善大尺度人脸的定位精度,提升了人脸检测的准确率。在WIDER FACE上测评SRN取得了最好的检测效果(按标准协议用AP平均精度来衡量),如表1所示。

    S3FD:

    SFDet:

    SRN:

    DSFD:

    图2 四种检测结构

    表1 Backbone为ResNet50时,四种检测结构在WIDER FACE上的评估结果

    VICFace继承了当前性能最好的SRN检测结构,同时为了更好的融合自底向上和自顶向下的特征,为不同特征不同通道赋予不同的权重,以P4为例,其计算式为:

    其中WC4向量的元素个数与Conv(C4)特征的通道数相等,WP4与Upsample(P5)的通道数相等,WC4与WP4是可学习的,其元素值均大于0,且WC4与WP4对应元素之和为1,结构如图3所示。

    图3 视觉智能中心VICFace网络整体结构图

    • 主干网络

    单阶段人脸检测模型的主干网络通常使用分类任务中的经典结构(如VGG[26]、ResNet[27]等)。其中,主干网络在ImageNet数据集上分类任务表现越好,其在WIDER FACE上的人脸检测性能也越高,如表2所示。为了保证检测网络得到更高的召回,在性能测评时VICFace主干网络使用了在ImageNet上性能较优的ResNet152网络(其在ImageNet上Top1分类准确率为80.26),并且在实现时将Kernel为7x7,Stride为2的卷积模块调整为为3个3x3的卷积模块,其中第一个模块的Stride为2,其它的为1;将Kernel为1x1,Stride为2的下采样模块替换为Stride为2的Avgpool模块。

    表2 不同主干网络在ImageNet的性能对比和其在RetinaNet框架下的检测精度

    • 预测模块

    利用上下文信息可以进一步提高模型的检测性能。SSH[36]是将上下文信息用于单阶段人脸检测模型的早期方案,PyramidBox、SRN、DSFD等也设计了不同上下文模块。如图4所示,SRN上下文模块使用1xk,kx1的卷积层提供多种矩形感受野,多种不同形状的感受野助于检测极端姿势的人脸;DSFD使用多个带孔洞的卷积,极大的提升了感受野的范围。

    图4 不同网络结构中的Context Module

    在VICFace中,将带孔洞的卷积模块和1xk,kx1的卷积模块联合作为Context Module,既提升了感受野的范围也有助于检测极端姿势的人脸,同时使用Maxout模块提升召回率,降低误检率。它还利用Cn层特征预测的人脸位置,校准Pn层特征对应的区域,如图5所示。Cn层预测的人脸位置相对特征位置的偏移作为可变卷积的Offset输入,Pn层特征作为可变卷积的Data输入,经过可变卷积后特征对应的区域与人脸区域对应更好,相对更具有表示能力,可以提升人脸检测模型的性能。

    图5 自研检测模型结构中的预测模块

    • Anchor设置与正负样本划分

    基于Anchor的单阶段人脸检方法通过Anchor的合理设置可以有效的控制正负样本比例和缓解不同尺度人脸定位损失差异大的问题。现有主流人脸检测方法中Anchor的大小设置主要有以下三种(S代表Stride):

    根据数据集中人脸的特点,Anchor的宽高也可以进一步丰富,如{1},{0.8},{1,0.67}。

    在自研方案中,在C3、P3层,Anchor的大小为2S和4S,其它层Anchor大小为4S(S代表对应层的Stride),这样的Anchor设置方式在保证人脸召回率的同时,减少了负样本的数量,在一定程度上缓解了正负样本不均衡现象。根据人脸样本宽高比的统计信息,将Anchor的宽高比设置为0.8,同时将Cn层IoU大于0.7的样本划分为正样本,小于0.3的划分为负样本,Pn层IoU大于0.5的样本划分为正样本,小于0.4的划分为负样本。

    3. 损失函数

    人脸检测的优化目标不仅需要区分正负样本(是否是人脸),还需要定位出人脸位置和尺寸。S3FD中区分正负样本使用交叉熵损失函数,定位人脸位置和尺寸使用Smooth L1 Loss,同时使用困难负样本挖掘解决正负样本数量不均衡的问题。另一种缓解正负样本不均衡带来的性能损失更直接的方式是Lin等人提出Focal Loss[13]。UnitBox[41]提出IoU Loss可以缓解不同尺度人脸的定位损失差异大导致的性能损失。AlnnoFace[40]同时使用Focal Loss和IoU Loss提升了人脸检测模型的性能。引入其它相关辅助任务也可以提升人脸检测算法的性能,RetinaFace[42]引入关键点定位任务,提升人脸检测算法的定位精度;DFS[43]引入人脸分割任务,提升了特征的表示能力。

    综合前述方法的优点,VICFace充分利用人脸检测及相关任务的互补信息,使用多任务方式训练人脸检测模型。在人脸分类中使用Focal Loss来缓解样本不均衡问题,同时使用人脸关键点定位和人脸分割来辅助分类目标的训练,从而提升整体的分类准确率。在人脸定位中使用Complete IoU Loss[47],以目标与预测框的交并比作为损失函数,缓解不同尺度人脸损失的差异较大的问题,同时兼顾目标和预测框的中心点距离和宽高比差异,从而可以达到更好整体检测性能。

    4. 优化结果和业务应用

    在集群平台的支持下,美团视觉智能中心的自然场景人脸检测基础模型VICFace与现有主流方案进行了性能对比,在国际公开人脸检测测评集WIDER FACE的三个验证集Easy、Medium、Hard中均达到领先水平(AP为平均精度,数值越高越好),如图6和表3所示。

    图6 VICFace以及当前主流人脸检测方法在WIDER FACE上的测评结果

    表3 VICFace以及当前主流人脸检测方法在WIDER FACE上的测评结果
    

    注:SRN是中科院在AAAI2019提出的新方法,DSFD是腾讯优图在CVPR2019提出的新方法,PyramidBox++是百度在2019年提出的新方法,AInnoFace是创新奇智在2019提出的新方法,RetinaFace是ICCV2019 Wider Challenge亚军。

    在业务应用中,自然场景人脸检测服务目前已接入美团多个业务线,满足了业务在UGC图像智能过滤和广告POI图像展示等应用的性能需求,前者保护用户隐私,预防侵犯用户肖像权,后者可以有效的预防图像中人脸局部被裁切的现象,从而提升了用户体验。此外,VICFace还为其它人脸智能分析应用提供了核心基础模型,如自动检测后厨工作人员的着装合规性(是否穿戴帽子和口罩),为食品安全增加了一道保障。

    在未来的工作中,为了给用户提供更好的体验,同时满足高并发的需求,在模型结构设计和模型推理效率方面将会做进一步探索和优化。此外,在算法设计方面,基于Anchor-Free的单阶段目标检测方法近年来在通用目标检测领域表现出较高的潜力,也是视觉智能中心未来会关注的重要方向。

    参考文献

    1. Yang S, Luo P, Loy C C, et al. Wider face: A face detection benchmark[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5525-5533.

    2. Viola P, Jones M J. Robust real-time face detection[J]. International journal of computer vision, 2004, 57(2): 137-154.

    3. Li H, Lin Z, Shen X, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 5325-5334.

    4. Zhang K, Zhang Z, Li Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.

    5. Hao Z, Liu Y, Qin H, et al. Scale-aware face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6186-6195.

    6. Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

    7. Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

    8. Jiang H, Learned-Miller E. Face detection with the faster R-CNN[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). IEEE, 2017: 650-657.

    9. Wang H, Li Zhif, et al. Face R-CNN. arXiv preprint arXiv: 1706.01061, 2017.

    10. Yang S, Xiong Y, Loy C C, et al. Face detection through scale-friendly deep convolutional networks[J]. arXiv preprint arXiv:1706.02863, 2017.

    11. Zhang C, Xu X, Tu D. Face detection using improved faster rcnn[J]. arXiv preprint arXiv:1802.02142, 2018.

    12. Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.

    13. Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.

    14. Huang L, Yang Y, Deng Y, et al. Densebox: Unifying landmark localization with end to end object detection[J]. arXiv preprint arXiv:1509.04874, 2015.

    15. Liu W, Liao S, Ren W, et al. High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5187-5196.

    16. Zhang Z, He T, Zhang H, et al. Bag of freebies for training object detection neural networks[J]. arXiv preprint arXiv:1902.04103, 2019.

    17. Zhang S, Zhu X, Lei Z, et al. S3fd: Single shot scale-invariant face detector[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 192-201.

    18. Tang X, Du D K, He Z, et al. Pyramidbox: A context-assisted single shot face detector[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 797-813.

    19. Zhang S, Zhu R, Wang X, et al. Improved selective refinement network for face detection[J]. arXiv preprint arXiv:1901.06651, 2019.

    20. Li Z, Tang X, Han J, et al. PyramidBox++: High Performance Detector for Finding Tiny Face[J]. arXiv preprint arXiv:1904.00386, 2019.

    21. Zhang S, Zhu X, Lei Z, et al. Faceboxes: A CPU real-time face detector with high accuracy[C]//2017 IEEE International Joint Conference on Biometrics (IJCB). IEEE, 2017: 1-9.

    22. Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.

    23. Chi C, Zhang S, Xing J, et al. Selective refinement network for high performance face detection[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8231-8238.

    24. Li J, Wang Y, Wang C, et al. Dsfd: dual shot face detector[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5060-5069.

    25. Zhang S, Wen L, Shi H, et al. Single-shot scale-aware network for real-time face detection[J]. International Journal of Computer Vision, 2019, 127(6-7): 537-559.

    26. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

    27. He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

    28. Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.

    29. Iandola F, Moskewicz M, Karayev S, et al. Densenet: Implementing efficient convnet descriptor pyramids[J]. arXiv preprint arXiv:1404.1869, 2014.

    30. Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.

    31. Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4510-4520.

    32. Bazarevsky V, Kartynnik Y, Vakunov A, et al. BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs[J]. arXiv preprint arXiv:1907.05047, 2019.

    33. He Y, Xu D, Wu L, et al. LFFD: A Light and Fast Face Detector for Edge Devices[J]. arXiv preprint arXiv:1904.10633, 2019.

    34. Zhu R, Zhang S, Wang X, et al. Scratchdet: Exploring to train single-shot object detectors from scratch[J]. arXiv preprint arXiv:1810.08425, 2018, 2.

    35. Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.

    36. Najibi M, Samangouei P, Chellappa R, et al. Ssh: Single stage headless face detector[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4875-4884.

    37. Sa. Earp, P. Noinongyao, J. Cairns, A. Ganguly Face Detection with Feature Pyramids and Landmarks. arXiv preprint arXiv:1912.00596, 2019.

    38. Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networks[J]. arXiv preprint arXiv:1302.4389, 2013.

    39. Zhu C, Tao R, Luu K, et al. Seeing Small Faces from Robust Anchor’s Perspective[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5127-5136.

    40. F. Zhang, X. Fan, G. Ai, J. Song, Y. Qin, J. Wu Accurate Face Detection for High Performance. arXiv preprint arXiv:1905.01585, 2019.

    41. Yu J, Jiang Y, Wang Z, et al. Unitbox: An advanced object detection network[C]//Proceedings of the 24th ACM international conference on Multimedia. ACM, 2016: 516-520.

    42. Deng J, Guo J, Zhou Y, et al. RetinaFace: Single-stage Dense Face Localisation in the Wild[J]. arXiv preprint arXiv:1905.00641, 2019.

    43. Tian W, Wang Z, Shen H, et al. Learning better features for face detection with feature fusion and segmentation supervision[J]. arXiv preprint arXiv:1811.08557, 2018.

    44. Y. Zhang, X. Xu, X. Liu Robust and High Performance Face Detector. arXiv preprint arXiv:1901.02350, 2019.

    45. S. Zhang, C. Chi, Z. Lei, Stan Z. Li RefineFace: Refinement Neural Network for High Performance Face Detection. arXiv preprint arXiv:1909.04376, 2019.

    46. Wang J, Yuan Y, Li B, et al. Sface: An efficient network for face detection in large scale variations[J]. arXiv preprint arXiv:1804.06559, 2018.

    47. Zheng Z, Wang P, Liu W, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[J]. arXiv preprint arXiv:1911.08287, 2019.

    48. Bay H, Tuytelaars T, Van Gool L. Surf: Speeded up robust features[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2006: 404-417.

    49. Yang B, Yan J, Lei Z, et al. Aggregate channel features for multi-view face detection[C]//IEEE international joint conference on biometrics. IEEE, 2014: 1-8.

    50. Everingham M, Van Gool L, Williams C K I, et al. The PASCAL visual object classes challenge 2007 (VOC2007) results[J]. 2007.

    51. Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

    作者简介

    振华、欢欢、晓林,均为美团视觉智能中心工程师。

    招聘信息

    美团视觉智能中心基础视觉组的主要职责是夯实视觉智能底层核心基础技术,为集团业务提供平台级视觉解决方案。主要方向有基础模型优化、大规模分布式训练、Server效率优化、移动端适配优化和创新产品孵化。

    欢迎计算机视觉相关领域小伙伴加入我们,简历可发邮件至 tech@meituan.com(邮件标题注明:美团视觉智能中心基础视觉组)。

    展开全文
  • 人脸检测技术有许多的应用场景,最常见的就是拍摄照片时检测到人脸并且做美颜。 本人本科毕业设计题目与人脸识别相关,人脸识别的第一部就是进行人脸检测,检测出人脸后再进行后续的人脸比对识别。这里总结一下我这...

    人脸检测技术有许多的应用场景,最常见的就是拍摄照片时检测到人脸并且做美颜。

    本人本科毕业设计题目与人脸识别相关,人脸识别的第一部就是进行人脸检测,检测出人脸后再进行后续的人脸比对识别。这里总结一下我这段时间所学的知识,后面继续做人脸识别相关。

    综述

    人脸识别这个问题在很久之前就已经提出了。

    在人脸识别领域很著名的算法是2004年 Viola and Jones 提出的,使用 Haar-like 特征和 AdaBoost算法来训练分类器,通过分类的级联来获得一个较强的人脸识别模型。这个模型能够很好的检测出正面的人脸。然而在自然场景下拍摄的照片,由于光照、面部姿态角、遮挡的原因,这个算法在漏检率十分的高。Viola and Jones 也提出了一些方法来解决面部姿态角不同所产生的人脸漏检的问题,但是模型的复杂性都是相对比较高的。

    另外一个进行人脸检测的方法是使用DPM模型。DPM模型是在HOG特征基础上进行改进的,DPM使用了多个分辨率不同的HOG特征。利用了子模型和主模型空间的先验知识,在人脸面部姿态角变化、遮挡问题上有很强的鲁棒性。

    但是上述的两种方法及其改良版本,训练过程比较复杂,在某些场景下漏检率比较高,所以和毕业设计老师交流的时候,老师建议使用深度学习的方法来尝试人脸检测。所以我的毕业设计也就走向了使用神经网络来实现的道路上了。这篇总结也是围绕我所看的论文所写的。

    基于神经网络的人脸检测

    深度学习人脸检测最早的代表论文是2015年CVPR上的 "A Convolutional Neural Network Cascade for Face Detection",保留了传统人脸检测方法中Cascade的方法。另一篇是 "Multi-view Face Detection Using Deep Convolutional Neural Networks" 亮点是使用了全卷积网络,得到图像的heatmap。

    2016年kpzhang发表的"Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks"综合使用了上面两种方法。由于kpzhang在github上开源了他的测试代码和模型,所以目前我所使用的人脸检测方法也是这种方法。

    其实有很多工作是将Object Detection 的方法例如RCNNFastRCNNYOLO应用到人脸检测上的。其实上面提到的方法也参考了很多Object Detection的做法。由于毕业设计是做人脸识别相关的,所以我所看的论文就都是面对人脸检测这个小一点的问题上的。

    论文阅读及相关的笔记

    下面是我在学习人脸检测时所看的3篇关于人脸检测相关的论文的笔记

    1. A Convolutional Neural Network Cascade for Face Detection

    这篇论文是将卷积神经网络运用在人脸检测任务上比较有代表性的文章。这篇论文提出的方法保留了 Detector Cascade 的结构,使用了6个CNN网路进行级联,其中3个CNN网络用来做是否存在人脸的二分类,另外3个用来作为人脸边界框框的校准(calibration)

    • 用于人脸检测的二分类网络: 12-net, 24-net, 48-net
    • 用于候选框校准的网络: 12-calibration-net, 24-calibration-net, 48-calibration-net

    1227331-20180421155709568-1145351228.png

    (人脸检测整个流程)

    三个候选框校正的网络实现的是多分类网络而不是回归网络

    通过对3个维度的预定义缩放集合构成N个校准模式,校准模式可以写成\(\{[s_n,x_n,y_n]\}_{n=1}^{N}\)。给定一个检测窗口\((x,y,w,h)\)(\((x,y)\)表示检测窗口的左上角,\((w,h)\)表示大小),校准模式将会以下面的形式来校准提供的检测窗口:
    \[(x-\frac{x_n w}{s_n}, y-\frac{y_n h}{s_n}, \frac{w}{s_n}, \frac{h}{s_n})\]
    实际使用中\(s_n, x_n, y_n\)的取值范围:
    \[ \begin{array}{lll} s_n & \in & \{0.83, 0.91, 1.0, 1.10, 1.21\} \\ x_n & \in & \{-0.17, 0, 0.17\} \\ y_n & \in & \{-0.17, 0, 0.17\} \\ \end{array} \]

    所以 \(N=45\)。因为这45个校准模式之间并不是两两正交的,所以文中没有直接使用最高得分的校准模式对候选框进行校准,而是采取加权平均的方式进行的(其中\(t\)为阈值):
    \[ \begin{array}{ccc} [s,x,y] = \frac{1}{Z}\sum_{n=1}^{N}[s_n,x_n,y_n]I(c_n > t) \\ \\ Z=\sum_{n=1}^{N}I(c_n>t)\\ \\ I(c_n > t) = \left\{ \begin{array}{ll} 1 & \textrm{if $c_n > t$} \\ 0 & \textrm{otherwise.} \end{array} \right. \end{array} \]
    1227331-20180421162437838-601351873.png

    (三个校准网络)

    12-net、24-net、48-net

    12-net非常浅的二分类卷积网络, 通过使用步幅为4,大小为12×12的滑窗,作为网络的输入得到的结果是该滑窗是否包含人脸的评分。要检测不同尺度的人脸,所以对输入图片进行缩放得到Image Pyramid,在将Image Pyramid中的每张图片进行处理。在实际应用中,假设可接受的最小面部尺寸为F,那Image Pyramid的缩放比例就为 \(\frac{12}{F}\)
    1227331-20180421172411368-1798460225.png
    24-net使用12-calibration-net校正的图像作为输入,功能与12-net一样,文中采取了多分辨率的架构,将12-net的全连接层整合到24-net的全连接层中,文中说是为了发现更小的人脸。
    1227331-20180421172448861-583104172.png

    (24-net结构)

    1227331-20180421172457531-1553957651.png
    (用多分辨率结构带来性能的提升)

    48-net 的结构与24-net的结构类似,只不过层次更深而已
    1227331-20180421184443202-255298836.png
    (48-net)

    2. Multi-View Face Detection Using Deep Convolutional Neural Networks

    这篇网络与前面一篇相比,亮点在于,作者使用的全卷积网络代替了滑窗。图片经过全卷积网络生成了一个人脸检测的heatmap,代表了检测器在图片上的不同响应。根据响应评分获得人脸候选框。

    论文中使用的是AlexNet网络,使用AlexNet在LFW数据集上进行微调得到。他们对AlexNet的全连接层测参数进行修正,使其变为卷积层,由于AlexNet具有比较好的分类能力,所以论文中没有使用像级联架构来检测人脸。网络最终的输出为图片的heatmap
    1227331-20180421185015512-866313592.png

    (图7)

    这篇论文除了介绍他们使用全卷积网络来检测人脸外,还使用了比较大的篇幅来阐述训练样本中人脸姿态角的分布对检测器性能的影响。可以看到图7中,正面人脸的评分非常高, 99.9%。但是随着角度的旋转,在同一个平面内,其他角度的人脸的评分均小于正面人脸的评分。作者对训练集合图像进行统计,得到了训练集合中关于人脸姿态角的分布。
    1227331-20180421185534246-2029609199.png
    由于使用交叉熵作为损失函数,分布不均的样本会使神经网络偏向于正面脸部,因为这样损失函数下降得最快,作者根据这个现象其实也做了一些数据增强。例如在训练过程中,由于负样本数量是正样本数量的100倍,如果使用随机采样的方式获得每个batch的训练数据,每个batch(128张/batch)中平均只有2张正样本。所以他们强制使训练样本正样本的数量占到 \(\frac{1}{4}\)(32positive + 96negative)
    作者提出了一些值得尝试的Data Augmentation:
    • 使训练样本中各个面部旋转角度出现的概率相等。
    • 对训练样本中添加遮挡,但不建议只是将部分像素置为0.因为这样网络会学到这些人为制造的数据。

    3. Joint Face Detection and Alignment using Multi-task Cascaded Convolution Networks

    multi-task 在2016年的时候突然火了起来,这篇论文就采用了multi-task的卷积神经网络,结合了上面两篇论文的一些做法,主要思想有一下5点:

    1. 采用cascaded multi-task 结构,3级级联结构,每一级单独训练
    2. 将face detection、 alignment 和 landmark 作为multi-task 在一个网络中同时优化,三者的相关性能够促进准确率的提高。
    3. 使用全卷积网络代替滑窗生成图片heatmap, 前期过滤大部分的背景窗口
    4. 采用Online Hard Example Mining提高准确率
    5. 使用Image Pyramid以检测不同尺度的人脸。

    下图是作者论文中关于使用到的神经网络的结构图
    1227331-20180421193432371-1984811100.png

    文中使用的三个网络结构也是从浅到深。前期使用浅层的卷积神经网络过滤掉大量的背景选框,因为此时是为了快速过滤无关紧要的背景,所以卷积网络的能力可以不是特别强。 配合multi-task,前期可以快速提取候选框。第一个阶段所采用的网络作者称为Pnet
    1227331-20180421191050188-1834422998.jpg
    接下来就是两个结构相仿的卷积神经网络RnetOnet。网络能力逐步增强。输入候选图像的大小也从小到大,分别为24px和48px
    1227331-20180421193028293-785716920.jpg
    1227331-20180421193119778-982550718.jpg

    上面的网络是kpzhang93开源出来的网络模型进行绘制出来的,眼尖的读者会发现,PnetRnet和论文中不一样,少了一个输出,这是因为作者采用的WiderFace数据集,该数据集没有landmard(人脸关键点)信息,因此Pnet和后续的Onet只做了classificationbounding box regression

    multi-task 损失函数的定义

    损失函数的定义由多个任务的误差进行加权求和得到

    \(L_{i}^{det} = -(y_i^{det}log(p_i) + (1-y_i^{det})(1-log(p_i)))\)

    \(L_i^{box} = \left \| \hat{y}_i^{box} -y_i^{box} \right \|^2_2\)

    \(L_i^{landmark} = \left \| \hat{y}_i^{landmark} - y_i^{landmark} \right \|^2_2\)

    得到:
    \[min\sum_{i=1}^{N}\sum_{j\in\left\{det, box, landmark\right\}} \alpha_j\beta_i^jL_i^j\]
    训练不同网络时使用的权重不一样。
    由于是对人脸的检测,如果检测不是人脸的话就不对回归框和关键点位置计算损失。

    在线困难样本挖掘(Online Hard Sample Mining)

    在训练的时候使用OHSM来提高模型的准确率,每个mini-batch中计算出70%的困难样本,只是计算这些困难样本的损失来计算梯度。因为容易的样本对提高模型能力相对比较小。
    1227331-20180421194007882-842333782.png

    (使用困难样本挖掘对性能的提升)

    -------------------

    最终结果

    1227331-20180421194125315-2092867880.png

    左图使用的是 HOG+SVM的方法,右图使用的是 mtcnn

    1227331-20180421195505466-827014556.jpg
    此图使用的是mtcnn的方法进行检测

    可以发现上图出现了误测,但看了一下人脸的置信度为93%,误测可以在工程化时,可以通过调整阈值来弥补。比较有趣的是,连小金人的连也能识别出来。

    Summary

    这篇文章是本人本科毕业设计所学内容的总结。如果各位读者有什么看法和建议欢迎在评论区提出来。行文有什么纰漏的话,也请大家不吝指正。谢谢
    过段时间我也会继续把人脸识别关于人脸对比的学习内容总结出来。

    转载于:https://www.cnblogs.com/pluviophile/p/detect-face-cnn.html

    展开全文
  • 自然场景下基于四级级联全卷积神经网络的人脸检测算法.pdf
  • 自然场景文本检测识别技术综述

    万次阅读 多人点赞 2018-06-30 09:05:52
    其它机器学习、深度学习算法的全面系统讲解可以阅读...白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语...

    其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造。

    番外青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么?

    白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。

    青蛇: 文本检测模型CTPN中为什么选用VGG16作基础网络?

    白蛇: CTPN是2016年被推出的, 而VGG16是那年很流行的特征提取基础网络。如果今年实施文本检测, 可以试试Resnet、FCN、Densenet等后起之秀作基础网络,或许有惊喜。


    摘要本文介绍图像文本识别(OCR)领域的最新技术进展。首先介绍应用背景,包括面临的技术挑战、典型应用场景、系统实施框架等。接着介绍搭建图文识别模型过程中经常被引用到的多种特征提取基础网络、物体检测网络框架,以及它们被应用到图文识别任务中所面临的场景适配问题。然后介绍最近三年来出现的各种文本边框检测模型、文字内容识别模型、端到端图文识别模型。最后介绍图文识别领域的大型公开数据集。

    应用概述

    OCR(Optical Character Recognition, 光学字符识别)传统上指对输入扫描文档图像进行分析处理,识别出图像中文字信息。场景文字识别(Scene Text Recognition,STR) 指识别自然场景图片中的文字信息。自然场景图像中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富:

    ·允许多种语言文本混合,字符可以有不同的大小、字体、颜色、亮度、对比度等。
    ·文本行可能有横向、竖向、弯曲、旋转、扭曲等式样。
    ·图像中的文字区域还可能会产生变形(透视、仿射变换)、残缺、模糊等现象。
    ·自然场景图像的背景极其多样。如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理,比如沙地、草丛、栅栏、砖墙等。

    也有人用OCR技术泛指所有图像文字检测和识别技术, 包括传统OCR技术与场景文字识别技术。这是因为,场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。

    图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

    已经有不少服务商在提供图像文字检测和识别服务,这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业,也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务,也可以使用客户提供的数据集训练定制化模型(如票据识别模型),以及提供定制化AI服务系统集成等。

    如下图所示,传统技术解决方案中,是先分别训练文字检测和文本识别两个模型,然后在服务实施阶段将这两个模型串联到数据流水线中组成图文识别系统。

    如下图所示,最近流行的技术解决方案中,是用一个多目标网络直接训练出一个端到端的模型。在训练阶段,该模型的输入是训练图像及图中文本坐标、文本内容,模型优化目标是输出端边框坐标预测误差与文本内容预测误差的加权和。在服务实施阶段,原始图片流过该模型直接输出预测文本信息。相比于传统方案,该方案中模型训练效率更高、服务运营阶段资源开销更少。

    文本检测和识别技术处于一个学科交叉点,其技术演进不断受益于计算机视觉处理和自然语言处理两个领域的技术进步。它既需要使用视觉处理技术来提取图像中文字区域的图像特征向量,又需要借助自然语言处理技术来解码图像特征向量为文字结果。

    模型基础

    从公开论文中可以看到,起源于图像分类、检测、语义分割等视觉处理任务的各个基础网络(backbone network),纷纷被征用来提取图像中文字区域的特征向量。同时,起源于物体检测、语义分割任务的多个网络框架,也被改造后用于提升图文识别任务中的准确率和执行速度。本章将简单温习一下这些基础网络、网络框架的实现原理,并介绍图文识别任务中应用它们时所面临的各种场景适配问题。

    基础网络

    图文识别任务中充当特征提取模块的基础网络,可以来源于通用场景的图像分类模型。例如,VGGNet,ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。

    图文识别任务中的基础网络,也可以来源于特定场景的专用网络模型。例如,擅长提取图像细节特征的FCN网络,擅长做图形矫正的STN网络。

    由于大家对通用网络模型已经很熟悉,所以本节只简单介绍上述专用网络模型。

    FCN网络

    全卷积网络(FCN,fully convolutional network), 是去除了全连接(fc)层的基础网络,最初是用于实现语义分割任务。FC的优势在于利用反卷积(deconvolution)、上池化(unpooling)等上采样(upsampling)操作,将特征矩阵恢复到接近原图尺寸,然后对每一个位置上的像素做类别预测,从而能识别出更清晰的物体边界。基于FCN的检测网络,不再经过候选区域回归出物体边框, 而是根据高分辨率的特征图直接预测物体边框。因为不需要像Faster-RCNN那样在训练前定义好候选框长宽比例,FCN在预测不规则物体边界时更加鲁棒。由于FCN网络最后一层特征图的像素分辨率较高,而图文识别任务中需要依赖清晰的文字笔画来区分不同字符(特别是汉字),所以FCN网络很适合用来提取文本特征。当FCN被用于图文识别任务时,最后一层特征图中每个像素将被分成文字行(前景)和非文字行(背景)两个类别。

     

    STN网络

    空间变换网络(STN,Spatial Transformer Networks)的作用是对输入特征图进行空间位置矫正得到输出特征图,这个矫正过程是可以进行梯度传导的,从而能够支持端到端的模型训练。

    如下图所示,STN网络由定位网络(Localization Network) ,网格生成器(Grid generator),采样器(Sampler)共3个部分组成。定位网络根据原始特征图U计算出一套控制参数,网格生成器这套控制参数产生采样网格(sampling grid),采样器根据采样网格核函数将原始图U中像素对应采样到目标图V中。

    空间变换的控制参数是根据原始特征图U动态生成的,生成空间变换控制参数的元参数则是在模型训练阶段学习到的、并且存放于定位网络的权重(weights)矩阵中。

    选自arXiv: 1506.02025,’Spatial Transformer Networks

     

    检测网络框架

    Faster RCNN作为一个检测网络框架,其目标是寻找紧凑包围被检测对象的边框(BBOX,Bounding Box)。如下图所示,它在Fast RCNN检测框架基础上引入区域建议网络(RPN,Region Proposal Network),来快速产生与目标物体长宽比例接近的多个候选区域参考框(anchor);它通过ROI(Region of Interest) Pooling层为多种尺寸参考框产生出归一化固定尺寸的区域特征;它利用共享的CNN卷积网络同时向上述RPN网络和ROI Pooling层输入特征映射(Feature Maps),从而减少卷积层参数量和计算量。训练过程中使用到了多目标损失函数,包括RPN网络、ROI Pooling层的边框分类loss和坐标回归loss。通过这些loss的梯度反向传播,能够调节候选框的坐标、并增大它与标注对象边框的重叠度/交并比(IOU,Intersection over Union)。RPN网格生成的候选框初始值有固定位置以及长宽比例。如果候选框初始长宽比例设置得与图像中物体形状差别很大,就很难通过回归找到一个紧凑包围它的边框。

    摘自arXiv:1506.01497,’Faster R-CNN: Towards Real-Ti

     

    SSD(Single Shot MultiBox Detector),是2016年提出的一种全卷积目标检测算法,截止到目前仍是主要的目标检测框架之一,相比Faster RCNN有着明显的速度优势。如下图所示,SSD是一种one stage算法,直接预测被检测对象的边框和得分。检测过程中,SSD算法利用多尺度思想进行检测,在不同尺度的特征图(feature maps)上产生与目标物体长宽比例接近的多个默认框(Default boxes),进行回归与分类。最后利用非极大值抑制(Non-maximum suppression)得到最终的检测结果。训练过程中,SSD采用Hard negative mining策略进行训练,使正负样本比例保持为1:3,同时使用多种数据增广(Data augmentation)方式进行训练,提高模型性能。

    摘自arxiv: 1512.02325, “SSD: Single Shot MultiBox

     

    文本检测模型

    文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。

    但是,视觉领域常规物体检测方法(SSD, YOLO, Faster-RCNN等)直接套用于文字检测任务效果并不理想, 主要原因如下:

    ·相比于常规物体,文字行长度、长宽比例变化范围很大。
    ·文本行是有方向性的。常规物体边框BBox的四元组描述方式信息量不充足。
    ·自然场景中某些物体局部图像与字母形状相似,如果不参考图像全局信息将有误报。
    ·有些艺术字体使用了弯曲的文本行,而手写字体变化模式也很多。
    ·由于丰富的背景图像干扰,手工设计特征在自然场景文本识别任务中不够鲁棒。
    

    针对上述问题根因,近年来出现了各种基于深度学习的技术解决方案。它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。例如:

    ·CTPN方案中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。
    ·RRPN等方案中,文本框标注采用BBOX +方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。
    ·DMPNet等方案中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。
    ·SegLink 将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。
    ·TextBoxes等方案中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。
    ·FTSN方案中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。
    ·WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。
    

    下面用近年来出现的多个模型案例,介绍如何应用上述各方法提升图像文本检测的效果。

    CTPN模型

    CTPN是目前流传最广、影响最大的开源文本检测模型,可以检测水平或微斜的文本行。文本行可以被看成一个字符sequence,而不是一般物体检测中单个独立的目标。同一文本行上各个字符图像间可以互为上下文,在训练阶段让检测模型学习图像中蕴含的这种上下文统计规律,可以使得预测阶段有效提升文本块预测准确率。CTPN模型的图像预测流程中,前端使用当时流行的VGG16做基础网络来提取各字符的局部图像特征,中间使用BLSTM层提取字符序列上下文特征,然后通过FC全连接层,末端经过预测分支输出各个文字块的坐标值和分类结果概率值。在数据后处理阶段,将合并相邻的小文字块为文本行。

    选自arXiv: 1609.03605,’Detecting Text in Natural Im

     

    RRPN模型

    基于旋转区域候选网络(RRPN, Rotation Region Proposal Networks)的方案,将旋转因素并入经典区域候选网络(如Faster RCNN)。这种方案中,一个文本区域的ground truth被表示为具有5元组(x,y,h,w,θ)的旋转边框, 坐标(x,y)表示边框的几何中心, 高度h设定为边框的短边,宽度w为长边,方向是长边的方向。训练时,首先生成含有文本方向角的倾斜候选框,然后在边框回归过程中学习文本方向角。

    选自arXiv: 1703.01086,’Arbitrary-Oriented Scene Tex

    RRPN中方案中提出了旋转感兴趣区域(RRoI,Rotation Region-of-Interest)池化层,将任意方向的区域建议先划分成子区域,然后对这些子区域分别做max pooling、并将结果投影到具有固定空间尺寸小特征图上。

    选自arXiv: 1703.01086,’Arbitrary-Oriented Scene Tex

     

    FTSN模型

    FTSN(Fused Text Segmentation Networks)模型使用分割网络支持倾斜文本检测。它使用Resnet-101做基础网络,使用了多尺度融合的特征图。标注数据包括文本实例的像素掩码和边框,使用像素预测与边框检测多目标联合训练。

    选自arXiv: 1709.03272,’Fused Text Segmentation Netw

     

    基于文本实例间像素级重合度的Mask-NMS, 替代了传统基于水平边框间重合度的NMS算法。下图左边子图是传统NMS算法执行结果,中间白色边框被错误地抑制掉了。下图右边子图是Mask-NMS算法执行结果, 三个边框都被成功保留下来。

    DMPNet模型

    DMPNet(Deep Matching Prior Network)中,使用四边形(非矩形)来更紧凑地标注文本区域边界,其训练出的模型对倾斜文本块检测效果更好。

    如下图所示,它使用滑动窗口在特征图上获取文本区域候选框,候选框既有正方形的、也有倾斜四边形的。接着,使用基于像素点采样的Monte-Carlo方法,来快速计算四边形候选框与标注框间的面积重合度。然后,计算四个顶点坐标到四边形中心点的距离,将它们与标注值相比计算出目标loss。文章中推荐用Ln loss来取代L1、L2 loss,从而对大小文本框都有较快的训练回归(regress)速度。

    选自arXiv:1703.01425,’Deep Matching Prior Network:

     

    EAST模型

    EAST(Efficient and Accuracy Scene Text detection pipeline)模型中,首先使用全卷积网络(FCN)生成多尺度融合的特征图,然后在此基础上直接进行像素级的文本块预测。该模型中,支持旋转矩形框、任意四边形两种文本区域标注形式。对应于四边形标注,模型执行时会对特征图中每个像素预测其到四个顶点的坐标差值。对应于旋转矩形框标注,模型执行时会对特征图中每个像素预测其到矩形框四边的距离、以及矩形框的方向角。

    根据开源工程中预训练模型的测试,该模型检测英文单词效果较好、检测中文长文本行效果欠佳。或许,根据中文数据特点进行针对性训练后,检测效果还有提升空间。

    上述过程中,省略了其他模型中常见的区域建议、单词分割、子块合并等步骤,因此该模型的执行速度很快。

    选自arXiv: 1704.03155,’EAST: An Efficient and Accur

     

    SegLink模型

    SegLink模型的标注数据中,先将每个单词切割为更易检测的有方向的小文字块(segment),然后用邻近连接(link )将各个小文字块连接成单词。这种方案方便于识别长度变化范围很大的、带方向的单词和文本行,它不会象Faster-RCNN等方案因为候选框长宽比例原因检测不出长文本行。相比于CTPN等文本检测模型,SegLink的图片处理速度快很多。

    选自arXiv: 1703.06520,’Detecting Oriented Text in Na

     

    如下图所示,该模型能够同时从6种尺度的特征图中检测小文字块。同一层特征图、或者相邻层特征图上的小文字块都有可能被连接入同一个单词中。换句话说,位置邻近、并且尺寸接近的文字块都有可能被预测到同一单词中。

    选自arXiv: 1703.06520,’Detecting Oriented Text in Na

     

    PixelLink模型

    自然场景图像中一组文字块经常紧挨在一起,通过语义分割方法很难将它们识别开来,所以PixelLink模型尝试用实例分割方法解决这个问题。

    该模型的特征提取部分,为VGG16基础上构建的FCN网络。模型执行流程如下图所示。首先,借助于CNN 模块执行两个像素级预测:一个文本二分类预测,一个链接二分类预测。接着,用正链接去连接邻居正文本像素,得到文字块实例分割结果。然后,由分割结果直接就获得文字块边框, 而且允许生成倾斜边框。

    上述过程中,省掉了其他模型中常见的边框回归步骤,因此训练收敛速度更快些。训练阶段,使用了平衡策略,使得每个文字块在总LOSS中的权值相同。训练过程中,通过预处理增加了各种方向角度的文字块实例。

    选自arXiv: 1801.01315,’Detecting Scene Text via Inst

     

    Textboxes/Textboxes++模型

    Textboxes是基于SSD框架的图文检测模型,训练方式是端到端的,运行速度也较快。如下图所示,为了适应文字行细长型的特点,候选框的长宽比增加了1,2,3,5,7,10这样初始值。为了适应文本行细长型特点,特征层也用长条形卷积核代替了其他模型中常见的正方形卷积核。为了防止漏检文本行,还在垂直方向增加了候选框数量。为了检测大小不同的字符块,在多个尺度的特征图上并行预测文本框, 然后对预测结果做NMS过滤。

    选自arXiv: 1611.06779,’TextBoxes: A Fast Text Detect

     

    (Textboxes++是Textboxes的升级版本,目的是增加对倾斜文本的支持。为此,将标注数据改为了旋转矩形框和不规则四边形的格式;对候选框的长宽比例、特征图层卷积核的形状都作了相应调整。

    选自arXiv: 1801.02765,’TextBoxes++: A Single-Shot O

     

    WordSup模型

    如下图所示,在数学公式图文识别、不规则形变文本行识别等应用中,字符级检测模型是一个关键基础模块。由于字符级自然场景图文标注成本很高、相关公开数据集稀少,导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。WordSup提出了一种弱监督的训练框架, 可以文本行、单词级标注数据集上训练出字符级检测模型。

    如下图所示,WordSup弱监督训练框架中,两个训练步骤被交替执行:给定当前字符检测模型,并结合单词级标注数据,计算出字符中心点掩码图; 给定字符中心点掩码图,有监督地训练字符级检测模型.

    选自arXiv: 1708.06720,’WordSup: Exploiting Word Anno

     

    如下图,训练好字符检测器后,可以在数据流水线中加入合适的文本结构分析模块,以输出符合应用场景格式要求的文本内容。该文作者例举了多种文本结构分析模块的实现方式。

    文本识别模型的目标是从已分割出的文字区域中识别出文本内容。

    CRNN模型

    CRNN(Convolutional Recurrent Neural Network)是目前较为流行的图文识别模型,可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。 它利用BLSTM和CTC部件学习字符图像中的上下文关系, 从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层(CTC rule)进行预测得到文本序列。

    选自arXiv: 1507.05717,’An End-to-End Trainable Neura

     

    RARE模型

    RARE(Robust text recognizer with Automatic Rectification)模型在识别变形的图像文本时效果很好。如下图所示,模型预测过程中,输入图像首先要被送到一个空间变换网络中做处理,矫正过的图像然后被送入序列识别网络中得到文本预测结果。

    如下图所示,空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后,它可以根据输入图像的特征图动态地产生空间变换网格,然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS(thin-plate splines)的空间变换,从而能够比较准确地识别透视变换过的文本、以及弯曲的文本.

    选自arXiv: 1603.03915,’Robust Scene Text Recognition

     

    端到端模型

    端到端模型的目标是一站式直接从图片中定位和识别出所有文本内容来。

    FOTS Rotation-Sensitive Regression

    FOTS(Fast Oriented Text Spotting)是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域(RoIRotate), 可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别.

     

    选自arXiv: 1801.01671,’FOTS: Fast Oriented Text Spot

     

    STN-OCR模型

    STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络(STN)来对原始输入图像进行仿射(affine)变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。作者也提到,如果从头开始训练则网络收敛速度较慢,因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。

    选自arXiv: 1707.08831,’STN-OCR: A single Neural Netw

     

    训练数据集

    本章将列举可用于文本检测和识别领域模型训练的一些大型公开数据集, 不涉及仅用于模型fine-tune任务的小型数据集。

    Chinese Text in the Wild(CTW)

    该数据集包含32285张图像,1018402个中文字符(来自于腾讯街景), 包含平面文本,凸起文本,城市文本,农村文本,低亮度文本,远处文本,部分遮挡文本。图像大小2048*2048,数据集大小为31GB。以(8:1:1)的比例将数据集分为训练集(25887张图像,812872个汉字),测试集(3269张图像,103519个汉字),验证集(3129张图像,103519个汉字)。

    文献链接:https://arxiv.org/pdf/1803.00085.pdf 
    数据集下载地址:https://ctwdataset.github.io/
    

     

    Reading Chinese Text in the Wild(RCTW-17)

    该数据集包含12263张图像,训练集8034张,测试集4229张,共11.4GB。大部分图像由手机相机拍摄,含有少量的屏幕截图,图像中包含中文文本与少量英文文本。图像分辨率大小不等。

    下载地址http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
    文献:http://arxiv.org/pdf/1708.09585v2
    

     

    ICPR MWI 2018 挑战赛

    大赛提供20000张图像作为数据集,其中50%作为训练集,50%作为测试集。主要由合成图像,产品描述,网络广告构成。该数据集数据量充分,中英文混合,涵盖数十种字体,字体大小不一,多种版式,背景复杂。文件大小为2GB。

    下载地址:
    https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe 
    

     

    Total-Text

    该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。训练集:1255张 测试集:300

    下载地址:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
    文献:http:// arxiv.org/pdf/1710.10400v
    

     

    Google FSNS(谷歌街景文本数据集)

    该数据集是从谷歌法国街景图片上获得的一百多万张街道名字标志,每一张包含同一街道标志牌的不同视角,图像大小为600*150,训练集1044868张,验证集16150张,测试集20404张。

    下载地址:http://rrc.cvc.uab.es/?ch=6&com=downloads
    文献:http:// arxiv.org/pdf/1702.03970v1
    

     

    替换高清大图

    COCO-TEXT

    该数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张

    文献: http://arxiv.org/pdf/1601.07140v2
    下载地址:https://vision.cornell.edu/se3/coco-text-2/
    

     

    Synthetic Data for Text Localisation

    在复杂背景下人工合成的自然场景文本数据。包含858750张图像,共7266866个单词实例,28971487个字符,文件大小为41GB。该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。

    下载地址:http://www.robots.ox.ac.uk/~vgg/data/scenetext/
    文献:http://www.robots.ox.ac.uk/~ankush/textloc.pdf
    Code: https://github.com/ankush-me/SynthText (英文版)
    Code https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)
    

     

    Synthetic Word Dataset

    合成文本识别数据集,包含9百万张图像,涵盖了9万个英语单词。文件大小为10GB

    下载地址:http://www.robots.ox.ac.uk/~vgg/data/text/
    

     

    Caffe-ocr中文合成数据

    数据利用中文语料库,通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成,共360万张图片,图像分辨率为280x32,涵盖了汉字、标点、英文、数字共5990个字符。文件大小约为8.6GB

    下载地址:https://pan.baidu.com/s/1dFda6R3
    

     

    参考文献

    1. “光学字符识别技术:让电脑像人一样阅读”, 新浪微博, 霍强

    http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml

    2. “Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038,Jonathan Long, Evan Shelhamer, Trevor Darrell

    https://arxiv.org/pdf/1411.4038

    3. “Spatial Transformer Networks”,arXiv:1506.02025,Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

    https://arxiv.org/pdf/1506.02025

    4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,arXiv:1506.01497,Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun

    https://arxiv.org/pdf/1506.01497

    5.“SSD: Single Shot MultiBox Detector”,arxiv:1512.02325,Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg

    https://arxiv.org/pdf/1512.02325

    6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”,arXiv:1609.03605,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao

    https://arxiv.org/pdf/1609.03605

    7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”,arXiv:1703.01086,Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue

    https://arxiv.org/pdf/1703.01086

    8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”,arXiv:1709.03272,Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu

    https://arxiv.org/pdf/1709.03272

    9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”,arXiv:1703.01425,Yuliang Liu, Lianwen Jin

    https://arxiv.org/pdf/1703.01425

    10.“EAST: An Efficient and Accurate Scene Text Detector”,arXiv:1704.03155,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang

    https://arxiv.org/pdf/1704.03155

    11.“Detecting Oriented Text in Natural Images by Linking Segments”,arXiv:1703.06520,Baoguang Shi, Xiang Bai, Serge Belongie

    https://arxiv.org/pdf/1703.06520

    12. “Detecting Scene Text via Instance Segmentation”,arXiv:1801.01315,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai

    https://arxiv.org/pdf/1801.01315

    13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”,arXiv:1611.06779,Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu

    https://arxiv.org/pdf/1611.06779

    14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”,arXiv:1801.02765,Minghui Liao, Baoguang Shi, Xiang Bai

    https://arxiv.org/pdf/1801.02765

    15.“WordSup: Exploiting Word Annotations for Character based Text Detection”,arXiv:1708.06720,Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding

    https://arxiv.org/pdf/1708.06720

    16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”,arXiv:1507.05717,Baoguang Shi, Xiang Bai, Cong Yao

    https://arxiv.org/pdf/1507.05717

    17. “Robust Scene Text Recognition with Automatic Rectification”,arXiv:1603.03915,Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai

    https://arxiv.org/pdf/1603.03915

    18.“FOTS: Fast Oriented Text Spotting with a Unified Network”,arXiv:1801.01671,Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan

    https://arxiv.org/pdf/1801.01671

    19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”,arXiv:1707.08831,Christian Bartz, Haojin Yang, Christoph Meinel

    https://arxiv.org/pdf/1707.08831

    20.“Chinese Text in the Wild”,arXiv:1803.00085,Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu

    https://arxiv.org/pdf/1803.00085.pdf

    21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”,arXiv:1708.09585,Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai

    http://arxiv.org/pdf/1708.09585

    22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”,arXiv:1710.10400,Chee Kheng Chng, Chee Seng Chan

    https://arxiv.org/pdf/1710.10400

    23.“End-to-End Interpretation of the French Street Name Signs Dataset”,arXiv:1702.03970,Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin

    https://arxiv.org/pdf/1702.03970

    24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”,arXiv:1601.07140,Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie

    http://arxiv.org/pdf/1601.07140

    25. “Synthetic Data for Text Localisation in Natural Images”,arXiv:1604.06646, Ankush Gupta, Andrea Vedaldi, Andrew Zisserman

    https://arxiv.org/pdf/1604.06646

    推荐阅读

    [1]机器学习-波澜壮阔40年【获取码】SIGAI0413.

    [2]学好机器学习需要哪些数学知识?【获取码】SIGAI0417.

    [3] 人脸识别算法演化史【获取码】SIGAI0420.

    [4]基于深度学习的目标检测算法综述 【获取码】SIGAI0424.

    [5]卷积神经网络为什么能够称霸计算机视觉领域?【获取码】SIGAI0426.

    [6] 用一张图理解SVM的脉络【获取码】SIGAI0428.

    [7] 人脸检测算法综述【获取码】SIGAI0503.

    [8] 理解神经网络的激活函数 【获取码】SIGAI2018.5.5.

    [9] 深度卷积神经网络演化历史及结构改进脉络-40页长文全面解读【获取码】SIGAI0508.

    [10] 理解梯度下降法【获取码】SIGAI0511.

    [11] 循环神经网络综述—语音识别与自然语言处理的利器【获取码】SIGAI0515

    [12] 理解凸优化 【获取码】 SIGAI0518

    [13] 【实验】理解SVM的核函数和参数 【获取码】SIGAI0522

    [14]【SIGAI综述】行人检测算法 【获取码】SIGAI0525

    [15] 机器学习在自动驾驶中的应用—以百度阿波罗平台为例(上)【获取码】SIGAI0529

    [16]理解牛顿法【获取码】SIGAI0531

    [17] 【群话题精华】5月集锦—机器学习和深度学习中一些值得思考的问题【获取码】SIGAI 0601

    [18] 大话Adaboost算法 【获取码】SIGAI0602

    [19] FlowNet到FlowNet2.0:基于卷积神经网络的光流预测算法【获取码】SIGAI0604

    [20] 理解主成分分析(PCA)【获取码】SIGAI0606

    [21] 人体骨骼关键点检测综述 【获取码】SIGAI0608

    [22]理解决策树 【获取码】SIGAI0611

    [23] 用一句话总结常用的机器学习算法【获取码】SIGAI0611

    [24] 目标检测算法之YOLO 【获取码】SIGAI0615

    [25] 理解过拟合 【获取码】SIGAI0618

    [26]理解计算:从√2到AlphaGo ——第1季 从√2谈起 【获取码】SIGAI0620

    [27] 场景文本检测——CTPN算法介绍 【获取码】SIGAI0622

    [28] 卷积神经网络的压缩和加速 【获取码】SIGAI0625

    [29] k近邻算法 【获取码】SIGAI0627

    [30]自然场景文本检测识别技术综述 【获取码】SIGAI0627

    [31] 理解计算:从√2到AlphaGo ——第2季 神经计算的历史背景 【获取码】SIGAI0704

    [32] 机器学习算法地图【获取码】SIGAI0706

    [33] 反向传播算法推导-全连接神经网络【获取码】SIGAI0709

    [34] 生成式对抗网络模型综述【获取码】SIGAI0709.

    [35]怎样成为一名优秀的算法工程师【获取码】SIGAI0711.

    [36] 理解计算:从根号2到AlphaGo——第三季 神经网络的数学模型【获取码】SIGAI0716

    [37]【技术短文】人脸检测算法之S3FD 【获取码】SIGAI0716

    [38] 基于深度负相关学习的人群计数方法【获取码】SIGAI0718

    [39] 流形学习概述【获取码】SIGAI0723

    [40] 关于感受野的总结 【获取码】SIGAI0723

    [41] 随机森林概述 【获取码】SIGAI0725

    [42] 基于内容的图像检索技术综述——传统经典方法【获取码】SIGAI0727

    [43] 神经网络的激活函数总结【获取码】SIGAI0730

    [44] 机器学习和深度学习中值得弄清楚的一些问题【获取码】SIGAI0802

    [45] 基于深度神经网络的自动问答系统概述【获取码】SIGAI0806

    [46] 机器学习与深度学习核心知识点总结 写在校园招聘即将开始时 【获取 码】SIGAI0808

    [47] 理解Spatial Transformer Networks【获取码】SIGAI0810


     

    展开全文
  • 人脸检测

    2020-09-23 10:28:42
    由于在自然场景的图像中,人脸的尺寸大小不一的。而所谓的尺度不变性则是指模型对于图像中不同尺寸大小脸的检测均具有良好的鲁棒性,很多模型检测尺寸比较大的人脸具有良好性能,然而却不能检测到尺寸小的人脸。对于...

    由于在自然场景的图像中,人脸的尺寸大小不一的。而所谓的尺度不变性则是指模型对于图像中不同尺寸大小脸的检测均具有良好的鲁棒性,很多模型检测尺寸比较大的人脸具有良好性能,然而却不能检测到尺寸小的人脸。对于这一问题,有些论文(例如MTCNN和HR)中的思路则是通过构造图像金字塔,但是其带来缺点则是运行inferrence的时候,每检测一张图像都要对该图像的构造一次图像金字塔结构,且每层的金字塔图像均进行一次前向运算,这显然是会对模型的耗时带来影响。而SSH通过在三个不同深度的卷积层feature map 上,拼接三个设计好的检测模块以检测小、中、大不同尺度的图像。

    人脸检测之SSH
    人脸检测之SSH(Single Stage Headless)
    SSH模块加强感受野,从而检测到尺寸大小不一的物体,SSH网络用采用Max-pooling操作以增加感受野,使得M3分支能够检测到比M2分支更大的人脸。
    SSH网络结构
    网络结构是基于VGG16网络结构进行改进的,由SSH网络结构图可看出,检测模块M3是拼接在conv5-3后增加了一个max-pooling层之后的,而检测模块M2则是是直接拼接在conv5-3卷积层之后,检测模块M3和检测模块M2之间相差一个stride为2的max-pooling层操作,通过Max-pooling操作以增加感受野,从而使得M3能够检测到比M2更大的人脸。

    对于检测模块M1这一分枝,其借鉴了图像语义分割的特征融合的方法,论文中将conv4-3 和conv5-3 的特征进行了融合,以检测小尺寸人脸。而为了降低内存消耗,又通过1×1卷积操作进行了降维处理,将通道数从原来的512维降至128维,由于conv5-3输出的feature map 比conv4-3 输出的feature map 小,因此还需要双线性插值up-sampling操作将feature map的尺寸变大,然后对应求和,经过3×3的卷积层,最后拼接上检测模块M1。

    检测模块
    在这里插入图片描述
    检测模块包括如下三部分:

    3✖️3卷积层
    上下文网络模块
    两个1✖️1输出卷积层
    首先是将3✖️3卷积和上下文网络模块的输出进行concat合并,然后输入两个1✖️1的卷积,分别用于人脸分类和人脸检测框修正坐标回归,其中,分类这一分枝输出向量维度为W/S✖️H/S✖️2K;回归这一分枝输出向量维度为W/S✖️H/S✖️4K,用于预测每个滑动点处每个含有人脸与ground truth 的相对缩放量和位移量。

    上下文网络模块的作用是用于增大感受野,一般在two-stage 的目标检测模型当中,都是通过增大候选框的尺寸大小以合并得到更多的上下文信息,SSH通过单层卷积层的方法对上下文(context)信息进行了合并
    通过2个3✖️3的卷积层和3个3✖️3的卷积层并联,从而增大了卷积层的感受野,并作为各检测模块的目标尺寸。通过该方法构造的上下文的检测模块比候选框生成的方法具有更少的参数量,并且上下文模块可以在WIDER数据集上的AP提升0.5个百分点 。

    展开全文
  • 人脸检测之Faceboxes

    2020-11-22 13:19:23
    FaceBoxes是一个足够轻量的人脸检测器,由中国科学院自动化研究所和中国科学院大学的研究者提出,旨在实现CPU下的实时人脸检测,FaceBoxes论文是《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》。...
  • 人脸检测概述(不是人脸识别)

    千次阅读 2020-05-08 10:53:17
    2 人脸检测技术的发展与现状... 4 3 人脸检测算法相关工作... 4 3.1 评价指标... 5 3.2 人脸检测常用数据库... 6 3.2.1 FDDB数据库... 6 3.2.2 WIDER FACE数据库... 6 4 深度学习人脸检测算法... 7 4.1 卷积...
  • 自然无限制各种场景下的多脸人脸检测,包含从Wild 数据集中的Faces获取的一组2845个图像中的5171个人脸的标注。
  • 然而人脸很容易用视频或照片等进行复制,人脸活体检测人脸识别能否有效应用的前提,目前对活体检测方法的研究有很多。大多数活体检测方法是研究性质的,它们大多基于特征提取与训练的方式,这类方法的准确性是不可...
  • BioID人脸检测/识别数据库part 1

    热门讨论 2010-03-17 20:00:29
    内含1521个384x286灰度自然场景下的人脸图像,由23个测试者提供。还包含每个人脸的双眼位置。可用于人脸检测/识别。源文件是pgm格式的,不好观察,上传者编程转换为png格式。
  • 能否将传统的人脸检测技术和深度网络(如CNN)相结合,在保证检测速度的情况下进一步提升精度?
  • 内含1521个384x286灰度自然场景下的人脸图像,由23个测试者提供。还包含每个人脸的双眼位置。可用于人脸检测/识别。源文件是pgm格式的,不好观察,上传者已编程转换为png格式。
  • 内含1521个384x286灰度自然场景下的人脸图像,由23个测试者提供。还包含每个人脸的双眼位置。可用于人脸检测/识别。源文件是pgm格式的,不好观察,上传者编程转换为png格式。
  • 内含1521个384x286灰度自然场景下的人脸图像,由23个测试者提供。还包含每个人脸的双眼位置。可用于人脸检测/识别。源文件是pgm格式的,不好观察,上传者已编程转换为png格式。
  • 内含1521个384x286灰度自然场景下的人脸图像,由23个测试者提供。还包含每个人脸的双眼位置。可用于人脸检测/识别。源文件是pgm格式的,不好观察,上传者已编程转换为png格式。
  • 人脸检测业务

    2019-09-03 23:20:50
    人脸识别实战 人脸业务场景综述 生物信息识别 重要的研究方向 生物特征 人脸,手性,指纹,虹膜,视网膜,脉搏,耳廓等 行为特征 姿态识别等行为 人脸业务场景 人脸检测问题 检测出图像中人脸所在位置的一项技术 ...
  • 本文及其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习与应用》,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造,自2019年1月出版以来已重印3次。...番外青蛇: 姐, 图像文本检测和识别领域现在的...
  • 人脸检测的评价方式

    千次阅读 2018-07-10 15:06:17
    在不断对人脸检测器进行改进的过程中,有一个问题是不容忽视的:如何科学地比较两个人脸检测器的优劣?简单地说,出一套考题让所有的检测器进行一场考试,谁得分高谁就更好。对于人脸检测器而言,所谓考题(测试集)...
  • python环境下使用opencv做人脸检测检测场景里是否有物体移动,这里只是检测人脸和眼睛
  • 人脸检测,又称人脸特征点检测与定位。人脸特征点不同于角点等通常意义上的图像特征点,它们通常是一组由人工实现定义的点。根据不同的应用场景,特征点反应在人脸上有不同的数目,例如5点,68点,82点、106点等等。...
  • 人脸检测长文(下)

    2017-11-06 20:26:27
    人脸检测作为一种特定类型目标的检测任务,一方面具有其自己鲜明的特点,需要考虑人脸这一目标的特殊性,另一方面其也和其它类型目标的检测任务具有一定的共性,能够直接借鉴在通用目标检测方法上的研究经验。...
  • Google是如何将目标检测SSD魔改为专用人脸检测BlazeFace flyfish BlazeFace模型架构是围绕下面讨论的四个重要设计注意事项构建的 一 增大感受野(Enlarging the receptive field sizes) 关于 MobileNet v1 具体看...
  • 【活体检测人脸活体检测、红外人脸数据集整理

    万次阅读 热门讨论 2018-12-22 17:52:34
    此篇博客主要整理人脸活体检测的数据集。 目前人脸活体攻击的方式主要有:照片打印、视频回放攻击、3D人脸面具等。因此数据集也是根据这些攻击方式制作的。 一共整理了11个活体检测的数据集。此外还整理了6个红外...
  • 本文分上下两篇,上篇主要介绍人脸检测的基本流程,以及传统的VJ人脸检测器及其改进,下篇介绍基于深度网络的检测器,以及对目前人脸检测技术发展的思考与讨论。为了让本文更适合非计算机视觉和机器学习背景的读者,...
  • 本文分上下两篇,上篇主要介绍人脸检测的基本流程,以及传统的VJ人脸检测器及其改进,下篇介绍基于深度网络的检测器,以及对目前人脸检测技术发展的思考与讨论。为了节省篇幅,文中略去了对具体参考文献等的引用,...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 9,786
精华内容 3,914
关键字:

自然场景人脸检测