• 计算机视觉这一年是最全的一份CV技术报告 转自:http://www.sohu.com/a/206707295_465975 The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果...

    计算机视觉这一年:这是最全的一份CV技术报告


    转自:http://www.sohu.com/a/206707295_465975

    The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第一部分做了编译介绍,后续会放出其他部分内容。

    内容目录

    简介

    第一部分

    • 分类/定位

    • 目标检测

    • 目标追踪

    第二部分

    • 分割

    • 超分辨率、风格迁移、着色

    • 动作识别

    第三部分

    • 3D 目标

    • 人体姿势估计

    • 3D 重建

    • 其他未分类 3D

    • 总结

    第四部分

    • 卷积架构

    • 数据集

    • 不可分类的其他材料与有趣趋势

    结论

    完整 PDF 地址:http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf

    简介

    计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。

    对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。

    从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。

    不过,我们目前仍然处于这个领域发展的胚胎期。这篇文章的目的在于阐明 2016 至 2017 年计算机视觉最主要的进步,以及这些进步对实际应用的促进。

    为简单起见,这篇文章将仅限于基本的定义,并会省略很多内容,特别是关于各种卷积神经网络的设计架构等方面。

    这里推荐一些学习资料,其中前两个适用与初学者快速打好基础,后两个可以作为进阶学习:

    • Andrej Karpathy:「What a Deep Neural Network thinks about your #selfie」,这是理解 CNN 的应用和设计功能的最好文章 [4]。

    • Quora:「what is a convolutional neural network?」,解释清晰明了,尤其适合初学者 [5]。

    • CS231n: Convolutional Neural Networks for Visual Recognition,斯坦福大学课程,是进阶学习的绝佳资源 [6]。

    • Deep Learning(Goodfellow,Bengio&Courville,2016),这本书在第 9 章提供了对 CNN 的特征和架构设计等详尽解释,网上有免费资源 [7]。

    对于还想进一步了解神经网络和深度学习的,我们推荐:

    • Neural Networks and Deep Learning(Nielsen,2017),这是一本免费在线书籍,可为读者提供对神经网络和深度学习的复杂性的直观理解。即使只阅读了第 1 章也可以帮助初学者透彻地理解这篇文章。

    下面我们先简介本文的第一部分,这一部分主要叙述了目标分类与定位、目标检测与目标追踪等十分基础与流行的计算机视觉任务。而后机器之心将陆续分享 Benjamin F. Duffy 和 Daniel R. Flynn 后面 3 部分对计算机视觉论述,包括第二部分的语义分割、超分辨率、风格迁移和动作识别,第三部分三维目标识别与重建、和第四部分卷积网络的架构与数据集等内容。

    基础的计算机视觉任务

    分类/定位

    图像分类任务通常是指为整张图像分配特定的标签,如下左图整张图像的标签为 CAT。而定位是指找到识别目标在图像中出现的位置,通常这种位置信息将由对象周围的一些边界框表示出来。目前 ImageNet [9] 上的分类/定位的准确度已经超过了一组训练有素的人类 [10]。因此相对于前一部分的基础,我们会着重介绍后面如语义分割、3D 重建等内容。

    图 1:计算机视觉任务,来源 cs231n 课程资料。

    然而随着目标类别 [11] 的增加,引入大型数据集将为近期的研究进展提供新的度量标准。在这一方面,Keras [12] 创始人 Francois Chollet 将包括 Xception 等架构和新技术应用到谷歌内部的大型数据集中,该数据集包含 1.7 万个目标类别,共计 350M(Million)的多类别图像。

    图 2:ILSVRC 竞赛中,分类/定位的逐年错误率,来源 Jia Deng (2016),ILSVRC2016。

    ImageNet LSVRC(2016)亮点:

    • 场景分类是指用「温室」、「体育场」和「大教堂」等特定场景对图像进行分类。ImageNet 去年举办了基于 Places2[15] 子数据的场景分类挑战赛,该数据集有 365 个场景共计 8 百万 训练图像。海康威视 [16] 选择了深度类 Inception 的网络和并不太深的 ResNet,并利用它们的集成实现 9% 的 Top-5 误差率以赢得竞赛。

    • Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成(即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块 [17] 的平均结果)和基于标注的定位模型 Faster R-CNN [18] 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。

    • Facebook 的 ResNeXt 通过使用从原始 ResNet [19] 扩展出来的新架构而实现了 3.03% 的 Top-5 分类误差率。

    目标检测

    目标检测(Object Detection)即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016 [20] 对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同,目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标。

    图 3:仅有人脸一个类别的目标检测。图为人脸检测的一个示例,作者表示目标识别的一个问题是小物体检测,检测图中较小的人脸有助于挖掘模型的尺度不变性、图像分辨率和情景推理的能力,来源 Hu and Ramanan (2016, p. 1)[21]。

    目标识别领域在 2016 年主要的趋势之一是转向更快、更高效的检测系统。这一特性在 YOLO、SSD 和 R-FCN 方法上非常显著,它们都倾向于在整张图像上共享计算。因此可以将它们与 Fast/Faster R-CNN 等成本较高的子网络技术区分开开来,这些更快和高效的检测系统通常可以指代「端到端的训练或学习」。

    这种共享计算的基本原理通常是避免将独立的算法聚焦在各自的子问题上,因为这样可以避免训练时长的增加和网络准确度的降低。也就是说这种端到端的适应性网络通常发生在子网络解决方案的初始之后,因此是一种可回溯的优化(retrospective optimisation)。然而,Fast/Faster R-CNN 技术仍然非常有效,仍然广泛用于目标检测任务。

    • SSD:Single Shot MultiBox Detector[22] 利用封装了所有必要计算并消除了高成本通信的单一神经网络,以实现了 75.1% mAP 和超过 Faster R-CNN 模型的性能(Liu et al. 2016)。

    • 我们在 2016 年看到最引人注目的系统是「YOLO9000: Better, Faster, Stronger」[23],它引入了 YOLOv2 和 YOLO9000 检测系统 [24]。YOLOv2 很大程度上提升了 2015 年提出的 YOLO 模型 [25] 性能,它能以非常高的 FPS(使用原版 GTX Titan X 在低分辨率图像上达到 90FPS)实现更好的结果。除了完成的速度外,系统在特定目标检测数据集上准确度要优于带有 ReNet 和 SSD 的 Faster RCNN。

    YOLO9000 实现了检测和分类的联合训练,并将其预测泛化能力扩展到未知的检测数据上,即它能检测从未见过的目标或物体。YOLO9000 模型提供了 9000 多个类别的实时目标检测,缩小了分类和检测数据集间的鸿沟。该模型其它详细的信息和预训练模型请查看:http://pjreddie.com/darknet/yolo/。

    • Feature Pyramid Networks for Object Detection [27] 是 FAIR [28] 实验室提出的,它能利用「深度卷积网络的内部多尺度、金字塔型的层级结构构建具有边际额外成本的特征金字塔」,这意味着表征能更强大和快速。Lin et al. (2016) 在 COCO[29] 数据集上实现了顶尖的单模型结果。若与基础的 Faster R-CNN 相结合,将超过 2016 年最好的结果。

    • R-FCN:Object Detection via Region-based Fully Convolutional Networks [30],这是另一种在图像上避免应用数百次高成本的各区域子网络方法,它通过使基于区域的检测器在整张图像上进行全卷积和共享计算。「我们每张图像的测试时间只需要 170ms,要比 Faster R-CNN 快 2.5 到 20 倍」(Dai et al., 2016)。

    图 4:目标检测中的准确率权衡,来源 Huang et al. (2016, p. 9)[31]。

    注意:Y 轴表示的是平均准确率(mAP),X 轴表示不同元架构(meta-architecture)的各种特征提取器(VGG、MobileNet...Inception ResNet V2)。此外,mAP small、medium 和 large 分别表示对小型、中型和大型目标的检测平均准确率。即准确率是按「目标尺寸、元架构和特征提取器」进行分层的,并且图像的分辨率固定为 300。虽然 Faster R-CNN 在上述样本中表现得更好,但是这并没有什么价值,因为该元架构相比 R-FCN 来说慢得多。

    Huang et al. (2016)[32] 的论文提供了 R-FCN、SSD 和 Faster R-CNN 的深度性能对比。由于机器学习准确率对比中存在的问题,这里使用的是一种标准化的方法。这些架构被视为元架构,因为它们可以组合不同的特征提取器,比如 ResNet 或 Inception。

    论文的作者通过改变元架构、特征提取器和图像分辨率研究准确率和速度之间的权衡。例如,对不同特征提取器的选择可以造成元架构对比的非常大的变化。

    实时商业应用中需要低功耗和高效同时能保持准确率的目标检测方法,尤其是自动驾驶应用,SqueezeDet[33] 和 PVANet[34] 在论文中描述了这种发展趋势。

    COCO[36] 是另一个常用的图像数据集。然而,它相对于 ImageNet 来说更小,更常被用作备选数据集。ImageNet 聚焦于目标识别,拥有情景理解的更广泛的语境。组织者主办了一场包括目标检测、分割和关键点标注的年度挑战赛。在 ILSVRC[37] 和 COCO[38] 上进行的目标检测挑战赛的结果如下:

    • ImageNet LSVRC 图像目标检测(DET):CUImage 66% 平均准确率,在 200 个类别中有 109 个胜出。

    • ImageNet LSVRC 视频目标检测(VID):NUIST 80.8% 平均准确率。

    • ImageNet LSVRC 视频追踪目标检测:CUvideo 55.8% 平均准确率。

    • COCO 2016 目标检测挑战赛(边界框):G-RMI(谷歌)41.5% 平均准确率(比 2015 的胜者 MSRAVC 高出 4.2% 绝对百分点)。

    从以上结果可以看出,在 ImageNet 上的结果表明「MSRAVC 2015 的结果为『引入 ResNet』设置了很高的标准。在整个项目中对所有的类别的目标检测性能都有所提升。在两个挑战赛中,定位任务的性能都得到较大的提升。关于小型目标实例的大幅性能提升结果详见参考文献」(ImageNet,2016)。[39]

    图 5.ILSVRC 的图像目标检测结果(2013-2016),来源 ImageNet. 2016. [Online] Workshop

    目标追踪

    目标追踪即在给定的场景中追踪感兴趣的一个或多个特定目标的过程,在视频和现实世界的交互中(通常是从追踪初始的目标检测开始的)有很多应用,且对于自动驾驶而言非常重要。

    • Fully-Convolutional Siamese Networks for Object Tracking[40],将一个连体网络(Siamese network)结合一个基础的追踪算法,使用端到端的训练方法,达到了当前最佳,图框显示率超过了实时应用的需求。这篇论文利用传统在线学习方法构建追踪模型。

    • Learning to Track at 100 FPS with Deep Regression Networks[41],该论文试图改善在线训练方法中存在的缺陷。他们构建了一个使用前馈网络学习目标运动、外观和方向中的普遍关系的追踪器,从而可以在没有在线训练的情况下有效地追踪到新的目标。该算法在一个标准的追踪基准测试中达到了当前最佳,同时可以 100FPS 的帧数追踪所有的目标(Held et al.,2016)。

    • Deep Motion Features for Visual Tracking[43] 结合了手工设计的特征、深度外观特征(利用 CNN)和深度运动特征(在光流图像上训练),并取得了当前最佳的结果。虽然深度运动特征在动作识别和视频分类中很常见,但作者声称这是其首次被应用于视觉追踪上。该论文获得了 ICPR2016 的「计算机视觉和机器人视觉」的最佳论文。

    「本论文展示了深度运动特征(motion features)对检测和追踪框架的影响。我们还进一步说明了手工制作的特征、深度 RGB 和深度运用特征包含互补信息。据我们所知,这是第一个提出融合外表信息和深度运动特征,并用于视觉追踪的研究。我们全面的实验表明融合方法具有深度运动特征,并超过了单纯依赖外表信息的方法。」

    • Virtual Worlds as Proxy for Multi-Object Tracking Analysis [44] 方法解决了现有虚拟世界中缺乏真实可变性视频追踪基准和数据集。该论文提出了一种新的真实世界复制方法,该方法从头开始生成丰富、虚拟、合成和照片逼真的环境。此外,该方法还能克服现有数据集中存在的一些内容匮乏问题。生成的图像能自动通过正确的真值进行标注,并允许应用于除目标检测/追踪外其它如光流等任务。

    • Globally Optimal Object Tracking with Fully Convolutional Networks [45] 专注处理目标变化和遮挡,并将它们作为目标追踪的两个根本限制。「我们提出的方法通过使用全卷积网络解决物体或目标外表的变化,还通过动态规划的方法解决遮挡情况」(Lee et al., 2016)。

    参考文献:

    [1] British Machine Vision Association (BMVA). 2016. What is computer vision? [Online] Available at: http://www.bmva.org/visionoverview [Accessed 21/12/2016]

    [2] Krizhevsky, A., Sutskever, I. and Hinton, G. E. 2012. ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Available: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf

    [3] Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 4th ed. United States: The University of Chicago Press.

    [4] Karpathy, A. 2015. What a Deep Neural Network thinks about your #selfie. [Blog] Andrej Karpathy Blog. Available: http://karpathy.github.io/2015/10/25/selfie/ [Accessed: 21/12/2016]

    [5] Quora. 2016. What is a convolutional neural network? [Online] Available: https://www.quora.com/What-is-a-convolutional-neural-network [Accessed: 21/12/2016]

    [6] Stanford University. 2016. Convolutional Neural Networks for Visual Recognition. [Online] CS231n. Available: http://cs231n.stanford.edu/ [Accessed 21/12/2016]

    [7] Goodfellow et al. 2016. Deep Learning. MIT Press. [Online] http://www.deeplearningbook.org/ [Accessed: 21/12/2016] Note: Chapter 9, Convolutional Networks [Available: http://www.deeplearningbook.org/contents/convnets.html]

    [8] Nielsen, M. 2017. Neural Networks and Deep Learning. [Online] EBook. Available: http://neuralnetworksanddeeplearning.com/index.html [Accessed: 06/03/2017].

    [9] ImageNet refers to a popular image dataset for Computer Vision. Each year entrants compete in a series of different tasks called the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Available: http://image-net.org/challenges/LSVRC/2016/index

    [10] See「What I learned from competing against a ConvNet on ImageNet」by Andrej Karpathy. The blog post details the author』s journey to provide a human benchmark against the ILSVRC 2014 dataset. The error rate was approximately 5.1% versus a then state-of-the-art GoogLeNet classification error of 6.8%. Available: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

    [11] See new datasets later in this piece.

    [12] Keras is a popular neural network-based deep learning library: https://keras.io/

    [13] Chollet, F. 2016. Information-theoretical label embeddings for large-scale image classification. [Online] arXiv: 1607.05691. Available: arXiv:1607.05691v1

    [14] Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. [Online] arXiv:1610.02357. Available: arXiv:1610.02357v2

    [15] Places2 dataset, details available: http://places2.csail.mit.edu/. See also new datasets section.

    [16] Hikvision. 2016. Hikvision ranked No.1 in Scene Classification at ImageNet 2016 challenge. [Online] Security News Desk. Available: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/ [Accessed: 20/03/2017].

    [17] See Residual Networks in Part Four of this publication for more details.

    [18] Details available under team information Trimps-Soushen from: http://image-net.org/challenges/LSVRC/2016/results

    [19] Xie, S., Girshick, R., Dollar, P., Tu, Z. & He, K. 2016. Aggregated Residual Transformations for Deep Neural Networks. [Online] arXiv: 1611.05431. Available: arXiv:1611.05431v1

    [20] ImageNet Large Scale Visual Recognition Challenge (2016), Part II, Available: http://image-net.org/challenges/LSVRC/2016/ [Accessed: 22/11/2016]

    [21] Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. Available: arXiv:1612.04402v1

    [22] Liu et al. 2016. SSD: Single Shot MultiBox Detector. [Online] arXiv: 1512.02325v5. Available: arXiv:1512.02325v5

    [23] Redmon, J. Farhadi, A. 2016. YOLO9000: Better, Faster, Stronger. [Online] arXiv: 1612.08242v1. Available: arXiv:1612.08242v1

    [24] YOLO stands for「You Only Look Once」.

    [25] Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection. [Online] arXiv: 1506.02640. Available: arXiv:1506.02640v5

    [26]Redmon. 2017. YOLO: Real-Time Object Detection. [Website] pjreddie.com. Available: https://pjreddie.com/darknet/yolo/ [Accessed: 01/03/2017].

    [27] Lin et al. 2016. Feature Pyramid Networks for Object Detection. [Online] arXiv: 1612.03144. Available: arXiv:1612.03144v1

    [28] Facebook's Artificial Intelligence Research

    [29] Common Objects in Context (COCO) image dataset

    [30] Dai et al. 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks. [Online] arXiv: 1605.06409. Available: arXiv:1605.06409v2

    [31] Huang et al. 2016. Speed/accuracy trade-offs for modern convolutional object detectors. [Online] arXiv: 1611.10012. Available: arXiv:1611.10012v1

    [32] ibid

    [33] Wu et al. 2016. SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving. [Online] arXiv: 1612.01051. Available: arXiv:1612.01051v2

    [34] Hong et al. 2016. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection. [Online] arXiv: 1611.08588v2. Available: arXiv:1611.08588v2

    [35] DeepGlint Official. 2016. DeepGlint CVPR2016. [Online] Youtube.com. Available: https://www.youtube.com/watch?v=xhp47v5OBXQ [Accessed: 01/03/2017].

    [36] COCO - Common Objects in Common. 2016. [Website] Available: http://mscoco.org/ [Accessed: 04/01/2017].

    [37] ILSRVC results taken from: ImageNet. 2016. Large Scale Visual Recognition Challenge 2016.

    [Website] Object Detection. Available: http://image-net.org/challenges/LSVRC/2016/results [Accessed: 04/01/2017].

    [38] COCO Detection Challenge results taken from: COCO - Common Objects in Common. 2016. Detections Leaderboard [Website] mscoco.org. Available: http://mscoco.org/dataset/#detections-leaderboard [Accessed: 05/01/2017].

    [39] ImageNet. 2016. [Online] Workshop Presentation, Slide 31. Available: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [Accessed: 06/01/2017].

    [40] Bertinetto et al. 2016. Fully-Convolutional Siamese Networks for Object Tracking. [Online] arXiv: 1606.09549. Available: https://arxiv.org/abs/1606.09549v2

    [41] Held et al. 2016. Learning to Track at 100 FPS with Deep Regression Networks. [Online] arXiv: 1604.01802. Available: https://arxiv.org/abs/1604.01802v2

    [42] David Held. 2016. GOTURN - a neural network tracker. [Online] YouTube.com. Available: https://www.youtube.com/watch?v=kMhwXnLgT_I [Accessed: 03/03/2017].

    [43] Gladh et al. 2016. Deep Motion Features for Visual Tracking. [Online] arXiv: 1612.06615. Available: arXiv:1612.06615v1

    [44] Gaidon et al. 2016. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. [Online] arXiv: 1605.06457. Available: arXiv:1605.06457v1

    [45] Lee et al. 2016. Globally Optimal Object Tracking with Fully Convolutional Networks. [Online] arXiv: 1612.08274. Available: arXiv:1612.08274v1

    展开全文
  • 本文转载文章,原文http://www.sohu.com/a/206707295_465975,备份在此,为了将来方便...The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究

           本文转载文章,原文http://www.sohu.com/a/206707295_465975,备份在此,为了将来方便查阅,如有不妥,请联系我删除,谢谢原创分享

    选自The M tank 参与:蒋思源、刘晓坤

    The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第一部分做了编译介绍,后续会放出其他部分内容。

    内容目录

    简介

    第一部分

    • 分类/定位

    • 目标检测

    • 目标追踪

    第二部分

    • 分割

    • 超分辨率、风格迁移、着色

    • 动作识别

    第三部分

    • 3D 目标

    • 人体姿势估计

    • 3D 重建

    • 其他未分类 3D

    • 总结

    第四部分

    • 卷积架构

    • 数据集

    • 不可分类的其他材料与有趣趋势

    结论

    完整 PDF 地址:http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf

    简介

    计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。

    对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。

    从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。

    不过,我们目前仍然处于这个领域发展的胚胎期。这篇文章的目的在于阐明 2016 至 2017 年计算机视觉最主要的进步,以及这些进步对实际应用的促进。

    为简单起见,这篇文章将仅限于基本的定义,并会省略很多内容,特别是关于各种卷积神经网络的设计架构等方面。

    这里推荐一些学习资料,其中前两个适用与初学者快速打好基础,后两个可以作为进阶学习:

    • Andrej Karpathy:「What a Deep Neural Network thinks about your #selfie」,这是理解 CNN 的应用和设计功能的最好文章 [4]。

    • Quora:「what is a convolutional neural network?」,解释清晰明了,尤其适合初学者 [5]。

    • CS231n: Convolutional Neural Networks for Visual Recognition,斯坦福大学课程,是进阶学习的绝佳资源 [6]。

    • Deep Learning(Goodfellow,Bengio&Courville,2016),这本书在第 9 章提供了对 CNN 的特征和架构设计等详尽解释,网上有免费资源 [7]。

    对于还想进一步了解神经网络和深度学习的,我们推荐:

    • Neural Networks and Deep Learning(Nielsen,2017),这是一本免费在线书籍,可为读者提供对神经网络和深度学习的复杂性的直观理解。即使只阅读了第 1 章也可以帮助初学者透彻地理解这篇文章。

    下面我们先简介本文的第一部分,这一部分主要叙述了目标分类与定位、目标检测与目标追踪等十分基础与流行的计算机视觉任务。而后机器之心将陆续分享 Benjamin F. Duffy 和 Daniel R. Flynn 后面 3 部分对计算机视觉论述,包括第二部分的语义分割、超分辨率、风格迁移和动作识别,第三部分三维目标识别与重建、和第四部分卷积网络的架构与数据集等内容。

    基础的计算机视觉任务

    分类/定位

    图像分类任务通常是指为整张图像分配特定的标签,如下左图整张图像的标签为 CAT。而定位是指找到识别目标在图像中出现的位置,通常这种位置信息将由对象周围的一些边界框表示出来。目前 ImageNet [9] 上的分类/定位的准确度已经超过了一组训练有素的人类 [10]。因此相对于前一部分的基础,我们会着重介绍后面如语义分割、3D 重建等内容。

    图 1:计算机视觉任务,来源 cs231n 课程资料。

    然而随着目标类别 [11] 的增加,引入大型数据集将为近期的研究进展提供新的度量标准。在这一方面,Keras [12] 创始人 Francois Chollet 将包括 Xception 等架构和新技术应用到谷歌内部的大型数据集中,该数据集包含 1.7 万个目标类别,共计 350M(Million)的多类别图像。

    图 2:ILSVRC 竞赛中,分类/定位的逐年错误率,来源 Jia Deng (2016),ILSVRC2016。

    ImageNet LSVRC(2016)亮点:

    • 场景分类是指用「温室」、「体育场」和「大教堂」等特定场景对图像进行分类。ImageNet 去年举办了基于 Places2[15] 子数据的场景分类挑战赛,该数据集有 365 个场景共计 8 百万 训练图像。海康威视 [16] 选择了深度类 Inception 的网络和并不太深的 ResNet,并利用它们的集成实现 9% 的 Top-5 误差率以赢得竞赛。

    • Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成(即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块 [17] 的平均结果)和基于标注的定位模型 Faster R-CNN [18] 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。

    • Facebook 的 ResNeXt 通过使用从原始 ResNet [19] 扩展出来的新架构而实现了 3.03% 的 Top-5 分类误差率。

    目标检测

    目标检测(Object Detection)即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016 [20] 对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同,目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标。

    图 3:仅有人脸一个类别的目标检测。图为人脸检测的一个示例,作者表示目标识别的一个问题是小物体检测,检测图中较小的人脸有助于挖掘模型的尺度不变性、图像分辨率和情景推理的能力,来源 Hu and Ramanan (2016, p. 1)[21]。

    目标识别领域在 2016 年主要的趋势之一是转向更快、更高效的检测系统。这一特性在 YOLO、SSD 和 R-FCN 方法上非常显著,它们都倾向于在整张图像上共享计算。因此可以将它们与 Fast/Faster R-CNN 等成本较高的子网络技术区分开开来,这些更快和高效的检测系统通常可以指代「端到端的训练或学习」。

    这种共享计算的基本原理通常是避免将独立的算法聚焦在各自的子问题上,因为这样可以避免训练时长的增加和网络准确度的降低。也就是说这种端到端的适应性网络通常发生在子网络解决方案的初始之后,因此是一种可回溯的优化(retrospective optimisation)。然而,Fast/Faster R-CNN 技术仍然非常有效,仍然广泛用于目标检测任务。

    • SSD:Single Shot MultiBox Detector[22] 利用封装了所有必要计算并消除了高成本通信的单一神经网络,以实现了 75.1% mAP 和超过 Faster R-CNN 模型的性能(Liu et al. 2016)。

    • 我们在 2016 年看到最引人注目的系统是「YOLO9000: Better, Faster, Stronger」[23],它引入了 YOLOv2 和 YOLO9000 检测系统 [24]。YOLOv2 很大程度上提升了 2015 年提出的 YOLO 模型 [25] 性能,它能以非常高的 FPS(使用原版 GTX Titan X 在低分辨率图像上达到 90FPS)实现更好的结果。除了完成的速度外,系统在特定目标检测数据集上准确度要优于带有 ReNet 和 SSD 的 Faster RCNN。

    YOLO9000 实现了检测和分类的联合训练,并将其预测泛化能力扩展到未知的检测数据上,即它能检测从未见过的目标或物体。YOLO9000 模型提供了 9000 多个类别的实时目标检测,缩小了分类和检测数据集间的鸿沟。该模型其它详细的信息和预训练模型请查看:http://pjreddie.com/darknet/yolo/。

    • Feature Pyramid Networks for Object Detection [27] 是 FAIR [28] 实验室提出的,它能利用「深度卷积网络的内部多尺度、金字塔型的层级结构构建具有边际额外成本的特征金字塔」,这意味着表征能更强大和快速。Lin et al. (2016) 在 COCO[29] 数据集上实现了顶尖的单模型结果。若与基础的 Faster R-CNN 相结合,将超过 2016 年最好的结果。

    • R-FCN:Object Detection via Region-based Fully Convolutional Networks [30],这是另一种在图像上避免应用数百次高成本的各区域子网络方法,它通过使基于区域的检测器在整张图像上进行全卷积和共享计算。「我们每张图像的测试时间只需要 170ms,要比 Faster R-CNN 快 2.5 到 20 倍」(Dai et al., 2016)。

    图 4:目标检测中的准确率权衡,来源 Huang et al. (2016, p. 9)[31]。

    注意:Y 轴表示的是平均准确率(mAP),X 轴表示不同元架构(meta-architecture)的各种特征提取器(VGG、MobileNet...Inception ResNet V2)。此外,mAP small、medium 和 large 分别表示对小型、中型和大型目标的检测平均准确率。即准确率是按「目标尺寸、元架构和特征提取器」进行分层的,并且图像的分辨率固定为 300。虽然 Faster R-CNN 在上述样本中表现得更好,但是这并没有什么价值,因为该元架构相比 R-FCN 来说慢得多。

    Huang et al. (2016)[32] 的论文提供了 R-FCN、SSD 和 Faster R-CNN 的深度性能对比。由于机器学习准确率对比中存在的问题,这里使用的是一种标准化的方法。这些架构被视为元架构,因为它们可以组合不同的特征提取器,比如 ResNet 或 Inception。

    论文的作者通过改变元架构、特征提取器和图像分辨率研究准确率和速度之间的权衡。例如,对不同特征提取器的选择可以造成元架构对比的非常大的变化。

    实时商业应用中需要低功耗和高效同时能保持准确率的目标检测方法,尤其是自动驾驶应用,SqueezeDet[33] 和 PVANet[34] 在论文中描述了这种发展趋势。

    COCO[36] 是另一个常用的图像数据集。然而,它相对于 ImageNet 来说更小,更常被用作备选数据集。ImageNet 聚焦于目标识别,拥有情景理解的更广泛的语境。组织者主办了一场包括目标检测、分割和关键点标注的年度挑战赛。在 ILSVRC[37] 和 COCO[38] 上进行的目标检测挑战赛的结果如下:

    • ImageNet LSVRC 图像目标检测(DET):CUImage 66% 平均准确率,在 200 个类别中有 109 个胜出。

    • ImageNet LSVRC 视频目标检测(VID):NUIST 80.8% 平均准确率。

    • ImageNet LSVRC 视频追踪目标检测:CUvideo 55.8% 平均准确率。

    • COCO 2016 目标检测挑战赛(边界框):G-RMI(谷歌)41.5% 平均准确率(比 2015 的胜者 MSRAVC 高出 4.2% 绝对百分点)。

    从以上结果可以看出,在 ImageNet 上的结果表明「MSRAVC 2015 的结果为『引入 ResNet』设置了很高的标准。在整个项目中对所有的类别的目标检测性能都有所提升。在两个挑战赛中,定位任务的性能都得到较大的提升。关于小型目标实例的大幅性能提升结果详见参考文献」(ImageNet,2016)。[39]

    图 5.ILSVRC 的图像目标检测结果(2013-2016),来源 ImageNet. 2016. [Online] Workshop

    目标追踪

    目标追踪即在给定的场景中追踪感兴趣的一个或多个特定目标的过程,在视频和现实世界的交互中(通常是从追踪初始的目标检测开始的)有很多应用,且对于自动驾驶而言非常重要。

    • Fully-Convolutional Siamese Networks for Object Tracking[40],将一个连体网络(Siamese network)结合一个基础的追踪算法,使用端到端的训练方法,达到了当前最佳,图框显示率超过了实时应用的需求。这篇论文利用传统在线学习方法构建追踪模型。

    • Learning to Track at 100 FPS with Deep Regression Networks[41],该论文试图改善在线训练方法中存在的缺陷。他们构建了一个使用前馈网络学习目标运动、外观和方向中的普遍关系的追踪器,从而可以在没有在线训练的情况下有效地追踪到新的目标。该算法在一个标准的追踪基准测试中达到了当前最佳,同时可以 100FPS 的帧数追踪所有的目标(Held et al.,2016)。

    • Deep Motion Features for Visual Tracking[43] 结合了手工设计的特征、深度外观特征(利用 CNN)和深度运动特征(在光流图像上训练),并取得了当前最佳的结果。虽然深度运动特征在动作识别和视频分类中很常见,但作者声称这是其首次被应用于视觉追踪上。该论文获得了 ICPR2016 的「计算机视觉和机器人视觉」的最佳论文。

    「本论文展示了深度运动特征(motion features)对检测和追踪框架的影响。我们还进一步说明了手工制作的特征、深度 RGB 和深度运用特征包含互补信息。据我们所知,这是第一个提出融合外表信息和深度运动特征,并用于视觉追踪的研究。我们全面的实验表明融合方法具有深度运动特征,并超过了单纯依赖外表信息的方法。」

    • Virtual Worlds as Proxy for Multi-Object Tracking Analysis [44] 方法解决了现有虚拟世界中缺乏真实可变性视频追踪基准和数据集。该论文提出了一种新的真实世界复制方法,该方法从头开始生成丰富、虚拟、合成和照片逼真的环境。此外,该方法还能克服现有数据集中存在的一些内容匮乏问题。生成的图像能自动通过正确的真值进行标注,并允许应用于除目标检测/追踪外其它如光流等任务。

    • Globally Optimal Object Tracking with Fully Convolutional Networks [45] 专注处理目标变化和遮挡,并将它们作为目标追踪的两个根本限制。「我们提出的方法通过使用全卷积网络解决物体或目标外表的变化,还通过动态规划的方法解决遮挡情况」(Lee et al., 2016)。

    参考文献:

    [1] British Machine Vision Association (BMVA). 2016. What is computer vision? [Online] Available at: http://www.bmva.org/visionoverview [Accessed 21/12/2016]

    [2] Krizhevsky, A., Sutskever, I. and Hinton, G. E. 2012. ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Available: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf

    [3] Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 4th ed. United States: The University of Chicago Press.

    [4] Karpathy, A. 2015. What a Deep Neural Network thinks about your #selfie. [Blog] Andrej Karpathy Blog. Available: http://karpathy.github.io/2015/10/25/selfie/ [Accessed: 21/12/2016]

    [5] Quora. 2016. What is a convolutional neural network? [Online] Available: https://www.quora.com/What-is-a-convolutional-neural-network [Accessed: 21/12/2016]

    [6] Stanford University. 2016. Convolutional Neural Networks for Visual Recognition. [Online] CS231n. Available: http://cs231n.stanford.edu/ [Accessed 21/12/2016]

    [7] Goodfellow et al. 2016. Deep Learning. MIT Press. [Online] http://www.deeplearningbook.org/ [Accessed: 21/12/2016] Note: Chapter 9, Convolutional Networks [Available: http://www.deeplearningbook.org/contents/convnets.html]

    [8] Nielsen, M. 2017. Neural Networks and Deep Learning. [Online] EBook. Available: http://neuralnetworksanddeeplearning.com/index.html [Accessed: 06/03/2017].

    [9] ImageNet refers to a popular image dataset for Computer Vision. Each year entrants compete in a series of different tasks called the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Available: http://image-net.org/challenges/LSVRC/2016/index

    [10] See「What I learned from competing against a ConvNet on ImageNet」by Andrej Karpathy. The blog post details the author』s journey to provide a human benchmark against the ILSVRC 2014 dataset. The error rate was approximately 5.1% versus a then state-of-the-art GoogLeNet classification error of 6.8%. Available: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

    [11] See new datasets later in this piece.

    [12] Keras is a popular neural network-based deep learning library: https://keras.io/

    [13] Chollet, F. 2016. Information-theoretical label embeddings for large-scale image classification. [Online] arXiv: 1607.05691. Available: arXiv:1607.05691v1

    [14] Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. [Online] arXiv:1610.02357. Available: arXiv:1610.02357v2

    [15] Places2 dataset, details available: http://places2.csail.mit.edu/. See also new datasets section.

    [16] Hikvision. 2016. Hikvision ranked No.1 in Scene Classification at ImageNet 2016 challenge. [Online] Security News Desk. Available: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/ [Accessed: 20/03/2017].

    [17] See Residual Networks in Part Four of this publication for more details.

    [18] Details available under team information Trimps-Soushen from: http://image-net.org/challenges/LSVRC/2016/results

    [19] Xie, S., Girshick, R., Dollar, P., Tu, Z. & He, K. 2016. Aggregated Residual Transformations for Deep Neural Networks. [Online] arXiv: 1611.05431. Available: arXiv:1611.05431v1

    [20] ImageNet Large Scale Visual Recognition Challenge (2016), Part II, Available: http://image-net.org/challenges/LSVRC/2016/ [Accessed: 22/11/2016]

    [21] Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. Available: arXiv:1612.04402v1

    [22] Liu et al. 2016. SSD: Single Shot MultiBox Detector. [Online] arXiv: 1512.02325v5. Available: arXiv:1512.02325v5

    [23] Redmon, J. Farhadi, A. 2016. YOLO9000: Better, Faster, Stronger. [Online] arXiv: 1612.08242v1. Available: arXiv:1612.08242v1

    [24] YOLO stands for「You Only Look Once」.

    [25] Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection. [Online] arXiv: 1506.02640. Available: arXiv:1506.02640v5

    [26]Redmon. 2017. YOLO: Real-Time Object Detection. [Website] pjreddie.com. Available: https://pjreddie.com/darknet/yolo/ [Accessed: 01/03/2017].

    [27] Lin et al. 2016. Feature Pyramid Networks for Object Detection. [Online] arXiv: 1612.03144. Available: arXiv:1612.03144v1

    [28] Facebook's Artificial Intelligence Research

    [29] Common Objects in Context (COCO) image dataset

    [30] Dai et al. 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks. [Online] arXiv: 1605.06409. Available: arXiv:1605.06409v2

    [31] Huang et al. 2016. Speed/accuracy trade-offs for modern convolutional object detectors. [Online] arXiv: 1611.10012. Available: arXiv:1611.10012v1

    [32] ibid

    [33] Wu et al. 2016. SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving. [Online] arXiv: 1612.01051. Available: arXiv:1612.01051v2

    [34] Hong et al. 2016. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection. [Online] arXiv: 1611.08588v2. Available: arXiv:1611.08588v2

    [35] DeepGlint Official. 2016. DeepGlint CVPR2016. [Online] Youtube.com. Available: https://www.youtube.com/watch?v=xhp47v5OBXQ [Accessed: 01/03/2017].

    [36] COCO - Common Objects in Common. 2016. [Website] Available: http://mscoco.org/ [Accessed: 04/01/2017].

    [37] ILSRVC results taken from: ImageNet. 2016. Large Scale Visual Recognition Challenge 2016.

    [Website] Object Detection. Available: http://image-net.org/challenges/LSVRC/2016/results [Accessed: 04/01/2017].

    [38] COCO Detection Challenge results taken from: COCO - Common Objects in Common. 2016. Detections Leaderboard [Website] mscoco.org. Available: http://mscoco.org/dataset/#detections-leaderboard [Accessed: 05/01/2017].

    [39] ImageNet. 2016. [Online] Workshop Presentation, Slide 31. Available: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [Accessed: 06/01/2017].

    [40] Bertinetto et al. 2016. Fully-Convolutional Siamese Networks for Object Tracking. [Online] arXiv: 1606.09549. Available: https://arxiv.org/abs/1606.09549v2

    [41] Held et al. 2016. Learning to Track at 100 FPS with Deep Regression Networks. [Online] arXiv: 1604.01802. Available: https://arxiv.org/abs/1604.01802v2

    [42] David Held. 2016. GOTURN - a neural network tracker. [Online] YouTube.com. Available: https://www.youtube.com/watch?v=kMhwXnLgT_I [Accessed: 03/03/2017].

    [43] Gladh et al. 2016. Deep Motion Features for Visual Tracking. [Online] arXiv: 1612.06615. Available: arXiv:1612.06615v1

    [44] Gaidon et al. 2016. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. [Online] arXiv: 1605.06457. Available: arXiv:1605.06457v1

    [45] Lee et al. 2016. Globally Optimal Object Tracking with Fully Convolutional Networks. [Online] arXiv: 1612.08274. Available: arXiv:1612.08274v1

    原报告地址:http://www.themtank.org/a-year-in-computer-vision

    展开全文
  • The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第一...

    选自The M tank

    机器之心编译

    参与:蒋思源、刘晓坤


    The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第一部分做了编译介绍,后续会放出其他部分内容。


    内容目录


    简介

    第一部分

    • 分类/定位

    • 目标检测

    • 目标追踪

    第二部分

    • 分割

    • 超分辨率、风格迁移、着色

    • 动作识别

    第三部分

    • 3D 目标

    • 人体姿势估计

    • 3D 重建

    • 其他未分类 3D

    • 总结

    第四部分

    • 卷积架构

    • 数据集

    • 不可分类的其他材料与有趣趋势

    结论


    完整 PDF 地址:http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf


    简介


    计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。


    对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。


    从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。


    不过,我们目前仍然处于这个领域发展的胚胎期。这篇文章的目的在于阐明 2016 至 2017 年计算机视觉最主要的进步,以及这些进步对实际应用的促进。


    为简单起见,这篇文章将仅限于基本的定义,并会省略很多内容,特别是关于各种卷积神经网络的设计架构等方面。


    这里推荐一些学习资料,其中前两个适用与初学者快速打好基础,后两个可以作为进阶学习:


    • Andrej Karpathy:「What a Deep Neural Network thinks about your #selfie」,这是理解 CNN 的应用和设计功能的最好文章 [4]。

    • Quora:「what is a convolutional neural network?」,解释清晰明了,尤其适合初学者 [5]。

    • CS231n: Convolutional Neural Networks for Visual Recognition,斯坦福大学课程,是进阶学习的绝佳资源 [6]。

    • Deep Learning(Goodfellow,Bengio&Courville,2016),这本书在第 9 章提供了对 CNN 的特征和架构设计等详尽解释,网上有免费资源 [7]。


    对于还想进一步了解神经网络和深度学习的,我们推荐:


    • Neural Networks and Deep Learning(Nielsen,2017),这是一本免费在线书籍,可为读者提供对神经网络和深度学习的复杂性的直观理解。即使只阅读了第 1 章也可以帮助初学者透彻地理解这篇文章。


    下面我们先简介本文的第一部分,这一部分主要叙述了目标分类与定位、目标检测与目标追踪等十分基础与流行的计算机视觉任务。而后机器之心将陆续分享 Benjamin F. Duffy 和 Daniel R. Flynn 后面 3 部分对计算机视觉论述,包括第二部分的语义分割、超分辨率、风格迁移和动作识别,第三部分三维目标识别与重建、和第四部分卷积网络的架构与数据集等内容。


    基础的计算机视觉任务


    分类/定位


    图像分类任务通常是指为整张图像分配特定的标签,如下左图整张图像的标签为 CAT。而定位是指找到识别目标在图像中出现的位置,通常这种位置信息将由对象周围的一些边界框表示出来。目前 ImageNet [9] 上的分类/定位的准确度已经超过了一组训练有素的人类 [10]。因此相对于前一部分的基础,我们会着重介绍后面如语义分割、3D 重建等内容。


    640?wx_fmt=jpeg

    图 1:计算机视觉任务,来源 cs231n 课程资料。


    然而随着目标类别 [11] 的增加,引入大型数据集将为近期的研究进展提供新的度量标准。在这一方面,Keras [12] 创始人 Francois Chollet 将包括 Xception 等架构和新技术应用到谷歌内部的大型数据集中,该数据集包含 1.7 万个目标类别,共计 350M(Million)的多类别图像。


    640?wx_fmt=png

    图 2:ILSVRC 竞赛中,分类/定位的逐年错误率,来源 Jia Deng (2016),ILSVRC2016。


    ImageNet LSVRC(2016)亮点:


    • 场景分类是指用「温室」、「体育场」和「大教堂」等特定场景对图像进行分类。ImageNet 去年举办了基于 Places2[15] 子数据的场景分类挑战赛,该数据集有 365 个场景共计 8 百万 训练图像。海康威视 [16] 选择了深度类 Inception 的网络和并不太深的 ResNet,并利用它们的集成实现 9% 的 Top-5 误差率以赢得竞赛。

    • Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成(即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块 [17] 的平均结果)和基于标注的定位模型 Faster R-CNN [18] 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。

    • Facebook 的 ResNeXt 通过使用从原始 ResNet [19] 扩展出来的新架构而实现了 3.03% 的 Top-5 分类误差率。


    目标检测


    目标检测(Object Detection)即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016 [20] 对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同,目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标。


    640?wx_fmt=jpeg

    图 3:仅有人脸一个类别的目标检测。图为人脸检测的一个示例,作者表示目标识别的一个问题是小物体检测,检测图中较小的人脸有助于挖掘模型的尺度不变性、图像分辨率和情景推理的能力,来源 Hu and Ramanan (2016, p. 1)[21]。


    目标识别领域在 2016 年主要的趋势之一是转向更快、更高效的检测系统。这一特性在 YOLO、SSD 和 R-FCN 方法上非常显著,它们都倾向于在整张图像上共享计算。因此可以将它们与 Fast/Faster R-CNN 等成本较高的子网络技术区分开开来,这些更快和高效的检测系统通常可以指代「端到端的训练或学习」。


    这种共享计算的基本原理通常是避免将独立的算法聚焦在各自的子问题上,因为这样可以避免训练时长的增加和网络准确度的降低。也就是说这种端到端的适应性网络通常发生在子网络解决方案的初始之后,因此是一种可回溯的优化(retrospective optimisation)。然而,Fast/Faster R-CNN 技术仍然非常有效,仍然广泛用于目标检测任务。


    • SSD:Single Shot MultiBox Detector[22] 利用封装了所有必要计算并消除了高成本通信的单一神经网络,以实现了 75.1% mAP 和超过 Faster R-CNN 模型的性能(Liu et al. 2016)。

    • 我们在 2016 年看到最引人注目的系统是「YOLO9000: Better, Faster, Stronger」[23],它引入了 YOLOv2 和 YOLO9000 检测系统 [24]。YOLOv2 很大程度上提升了 2015 年提出的 YOLO 模型 [25] 性能,它能以非常高的 FPS(使用原版 GTX Titan X 在低分辨率图像上达到 90FPS)实现更好的结果。除了完成的速度外,系统在特定目标检测数据集上准确度要优于带有 ReNet 和 SSD 的 Faster RCNN。


    YOLO9000 实现了检测和分类的联合训练,并将其预测泛化能力扩展到未知的检测数据上,即它能检测从未见过的目标或物体。YOLO9000 模型提供了 9000 多个类别的实时目标检测,缩小了分类和检测数据集间的鸿沟。该模型其它详细的信息和预训练模型请查看:http://pjreddie.com/darknet/yolo/。


    • Feature Pyramid Networks for Object Detection [27] 是 FAIR [28] 实验室提出的,它能利用「深度卷积网络的内部多尺度、金字塔型的层级结构构建具有边际额外成本的特征金字塔」,这意味着表征能更强大和快速。Lin et al. (2016) 在 COCO[29] 数据集上实现了顶尖的单模型结果。若与基础的 Faster R-CNN 相结合,将超过 2016 年最好的结果。

    • R-FCN:Object Detection via Region-based Fully Convolutional Networks [30],这是另一种在图像上避免应用数百次高成本的各区域子网络方法,它通过使基于区域的检测器在整张图像上进行全卷积和共享计算。「我们每张图像的测试时间只需要 170ms,要比 Faster R-CNN 快 2.5 到 20 倍」(Dai et al., 2016)。


    640?wx_fmt=png

    图 4:目标检测中的准确率权衡,来源 Huang et al. (2016, p. 9)[31]。


    注意:Y 轴表示的是平均准确率(mAP),X 轴表示不同元架构(meta-architecture)的各种特征提取器(VGG、MobileNet...Inception ResNet V2)。此外,mAP small、medium 和 large 分别表示对小型、中型和大型目标的检测平均准确率。即准确率是按「目标尺寸、元架构和特征提取器」进行分层的,并且图像的分辨率固定为 300。虽然 Faster R-CNN 在上述样本中表现得更好,但是这并没有什么价值,因为该元架构相比 R-FCN 来说慢得多。


    Huang et al. (2016)[32] 的论文提供了 R-FCN、SSD 和 Faster R-CNN 的深度性能对比。由于机器学习准确率对比中存在的问题,这里使用的是一种标准化的方法。这些架构被视为元架构,因为它们可以组合不同的特征提取器,比如 ResNet 或 Inception。


    论文的作者通过改变元架构、特征提取器和图像分辨率研究准确率和速度之间的权衡。例如,对不同特征提取器的选择可以造成元架构对比的非常大的变化。


    实时商业应用中需要低功耗和高效同时能保持准确率的目标检测方法,尤其是自动驾驶应用,SqueezeDet[33] 和 PVANet[34] 在论文中描述了这种发展趋势。


    COCO[36] 是另一个常用的图像数据集。然而,它相对于 ImageNet 来说更小,更常被用作备选数据集。ImageNet 聚焦于目标识别,拥有情景理解的更广泛的语境。组织者主办了一场包括目标检测、分割和关键点标注的年度挑战赛。在 ILSVRC[37] 和 COCO[38] 上进行的目标检测挑战赛的结果如下:


    • ImageNet LSVRC 图像目标检测(DET):CUImage 66% 平均准确率,在 200 个类别中有 109 个胜出。

    • ImageNet LSVRC 视频目标检测(VID):NUIST 80.8% 平均准确率。

    • ImageNet LSVRC 视频追踪目标检测:CUvideo 55.8% 平均准确率。

    • COCO 2016 目标检测挑战赛(边界框):G-RMI(谷歌)41.5% 平均准确率(比 2015 的胜者 MSRAVC 高出 4.2% 绝对百分点)。


    从以上结果可以看出,在 ImageNet 上的结果表明「MSRAVC 2015 的结果为『引入 ResNet』设置了很高的标准。在整个项目中对所有的类别的目标检测性能都有所提升。在两个挑战赛中,定位任务的性能都得到较大的提升。关于小型目标实例的大幅性能提升结果详见参考文献」(ImageNet,2016)。[39]


    640?wx_fmt=png

    图 5.ILSVRC 的图像目标检测结果(2013-2016),来源 ImageNet. 2016. [Online] Workshop


    目标追踪


    目标追踪即在给定的场景中追踪感兴趣的一个或多个特定目标的过程,在视频和现实世界的交互中(通常是从追踪初始的目标检测开始的)有很多应用,且对于自动驾驶而言非常重要。


    • Fully-Convolutional Siamese Networks for Object Tracking[40],将一个连体网络(Siamese network)结合一个基础的追踪算法,使用端到端的训练方法,达到了当前最佳,图框显示率超过了实时应用的需求。这篇论文利用传统在线学习方法构建追踪模型。

    • Learning to Track at 100 FPS with Deep Regression Networks[41],该论文试图改善在线训练方法中存在的缺陷。他们构建了一个使用前馈网络学习目标运动、外观和方向中的普遍关系的追踪器,从而可以在没有在线训练的情况下有效地追踪到新的目标。该算法在一个标准的追踪基准测试中达到了当前最佳,同时可以 100FPS 的帧数追踪所有的目标(Held et al.,2016)。

    • Deep Motion Features for Visual Tracking[43] 结合了手工设计的特征、深度外观特征(利用 CNN)和深度运动特征(在光流图像上训练),并取得了当前最佳的结果。虽然深度运动特征在动作识别和视频分类中很常见,但作者声称这是其首次被应用于视觉追踪上。该论文获得了 ICPR2016 的「计算机视觉和机器人视觉」的最佳论文。


    「本论文展示了深度运动特征(motion features)对检测和追踪框架的影响。我们还进一步说明了手工制作的特征、深度 RGB 和深度运用特征包含互补信息。据我们所知,这是第一个提出融合外表信息和深度运动特征,并用于视觉追踪的研究。我们全面的实验表明融合方法具有深度运动特征,并超过了单纯依赖外表信息的方法。」


    • Virtual Worlds as Proxy for Multi-Object Tracking Analysis [44] 方法解决了现有虚拟世界中缺乏真实可变性视频追踪基准和数据集。该论文提出了一种新的真实世界复制方法,该方法从头开始生成丰富、虚拟、合成和照片逼真的环境。此外,该方法还能克服现有数据集中存在的一些内容匮乏问题。生成的图像能自动通过正确的真值进行标注,并允许应用于除目标检测/追踪外其它如光流等任务。

    • Globally Optimal Object Tracking with Fully Convolutional Networks [45] 专注处理目标变化和遮挡,并将它们作为目标追踪的两个根本限制。「我们提出的方法通过使用全卷积网络解决物体或目标外表的变化,还通过动态规划的方法解决遮挡情况」(Lee et al., 2016)。


    参考文献:


    [1] British Machine Vision Association (BMVA). 2016. What is computer vision? [Online] Available at: http://www.bmva.org/visionoverview [Accessed 21/12/2016]

    [2] Krizhevsky, A., Sutskever, I. and Hinton, G. E. 2012. ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Available: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf 

    [3] Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 4th ed. United States: The University of Chicago Press.

    [4] Karpathy, A. 2015. What a Deep Neural Network thinks about your #selfie. [Blog] Andrej Karpathy Blog. Available: http://karpathy.github.io/2015/10/25/selfie/ [Accessed: 21/12/2016]

    [5] Quora. 2016. What is a convolutional neural network? [Online] Available: https://www.quora.com/What-is-a-convolutional-neural-network [Accessed: 21/12/2016]

    [6] Stanford University. 2016. Convolutional Neural Networks for Visual Recognition. [Online] CS231n. Available: http://cs231n.stanford.edu/ [Accessed 21/12/2016]

    [7] Goodfellow et al. 2016. Deep Learning. MIT Press. [Online] http://www.deeplearningbook.org/ [Accessed: 21/12/2016] Note: Chapter 9, Convolutional Networks [Available: http://www.deeplearningbook.org/contents/convnets.html]

    [8] Nielsen, M. 2017. Neural Networks and Deep Learning. [Online] EBook. Available: http://neuralnetworksanddeeplearning.com/index.html [Accessed: 06/03/2017].

    [9] ImageNet refers to a popular image dataset for Computer Vision. Each year entrants compete in a series of different tasks called the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Available: http://image-net.org/challenges/LSVRC/2016/index 

    [10] See「What I learned from competing against a ConvNet on ImageNet」by Andrej Karpathy. The blog post details the author』s journey to provide a human benchmark against the ILSVRC 2014 dataset. The error rate was approximately 5.1% versus a then state-of-the-art GoogLeNet classification error of 6.8%. Available: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/ 

    [11] See new datasets later in this piece.

    [12] Keras is a popular neural network-based deep learning library: https://keras.io/ 

    [13] Chollet, F. 2016. Information-theoretical label embeddings for large-scale image classification. [Online] arXiv: 1607.05691. Available: arXiv:1607.05691v1

    [14] Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. [Online] arXiv:1610.02357. Available: arXiv:1610.02357v2

    [15] Places2 dataset, details available: http://places2.csail.mit.edu/. See also new datasets section.

    [16] Hikvision. 2016. Hikvision ranked No.1 in Scene Classification at ImageNet 2016 challenge. [Online] Security News Desk. Available: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/ [Accessed: 20/03/2017].

    [17] See Residual Networks in Part Four of this publication for more details.

    [18] Details available under team information Trimps-Soushen from: http://image-net.org/challenges/LSVRC/2016/results

    [19] Xie, S., Girshick, R., Dollar, P., Tu, Z. & He, K. 2016. Aggregated Residual Transformations for Deep Neural Networks. [Online] arXiv: 1611.05431. Available: arXiv:1611.05431v1

    [20] ImageNet Large Scale Visual Recognition Challenge (2016), Part II, Available: http://image-net.org/challenges/LSVRC/2016/ [Accessed: 22/11/2016]

    [21] Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. Available: arXiv:1612.04402v1

    [22] Liu et al. 2016. SSD: Single Shot MultiBox Detector. [Online] arXiv: 1512.02325v5. Available: arXiv:1512.02325v5

    [23] Redmon, J. Farhadi, A. 2016. YOLO9000: Better, Faster, Stronger. [Online] arXiv: 1612.08242v1. Available: arXiv:1612.08242v1 

    [24] YOLO stands for「You Only Look Once」.

    [25] Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection. [Online] arXiv: 1506.02640. Available: arXiv:1506.02640v5 

    [26]Redmon. 2017. YOLO: Real-Time Object Detection. [Website] pjreddie.com. Available: https://pjreddie.com/darknet/yolo/ [Accessed: 01/03/2017].

    [27] Lin et al. 2016. Feature Pyramid Networks for Object Detection. [Online] arXiv: 1612.03144. Available: arXiv:1612.03144v1

    [28] Facebook's Artificial Intelligence Research

    [29] Common Objects in Context (COCO) image dataset

    [30] Dai et al. 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks. [Online] arXiv: 1605.06409. Available: arXiv:1605.06409v2 

    [31] Huang et al. 2016. Speed/accuracy trade-offs for modern convolutional object detectors. [Online] arXiv: 1611.10012. Available: arXiv:1611.10012v1

    [32] ibid

    [33] Wu et al. 2016. SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving. [Online] arXiv: 1612.01051. Available: arXiv:1612.01051v2

    [34] Hong et al. 2016. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection. [Online] arXiv: 1611.08588v2. Available: arXiv:1611.08588v2

    [35] DeepGlint Official. 2016. DeepGlint CVPR2016. [Online] Youtube.com. Available: https://www.youtube.com/watch?v=xhp47v5OBXQ [Accessed: 01/03/2017].

    [36] COCO - Common Objects in Common. 2016. [Website] Available: http://mscoco.org/ [Accessed: 04/01/2017].

    [37] ILSRVC results taken from: ImageNet. 2016. Large Scale Visual Recognition Challenge 2016.

     [Website] Object Detection. Available: http://image-net.org/challenges/LSVRC/2016/results [Accessed: 04/01/2017].

    [38] COCO Detection Challenge results taken from: COCO - Common Objects in Common. 2016. Detections Leaderboard [Website] mscoco.org. Available: http://mscoco.org/dataset/#detections-leaderboard [Accessed: 05/01/2017].

    [39] ImageNet. 2016. [Online] Workshop Presentation, Slide 31. Available: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [Accessed: 06/01/2017].

    [40] Bertinetto et al. 2016. Fully-Convolutional Siamese Networks for Object Tracking. [Online] arXiv: 1606.09549. Available: https://arxiv.org/abs/1606.09549v2 

    [41] Held et al. 2016. Learning to Track at 100 FPS with Deep Regression Networks. [Online] arXiv: 1604.01802. Available: https://arxiv.org/abs/1604.01802v2 

    [42] David Held. 2016. GOTURN - a neural network tracker. [Online] YouTube.com. Available: https://www.youtube.com/watch?v=kMhwXnLgT_I [Accessed: 03/03/2017].

    [43] Gladh et al. 2016. Deep Motion Features for Visual Tracking. [Online] arXiv: 1612.06615. Available: arXiv:1612.06615v1

    [44] Gaidon et al. 2016. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. [Online] arXiv: 1605.06457. Available: arXiv:1605.06457v1

    [45] Lee et al. 2016. Globally Optimal Object Tracking with Fully Convolutional Networks. [Online] arXiv: 1612.08274. Available: arXiv:1612.08274v1


    原报告地址:http://www.themtank.org/a-year-in-computer-vision



    本文为机器之心编译

    640?wx_fmt=png



    人工智能赛博物理操作系统

    AI-CPS OS

    人工智能赛博物理操作系统(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


    AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


    领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

    1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

    2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

    3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

    AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

    1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

    2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

    3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

    4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

    5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

    AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

    1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

    2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

    3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


    给决策制定者和商业领袖的建议:

    1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

    2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

      评估未来的知识和技能类型;

    3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

      发过程中确定更加明晰的标准和最佳实践;

    4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

      较高失业风险的人群;

    5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


    子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


    如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


    新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





    产业智能官  AI-CPS



    用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链





    640?wx_fmt=png

    640?wx_fmt=png


    长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


    新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”


    详细介绍,访问官网:AI-CPS.NET




    本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



    版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




    展开全文
  • The M Tank发布了一份对计算机视觉领域最近一年进展的报告《A Year in Computer Vision》

    【新智元导读】The M Tank发布了一份对计算机视觉领域最近一年进展的报告《A Year in Computer Vision》,详述了四大部分的内容,包括:分类/定位,目标检测,目标追踪;分割,超分辨率,自动上色,风格迁移,动作识别;3D世界理解;卷积网络架构,数据集,新兴应用等。不管对于初学者还是紧追前沿的研究者,这些都是不可多得的有用资料。

    报告下载地址:http://www.themtank.org/a-year-in-computer-vision

    本报告包括以下内容:

    • 第一部分:分类/定位,目标检测,目标追踪

    • 第二部分:分割,超分辨率,自动上色,风格迁移,动作识别

    • 第三部分:3D世界理解

    • 第四部分:卷积网络架构,数据集,新兴应用

    综述:计算机视觉最重要的进展

    计算机视觉通常是指赋予机器视觉的能力,或赋予机器能够直观地分析它们的环境和内在的刺激。这个过程通常包括对一个图像、很多图像或视频的评估。英国机器视觉协会(BMVA)将计算机视觉定义为“自动提取、分析和理解来自单个图像或一系列图像的有用信息的过程”。

    这个定义中的“理解”这个词说明了计算机视觉的重要性和复杂性。对我们的环境的真正理解不是仅仅通过视觉表现来实现的。相反,视觉信号通过视觉神经传递给主视觉皮层,并由大脑来解释。从这些感官信息中得出的解释包含了我们的自然编程和主观体验的总体,即进化是如何让我们生存下来,以及我们在生活中对世界的理解。

    从这个角度看,视觉仅仅与图像的传输有关;虽然计算机认为图像与思想或认知更相似,涉及多个大脑区域的协作。因此,许多人认为由于计算机视觉的跨领域性质,对视觉环境及其背景的真正理解能为未来的强人工智能的迭代开拓道路。

    然而,我们仍然处于这个迷人的领域的萌芽阶段。这份报告的目的是为了让我们对近年计算机视觉领域一些最重要的进展。尽管我们尽可能写得简明,但由于领域的特殊性,可能有些部分读起来比较晦涩。我们为每个主题提供了基本的定义,但这些定义通常只是对关键概念的基本解释。为了将关注的重点放在2016年的新工作,限于篇幅,这份报告会遗漏一些内容。

    其中明显省略的一个内容是卷积神经网络(以下简称CNN或ConvNet)的功能,因为它在计算机视觉领域无处不在。2012年出现的 AlexNet(一个在ImageNet竞赛获得冠军的CNN架构)的成功带来了计算机视觉研究的转折点,许多研究人员开始采用基于神经网络的方法,开启了计算机视觉的新时代。

    4年过去了,CNN的各种变体仍然是视觉任务中新的神经网络架构的主要部分,研究人员像搭乐高积木一样创造它们,这是对开源信息和深度学习能力的有力证明。不过,解释CNN的事情最好留给在这方面有更深入的专业知识的人。

    对于那些希望在继续进行之前快速了解基础知识的读者,我们推荐下面的参考资料的前两个。对于那些希望进一步了解的人,以下的资料都值得一看:

    • 深度神经网络如何看待你的自拍?by Andrej Karpathy 这篇文章能很好地帮助你了解产品和应用背后的CNN技术。

    • Quora:什么是卷积神经网络。这个quora问题下的回答有很多很好的参考链接和解释,适合初学者。

    • CS231n:视觉识别的卷积神经网络。这是斯坦福大学的一门深度的课程。

    • 《深度学习》(Goodfellow, Bengio & Courville, 2016)第九章对CNN特征和功能提供了详细的解释。

    对于那些希望更多地了解关于神经网络和深度学习的读者,我们推荐:

    • 神经网络和深度学习(Nielsen,2017),这是一本免费的电子版教科书,它为读者提供了对于神经网络和深度学习的复杂性的非常直观的理解。

    我们希望读者能从这份报告的信息汇总中获益,无论以往的经验如何,都可以进一步增加知识。

    本报告包括以下部分(限于篇幅,文章省略了参考文献标识,请至原文查看):

    • 第一部分:分类/定位,目标检测,目标追踪

    • 第二部分:分割,超分辨率,自动上色,风格迁移,动作识别

    • 第三部分:3D世界理解

    • 第四部分:卷积网络架构,数据集,新兴应用

    第一部分:分类/定位,目标检测,目标追踪

    分类/定位

    涉及到图像时,“分类”任务通常是指给一个图像分配一个标签,例如“猫”。这种情况下,“定位”(locolisation)指的是找到某个对象(object)在图像中的位置,通常输出为对象周围的某种形式的边界框。当前在ImageNet竞赛的图像分类/定位技术准确性超过一个经训练的人类。

    图:计算机视觉任务

    Source: Fei-Fei Li, Andrej Karpathy & Justin Johnson (2016) cs231n, Lecture 8 - Slide 8, Spatial Localization and Detection (01/02/2016). Available: http://cs231n.stanford.edu/slides/2016/winter1516_lecture8.pdf

    然而,由于更大的数据集(增加了11个类别)的引入,这很可能为近期的进展提供新的度量标准。在这一点上,Keras的作者François Chollet已经在有超过3.5亿的多标签图像,包含17000个类的谷歌内部数据集应用了新的技术,包括流行的Xception架构。

    图:ILSVRC(2010-2016)图像分类/定位结果

    Source: Jia Deng (2016). ILSVRC2016 object localisation: introduction, results. Slide 2. Available: http://image-net.org/challenges/talks/2016/ILSVRC2016_10_09_clsloc.pdf

    2016年在ImageNet LSVRC 的一些主要进步:

    • 场景分类(Scene Classification)是指用“温室”、“体育馆”、“大教堂”等特定场景来给图像贴上标签的任务。去年,ImageNet 进行了一个场景分类竞赛,使用Places2数据集的一个子集:包含800万张图片,用365类场景训练。Hikvision 以 9% top-5 error赢了比赛,利用一个深 Inception-style 网络,以及一个不特别深的残差网络。

    • Trimps-Soushen 以 2.99% 的top-5分类错误和7.71%的定位错误赢得了ImageNet分类任务。

    • Facebook的ResNeXt通过使用扩展原始ResNet架构的新架构,以3.03%在top-5 分类错误中排名第二。

    对象检测(Object Dection)

    对象检测的过程即检测图像中的某个对象。ILSVRC 2016 对对象检测的定义包括为单个对象输出边界框和标签。这不同于分类/定位任务,分类和定位的应用是多个对象,而不是一个对象。

    图:对象检测(人脸是该情况需要检测的唯一一个类别)

    Source: Hu and Ramanan (2016, p. 1)

    2016年对象检测的主要趋势是转向更快、更高效的检测系统。这在YOLO、SSD和R-FCN等方法中表现出来,目的是为了在整个图像上共享计算。因此,这些与计算昂贵的Fast R-CNN和Faster R-CNN相区别。这通常被称为“端到端训练/学习”。

    其基本原理是避免将单独的算法集中在各自的子问题上,因为这通常会增加训练时间,并降低网络的准确性。也就是说,这种网络的端到端适应通常是在初始的子网络解决方案之后进行的,因此,是一种回顾性优化( retrospective optimisation)。当然,Fast R-CNN和Faster R-CNN仍然是非常有效的,并且被广泛应用于物体检测。

    • SSD:Single Shot MultiBox Detector 这篇论文利用单个神经网络来封装所有必要的计算,它实现了“75.1%的mAP,超越了更先进的R-CNN模型”(Liu et al., 2016)。我们在2016年看到的最令人印象深刻的系统之一是“YOLO9000:Better, Faster, Stronger”,其中介绍了YOLOv2和YOLO9000检测系统。YOLOv2大大改善了初始的YOLO模型,并且能够以非常高的FPS获得更好的结果。除了完成速度之外,系统在特定对象检测数据集上的性能优于使用ResNet和SSD的Faster-RCNN。

    • FAIR的Feature Pyramid Networks for Object Detection

    • R-FCN: Object Detection via Region-based Fully Convolutional Networks

    图:不同架构在对象检测任务的准确率

    Source: Huang et al. (2016, p. 9)

    ILSVRC 和 COCO Challenge的结果

    COCO(Common Objects in Context)是另一个流行的图像数据集。不过,它比ImageNet小,也更具有策略性,在更广泛的场景理解的背景下着重于对象识别。组织者每年都要针对对象检测,分割和关键点组织竞赛。 ILSVRC 和COCO 对象检测挑战的检测是:

    • ImageNet LSVRC Object Detection from Images (DET):CUImage 66% meanAP. Won 109 out of 200 object categories.

    • ImageNet LSVRC Object Detection from video (VID): NUIST 80.8% mean AP

    • ImageNet LSVRC Object Detection from video with tracking: CUvideo 55.8% mean AP

    • COCO 2016 Detection Challenge (bounding boxes): G-RMI (Google) 41.5% AP (4.2% absolute percentage increase from 2015 winner MSRAVC)

    图:ILSVRC 对象检测结果(2013-2016)

    Source: ImageNet. 2016. [Online] Workshop Presentation, Slide 2. Available: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf

    对象跟踪

    对象跟踪(Object Tracking)是指在给定场景中跟踪特定对象或多个对象的过程。传统上,它在视频和现实世界的交互中都有应用,例如,对象跟踪对自动驾驶系统至关重要。

    • 用于对象跟踪的全卷积的Siamese网络(Fully-Convolutional Siamese Networks for Object Tracking)结合了一个基本的跟踪算法和一个Siamese网络,经过端到端的训练,它实现了SOTA,并且可以在帧速率超过实时的情况下进行操作。

    • 利用深度回归网络学习以100 FPS跟踪(Learning to Track at 100 FPS with Deep Regression Networks)是另一篇试图通过在线训练方法改善现有问题的论文。作者提出了一种利用前馈网络的跟踪器来学习对象运动、外观和定位的一般关系,从而有效地跟踪没有在线训练的新对象。它提供了SOTA标准跟踪基准,同时实现了“以100 fps跟踪通用对象”(Held et al., 2016)。

    • Deep Motion Features for Visual Tracking 综合了人工特征,deep RGB/外观特征(来自CNN),以及深度运动特性(在光流图像上训练)来实现SOTA。虽然Deep Motion Feature在动作识别和视频分类中很常见,但作者称这是第一次使用视觉追踪技术。这篇论文获得了2016年ICPR的最佳论文,用于“计算机视觉和机器人视觉”跟踪。

    • Virtual Worlds as Proxy for Multi-Object Tracking Analysis,这篇文章在现有的视频跟踪基准和数据集中,提出了一种新的现实世界克隆方法,该方法可以从零开始生成丰富的、虚拟的、合成的、逼真的环境,并使用全标签来克服现有数据集的不足。这些生成的图像被自动地标记为准确的ground truth,允许包括对象检测/跟踪等一系列应用。

    • 全卷积网络的全局最优对象跟踪(Globally Optimal Object Tracking with Fully Convolutional Networks),这篇文章解决了对象的变化和遮挡问题,并将它们作为对象跟踪中的两个根限制。作者称,“我们提出的方法利用一个全卷积的网络解决了对象的外形变化问题,并处理了动态规划的遮挡问题”(Lee et al., 2016)。

    第二部分:分割、 超分辨率/色彩化/风格迁移、 行为识别

    计算机视觉的中心就是分割的过程,它将整个图像分成像素组,然后可以对这些组进行标记和分类。此外,语义分割通过试图在语义上理解图像中每个像素的角色是猫,汽车还是其他类型的,又在这一方向上前进了一步。实例分割通过分割不同类的实例来进一步实现这一点,比如,用三种不同颜色标记三只不同的狗。这是目前在自动驾驶技术套件中使用的计算机视觉应用的一大集中点。

    也许今年分割领域的一些最好的提升来自FAIR,他们从2015年开始继续深入研究DeepMask。DeepMask生成粗糙的“mask”作为分割的初始形式。 2016年,Fair推出了SharpMask ,它改进了DeepMask提供的“mask”,纠正了细节的缺失,改善了语义分割。除此之外,MultiPathNet 标识了每个mask描绘的对象。

    “为了捕捉一般的物体形状,你必须对你正在看的东西有一个高水平的理解(DeepMask),但是要准确地描述边界,你需要再回过去看低水平的特征,一直到像素(SharpMask)。“ - Piotr Dollar,2016

    图:Demonstration of FAIR techniques in action

    视频传播网络(Vedio Propagation Network)试图创建一个简单的模型来传播准确的对象mask,在第一帧分配整个视频序列以及一些附加信息。

    2016年,研究人员开始寻找替代网络配置来解决上述的规模和本地化问题。 DeepLab 就是这样一个例子,它为语义图像分割任务取得了令人激动的结果。 Khoreva等人(2016)基于Deeplab早期的工作(大约在2015年),提出了一种弱监督训练方法,可以获得与完全监督网络相当的结果。

    计算机视觉通过使用端到端网络进一步完善了有用信息网络的共享方式,减少了分类中,多个全向子任务的计算需求。两个关键的论文使用这种方法是:

    • 100 Layers Tiramisu是一个完全卷积的DenseNet,它以前馈的方式将每一层连接到每一层。它还通过较少的参数和训练/处理在多个基准数据集上实现SOTA。

    • Fully Convolutional Instance-aware Semantic Segmentation共同执行实例掩码预测和分类(两个子任务)。COCO分割挑战冠军MSRA。 37.3%AP。比起2015 COCO挑战赛中的MSRAVC,绝对跃升了9.1%。

    虽然ENet是一种用于实时语义分割的DNN体系结构,但它并不属于这一类别,它证明了降低计算成本和提供更多移动设备访问的商业价值。

    我们的工作希望将尽可能多的这些进步回溯到有形的公开应用。考虑到这一点,以下内容包含2016年一些最有意义的医疗保健应用细分市场:

    • A Benchmark for Endoluminal Scene Segmentation of Colonoscopy Images

    • 3D fully convolutional networks for subcortical segmentation in MRI: A large-scale study

    • Semi-supervised Learning using Denoising Autoencoders for Brain Lesion Detection and Segmentation

    • 3D Ultrasound image segmentation: A Survey

    • A Fully Convolutional Neural Network based Structured Prediction Approach Towards the Retinal Vessel Segmentation

    • 3-D Convolutional Neural Networks for Glioblastoma Segmentation

    我们最喜欢的准医学分割应用之一是FusionNet——一个深度全卷积神经网络,用于连接组学的图像分割,基于SOTA电子显微镜(EM)分割方法。

    超分辨率、风格迁移和着色

    并非计算机视觉领域的所有研究都是为了扩展机器的伪认知能力,而且神经网络的神话般的可塑性以及其他ML技术常常适用于各种其他新颖的应用,这些应用可以渗透到公共空间中。超分辨率方案,风格转移和着色去年的进步占据了整个领域。

    超分辨率指的是从低分辨率对应物估计高分辨率图像的过程,以及不同放大倍数下图像特征的预测,这是人脑几乎毫不费力地完成的。最初的超分辨率是通过简单的技术,如bicubic-interpolation和最近邻。在商业应用方面,克服低分辨率限制和实现“CSI Miami”风格图像增强的愿望推动了该领域的研究。以下是今年的一些进展及其潜在的影响:

    • Neural Enhance 是Alex J. Champandard的创意,结合四篇不同研究论文的方法来实现超分辨率方法。

    • 实时视频超分辨率解决方案也在2016年进行了两次著名的尝试。

    • RAISR:来自Google的快速而准确的图像超分辨率方法。通过使用低分辨率和高分辨率图像对训练滤波器,避免了神经网络方法的昂贵内存和速度要求。作为基于学习的框架,RAISR比同类算法快两个数量级,并且与基于神经网络的方法相比,具有最小的存储器需求。因此超分辨率可以扩展到个人设备。

    生成对抗网络(GAN)的使用代表了当前用于超分辨率的SOTA:

    • SRGAN 通过训练区分超分辨率和原始照片真实图像的辨别器网络,在公共基准测试中提供多采样图像的逼真纹理。

    尽管SRResNet在峰值信噪比(PSNR)方面的表现最佳,但SRGAN获得更精细的纹理细节并达到最佳的平均评分(MOS),SRGAN表现最佳。

    “据我们所知,这是第一个能够推出4倍放大因子的照片般真实的自然图像的框架。”以前所有的方法都无法在较大的放大因子下恢复更精细的纹理细节。

    • Amortised MAP Inference for Image Super-resolution 提出了一种使用卷积神经网络计算最大后验(MAP)推断的方法。但是,他们的研究提出了三种优化方法,GAN在其中实时图像数据上表现明显更好。

    毫无疑问,Style Transfer集中体现了神经网络在公共领域的新用途,特别是去年的Facebook集成以及像Prisma 和Artomatix 这样的公司。风格转换是一种较旧的技术,但在2015年出版了一个神经算法的艺术风格转换为神经网络。从那时起,风格转移的概念被Nikulin和Novak扩展,并且也被用于视频,就像计算机视觉中其他的共同进步一样。

    图:风格迁移的例子

    风格转换作为一个主题,一旦可视化是相当直观的,比如,拍摄一幅图像,并用不同的图像的风格特征呈现。例如,以着名的绘画或艺术家的风格。今年Facebook发布了Caffe2Go,将其深度学习系统整合到移动设备中。谷歌也发布了一些有趣的作品,试图融合多种风格,生成完全独特的图像风格。

    除了移动端集成之外,风格转换还可以用于创建游戏资产。我们团队的成员最近看到了Artomatix的创始人兼首席技术官Eric Risser的演讲,他讨论了该技术在游戏内容生成方面的新颖应用(纹理突变等),因此大大减少了传统纹理艺术家的工作。

    着色

    着色是将单色图像更改为新的全色版本的过程。最初,这是由那些精心挑选的颜色由负责每个图像中的特定像素的人手动完成的。2016年,这一过程自动化成为可能,同时保持了以人类为中心的色彩过程的现实主义的外观。虽然人类可能无法准确地表现给定场景的真实色彩,但是他们的真实世界知识允许以与图像一致的方式和观看所述图像的另一个人一致的方式应用颜色。

    着色的过程是有趣的,因为网络基于对物体位置,纹理和环境的理解(例如,图像)为图像分配最可能的着色。它知道皮肤是粉红色,天空是蓝色的。

    “而且,我们的架构可以处理任何分辨率的图像,而不像现在大多数基于CNN的方法。”

    在一个测试中,他们的色彩是多么的自然,用户从他们的模型中得到一个随机的图像,并被问到,“这个图像看起来是自然的吗?

    他们的方法达到了92.6%,基线达到了大约70%,而实际情况(实际彩色照片)被认为是自然的97.7%。

    行为识别

    行为识别的任务是指在给定的视频帧内动作的分类,以及最近才出现的,用算法预测在动作发生之前几帧的可能的相互作用的结果。在这方面,我们看到最近的研究尝试将上下文语境嵌入到算法决策中,类似于计算机视觉的其他领域。这个领域的一些关键论文是:

    • Long-term Temporal Convolutions for Action Recognition利用人类行为的时空结构,即特定的移动和持续时间,以使用CNN变体正确识别动作。为了克服CNN在长期行为的次优建模,作者提出了一种具有长时间卷积(LTC-CNN)的神经网络来提高动作识别的准确性。简而言之,LTC可以查看视频的较大部分来识别操作。他们的方法使用和扩展了3D CNN,以便在更充分的时间尺度上进行行动表示。

    “我们报告了人类行为识别UCF101(92.7%)和HMDB51(67.2%)两个具有挑战性的基准的最新成果。

    • 用于视频动作识别的时空残差网络将两个流CNN的变体应用于动作识别的任务,该任务结合了来自传统CNN方法和最近普及的残留网络(ResNet)的技术。这两种方法从视觉皮层功能的神经科学假设中获得灵感,即分开的路径识别物体的形状/颜色和运动。作者通过注入两个CNN流之间的剩余连接来结合ResNets的分类优势。

    • Anticipating Visual Representations from Unlabeled Video[89]是一个有趣的论文,尽管不是严格的行为分类。该程序预测了在一个动作之前一个视频帧序列可能发生的动作。该方法使用视觉表示而不是逐像素分类,这意味着程序可以在没有标记数据的情况下运行,利用深度神经网络的特征学习特性。

    • Thumos Action Recognition Challenge 的组织者发表了一篇论文,描述了最近几年来Action Action Recognition的一般方法。本文还提供了2013-2015年挑战的概要,以及如何通过行动识别让计算机更全面地了解视频的挑战和想法的未来方向。

    第三部分 走向理解3D世界

    在计算机视觉中,正如我们所看到的,场景,对象和活动的分类以及边界框和图像分割的输出是许多新研究的重点。实质上,这些方法应用计算来获得图像的二维空间的“理解”。然而,批评者指出,3D理解对于解释系统成功和现实世界导航是必不可少的。

    例如,一个网络可能会在图像中找到一只猫,为它的所有像素着色,并将其归类为一只猫。但是,在猫所处的环境中,网络是否完全理解图像中猫的位置?

    有人认为,从上述任务中,计算机对于3D世界的了解很少。与此相反,即使在看2D图片(即,透视图,遮挡,深度,场景中的对象如何相关)等情况下,人们也能够以3D来理解世界。将这些3D表示及其相关知识传递给人造系统代表了下一个伟大计算机视觉的前沿。一般认为这样做的一个主要原因是:

    “场景的2D投影是构成场景的相机,灯光和物体的属性和位置的复杂功能的组合。如果赋予3D理解,智能体可以从这种复杂性中抽象出来,形成稳定的,不受限制的表示,例如,认识到在不同的光照条件下,或者在部分遮挡下,是从上面或从侧面看的椅子。“

    但是,3D理解传统上面临着几个障碍。首先关注“自我和正常遮挡”问题以及适合给定2D表示的众多3D形状。由于无法将相同结构的不同图像映射到相同的3D空间以及处理这些表示的多模态,所以理解问题变得更加复杂。最后,实况3D数据集传统上相当昂贵且难以获得,当与表示3D结构的不同方法结合时,可能导致训练限制。

    我们认为,在这个领域进行的工作很重要,需要注意。从早期的AGI系统和机器人技术的早期理论应用,到在不久的将来会影响我们社会,尽管还在萌芽期,由于利润丰厚的商业应用,我们谨慎地预测这一计算机视觉领域的指数级增长,这意味着计算机很快就可以开始推理世界,而不仅仅是像素。

    • OctNet: Learning Deep 3D Representations at High Resolutions

    • ObjectNet3D: A Large Scale Database for 3D Object Recognition

    • 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction

    • 3D Shape Induction from 2D Views of Multiple Objects

    • Unsupervised Learning of 3D Structure from Images

    人类姿势预估和关键点监测

    人体姿势估计试图找出人体部位的方向和构型。 2D人体姿势估计或关键点检测一般是指定人体的身体部位,例如寻找膝盖,眼睛,脚等的二维位置。

    然而,三维姿态估计通过在三维空间中找到身体部位的方向来进一步进行,然后可以执行形状估计/建模的可选步骤。这些分支已经有了很大的改进。

    在过去的几年中,在竞争性评估方面,“COCO2016挑战包括同时检测人和本地化关键点”。 ECCV 供了有关这些主题的更多的文献,但是我们想强调以下几篇论文:

    • Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

    • Keep it SMPL: Automatic Estimation of 3D Human Pose and Shape from a Single Image

    重构

    如前所述,前面的部分介绍了重构的一些例子,但总的来说重点是物体,特别是它们的形状和姿态。虽然其中一些在技术上是重构的,但是该领域本身包括许多不同类型的重构,例如,场景重构,多视点和单视点重建,运动结构(SfM),SLAM等。此外,一些重构方法利用附加(和多个)传感器和设备,例如事件或RGB-D摄像机,多种技术来推动进步。

    结果?整个场景可以非刚性地重建并且在时空上改变,例如,对你自己的高保真重构,以及你的动作进行实时更新。

    如前所述,围绕2D图像映射到3D空间的问题持续存在。以下文章介绍了大量创建高保真实时重建的方法:

    • Fusion4D: Real-time Performance Capture of Challenging Scenes

    • Real-Time 3D Reconstruction and 6-DoF Tracking with an Event Camera

    • Unsupervised CNN for Single View Depth Estimation: Geometry to the Rescue

    其他未分类3D

    IM2CA

    Learning Motion Patterns in Videos

    Deep Image Homography Estimation

    gvnn: Neural Network Library for Geometric Computer Vision

    3D summation and SLAM

    在整个这一节中,我们在3D理解领域进行了一个横切面似的介绍,主要侧重于姿态估计,重构,深度估计和同形目录。但是,还有更多的精彩的工作被我们忽略了,我们在数量上受到限制。所以,我们希望给读者提供一个宝贵的出发点。

    大部分突出显示的作品可能被归类于几何视觉,它通常涉及从图像直接测量真实世界的数量,如距离,形状,面积和体积。我们的启发是基于识别的任务比通常涉及几何视觉中的应用程序更关注更高级别的语义信息。但是,我们经常发现,这些3D理解的不同领域大部分是密不可分的。

    最大的几何问题之一是SLAM,研究人员正在考虑SLAM是否会成为深度学习所面临的下一个问题。所谓“深度学习的普遍性”的怀疑论者,其中有很多都指出了SLAM作为算法的重要性和功能性:

    “视觉SLAM算法能够同时建立世界三维地图,同时跟踪摄像机的位置和方向。” SLAM方法的几何估计部分目前不适合深度学习方法,所以端到端学习不太可能。 SLAM代表了机器人中最重要的算法之一,并且是从计算机视觉领域的大量输入设计的。该技术已经在Google Maps,自动驾驶汽车,Google Tango 等AR设备,甚至Mars Luver等应用。

    第四部分:卷积架构、数据集、新兴应用

    ConvNet架构最近在计算机视觉之外发现了许多新颖的应用程序,其中一些应用程序将在我们即将发布的论文中出现。然而,他们继续在计算机视觉领域占有突出的地位,架构上的进步为本文提到的许多应用和任务提供了速度,准确性和训练方面的改进。

    图:DenseNet架构

    基于这个原因,ConvNet体系结构对整个计算机视觉至关重要。以下是2016年以来一些值得关注的ConvNet架构,其中许多从ResNets最近的成功中获得灵感。

    • Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

    • Densely Connected Convolutional Networks

    • FractalNet Ultra-Deep Neural Networks without Residuals

    • Lets keep it simple: using simple architectures to outperform deeper architectures

    • Swapout: Learning an ensemble of deep architectures

    • SqueezeNet

    • Concatenated Rectified Linear Units (CRelu)

    • Exponential Linear Units (ELUs)

    • Parametric Exponential Linear Unit (PELU)

    • Harmonic CNNs

    • Exploiting Cyclic Symmetry in Convolutional Neural Networks

    • Steerable CNNs

    残差网络(Residual Networks)

    图:Test-Error Rates on CIFAR Datasets

    随着微软ResNet的成功,Residual Networks及其变体在2016年变得非常受欢迎,现在提供了许多开源版本和预训练模型。在2015年,ResNet在ImageNet的检测,本地化和分类任务以及COCO的检测和分段挑战中获得了第一名。虽然深度问题仍然存在,但ResNet处理梯度消失的问题为“深度增加产生超级抽象”提供了更多的动力,这是目前深度学习的基础。

    ResNet通常被概念化为一个较浅的网络集合,它通过运行平行于其卷积层的快捷连接来抵消深度神经网络(DNN)的层次性。这些快捷方式或跳过连接可减轻与DNN相关的消失/爆炸梯度问题,从而允许在网络层中更容易地反向传播梯度。

    残差学习、理论与进展

    • Wide Residual Networks

    • Deep Networks with Stochastic Depth

    • Learning Identity Mappings with Residual Gates

    • Residual Networks Behave Like Ensembles of Relatively Shallow Networks

    • Identity Mappings in Deep Residual Networks

    • Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks

    • Highway and Residual Networks learn Unrolled Iterative Estimation

    • Residual Networks of Residual Networks: Multilevel Residual Networks

    • Resnet in Resnet: Generalizing Residual Architectures

    • Wider or Deeper: Revisiting the ResNet Model for Visual Recognition

    • Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex

    • Convolutional Residual Memory Networks

    • Identity Matters in Deep Learning

    • Deep Residual Networks with Exponential Linear Unit

    • Weighted Residuals for Very Deep Networks

    数据集

    • Places2

    • SceneNet RGB-D

    • CMPlaces

    • MS-Celeb-1M

    • Open Images

    • YouTube-8M

    一些用例和趋势

    • 来自Facebook的盲人应用程序和百度的硬件

    • 情感检测结合了面部检测和语义分析,并且正在迅速增长。目前有20多个API可用。

    • 从航空影像中提取道路,从航空地图和人口密度地图中分类土地。

    • 尽管目前还存在一些功能性问题,但Amazon Go进一步提高了计算机视觉的形象,证明了无排队的购物体验。

    • 对于我们基本上没有提到无人驾驶,我们做了大量的工作。然而,对于那些希望深入研究一般市场趋势的人来说,莫里茨·穆勒 - 弗雷塔格(Moritz Mueller-Freitag)就德国汽车工业和自动驾驶汽车的影响作了精彩的介绍。

    • 其他有趣的领域:图像检索/搜索,手势识别,修复和面部重建。

    • 数字成像与医学通讯(DICOM)和其他医学应用(特别是与成像相关的)。例如,有许多Kaggle检测竞赛(肺癌,宫颈癌),其中一些有较大的金钱诱因,其中的算法试图在分类/检测任务中胜过专家。

    硬件和市场

    • 机器人视觉/机器视觉(独立领域)和物联网的潜在目标市场不断壮大。我们个人最喜欢的是一个日本的农民的孩子使用深度学习,树莓派和TensorFlow对黄瓜形状,大小和颜色进行分类。这使他的母亲分拣黄瓜所花的人力时间大大减少。

    • 计算需求的缩减和移动到移动的趋势是显而易见的,但是它也是通过硬件加速来实现的。很快我们会看到口袋大小的CNN和视觉处理单元(VPUs)到处都是。例如,Movidius Myriad2被谷歌的Project Tango和无人机所使用。

    • Movidius Fathom 也使用了Myriad2的技术,允许用户将SOTA计算机视觉性能添加到消费类设备中。具有USB棒的物理特性的Fathom棒将神经网络的能力带到几乎任何设备:一根棒上的大脑。

    • 传感器和系统使用可见光以外的东西。例子包括雷达,热像仪,高光谱成像,声纳,磁共振成像等。

    • LIDAR的成本降低,它使用光线和雷达来测量距离,与普通的RGB相机相比具有许多优点。目前有不少于500美元的LIDAR设备。

    • Hololens和近乎无数的其他增强现实头盔进入市场。

    • Google的Project Tango 代表了SLAM的下一个大型商业化领域。 Tango是一个增强现实计算平台,包含新颖的软件和硬件。 Tango允许在不使用GPS或其他外部信息的情况下检测移动设备相对于世界的位置,同时以3D形式绘制设备周围的区域。

    • Google合作伙伴联想于2016年推出了价格适中的Tango手机,允许数百名开发人员开始为该平台创建应用程序。 Tango采用以下软件技术:运动跟踪,区域学习和深度感知。

    与其他领域结合的前沿研究:

    • 唇语

    • 生成模型

    结论

    总之,我们想突出一些在我们的研究回顾过程中反复出现的趋势和反复出现的主题。首先,我们希望引起人们对机器学习研究社区极度追求优化的关注。这是最值得注意的,体现在这一年里精确率的不断提升。

    错误率不是唯一的狂热优化参数,研究人员致力于提高速度、效率,甚至算法能够以全新的方式推广到其他任务和问题。我们意识到这是研究的前沿,包括one-shot learning、生成模型、迁移学习,以及最近的evolutionary learning,我们认为这些研究原则正逐渐产生更大的影响。

    虽然这最后一点毫无疑问是值得称赞的,而不是对这一趋势的贬低,但人们还是禁不住要把他们的注意力放在(非常)的通用人工智能。我们只是希望向专家和非专业人士强调,这一担忧源自于此,来自计算机视觉和其他人工智能领域的惊人进展。通过对这些进步及其总体影响的教育,可以减少公众不必要的担忧。这可能会反过来冷却媒体的情绪和减少有关AI的错误信息。

    出于两个原因,我们选择专注于一年的时间里的进展。第一个原因与这一领域的新工作数量之大有关。即使对那些密切关注这一领域的人来说,随着出版物数量呈指数级的增长,跟上研究的步伐也变得越来越困难。第二个原因,让我们回头看看这一年内的变化。

    在了解这一年的进展的同时,读者可以了解目前的研究进展。在这么短的时间跨度里,我们看到了这么多的进步,这是如何得到的?研究人员形成了以以前的方法(架构、元架构、技术、想法、技巧、结果等)和基础设施(Keras、TensorFlow、PyTorch、TPU等)的全球社区,这不禁值得鼓励,也值得庆祝。很少有开源社区像这样不断吸引新的研究人员,并将它的技术应用于经济学、物理学和其他无数领域。

    对于那些尚未注意到的人来说,理解这一点非常重要,即在许多不同声音中,宣称对这种技术的本质有理解,至少有共识,认同这项技术将以新的令人兴奋的方式改变世界。然而,在这些改变实现之前,仍存在许多分歧。

    我们将继续尽最大的努力提供信息。有了这样的资源,我们希望满足那些希望跟踪计算机视觉和人工智能的进展的人的需求,我们的项目希望为开源革命增添一些价值,而这个革命正在技术领域悄然发生。

    报告地址:http://www.themtank.org/a-year-in-computer-vision

    展开全文
  • 本文是 the M Tank 计算机视觉报告《A Year in Computer Vision》的第四部分(之前部分参见:计算机视觉这一年是最全的一份 CV 技术报告)。本节将会介绍卷积神经网络架构、数据集和其他软硬件研究在 2017 年的...
    本文是 the M Tank 计算机视觉报告《A Year in Computer Vision》的第四部分(之前部分参见:计算机视觉这一年:这是最全的一份 CV 技术报告)。本节将会介绍卷积神经网络架构、数据集和其他软硬件研究在 2017 年的最新进展,同时对于计算机视觉领域未来的发展做出展望。本文对于开发者和研究人员来说是不可多得的详细材料。


    ConvNet 架构


    近期,ConvNet 架构在计算机视觉之外也有很多新的应用。但是,它们的架构在速度、准确率和任务训练方面都有进步,仍然主导着计算机视觉领域。因此,整体而言,ConvNet 架构对计算机视觉至关重要。下面列出了 2016 年以来一些优秀的 ConvNet 架构,其中很多从 ResNet 中获得灵感。


    • Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning [131]:Inception v4 是一种新型 Inception 架构,从 Inception v2 和 v3 [132] 发展而来。本文还分析了使用残差连接训练 Inception 网络和一些 Residual-Inception hybrid 网络。
    • Densely Connected Convolutional Networks [133](DenseNet)从 ResNet 的恒等/跳跃连接(identity/skip connections)中直接获取灵感。该方法先在 ConvNet 中用前馈的方式将每一层连接至其他层,将前面所有层的特征图作为输入,从而创建 DenseNet。


    「DenseNet 有多个优势:改善梯度下降问题,加强特征传播,鼓励特征重用,以及大幅减少参数数量。」[134] 


    72226%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20171129135026.jpg

    图 16:DenseNet 架构示例。5 层,growth rate k = 4。每一层的输入为前面所有特征图。来源:Huang et al. (2016) [135]


    该模型在 CIFAR-10、CIFAR-100、SVHN 和 ImageNet 上进行评估,并在多个数据集上实现了顶尖性能。同时,DenseNet 使用了较少内存和计算能力。现在已经有多个实现(Keras、Tensorflow 等):https://github.com/liuzhuang13/DenseNet。[136]


    • FractalNet Ultra-Deep Neural Networks without Residuals [137]:使用不同长度的子路径,没有传递(pass-through)或残差连接,而是使用滤波器和非线性函数改变内部信号进行转换。


    「FractalNet 重复连接多个并行层序列和不同数量的卷积 block,以获取大的额定深度,同时维护网络中的很多短路径。」[138]


    该网络在 CIFAR 和 ImageNet 上获得了顶尖的性能,同时也展现了其他的特性。如,它们质疑极深层的卷积网络中残差连接的作用,同时通过不同的子网络深度找出问题的答案。


    • Lets keep it simple: using simple architectures to outperform deeper architectures [139]:创建一个简化的母架构(mother architecture)。该架构在 CIFAR10/100、MNIST 和 SVHN 等数据集(使用简单的或不使用数据增强)上获得了顶尖结果,或至少与现有方法性能相当。


    「该研究中,我们展示了一个非常简单的 13 层全卷积网络架构,该架构最少限度地依赖新特征,但是优于几乎所有深层网络(参数数量是该架构的 2 倍到 25 倍)。我们的架构可用于多种场景,尤其是嵌入式设备中。」


    「使用深度压缩(DeepCompression)可以进一步压缩该架构,从而大幅减少内存消耗。我们尝试创建一个最少限度地依赖新特征的母架构,以展示精巧、简单的卷积网络架构的有效性,文献中提到的现有或新方法还可以提高其效用。」[140]


    下面是一些补充 ConvNet 架构的技术:

    • Swapout: Learning an ensemble of deep architectures [141]:生成 dropout 和随机深度(stochastic depth)方法来防止特定层或所有层中单元的共适应。集成训练方法从多个架构中采样,包括「dropout、随机深层和残差架构」。Swapout 在 CIFAR-10 和 CIFAR-100 数据上优于同样网络结构的 ResNet,该技术属于正则化的范畴。
    • SqueezeNet [142]:小型 DNN 具备很多优势,如较少的复杂计算训练、较容易的信息传输,以及可在内存或处理能力有限的设备上运行。SqueezeNet 是一个小型 DNN 架构,该架构使用模型压缩技术大幅减少参数数量和所需内存(AlexNet 的大小是它的 510x),且达到了 AlexNet 级别的准确率。


    传统意义上,修正线性单元(ReLU)是所有神经网络中主要的激活函数。但是,现在有一些其他选项:


    • Concatenated Rectified Linear Units(CRelu)[143]
    • Exponential Linear Units(ELUs)[144](2015 年末)
    • Parametric Exponential Linear Unit(PELU)[145]


    卷积网络中的不变性


    卷积网络是转换不变的,意思是它们可以在一张图像的多个部分识别相同的特征。然而,经典的 CNN 并不是旋转不变的,即当某一个特征或整张图像旋转之后,网络的识别性能就会下降。通常卷积网络通过数据增强(例如,在训练中有目的地将图像旋转随机的角度)可以(稍微地)学习处理旋转不变性。这意味着卷积网络可以不引入具体的旋转不变性而获得轻微的旋转不变性。同样意味着使用当前的技术在网络中引入旋转不变性是行不通的,这是一个基本的局限性。这其实和人类难以识别上下颠倒的图像挺相似的,但是机器必须克服这个局限性。


    以下几篇论文都提出了旋转不变的卷积网络。每一种方法都有其创新性,都是通过更有效的参数利用提升旋转不变性,并最终获得全局旋转同变性(equivariance):


    • Harmonic CNNs [146] 使用『圆谐波』(circular harmonics)滤波器替换常规的 CNN 滤波器。
    • Group Equivariant Convolutional Networks (G-CNNs) [147]:使用 G-卷积(G-Convolutions),这是一种新类型的层,其中层内共享的权重比常规的 CNN 层内的权重高级得多,从而能增大网络的表达容量,并且不需要额外增加参数数量。
    • Exploiting Cyclic Symmetry in Convolutional Neural Networks [148] 中提出了四种运算(作为层的结构),可以增强神经网络的层以部分增加旋转不变性。
    • Steerable CNNs [149] 由 Cohen 和 Welling 在他们对 G-CNN 的研究基础上建立,证明可控架构(steerable architectures)在 CIFAR 数据集上的性能超过了残差和密集网络。他们还对不变性问题做了简要的概述:


    「为了提高机器学习方法的统计效率,很多人曾经寻求学习不变性表征的方法。然而,在深度学习中,中间层不应该是完全不变性的,因为局部特征的相对位姿(relative pose)必须保留给之后的层。因此,人们提出了同变性(equivariance)的思想:假如已知输入的转换,表征可以用一种可预测的线性形式生成转换,那么该网络就是同变的。换种说法即,同变网络生成的表征是可控的。可控性使网络不仅可以在所有的位置(正如标准的卷积层)还可以在所有的位姿上应用滤波器,从而增加参数共享。」


    残差网络


    84446%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20171129135046.jpg

    图 17:CIFAR 数据集上的测试误差率。其中黄色标记表示这些论文针对的是我们所讨论的问题。关于 pre-resnet 请参考「Identity Mappings in Deep Residual Networks」(参见接下来的内容)。此外,虽然不包含在表格中,我们相信,「Learning Identity Mappings with Residual Gates」在 CIFAR-10 和 CIFAR-100 上分别获得了 3.65% 和 18.27% 的 2016 年最低误差率。来源:Abdi and Nahavandi (2016, p. 6) [150]


    随着微软的 ResNet[151] 获得成功,残差网络和其变体在 2016 年变得很流行,出现了很多开源版本和可用的预训练模型。在 2015 年,ResNet 在 ImageNet 的检测、定位和分类任务,以及 COCO 的检测和分割挑战赛上都赢得了第一名。虽然其深度仍然是个问题,但 ResNet 解决了梯度消失问题,使人们更加相信「网络越深,抽象表达能力越强」的理念,巩固了深度学习的当前地位。


    ResNet 通常被概念化为浅层网络的集成,通过运行(与它们的卷积层平行的)跳过链接,从而在某种程度上抵消深度神经网络的分层性质。这些跳过连接允许更简单的反向传播过程,缓解了深度神经网络中的梯度消失和梯度爆炸问题。如果想了解更多信息,请查阅 Quora:https://www.quora.com/What-is-an-intuitive-explanation-of-Deep-Residual-Networks。[152]


    残差学习、理论和改进


    • Wide Residual Networks [153]:目前是一种非常普遍的 ResNet 方法。作者对由 ResNet 模块组成的架构进行了实验性研究,并通过增加网络的宽度和减少深度提升了网络的性能,从而缓解了逐渐减少的特征重用(diminishing feature reuse)的问题。这个方法在多个基准测试中都取得了当前最佳结果,包括在 CIFAR-10 和 CIFAR-100 上的 3.89% 和 18.3%。作者证明了一个 16 层深的宽 ResNet 可以获得比任何其它 ResNet(包括 1000 层的网络)更高的准确率和效率。
    • Deep Networks with Stochastic Depth [154]:主要将 dropout 技术应用于整个层的神经元,而不是单个神经元。「我们从很深的网络开始,在训练过程中,对于每一个小批量,随机删除部分层,使用恒等函数绕过它们。」随机深度允许更快的训练,能得到更高的准确率,甚至当训练的网络过了 1200 层也是如此。
    • Learning Identity Mappings with Residual Gates [155]:「通过使用一个标量参数控制每一个门,我们提供了一种只需要优化一个参数就可以学习恒等映射的方法。」作者使用这些 Gated ResNet 改善了深度网络的优化方式,并提供了对「移除整层的高接收度」,从而即使随机而大量地删除层,也能保持 90% 的性能。使用 Wide Gated ResNet 在 CIFAR-10 和 CIFAR-100 上分别获得了 3.65% 和 18.27% 的结果。
    • Residual Networks Behave Like Ensembles of Relatively Shallow Networks [156]:ResNet 可以看成很多路径的集成,路径之间的依赖关系不强,从而增强对整体行为的理解。此外,残差路径长度不同,短路径为训练过程中的梯度做贡献,长梯度对该阶段没有影像。
    • Identity Mappings in Deep Residual Networks [157]:恒等映射『用作跳跃连接和 after-addition activation 时,允许在 ResNet block 中对信号进行前后和后向传输」。该方法改善了「1001 层的 ResNet 在 CIFAR-10(误差 4.62%)和 CIFAR-100 数据集,以及 200 层的 ResNet 在 ImageNet 上」的生成、训练和结果。
    • Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks [158]:再次提倡 ResNet 的集成,支持 ResNet 架构变得更宽、更深。「multi-residual network 增加了残差块中残差函数的数量。」提高的准确率使网络在 CIFAR-10 和 CIFAR-100 数据集上的误差分别是 3.73% 和 19.45%。


    其他残差理论和改进。尽管它是最近提出的想法,但已经有大量研究围绕着 ResNet 展开。下面是一些相关的论文:


    • Highway and Residual Networks learn Unrolled Iterative Estimation[159]
    • Residual Networks of Residual Networks: Multilevel Residual Networks[160]
    • Resnet in Resnet: Generalizing Residual Architectures[161] 
    • Wider or Deeper: Revisiting the ResNet Model for Visual Recognition[162]
    • Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex[163]
    • Convolutional Residual Memory Networks[164]
    • Identity Matters in Deep Learning[165]
    • Deep Residual Networks with Exponential Linear Unit[166]
    • Weighted Residuals for Very Deep Networks[167]


    数据集


    不能过分夸大用于机器学习所有层面的丰富数据集的重要性。因此,我们审慎地收录该领域中一些最大进步。Kaggle CTO 兼联合创始人 Ben Hamner 曾说过「一个新数据集能催生出一千篇论文」[168],即数据的可用性能够催生新方法,并为之前无效的技术注入新活力。


    2016 年,传统数据集如 ImageNet [169]、COCO [170]、 CIFARs [171] 和 MNIST [172] 中加入了大量新条目。我们还注意到制图技术的进步引发合成数据集的增长,它是满足人工神经网络对大量数据的需求的一种有趣工作。为了简洁起见,我们选择了 2016 年最重要的新数据集:


    • Places2 [173] 是一个场景分类数据集,其任务是使用一个场景分类(比如「体育馆」、「公园」等等)标注图像。尽管借助 Places2 数据集预测模型和图像理解无疑会有改善,从这个数据集上训练的网络得到一个有趣的发现是,在学习分类场景的过程中,网络无需经过明确指导学会了检测其中的物体。例如,卧室里有床和厨房与浴室里都有水池。这意味着在场景分类的抽象层级中,物体本身是较低水平的特征。

    96067%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20171129135050.jpg

    图 18:SceneNet RGB-D 示例。来自 SceneNet RGB-D 的示例,它是一个带有 500 万张真实感图像的合成室内轨迹的真值数据集。图片 (a) 通过计算图呈现,带有从 (b) 到 (e) 的特定任务的可用真值。合成数据集的创建有助于域适应进程,如果从其中学习到的知识无法应用到现实世界,那么合成数据集则是无意义的。这正是域适应发挥作用的地方,它具备把知识从一个领域迁移到另一个领域的能力,比如从合成图像到现实世界。域适应最近再次迅速发展,其在迁移学习方面的努力是亮点。列 (c) vs (d) 展示了实例与语义/分类分割之间的不同。来源:McCormac et al. (2017) [174]


    • SceneNet RGB-D [175]:此合成数据集扩展了原始的 SceneNet 数据集,为语义分割、实例分割和物体检测等场景理解问题以及光流、深度估计、相机姿态估计和三维重建等几何计算机视觉问题提供了像素完美的真值。该数据集通过提供像素完美的表征来细微化已选的环境。
    • CMPlaces [176] 是 MIT 的一个跨模态场景数据集,其任务是识别除自然图像以外的许多不同形态的场景,并且在这个过程中跨模态地迁移知识。其中一些形态如下:剪贴画、素描、空间文本以及自然语言描述。这篇论文同样也讨论了通过跨模态卷积神经网络处理这一类型问题的方法。

    03352%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20171129135054.jpg

    图 19:CMPlaces 跨模态场景表征。来自 CMPlaces 论文,它展示了两个实例,卧室和幼儿园教师。传统的神经网络方法学习无法在不同形态之间很好迁移的表征,并且该论文试图生成一个共享表征「形态不可知论」。来源:Aytar et al. (2016) [177]


    CMPlaces 明显提及到迁移学习、域不变表征、域适应和多模态学习。所有这些都进一步证明了计算机视觉研究的当前进展。作者致力于试图找到「域/模态独立的表征」,它可以对应于人类借以获取统一表征的更高层级的抽象。比如以不同形态之中的「猫」为例,无论是看到猫这个单词,一只素描本中的猫,一张猫的真实图像,抑或是在演讲中提及猫,人类总会抽象出一个相同的统一表征,高于以上所有的形态。


    人类能够独立地利用从形态中感知到的知识与经验,机器获得相似能力能够带来检索和识别方面的若干个重要应用。


    • MS-Celeb-1M [178] 包含一百万张名人图像,人脸识别训练集中有一千万张训练图像。
    • Open Images[179] 来自谷歌,有带有多标签的九百万张图像 URLs,这是对典型的单标签图像的一次巨大提升。Open images 涵盖 6000 个范畴,远高于之前 ImageNet 提供的 1000 个类别,这使其成为了机器学习社区不可或缺的一部分。
    • YouTube-8M[180] 同样也来自谷歌,它包含八百万个视频 URL、五十万小时视频时长以及 4800 个类别,每个视频平均 1.8 个标签。一些标签示例如下:艺术&娱乐、购物以及宠物&动物。视频数据集更加难以标注和收集,因此该数据集价值很大。


    也就是说,图像理解的进步,如分割、物体分类和检测已经将视频理解带入了研究前沿。然而,在这个数据集发布之前,真实世界的视频数据集的种类和规模实际上很缺乏。此外,这个数据集刚刚更新 [181],并且今年谷歌联合 Kaggle 正组办一场视频理解竞赛,它是 CVPR 2017[182] 的一部分。有关 YouTube-8M 的一般信息请参见:https://research.google.com/youtube8m/[183]。


    局限和趋势


    这一部分总结其他应用、趋势、遗漏等。


    应用/用例:


    • Facebook 构建的适合盲人的应用 [184] 和百度的硬件 [185]。
    • 情绪检测将人脸检测和语义分析结合起来,并发展迅速。目前有 20+ 可用 API [186]。
    • 从航空影像中提取道路 [187],从航测图和人口密度地图中提取土地使用分类 [188]。
    • Amazon Go 免排队商店提升了计算机视觉的重要性 [189],尽管目前还存在很多功能问题 [190]。
    • 现有很多为自动驾驶进行的大量研究,我们没有太多涉及。但是,对于那些想要深入研究市场趋势的人来说,Twenty Billion Neurons 公司的 Moritz Mueller-Freitag 关于德国汽车行业和自动驾驶汽车的影像有一些精彩的论断 [191]。
    • 其他有趣的领域:图像检索/搜索 [192]、手势识别、图像修复和人脸重建。
    • 也有大量研究是关于医学数字成像和通信(DICOM)和其他医疗应用的,尤其是成像方面。例如,大量 Kaggle 检测竞赛(肺癌、宫颈癌)。


    但是,尽管研究还在继续改善这些算法的误差率,它们作为医疗从业者工具的价值越来越重要。医学专家 [194] + AI 系统 [193] 在乳腺癌检测上获得的性能提升实在令人震惊。在这个案例中,人机协作以 99.5% 的准确率远远超过人和机器单独的准确率。


    这只是目前深度学习/机器学习社区探索的医疗应用洪流中的一个例子。我们团队的一些成员开玩笑地说这些尝试只是试图讨好社会,使人们认为 AI 研究是一种普遍、善意的力量。但是只要技术能够帮助医疗行业,且用安全、周密的方式引入,那么我们真诚地欢迎这样的进步。


    硬件/市场


    • 机器人视觉/机器视觉(这是两个不同领域)以及物联网的潜在目标市场正在不断增长当中。深度学习的应用或许在其中会扮演重要的角色,通过是用树莓派和 TensorFlow,一个日本农民的儿子就可以利用计算机视觉对黄瓜的形状、色泽和尺寸进行分类 [195]。这一过程大大减少了他母亲分拣黄瓜的人工需求。
    • 计算需求的缩减和移动端移植的呼声是非常明显的,但计算机视觉应用的发展与硬件加速相关性仍然很高。我们很快就会见到移动端 CNN 和视觉处理单元(VPU)大量进入人们的手中。例如,Movidius Myriad2 正被谷歌 Project Tango 和一些无人机使用。[196]


    Movidius Fathom 处理单元 [197] 也使用了 Myriad2 的技术,它允许用户将 SOTA 计算机视觉能力扩展到很多消费级产品中去。Fathom 就像一块 U 盘一样小巧,却可以轻松地将神经网络嵌入到几乎所有设备上。


    • 探测除可见光以外的传感器和系统也将得到发展:如雷达、红外线摄像头、高光谱成像、声呐、磁共振成像等等。
    • 更加便宜的 LiDAR,它通过发射不可见光束来探测距离,相对于常用 RGB 摄像头具有更多优势。LiDAR 设备目前的售价已经普遍低于 500 美元。
    • Hololens 和其他大量增强现实头盔 [198] 也将进入市场。
    • 谷歌的 Project Tango [199] 代表了 SLAM 商业化的未来。Tango 是一个增强现实的计算机平台,包含了新硬件和软件。Tango 可以探测移动设备的位置,并与现实世界展开互动,也可以在没有 GPS 或其他外部信息的情况下对周遭环境进行 3D 绘图。


    在该项目中,谷歌与合作伙伴联想共同在 2016 年推出了一款中端手机,让开发者们可以在 Tango 平台上开发新的应用。Tango 包含了以下软件技术:运动跟踪、视场学习和深度知觉。


    遗漏补充


    值得注意的是计算机视觉和机器学习/人工智能的其他领域有很多重叠。这些内容在以上论述中均有涉及,在本文中,我们根据自己的思路对内容进行了划分。


    例如,我们若决定将两个完整的计算机视觉任务:图像标注和视觉问答加入 NLP 系统中整合为视觉语音识别系统,该研究就同时具有了 CV 与 NLP 的组成部分,其中生成模型用于处理图像。这样的未来方向包含:


    • 唇读系统:在 2016 年,我们看到了像 LipNet [200] 这样的系统可以从视频中说话人的唇语中读取出文字内容,这种技术结合了计算机视觉与 NLP,形成了视觉语音识别。
    • 生成模型适用于图像领域,其中的各种自回归模型(如 PixelRNN、PixelCNN、ByteNet、VPN、WaveNet 等)、生成对抗网络(GAN)、变分自编码器以及它们的各种变体、结合与混合方法之间的技术竞争非常激烈。


    在最后一节中,我们将给出一些结论性意见,总结出目前的发展趋势。我们希望能够得到计算机视觉领域近期发展的全貌。注意:该总结不包含 2017 年 1 月-8 月的早期内容——由于技术的快速发展,旧的技术已经被新的技术超越了。这种快速发展的态势将使得计算机视觉硬件和软件在 2022 年发展成为 486 亿美元规模的新市场。


    17050%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20171129135057.jpg

    图 20:计算机视觉应用市场利润发展预测 [202]。来源:Tractica(2016)[203]。


    结论


    在这里我们希望突出一些不断出现的趋势和重点研究方向。首先必须提到的是研究社区对于优化的重视,其中最明显的就是今年各类研究中准确度的提升。


    错误率并不是唯一一个被关注的参数,研究人员同时也在关注速度、效率以及算法的泛化能力,希望其成果可以在其他任务中具有足够竞争力。像 one-shot learning、生成模型、迁移模型以及最近开始火热的进化模型等方法是目前的主流,这些方向正在逐渐产生影响,并催生出更好的工作。


    尽管以上论述毫无疑问是对于未来的美好憧憬,但随着这个思路,我们不免会回到人工智能的终极问题——通用人工智能上来。尽管我们在计算机视觉领域和其他 AI 相关领域里进展很快,目前技术的发展距离我们需要担忧还有很长一段距离。只有通过不断公开这些信息,我们才能消除公众对于新技术的误解。


    我们选择对最近一年的技术发展进行概述原因在于:目前的研究成果正呈指数级增长,即使对于业内人士来说,随时保持对最新研究的跟踪也是一件越来越困难的事了;同时,我们也想以年为单位对于技术的进步作出度量。


    回顾一年来的进展,读者们或许会惊讶于目前技术发展的高速度,在很短的一段时间内,技术就已有了多次重大进步。这是因为研究者们已经建立了一个全球化的社区,让新的探索可以在前人的方法上(架构、元架构、技术、思想、提示、捷径、结果……)和基础工具上(Keras、TensorFlow、PyTorch、GPU 加速方法等等)更进一步,这是一件可喜可贺的事情。这样的开源环境绝无仅有,它正在不断鼓励新的研究者将他们从其他领域中(如经济学、物理学等等)得来的想法应用其中。


    对于还未意识到这些的人来说,理解计算机视觉发展的现状非常重要,在一片赞扬声中,我们需要回到技术的本质上,去理解它;至少需要理解这项技术可以用新的方式来改变世界。然而,技术的发展还在展开,未来的时间线上仍然存在很多的分支。


    希望本文可以帮助人工智能开发者快速获知计算机视觉和人工智能领域的最新进展。27271%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20170924135925.png


    原报告地址:http://www.themtank.org/a-year-in-computer-vision


    展开全文
  • AI菌最近AI菌决定把自己的机器学习之路向计算机视觉方面发展。所以今天就来给大家分享一下AI菌收集到的资料以及心得The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉...
  • 1. 计算机视觉在机器人上的应用: 该部分内容源自一篇中文文献,由于是在大约一年前读的,现在...篇文章是将计算机视觉技术利用在原有机械臂控制系统上,从而提高机械臂对不同环境条件的适用性。 1.2 具体构成图...
  • 随着自动驾驶汽车,机器人,无人机,新零售应用等方面取得了令人瞩目的进步,计算机视觉(CV)成为主流词。对于我们这些已经在该领域工作了一段时间的人来说,发现越来越多的人注意到个正在改变一切的技术。 ...
  • 序言人的大脑分配了大量的资源用于视觉,对视觉的“投入”比听觉、味觉、嗅觉多得多:40%-50% 的神经元都与视觉功能有关,在大脑顶层 IT 区尤为密集。相较于其他感官,人类使用眼的场景也更多,平均活跃时间也更多,...
  • 计算机视觉项目正在蓬勃发展,为2020年采用率的提高奠定了基础。在过去的几年中,尽管各种形式的人工智能得到了发展,但其中一种形式(计算机视觉)在2020年显示出了特殊的前景。 在《自然》杂志上发表的一项最新...
  • 开始机器学习知识的学习,差不多已经有一年的时间。...在经过一年的泛泛的学习之后,决定将计算机视觉作为我的主攻方向,主要也是因为我对计算机图像个领域比较感兴趣。在网上搜索了一些资料,以及推...
  • 当图像和视频总量每年以数十倍的速度增长,增长到人们有一天再也无法通过文字整理和检索这些信息时,计算机视觉技术或许会和当年的关键字搜索技术一样,成为救世主。本文来自美国计算机视觉公司创始人Orbeus刘天强...
  • 课时1 计算机视觉概述 什么是计算机视觉计算机视觉:针对视觉数据的研究。 在我们的世界中,就在过去的短短几年,视觉数据量爆炸式的增长到夸张的地步,一点很大程度上得益于世界上许许多多的视觉传感器,...
  • 计算机视觉的思考

    2014-10-07 20:12:59
    当图像和视频总量每年以数十倍的速度增长,增长到人们有一天再也无法通过文字整理和检索这些信息时,计算机视觉技术或许会和当年的关键字搜索技术一样,成为救世主。本文来自美国计算机视觉公司创始人Orbeus刘天强...
1 2 3 4 5 ... 20
收藏数 9,998
精华内容 3,999