2017-11-28 06:40:12 Uwr44UOuQcNsUQb60zk2 阅读数 569
  • 计算机视觉实战:如何使用OpenCV构建视觉应用

    本次公开课讲师屈老师是哈尔滨工业大学副教授,视觉技术研究室负责人。课程会介绍计算机视觉的基本概念、系统基本构成及各要素。并使用OpenCV,带领大家从零开始一步一步的搭建一个简单但可用的实际的视觉跟踪系统,使大家从中学习视觉系统的构建及OpenCV系统实现。

    9528 人正在学习 去看看 AI100讲师
本文是 the M Tank 计算机视觉报告《A Year in Computer Vision》的第四部分(之前部分参见:计算机视觉这一年:这是最全的一份 CV 技术报告)。本节将会介绍卷积神经网络架构、数据集和其他软硬件研究在 2017 年的最新进展,同时对于计算机视觉领域未来的发展做出展望。本文对于开发者和研究人员来说是不可多得的详细材料。


ConvNet 架构


近期,ConvNet 架构在计算机视觉之外也有很多新的应用。但是,它们的架构在速度、准确率和任务训练方面都有进步,仍然主导着计算机视觉领域。因此,整体而言,ConvNet 架构对计算机视觉至关重要。下面列出了 2016 年以来一些优秀的 ConvNet 架构,其中很多从 ResNet 中获得灵感。


  • Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning [131]:Inception v4 是一种新型 Inception 架构,从 Inception v2 和 v3 [132] 发展而来。本文还分析了使用残差连接训练 Inception 网络和一些 Residual-Inception hybrid 网络。
  • Densely Connected Convolutional Networks [133](DenseNet)从 ResNet 的恒等/跳跃连接(identity/skip connections)中直接获取灵感。该方法先在 ConvNet 中用前馈的方式将每一层连接至其他层,将前面所有层的特征图作为输入,从而创建 DenseNet。


「DenseNet 有多个优势:改善梯度下降问题,加强特征传播,鼓励特征重用,以及大幅减少参数数量。」[134] 


图 16:DenseNet 架构示例。5 层,growth rate k = 4。每一层的输入为前面所有特征图。来源:Huang et al. (2016) [135]


该模型在 CIFAR-10、CIFAR-100、SVHN 和 ImageNet 上进行评估,并在多个数据集上实现了顶尖性能。同时,DenseNet 使用了较少内存和计算能力。现在已经有多个实现(Keras、Tensorflow 等):https://github.com/liuzhuang13/DenseNet。[136]


  • FractalNet Ultra-Deep Neural Networks without Residuals [137]:使用不同长度的子路径,没有传递(pass-through)或残差连接,而是使用滤波器和非线性函数改变内部信号进行转换。


「FractalNet 重复连接多个并行层序列和不同数量的卷积 block,以获取大的额定深度,同时维护网络中的很多短路径。」[138]


该网络在 CIFAR 和 ImageNet 上获得了顶尖的性能,同时也展现了其他的特性。如,它们质疑极深层的卷积网络中残差连接的作用,同时通过不同的子网络深度找出问题的答案。


  • Lets keep it simple: using simple architectures to outperform deeper architectures [139]:创建一个简化的母架构(mother architecture)。该架构在 CIFAR10/100、MNIST 和 SVHN 等数据集(使用简单的或不使用数据增强)上获得了顶尖结果,或至少与现有方法性能相当。


「该研究中,我们展示了一个非常简单的 13 层全卷积网络架构,该架构最少限度地依赖新特征,但是优于几乎所有深层网络(参数数量是该架构的 2 倍到 25 倍)。我们的架构可用于多种场景,尤其是嵌入式设备中。」


「使用深度压缩(DeepCompression)可以进一步压缩该架构,从而大幅减少内存消耗。我们尝试创建一个最少限度地依赖新特征的母架构,以展示精巧、简单的卷积网络架构的有效性,文献中提到的现有或新方法还可以提高其效用。」[140]


下面是一些补充 ConvNet 架构的技术:

  • Swapout: Learning an ensemble of deep architectures [141]:生成 dropout 和随机深度(stochastic depth)方法来防止特定层或所有层中单元的共适应。集成训练方法从多个架构中采样,包括「dropout、随机深层和残差架构」。Swapout 在 CIFAR-10 和 CIFAR-100 数据上优于同样网络结构的 ResNet,该技术属于正则化的范畴。
  • SqueezeNet [142]:小型 DNN 具备很多优势,如较少的复杂计算训练、较容易的信息传输,以及可在内存或处理能力有限的设备上运行。SqueezeNet 是一个小型 DNN 架构,该架构使用模型压缩技术大幅减少参数数量和所需内存(AlexNet 的大小是它的 510x),且达到了 AlexNet 级别的准确率。


传统意义上,修正线性单元(ReLU)是所有神经网络中主要的激活函数。但是,现在有一些其他选项:


  • Concatenated Rectified Linear Units(CRelu)[143]
  • Exponential Linear Units(ELUs)[144](2015 年末)
  • Parametric Exponential Linear Unit(PELU)[145]


卷积网络中的不变性


卷积网络是转换不变的,意思是它们可以在一张图像的多个部分识别相同的特征。然而,经典的 CNN 并不是旋转不变的,即当某一个特征或整张图像旋转之后,网络的识别性能就会下降。通常卷积网络通过数据增强(例如,在训练中有目的地将图像旋转随机的角度)可以(稍微地)学习处理旋转不变性。这意味着卷积网络可以不引入具体的旋转不变性而获得轻微的旋转不变性。同样意味着使用当前的技术在网络中引入旋转不变性是行不通的,这是一个基本的局限性。这其实和人类难以识别上下颠倒的图像挺相似的,但是机器必须克服这个局限性。


以下几篇论文都提出了旋转不变的卷积网络。每一种方法都有其创新性,都是通过更有效的参数利用提升旋转不变性,并最终获得全局旋转同变性(equivariance):


  • Harmonic CNNs [146] 使用『圆谐波』(circular harmonics)滤波器替换常规的 CNN 滤波器。
  • Group Equivariant Convolutional Networks (G-CNNs) [147]:使用 G-卷积(G-Convolutions),这是一种新类型的层,其中层内共享的权重比常规的 CNN 层内的权重高级得多,从而能增大网络的表达容量,并且不需要额外增加参数数量。
  • Exploiting Cyclic Symmetry in Convolutional Neural Networks [148] 中提出了四种运算(作为层的结构),可以增强神经网络的层以部分增加旋转不变性。
  • Steerable CNNs [149] 由 Cohen 和 Welling 在他们对 G-CNN 的研究基础上建立,证明可控架构(steerable architectures)在 CIFAR 数据集上的性能超过了残差和密集网络。他们还对不变性问题做了简要的概述:


「为了提高机器学习方法的统计效率,很多人曾经寻求学习不变性表征的方法。然而,在深度学习中,中间层不应该是完全不变性的,因为局部特征的相对位姿(relative pose)必须保留给之后的层。因此,人们提出了同变性(equivariance)的思想:假如已知输入的转换,表征可以用一种可预测的线性形式生成转换,那么该网络就是同变的。换种说法即,同变网络生成的表征是可控的。可控性使网络不仅可以在所有的位置(正如标准的卷积层)还可以在所有的位姿上应用滤波器,从而增加参数共享。」


残差网络


图 17:CIFAR 数据集上的测试误差率。其中黄色标记表示这些论文针对的是我们所讨论的问题。关于 pre-resnet 请参考「Identity Mappings in Deep Residual Networks」(参见接下来的内容)。此外,虽然不包含在表格中,我们相信,「Learning Identity Mappings with Residual Gates」在 CIFAR-10 和 CIFAR-100 上分别获得了 3.65% 和 18.27% 的 2016 年最低误差率。来源:Abdi and Nahavandi (2016, p. 6) [150]


随着微软的 ResNet[151] 获得成功,残差网络和其变体在 2016 年变得很流行,出现了很多开源版本和可用的预训练模型。在 2015 年,ResNet 在 ImageNet 的检测、定位和分类任务,以及 COCO 的检测和分割挑战赛上都赢得了第一名。虽然其深度仍然是个问题,但 ResNet 解决了梯度消失问题,使人们更加相信「网络越深,抽象表达能力越强」的理念,巩固了深度学习的当前地位。


ResNet 通常被概念化为浅层网络的集成,通过运行(与它们的卷积层平行的)跳过链接,从而在某种程度上抵消深度神经网络的分层性质。这些跳过连接允许更简单的反向传播过程,缓解了深度神经网络中的梯度消失和梯度爆炸问题。如果想了解更多信息,请查阅 Quora:https://www.quora.com/What-is-an-intuitive-explanation-of-Deep-Residual-Networks。[152]


残差学习、理论和改进


  • Wide Residual Networks [153]:目前是一种非常普遍的 ResNet 方法。作者对由 ResNet 模块组成的架构进行了实验性研究,并通过增加网络的宽度和减少深度提升了网络的性能,从而缓解了逐渐减少的特征重用(diminishing feature reuse)的问题。这个方法在多个基准测试中都取得了当前最佳结果,包括在 CIFAR-10 和 CIFAR-100 上的 3.89% 和 18.3%。作者证明了一个 16 层深的宽 ResNet 可以获得比任何其它 ResNet(包括 1000 层的网络)更高的准确率和效率。
  • Deep Networks with Stochastic Depth [154]:主要将 dropout 技术应用于整个层的神经元,而不是单个神经元。「我们从很深的网络开始,在训练过程中,对于每一个小批量,随机删除部分层,使用恒等函数绕过它们。」随机深度允许更快的训练,能得到更高的准确率,甚至当训练的网络过了 1200 层也是如此。
  • Learning Identity Mappings with Residual Gates [155]:「通过使用一个标量参数控制每一个门,我们提供了一种只需要优化一个参数就可以学习恒等映射的方法。」作者使用这些 Gated ResNet 改善了深度网络的优化方式,并提供了对「移除整层的高接收度」,从而即使随机而大量地删除层,也能保持 90% 的性能。使用 Wide Gated ResNet 在 CIFAR-10 和 CIFAR-100 上分别获得了 3.65% 和 18.27% 的结果。
  • Residual Networks Behave Like Ensembles of Relatively Shallow Networks [156]:ResNet 可以看成很多路径的集成,路径之间的依赖关系不强,从而增强对整体行为的理解。此外,残差路径长度不同,短路径为训练过程中的梯度做贡献,长梯度对该阶段没有影像。
  • Identity Mappings in Deep Residual Networks [157]:恒等映射『用作跳跃连接和 after-addition activation 时,允许在 ResNet block 中对信号进行前后和后向传输」。该方法改善了「1001 层的 ResNet 在 CIFAR-10(误差 4.62%)和 CIFAR-100 数据集,以及 200 层的 ResNet 在 ImageNet 上」的生成、训练和结果。
  • Multi-Residual Networks: Improving the Speed and Accuracy of Residual Networks [158]:再次提倡 ResNet 的集成,支持 ResNet 架构变得更宽、更深。「multi-residual network 增加了残差块中残差函数的数量。」提高的准确率使网络在 CIFAR-10 和 CIFAR-100 数据集上的误差分别是 3.73% 和 19.45%。


其他残差理论和改进。尽管它是最近提出的想法,但已经有大量研究围绕着 ResNet 展开。下面是一些相关的论文:


  • Highway and Residual Networks learn Unrolled Iterative Estimation[159]
  • Residual Networks of Residual Networks: Multilevel Residual Networks[160]
  • Resnet in Resnet: Generalizing Residual Architectures[161] 
  • Wider or Deeper: Revisiting the ResNet Model for Visual Recognition[162]
  • Bridging the Gaps Between Residual Learning, Recurrent Neural Networks and Visual Cortex[163]
  • Convolutional Residual Memory Networks[164]
  • Identity Matters in Deep Learning[165]
  • Deep Residual Networks with Exponential Linear Unit[166]
  • Weighted Residuals for Very Deep Networks[167]


数据集


不能过分夸大用于机器学习所有层面的丰富数据集的重要性。因此,我们审慎地收录该领域中一些最大进步。Kaggle CTO 兼联合创始人 Ben Hamner 曾说过「一个新数据集能催生出一千篇论文」[168],即数据的可用性能够催生新方法,并为之前无效的技术注入新活力。


2016 年,传统数据集如 ImageNet [169]、COCO [170]、 CIFARs [171] 和 MNIST [172] 中加入了大量新条目。我们还注意到制图技术的进步引发合成数据集的增长,它是满足人工神经网络对大量数据的需求的一种有趣工作。为了简洁起见,我们选择了 2016 年最重要的新数据集:


  • Places2 [173] 是一个场景分类数据集,其任务是使用一个场景分类(比如「体育馆」、「公园」等等)标注图像。尽管借助 Places2 数据集预测模型和图像理解无疑会有改善,从这个数据集上训练的网络得到一个有趣的发现是,在学习分类场景的过程中,网络无需经过明确指导学会了检测其中的物体。例如,卧室里有床和厨房与浴室里都有水池。这意味着在场景分类的抽象层级中,物体本身是较低水平的特征。

图 18:SceneNet RGB-D 示例。来自 SceneNet RGB-D 的示例,它是一个带有 500 万张真实感图像的合成室内轨迹的真值数据集。图片 (a) 通过计算图呈现,带有从 (b) 到 (e) 的特定任务的可用真值。合成数据集的创建有助于域适应进程,如果从其中学习到的知识无法应用到现实世界,那么合成数据集则是无意义的。这正是域适应发挥作用的地方,它具备把知识从一个领域迁移到另一个领域的能力,比如从合成图像到现实世界。域适应最近再次迅速发展,其在迁移学习方面的努力是亮点。列 (c) vs (d) 展示了实例与语义/分类分割之间的不同。来源:McCormac et al. (2017) [174]


  • SceneNet RGB-D [175]:此合成数据集扩展了原始的 SceneNet 数据集,为语义分割、实例分割和物体检测等场景理解问题以及光流、深度估计、相机姿态估计和三维重建等几何计算机视觉问题提供了像素完美的真值。该数据集通过提供像素完美的表征来细微化已选的环境。
  • CMPlaces [176] 是 MIT 的一个跨模态场景数据集,其任务是识别除自然图像以外的许多不同形态的场景,并且在这个过程中跨模态地迁移知识。其中一些形态如下:剪贴画、素描、空间文本以及自然语言描述。这篇论文同样也讨论了通过跨模态卷积神经网络处理这一类型问题的方法。

图 19:CMPlaces 跨模态场景表征。来自 CMPlaces 论文,它展示了两个实例,卧室和幼儿园教师。传统的神经网络方法学习无法在不同形态之间很好迁移的表征,并且该论文试图生成一个共享表征「形态不可知论」。来源:Aytar et al. (2016) [177]


CMPlaces 明显提及到迁移学习、域不变表征、域适应和多模态学习。所有这些都进一步证明了计算机视觉研究的当前进展。作者致力于试图找到「域/模态独立的表征」,它可以对应于人类借以获取统一表征的更高层级的抽象。比如以不同形态之中的「猫」为例,无论是看到猫这个单词,一只素描本中的猫,一张猫的真实图像,抑或是在演讲中提及猫,人类总会抽象出一个相同的统一表征,高于以上所有的形态。


人类能够独立地利用从形态中感知到的知识与经验,机器获得相似能力能够带来检索和识别方面的若干个重要应用。


  • MS-Celeb-1M [178] 包含一百万张名人图像,人脸识别训练集中有一千万张训练图像。
  • Open Images[179] 来自谷歌,有带有多标签的九百万张图像 URLs,这是对典型的单标签图像的一次巨大提升。Open images 涵盖 6000 个范畴,远高于之前 ImageNet 提供的 1000 个类别,这使其成为了机器学习社区不可或缺的一部分。
  • YouTube-8M[180] 同样也来自谷歌,它包含八百万个视频 URL、五十万小时视频时长以及 4800 个类别,每个视频平均 1.8 个标签。一些标签示例如下:艺术&娱乐、购物以及宠物&动物。视频数据集更加难以标注和收集,因此该数据集价值很大。


也就是说,图像理解的进步,如分割、物体分类和检测已经将视频理解带入了研究前沿。然而,在这个数据集发布之前,真实世界的视频数据集的种类和规模实际上很缺乏。此外,这个数据集刚刚更新 [181],并且今年谷歌联合 Kaggle 正组办一场视频理解竞赛,它是 CVPR 2017[182] 的一部分。有关 YouTube-8M 的一般信息请参见:https://research.google.com/youtube8m/[183]。


局限和趋势


这一部分总结其他应用、趋势、遗漏等。


应用/用例:


  • Facebook 构建的适合盲人的应用 [184] 和百度的硬件 [185]。
  • 情绪检测将人脸检测和语义分析结合起来,并发展迅速。目前有 20+ 可用 API [186]。
  • 从航空影像中提取道路 [187],从航测图和人口密度地图中提取土地使用分类 [188]。
  • Amazon Go 免排队商店提升了计算机视觉的重要性 [189],尽管目前还存在很多功能问题 [190]。
  • 现有很多为自动驾驶进行的大量研究,我们没有太多涉及。但是,对于那些想要深入研究市场趋势的人来说,Twenty Billion Neurons 公司的 Moritz Mueller-Freitag 关于德国汽车行业和自动驾驶汽车的影像有一些精彩的论断 [191]。
  • 其他有趣的领域:图像检索/搜索 [192]、手势识别、图像修复和人脸重建。
  • 也有大量研究是关于医学数字成像和通信(DICOM)和其他医疗应用的,尤其是成像方面。例如,大量 Kaggle 检测竞赛(肺癌、宫颈癌)。


但是,尽管研究还在继续改善这些算法的误差率,它们作为医疗从业者工具的价值越来越重要。医学专家 [194] + AI 系统 [193] 在乳腺癌检测上获得的性能提升实在令人震惊。在这个案例中,人机协作以 99.5% 的准确率远远超过人和机器单独的准确率。


这只是目前深度学习/机器学习社区探索的医疗应用洪流中的一个例子。我们团队的一些成员开玩笑地说这些尝试只是试图讨好社会,使人们认为 AI 研究是一种普遍、善意的力量。但是只要技术能够帮助医疗行业,且用安全、周密的方式引入,那么我们真诚地欢迎这样的进步。


硬件/市场


  • 机器人视觉/机器视觉(这是两个不同领域)以及物联网的潜在目标市场正在不断增长当中。深度学习的应用或许在其中会扮演重要的角色,通过是用树莓派和 TensorFlow,一个日本农民的儿子就可以利用计算机视觉对黄瓜的形状、色泽和尺寸进行分类 [195]。这一过程大大减少了他母亲分拣黄瓜的人工需求。
  • 计算需求的缩减和移动端移植的呼声是非常明显的,但计算机视觉应用的发展与硬件加速相关性仍然很高。我们很快就会见到移动端 CNN 和视觉处理单元(VPU)大量进入人们的手中。例如,Movidius Myriad2 正被谷歌 Project Tango 和一些无人机使用。[196]


Movidius Fathom 处理单元 [197] 也使用了 Myriad2 的技术,它允许用户将 SOTA 计算机视觉能力扩展到很多消费级产品中去。Fathom 就像一块 U 盘一样小巧,却可以轻松地将神经网络嵌入到几乎所有设备上。


  • 探测除可见光以外的传感器和系统也将得到发展:如雷达、红外线摄像头、高光谱成像、声呐、磁共振成像等等。
  • 更加便宜的 LiDAR,它通过发射不可见光束来探测距离,相对于常用 RGB 摄像头具有更多优势。LiDAR 设备目前的售价已经普遍低于 500 美元。
  • Hololens 和其他大量增强现实头盔 [198] 也将进入市场。
  • 谷歌的 Project Tango [199] 代表了 SLAM 商业化的未来。Tango 是一个增强现实的计算机平台,包含了新硬件和软件。Tango 可以探测移动设备的位置,并与现实世界展开互动,也可以在没有 GPS 或其他外部信息的情况下对周遭环境进行 3D 绘图。


在该项目中,谷歌与合作伙伴联想共同在 2016 年推出了一款中端手机,让开发者们可以在 Tango 平台上开发新的应用。Tango 包含了以下软件技术:运动跟踪、视场学习和深度知觉。


遗漏补充


值得注意的是计算机视觉和机器学习/人工智能的其他领域有很多重叠。这些内容在以上论述中均有涉及,在本文中,我们根据自己的思路对内容进行了划分。


例如,我们若决定将两个完整的计算机视觉任务:图像标注和视觉问答加入 NLP 系统中整合为视觉语音识别系统,该研究就同时具有了 CV 与 NLP 的组成部分,其中生成模型用于处理图像。这样的未来方向包含:


  • 唇读系统:在 2016 年,我们看到了像 LipNet [200] 这样的系统可以从视频中说话人的唇语中读取出文字内容,这种技术结合了计算机视觉与 NLP,形成了视觉语音识别。
  • 生成模型适用于图像领域,其中的各种自回归模型(如 PixelRNN、PixelCNN、ByteNet、VPN、WaveNet 等)、生成对抗网络(GAN)、变分自编码器以及它们的各种变体、结合与混合方法之间的技术竞争非常激烈。


在最后一节中,我们将给出一些结论性意见,总结出目前的发展趋势。我们希望能够得到计算机视觉领域近期发展的全貌。注意:该总结不包含 2017 年 1 月-8 月的早期内容——由于技术的快速发展,旧的技术已经被新的技术超越了。这种快速发展的态势将使得计算机视觉硬件和软件在 2022 年发展成为 486 亿美元规模的新市场。


图 20:计算机视觉应用市场利润发展预测 [202]。来源:Tractica(2016)[203]。


结论


在这里我们希望突出一些不断出现的趋势和重点研究方向。首先必须提到的是研究社区对于优化的重视,其中最明显的就是今年各类研究中准确度的提升。


错误率并不是唯一一个被关注的参数,研究人员同时也在关注速度、效率以及算法的泛化能力,希望其成果可以在其他任务中具有足够竞争力。像 one-shot learning、生成模型、迁移模型以及最近开始火热的进化模型等方法是目前的主流,这些方向正在逐渐产生影响,并催生出更好的工作。


尽管以上论述毫无疑问是对于未来的美好憧憬,但随着这个思路,我们不免会回到人工智能的终极问题——通用人工智能上来。尽管我们在计算机视觉领域和其他 AI 相关领域里进展很快,目前技术的发展距离我们需要担忧还有很长一段距离。只有通过不断公开这些信息,我们才能消除公众对于新技术的误解。


我们选择对最近一年的技术发展进行概述原因在于:目前的研究成果正呈指数级增长,即使对于业内人士来说,随时保持对最新研究的跟踪也是一件越来越困难的事了;同时,我们也想以年为单位对于技术的进步作出度量。


回顾一年来的进展,读者们或许会惊讶于目前技术发展的高速度,在很短的一段时间内,技术就已有了多次重大进步。这是因为研究者们已经建立了一个全球化的社区,让新的探索可以在前人的方法上(架构、元架构、技术、思想、提示、捷径、结果……)和基础工具上(Keras、TensorFlow、PyTorch、GPU 加速方法等等)更进一步,这是一件可喜可贺的事情。这样的开源环境绝无仅有,它正在不断鼓励新的研究者将他们从其他领域中(如经济学、物理学等等)得来的想法应用其中。


对于还未意识到这些的人来说,理解计算机视觉发展的现状非常重要,在一片赞扬声中,我们需要回到技术的本质上,去理解它;至少需要理解这项技术可以用新的方式来改变世界。然而,技术的发展还在展开,未来的时间线上仍然存在很多的分支。


希望本文可以帮助人工智能开发者快速获知计算机视觉和人工智能领域的最新进展。


原报告地址:http://www.themtank.org/a-year-in-computer-vision


2017-11-29 00:00:00 np4rHI455vg29y2 阅读数 1881
  • 计算机视觉实战:如何使用OpenCV构建视觉应用

    本次公开课讲师屈老师是哈尔滨工业大学副教授,视觉技术研究室负责人。课程会介绍计算机视觉的基本概念、系统基本构成及各要素。并使用OpenCV,带领大家从零开始一步一步的搭建一个简单但可用的实际的视觉跟踪系统,使大家从中学习视觉系统的构建及OpenCV系统实现。

    9528 人正在学习 去看看 AI100讲师

选自The M tank

机器之心编译

参与:蒋思源、刘晓坤


The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第一部分做了编译介绍,后续会放出其他部分内容。


内容目录


简介

第一部分

  • 分类/定位

  • 目标检测

  • 目标追踪

第二部分

  • 分割

  • 超分辨率、风格迁移、着色

  • 动作识别

第三部分

  • 3D 目标

  • 人体姿势估计

  • 3D 重建

  • 其他未分类 3D

  • 总结

第四部分

  • 卷积架构

  • 数据集

  • 不可分类的其他材料与有趣趋势

结论


完整 PDF 地址:http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf


简介


计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。


对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。


从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。


不过,我们目前仍然处于这个领域发展的胚胎期。这篇文章的目的在于阐明 2016 至 2017 年计算机视觉最主要的进步,以及这些进步对实际应用的促进。


为简单起见,这篇文章将仅限于基本的定义,并会省略很多内容,特别是关于各种卷积神经网络的设计架构等方面。


这里推荐一些学习资料,其中前两个适用与初学者快速打好基础,后两个可以作为进阶学习:


  • Andrej Karpathy:「What a Deep Neural Network thinks about your #selfie」,这是理解 CNN 的应用和设计功能的最好文章 [4]。

  • Quora:「what is a convolutional neural network?」,解释清晰明了,尤其适合初学者 [5]。

  • CS231n: Convolutional Neural Networks for Visual Recognition,斯坦福大学课程,是进阶学习的绝佳资源 [6]。

  • Deep Learning(Goodfellow,Bengio&Courville,2016),这本书在第 9 章提供了对 CNN 的特征和架构设计等详尽解释,网上有免费资源 [7]。


对于还想进一步了解神经网络和深度学习的,我们推荐:


  • Neural Networks and Deep Learning(Nielsen,2017),这是一本免费在线书籍,可为读者提供对神经网络和深度学习的复杂性的直观理解。即使只阅读了第 1 章也可以帮助初学者透彻地理解这篇文章。


下面我们先简介本文的第一部分,这一部分主要叙述了目标分类与定位、目标检测与目标追踪等十分基础与流行的计算机视觉任务。而后机器之心将陆续分享 Benjamin F. Duffy 和 Daniel R. Flynn 后面 3 部分对计算机视觉论述,包括第二部分的语义分割、超分辨率、风格迁移和动作识别,第三部分三维目标识别与重建、和第四部分卷积网络的架构与数据集等内容。


基础的计算机视觉任务


分类/定位


图像分类任务通常是指为整张图像分配特定的标签,如下左图整张图像的标签为 CAT。而定位是指找到识别目标在图像中出现的位置,通常这种位置信息将由对象周围的一些边界框表示出来。目前 ImageNet [9] 上的分类/定位的准确度已经超过了一组训练有素的人类 [10]。因此相对于前一部分的基础,我们会着重介绍后面如语义分割、3D 重建等内容。


图 1:计算机视觉任务,来源 cs231n 课程资料。


然而随着目标类别 [11] 的增加,引入大型数据集将为近期的研究进展提供新的度量标准。在这一方面,Keras [12] 创始人 Francois Chollet 将包括 Xception 等架构和新技术应用到谷歌内部的大型数据集中,该数据集包含 1.7 万个目标类别,共计 350M(Million)的多类别图像。


图 2:ILSVRC 竞赛中,分类/定位的逐年错误率,来源 Jia Deng (2016),ILSVRC2016。


ImageNet LSVRC(2016)亮点:


  • 场景分类是指用「温室」、「体育场」和「大教堂」等特定场景对图像进行分类。ImageNet 去年举办了基于 Places2[15] 子数据的场景分类挑战赛,该数据集有 365 个场景共计 8 百万 训练图像。海康威视 [16] 选择了深度类 Inception 的网络和并不太深的 ResNet,并利用它们的集成实现 9% 的 Top-5 误差率以赢得竞赛。

  • Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成(即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块 [17] 的平均结果)和基于标注的定位模型 Faster R-CNN [18] 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。

  • Facebook 的 ResNeXt 通过使用从原始 ResNet [19] 扩展出来的新架构而实现了 3.03% 的 Top-5 分类误差率。


目标检测


目标检测(Object Detection)即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016 [20] 对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同,目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标。


图 3:仅有人脸一个类别的目标检测。图为人脸检测的一个示例,作者表示目标识别的一个问题是小物体检测,检测图中较小的人脸有助于挖掘模型的尺度不变性、图像分辨率和情景推理的能力,来源 Hu and Ramanan (2016, p. 1)[21]。


目标识别领域在 2016 年主要的趋势之一是转向更快、更高效的检测系统。这一特性在 YOLO、SSD 和 R-FCN 方法上非常显著,它们都倾向于在整张图像上共享计算。因此可以将它们与 Fast/Faster R-CNN 等成本较高的子网络技术区分开开来,这些更快和高效的检测系统通常可以指代「端到端的训练或学习」。


这种共享计算的基本原理通常是避免将独立的算法聚焦在各自的子问题上,因为这样可以避免训练时长的增加和网络准确度的降低。也就是说这种端到端的适应性网络通常发生在子网络解决方案的初始之后,因此是一种可回溯的优化(retrospective optimisation)。然而,Fast/Faster R-CNN 技术仍然非常有效,仍然广泛用于目标检测任务。


  • SSD:Single Shot MultiBox Detector[22] 利用封装了所有必要计算并消除了高成本通信的单一神经网络,以实现了 75.1% mAP 和超过 Faster R-CNN 模型的性能(Liu et al. 2016)。

  • 我们在 2016 年看到最引人注目的系统是「YOLO9000: Better, Faster, Stronger」[23],它引入了 YOLOv2 和 YOLO9000 检测系统 [24]。YOLOv2 很大程度上提升了 2015 年提出的 YOLO 模型 [25] 性能,它能以非常高的 FPS(使用原版 GTX Titan X 在低分辨率图像上达到 90FPS)实现更好的结果。除了完成的速度外,系统在特定目标检测数据集上准确度要优于带有 ReNet 和 SSD 的 Faster RCNN。


YOLO9000 实现了检测和分类的联合训练,并将其预测泛化能力扩展到未知的检测数据上,即它能检测从未见过的目标或物体。YOLO9000 模型提供了 9000 多个类别的实时目标检测,缩小了分类和检测数据集间的鸿沟。该模型其它详细的信息和预训练模型请查看:http://pjreddie.com/darknet/yolo/。


  • Feature Pyramid Networks for Object Detection [27] 是 FAIR [28] 实验室提出的,它能利用「深度卷积网络的内部多尺度、金字塔型的层级结构构建具有边际额外成本的特征金字塔」,这意味着表征能更强大和快速。Lin et al. (2016) 在 COCO[29] 数据集上实现了顶尖的单模型结果。若与基础的 Faster R-CNN 相结合,将超过 2016 年最好的结果。

  • R-FCN:Object Detection via Region-based Fully Convolutional Networks [30],这是另一种在图像上避免应用数百次高成本的各区域子网络方法,它通过使基于区域的检测器在整张图像上进行全卷积和共享计算。「我们每张图像的测试时间只需要 170ms,要比 Faster R-CNN 快 2.5 到 20 倍」(Dai et al., 2016)。


图 4:目标检测中的准确率权衡,来源 Huang et al. (2016, p. 9)[31]。


注意:Y 轴表示的是平均准确率(mAP),X 轴表示不同元架构(meta-architecture)的各种特征提取器(VGG、MobileNet...Inception ResNet V2)。此外,mAP small、medium 和 large 分别表示对小型、中型和大型目标的检测平均准确率。即准确率是按「目标尺寸、元架构和特征提取器」进行分层的,并且图像的分辨率固定为 300。虽然 Faster R-CNN 在上述样本中表现得更好,但是这并没有什么价值,因为该元架构相比 R-FCN 来说慢得多。


Huang et al. (2016)[32] 的论文提供了 R-FCN、SSD 和 Faster R-CNN 的深度性能对比。由于机器学习准确率对比中存在的问题,这里使用的是一种标准化的方法。这些架构被视为元架构,因为它们可以组合不同的特征提取器,比如 ResNet 或 Inception。


论文的作者通过改变元架构、特征提取器和图像分辨率研究准确率和速度之间的权衡。例如,对不同特征提取器的选择可以造成元架构对比的非常大的变化。


实时商业应用中需要低功耗和高效同时能保持准确率的目标检测方法,尤其是自动驾驶应用,SqueezeDet[33] 和 PVANet[34] 在论文中描述了这种发展趋势。


COCO[36] 是另一个常用的图像数据集。然而,它相对于 ImageNet 来说更小,更常被用作备选数据集。ImageNet 聚焦于目标识别,拥有情景理解的更广泛的语境。组织者主办了一场包括目标检测、分割和关键点标注的年度挑战赛。在 ILSVRC[37] 和 COCO[38] 上进行的目标检测挑战赛的结果如下:


  • ImageNet LSVRC 图像目标检测(DET):CUImage 66% 平均准确率,在 200 个类别中有 109 个胜出。

  • ImageNet LSVRC 视频目标检测(VID):NUIST 80.8% 平均准确率。

  • ImageNet LSVRC 视频追踪目标检测:CUvideo 55.8% 平均准确率。

  • COCO 2016 目标检测挑战赛(边界框):G-RMI(谷歌)41.5% 平均准确率(比 2015 的胜者 MSRAVC 高出 4.2% 绝对百分点)。


从以上结果可以看出,在 ImageNet 上的结果表明「MSRAVC 2015 的结果为『引入 ResNet』设置了很高的标准。在整个项目中对所有的类别的目标检测性能都有所提升。在两个挑战赛中,定位任务的性能都得到较大的提升。关于小型目标实例的大幅性能提升结果详见参考文献」(ImageNet,2016)。[39]


图 5.ILSVRC 的图像目标检测结果(2013-2016),来源 ImageNet. 2016. [Online] Workshop


目标追踪


目标追踪即在给定的场景中追踪感兴趣的一个或多个特定目标的过程,在视频和现实世界的交互中(通常是从追踪初始的目标检测开始的)有很多应用,且对于自动驾驶而言非常重要。


  • Fully-Convolutional Siamese Networks for Object Tracking[40],将一个连体网络(Siamese network)结合一个基础的追踪算法,使用端到端的训练方法,达到了当前最佳,图框显示率超过了实时应用的需求。这篇论文利用传统在线学习方法构建追踪模型。

  • Learning to Track at 100 FPS with Deep Regression Networks[41],该论文试图改善在线训练方法中存在的缺陷。他们构建了一个使用前馈网络学习目标运动、外观和方向中的普遍关系的追踪器,从而可以在没有在线训练的情况下有效地追踪到新的目标。该算法在一个标准的追踪基准测试中达到了当前最佳,同时可以 100FPS 的帧数追踪所有的目标(Held et al.,2016)。

  • Deep Motion Features for Visual Tracking[43] 结合了手工设计的特征、深度外观特征(利用 CNN)和深度运动特征(在光流图像上训练),并取得了当前最佳的结果。虽然深度运动特征在动作识别和视频分类中很常见,但作者声称这是其首次被应用于视觉追踪上。该论文获得了 ICPR2016 的「计算机视觉和机器人视觉」的最佳论文。


「本论文展示了深度运动特征(motion features)对检测和追踪框架的影响。我们还进一步说明了手工制作的特征、深度 RGB 和深度运用特征包含互补信息。据我们所知,这是第一个提出融合外表信息和深度运动特征,并用于视觉追踪的研究。我们全面的实验表明融合方法具有深度运动特征,并超过了单纯依赖外表信息的方法。」


  • Virtual Worlds as Proxy for Multi-Object Tracking Analysis [44] 方法解决了现有虚拟世界中缺乏真实可变性视频追踪基准和数据集。该论文提出了一种新的真实世界复制方法,该方法从头开始生成丰富、虚拟、合成和照片逼真的环境。此外,该方法还能克服现有数据集中存在的一些内容匮乏问题。生成的图像能自动通过正确的真值进行标注,并允许应用于除目标检测/追踪外其它如光流等任务。

  • Globally Optimal Object Tracking with Fully Convolutional Networks [45] 专注处理目标变化和遮挡,并将它们作为目标追踪的两个根本限制。「我们提出的方法通过使用全卷积网络解决物体或目标外表的变化,还通过动态规划的方法解决遮挡情况」(Lee et al., 2016)。


参考文献:


[1] British Machine Vision Association (BMVA). 2016. What is computer vision? [Online] Available at: http://www.bmva.org/visionoverview [Accessed 21/12/2016]

[2] Krizhevsky, A., Sutskever, I. and Hinton, G. E. 2012. ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Available: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf 

[3] Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 4th ed. United States: The University of Chicago Press.

[4] Karpathy, A. 2015. What a Deep Neural Network thinks about your #selfie. [Blog] Andrej Karpathy Blog. Available: http://karpathy.github.io/2015/10/25/selfie/ [Accessed: 21/12/2016]

[5] Quora. 2016. What is a convolutional neural network? [Online] Available: https://www.quora.com/What-is-a-convolutional-neural-network [Accessed: 21/12/2016]

[6] Stanford University. 2016. Convolutional Neural Networks for Visual Recognition. [Online] CS231n. Available: http://cs231n.stanford.edu/ [Accessed 21/12/2016]

[7] Goodfellow et al. 2016. Deep Learning. MIT Press. [Online] http://www.deeplearningbook.org/ [Accessed: 21/12/2016] Note: Chapter 9, Convolutional Networks [Available: http://www.deeplearningbook.org/contents/convnets.html]

[8] Nielsen, M. 2017. Neural Networks and Deep Learning. [Online] EBook. Available: http://neuralnetworksanddeeplearning.com/index.html [Accessed: 06/03/2017].

[9] ImageNet refers to a popular image dataset for Computer Vision. Each year entrants compete in a series of different tasks called the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Available: http://image-net.org/challenges/LSVRC/2016/index 

[10] See「What I learned from competing against a ConvNet on ImageNet」by Andrej Karpathy. The blog post details the author』s journey to provide a human benchmark against the ILSVRC 2014 dataset. The error rate was approximately 5.1% versus a then state-of-the-art GoogLeNet classification error of 6.8%. Available: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/ 

[11] See new datasets later in this piece.

[12] Keras is a popular neural network-based deep learning library: https://keras.io/ 

[13] Chollet, F. 2016. Information-theoretical label embeddings for large-scale image classification. [Online] arXiv: 1607.05691. Available: arXiv:1607.05691v1

[14] Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. [Online] arXiv:1610.02357. Available: arXiv:1610.02357v2

[15] Places2 dataset, details available: http://places2.csail.mit.edu/. See also new datasets section.

[16] Hikvision. 2016. Hikvision ranked No.1 in Scene Classification at ImageNet 2016 challenge. [Online] Security News Desk. Available: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/ [Accessed: 20/03/2017].

[17] See Residual Networks in Part Four of this publication for more details.

[18] Details available under team information Trimps-Soushen from: http://image-net.org/challenges/LSVRC/2016/results

[19] Xie, S., Girshick, R., Dollar, P., Tu, Z. & He, K. 2016. Aggregated Residual Transformations for Deep Neural Networks. [Online] arXiv: 1611.05431. Available: arXiv:1611.05431v1

[20] ImageNet Large Scale Visual Recognition Challenge (2016), Part II, Available: http://image-net.org/challenges/LSVRC/2016/ [Accessed: 22/11/2016]

[21] Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. Available: arXiv:1612.04402v1

[22] Liu et al. 2016. SSD: Single Shot MultiBox Detector. [Online] arXiv: 1512.02325v5. Available: arXiv:1512.02325v5

[23] Redmon, J. Farhadi, A. 2016. YOLO9000: Better, Faster, Stronger. [Online] arXiv: 1612.08242v1. Available: arXiv:1612.08242v1 

[24] YOLO stands for「You Only Look Once」.

[25] Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection. [Online] arXiv: 1506.02640. Available: arXiv:1506.02640v5 

[26]Redmon. 2017. YOLO: Real-Time Object Detection. [Website] pjreddie.com. Available: https://pjreddie.com/darknet/yolo/ [Accessed: 01/03/2017].

[27] Lin et al. 2016. Feature Pyramid Networks for Object Detection. [Online] arXiv: 1612.03144. Available: arXiv:1612.03144v1

[28] Facebook's Artificial Intelligence Research

[29] Common Objects in Context (COCO) image dataset

[30] Dai et al. 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks. [Online] arXiv: 1605.06409. Available: arXiv:1605.06409v2 

[31] Huang et al. 2016. Speed/accuracy trade-offs for modern convolutional object detectors. [Online] arXiv: 1611.10012. Available: arXiv:1611.10012v1

[32] ibid

[33] Wu et al. 2016. SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving. [Online] arXiv: 1612.01051. Available: arXiv:1612.01051v2

[34] Hong et al. 2016. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection. [Online] arXiv: 1611.08588v2. Available: arXiv:1611.08588v2

[35] DeepGlint Official. 2016. DeepGlint CVPR2016. [Online] Youtube.com. Available: https://www.youtube.com/watch?v=xhp47v5OBXQ [Accessed: 01/03/2017].

[36] COCO - Common Objects in Common. 2016. [Website] Available: http://mscoco.org/ [Accessed: 04/01/2017].

[37] ILSRVC results taken from: ImageNet. 2016. Large Scale Visual Recognition Challenge 2016.

 [Website] Object Detection. Available: http://image-net.org/challenges/LSVRC/2016/results [Accessed: 04/01/2017].

[38] COCO Detection Challenge results taken from: COCO - Common Objects in Common. 2016. Detections Leaderboard [Website] mscoco.org. Available: http://mscoco.org/dataset/#detections-leaderboard [Accessed: 05/01/2017].

[39] ImageNet. 2016. [Online] Workshop Presentation, Slide 31. Available: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [Accessed: 06/01/2017].

[40] Bertinetto et al. 2016. Fully-Convolutional Siamese Networks for Object Tracking. [Online] arXiv: 1606.09549. Available: https://arxiv.org/abs/1606.09549v2 

[41] Held et al. 2016. Learning to Track at 100 FPS with Deep Regression Networks. [Online] arXiv: 1604.01802. Available: https://arxiv.org/abs/1604.01802v2 

[42] David Held. 2016. GOTURN - a neural network tracker. [Online] YouTube.com. Available: https://www.youtube.com/watch?v=kMhwXnLgT_I [Accessed: 03/03/2017].

[43] Gladh et al. 2016. Deep Motion Features for Visual Tracking. [Online] arXiv: 1612.06615. Available: arXiv:1612.06615v1

[44] Gaidon et al. 2016. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. [Online] arXiv: 1605.06457. Available: arXiv:1605.06457v1

[45] Lee et al. 2016. Globally Optimal Object Tracking with Fully Convolutional Networks. [Online] arXiv: 1612.08274. Available: arXiv:1612.08274v1


原报告地址:http://www.themtank.org/a-year-in-computer-vision



本文为机器之心编译



人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





产业智能官  AI-CPS



用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链






长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”


详细介绍,访问官网:AI-CPS.NET




本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




2017-11-27 16:35:07 u014652390 阅读数 3890
  • 计算机视觉实战:如何使用OpenCV构建视觉应用

    本次公开课讲师屈老师是哈尔滨工业大学副教授,视觉技术研究室负责人。课程会介绍计算机视觉的基本概念、系统基本构成及各要素。并使用OpenCV,带领大家从零开始一步一步的搭建一个简单但可用的实际的视觉跟踪系统,使大家从中学习视觉系统的构建及OpenCV系统实现。

    9528 人正在学习 去看看 AI100讲师

       本文转载文章,原文http://www.sohu.com/a/206707295_465975,备份在此,为了将来方便查阅,如有不妥,请联系我删除,谢谢原创分享

选自The M tank 参与:蒋思源、刘晓坤

The M Tank 编辑了一份报告《A Year in Computer Vision》,记录了 2016 至 2017 年计算机视觉领域的研究成果,对开发者和研究人员来说是不可多得的一份详细材料。该材料共包括四大部分,在本文中机器之心对第一部分做了编译介绍,后续会放出其他部分内容。

内容目录

简介

第一部分

  • 分类/定位

  • 目标检测

  • 目标追踪

第二部分

  • 分割

  • 超分辨率、风格迁移、着色

  • 动作识别

第三部分

  • 3D 目标

  • 人体姿势估计

  • 3D 重建

  • 其他未分类 3D

  • 总结

第四部分

  • 卷积架构

  • 数据集

  • 不可分类的其他材料与有趣趋势

结论

完整 PDF 地址:http://www.themtank.org/pdfs/AYearofComputerVisionPDF.pdf

简介

计算机视觉是关于研究机器视觉能力的学科,或者说是使机器能对环境和其中的刺激进行可视化分析的学科。机器视觉通常涉及对图像或视频的评估,英国机器视觉协会(BMVA)将机器视觉定义为「对单张图像或一系列图像的有用信息进行自动提取、分析和理解」。

对我们环境的真正理解不是仅通过视觉表征就可以达成的。更准确地说,是视觉线索通过视觉神经传输到主视觉皮层,然后由大脑以高度特征化的形式进行分析的过程。从这种感觉信息中提取解释几乎包含了我们所有的自然演化和主体经验,即进化如何令我们生存下来,以及我们如何在一生中对世界进行学习和理解。

从这方面来说,视觉过程仅仅是传输图像并进行解释的过程,然而从计算的角度看,图像其实更接近思想或认知,涉及大脑的大量功能。因此,由于跨领域特性很显著,很多人认为计算机视觉是对视觉环境和其中语境的真实理解,并将引领我们实现强人工智能。

不过,我们目前仍然处于这个领域发展的胚胎期。这篇文章的目的在于阐明 2016 至 2017 年计算机视觉最主要的进步,以及这些进步对实际应用的促进。

为简单起见,这篇文章将仅限于基本的定义,并会省略很多内容,特别是关于各种卷积神经网络的设计架构等方面。

这里推荐一些学习资料,其中前两个适用与初学者快速打好基础,后两个可以作为进阶学习:

  • Andrej Karpathy:「What a Deep Neural Network thinks about your #selfie」,这是理解 CNN 的应用和设计功能的最好文章 [4]。

  • Quora:「what is a convolutional neural network?」,解释清晰明了,尤其适合初学者 [5]。

  • CS231n: Convolutional Neural Networks for Visual Recognition,斯坦福大学课程,是进阶学习的绝佳资源 [6]。

  • Deep Learning(Goodfellow,Bengio&Courville,2016),这本书在第 9 章提供了对 CNN 的特征和架构设计等详尽解释,网上有免费资源 [7]。

对于还想进一步了解神经网络和深度学习的,我们推荐:

  • Neural Networks and Deep Learning(Nielsen,2017),这是一本免费在线书籍,可为读者提供对神经网络和深度学习的复杂性的直观理解。即使只阅读了第 1 章也可以帮助初学者透彻地理解这篇文章。

下面我们先简介本文的第一部分,这一部分主要叙述了目标分类与定位、目标检测与目标追踪等十分基础与流行的计算机视觉任务。而后机器之心将陆续分享 Benjamin F. Duffy 和 Daniel R. Flynn 后面 3 部分对计算机视觉论述,包括第二部分的语义分割、超分辨率、风格迁移和动作识别,第三部分三维目标识别与重建、和第四部分卷积网络的架构与数据集等内容。

基础的计算机视觉任务

分类/定位

图像分类任务通常是指为整张图像分配特定的标签,如下左图整张图像的标签为 CAT。而定位是指找到识别目标在图像中出现的位置,通常这种位置信息将由对象周围的一些边界框表示出来。目前 ImageNet [9] 上的分类/定位的准确度已经超过了一组训练有素的人类 [10]。因此相对于前一部分的基础,我们会着重介绍后面如语义分割、3D 重建等内容。

图 1:计算机视觉任务,来源 cs231n 课程资料。

然而随着目标类别 [11] 的增加,引入大型数据集将为近期的研究进展提供新的度量标准。在这一方面,Keras [12] 创始人 Francois Chollet 将包括 Xception 等架构和新技术应用到谷歌内部的大型数据集中,该数据集包含 1.7 万个目标类别,共计 350M(Million)的多类别图像。

图 2:ILSVRC 竞赛中,分类/定位的逐年错误率,来源 Jia Deng (2016),ILSVRC2016。

ImageNet LSVRC(2016)亮点:

  • 场景分类是指用「温室」、「体育场」和「大教堂」等特定场景对图像进行分类。ImageNet 去年举办了基于 Places2[15] 子数据的场景分类挑战赛,该数据集有 365 个场景共计 8 百万 训练图像。海康威视 [16] 选择了深度类 Inception 的网络和并不太深的 ResNet,并利用它们的集成实现 9% 的 Top-5 误差率以赢得竞赛。

  • Trimps-Soushen 以 2.99% 的 Top-5 分类误差率和 7.71% 的定位误差率赢得了 ImageNet 分类任务的胜利。该团队使用了分类模型的集成(即 Inception、Inception-ResNet、ResNet 和宽度残差网络模块 [17] 的平均结果)和基于标注的定位模型 Faster R-CNN [18] 来完成任务。训练数据集有 1000 个类别共计 120 万的图像数据,分割的测试集还包括训练未见过的 10 万张测试图像。

  • Facebook 的 ResNeXt 通过使用从原始 ResNet [19] 扩展出来的新架构而实现了 3.03% 的 Top-5 分类误差率。

目标检测

目标检测(Object Detection)即如字面所说的检测图像中包含的物体或目标。ILSVRC 2016 [20] 对目标检测的定义为输出单个物体或对象的边界框与标签。这与分类/定位任务不同,目标检测将分类和定位技术应用到一张图像的多个目标而不是一个主要的目标。

图 3:仅有人脸一个类别的目标检测。图为人脸检测的一个示例,作者表示目标识别的一个问题是小物体检测,检测图中较小的人脸有助于挖掘模型的尺度不变性、图像分辨率和情景推理的能力,来源 Hu and Ramanan (2016, p. 1)[21]。

目标识别领域在 2016 年主要的趋势之一是转向更快、更高效的检测系统。这一特性在 YOLO、SSD 和 R-FCN 方法上非常显著,它们都倾向于在整张图像上共享计算。因此可以将它们与 Fast/Faster R-CNN 等成本较高的子网络技术区分开开来,这些更快和高效的检测系统通常可以指代「端到端的训练或学习」。

这种共享计算的基本原理通常是避免将独立的算法聚焦在各自的子问题上,因为这样可以避免训练时长的增加和网络准确度的降低。也就是说这种端到端的适应性网络通常发生在子网络解决方案的初始之后,因此是一种可回溯的优化(retrospective optimisation)。然而,Fast/Faster R-CNN 技术仍然非常有效,仍然广泛用于目标检测任务。

  • SSD:Single Shot MultiBox Detector[22] 利用封装了所有必要计算并消除了高成本通信的单一神经网络,以实现了 75.1% mAP 和超过 Faster R-CNN 模型的性能(Liu et al. 2016)。

  • 我们在 2016 年看到最引人注目的系统是「YOLO9000: Better, Faster, Stronger」[23],它引入了 YOLOv2 和 YOLO9000 检测系统 [24]。YOLOv2 很大程度上提升了 2015 年提出的 YOLO 模型 [25] 性能,它能以非常高的 FPS(使用原版 GTX Titan X 在低分辨率图像上达到 90FPS)实现更好的结果。除了完成的速度外,系统在特定目标检测数据集上准确度要优于带有 ReNet 和 SSD 的 Faster RCNN。

YOLO9000 实现了检测和分类的联合训练,并将其预测泛化能力扩展到未知的检测数据上,即它能检测从未见过的目标或物体。YOLO9000 模型提供了 9000 多个类别的实时目标检测,缩小了分类和检测数据集间的鸿沟。该模型其它详细的信息和预训练模型请查看:http://pjreddie.com/darknet/yolo/。

  • Feature Pyramid Networks for Object Detection [27] 是 FAIR [28] 实验室提出的,它能利用「深度卷积网络的内部多尺度、金字塔型的层级结构构建具有边际额外成本的特征金字塔」,这意味着表征能更强大和快速。Lin et al. (2016) 在 COCO[29] 数据集上实现了顶尖的单模型结果。若与基础的 Faster R-CNN 相结合,将超过 2016 年最好的结果。

  • R-FCN:Object Detection via Region-based Fully Convolutional Networks [30],这是另一种在图像上避免应用数百次高成本的各区域子网络方法,它通过使基于区域的检测器在整张图像上进行全卷积和共享计算。「我们每张图像的测试时间只需要 170ms,要比 Faster R-CNN 快 2.5 到 20 倍」(Dai et al., 2016)。

图 4:目标检测中的准确率权衡,来源 Huang et al. (2016, p. 9)[31]。

注意:Y 轴表示的是平均准确率(mAP),X 轴表示不同元架构(meta-architecture)的各种特征提取器(VGG、MobileNet...Inception ResNet V2)。此外,mAP small、medium 和 large 分别表示对小型、中型和大型目标的检测平均准确率。即准确率是按「目标尺寸、元架构和特征提取器」进行分层的,并且图像的分辨率固定为 300。虽然 Faster R-CNN 在上述样本中表现得更好,但是这并没有什么价值,因为该元架构相比 R-FCN 来说慢得多。

Huang et al. (2016)[32] 的论文提供了 R-FCN、SSD 和 Faster R-CNN 的深度性能对比。由于机器学习准确率对比中存在的问题,这里使用的是一种标准化的方法。这些架构被视为元架构,因为它们可以组合不同的特征提取器,比如 ResNet 或 Inception。

论文的作者通过改变元架构、特征提取器和图像分辨率研究准确率和速度之间的权衡。例如,对不同特征提取器的选择可以造成元架构对比的非常大的变化。

实时商业应用中需要低功耗和高效同时能保持准确率的目标检测方法,尤其是自动驾驶应用,SqueezeDet[33] 和 PVANet[34] 在论文中描述了这种发展趋势。

COCO[36] 是另一个常用的图像数据集。然而,它相对于 ImageNet 来说更小,更常被用作备选数据集。ImageNet 聚焦于目标识别,拥有情景理解的更广泛的语境。组织者主办了一场包括目标检测、分割和关键点标注的年度挑战赛。在 ILSVRC[37] 和 COCO[38] 上进行的目标检测挑战赛的结果如下:

  • ImageNet LSVRC 图像目标检测(DET):CUImage 66% 平均准确率,在 200 个类别中有 109 个胜出。

  • ImageNet LSVRC 视频目标检测(VID):NUIST 80.8% 平均准确率。

  • ImageNet LSVRC 视频追踪目标检测:CUvideo 55.8% 平均准确率。

  • COCO 2016 目标检测挑战赛(边界框):G-RMI(谷歌)41.5% 平均准确率(比 2015 的胜者 MSRAVC 高出 4.2% 绝对百分点)。

从以上结果可以看出,在 ImageNet 上的结果表明「MSRAVC 2015 的结果为『引入 ResNet』设置了很高的标准。在整个项目中对所有的类别的目标检测性能都有所提升。在两个挑战赛中,定位任务的性能都得到较大的提升。关于小型目标实例的大幅性能提升结果详见参考文献」(ImageNet,2016)。[39]

图 5.ILSVRC 的图像目标检测结果(2013-2016),来源 ImageNet. 2016. [Online] Workshop

目标追踪

目标追踪即在给定的场景中追踪感兴趣的一个或多个特定目标的过程,在视频和现实世界的交互中(通常是从追踪初始的目标检测开始的)有很多应用,且对于自动驾驶而言非常重要。

  • Fully-Convolutional Siamese Networks for Object Tracking[40],将一个连体网络(Siamese network)结合一个基础的追踪算法,使用端到端的训练方法,达到了当前最佳,图框显示率超过了实时应用的需求。这篇论文利用传统在线学习方法构建追踪模型。

  • Learning to Track at 100 FPS with Deep Regression Networks[41],该论文试图改善在线训练方法中存在的缺陷。他们构建了一个使用前馈网络学习目标运动、外观和方向中的普遍关系的追踪器,从而可以在没有在线训练的情况下有效地追踪到新的目标。该算法在一个标准的追踪基准测试中达到了当前最佳,同时可以 100FPS 的帧数追踪所有的目标(Held et al.,2016)。

  • Deep Motion Features for Visual Tracking[43] 结合了手工设计的特征、深度外观特征(利用 CNN)和深度运动特征(在光流图像上训练),并取得了当前最佳的结果。虽然深度运动特征在动作识别和视频分类中很常见,但作者声称这是其首次被应用于视觉追踪上。该论文获得了 ICPR2016 的「计算机视觉和机器人视觉」的最佳论文。

「本论文展示了深度运动特征(motion features)对检测和追踪框架的影响。我们还进一步说明了手工制作的特征、深度 RGB 和深度运用特征包含互补信息。据我们所知,这是第一个提出融合外表信息和深度运动特征,并用于视觉追踪的研究。我们全面的实验表明融合方法具有深度运动特征,并超过了单纯依赖外表信息的方法。」

  • Virtual Worlds as Proxy for Multi-Object Tracking Analysis [44] 方法解决了现有虚拟世界中缺乏真实可变性视频追踪基准和数据集。该论文提出了一种新的真实世界复制方法,该方法从头开始生成丰富、虚拟、合成和照片逼真的环境。此外,该方法还能克服现有数据集中存在的一些内容匮乏问题。生成的图像能自动通过正确的真值进行标注,并允许应用于除目标检测/追踪外其它如光流等任务。

  • Globally Optimal Object Tracking with Fully Convolutional Networks [45] 专注处理目标变化和遮挡,并将它们作为目标追踪的两个根本限制。「我们提出的方法通过使用全卷积网络解决物体或目标外表的变化,还通过动态规划的方法解决遮挡情况」(Lee et al., 2016)。

参考文献:

[1] British Machine Vision Association (BMVA). 2016. What is computer vision? [Online] Available at: http://www.bmva.org/visionoverview [Accessed 21/12/2016]

[2] Krizhevsky, A., Sutskever, I. and Hinton, G. E. 2012. ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Available: http://www.cs.toronto.edu/~kriz/imagenet_classification_with_deep_convolutional.pdf

[3] Kuhn, T. S. 1962. The Structure of Scientific Revolutions. 4th ed. United States: The University of Chicago Press.

[4] Karpathy, A. 2015. What a Deep Neural Network thinks about your #selfie. [Blog] Andrej Karpathy Blog. Available: http://karpathy.github.io/2015/10/25/selfie/ [Accessed: 21/12/2016]

[5] Quora. 2016. What is a convolutional neural network? [Online] Available: https://www.quora.com/What-is-a-convolutional-neural-network [Accessed: 21/12/2016]

[6] Stanford University. 2016. Convolutional Neural Networks for Visual Recognition. [Online] CS231n. Available: http://cs231n.stanford.edu/ [Accessed 21/12/2016]

[7] Goodfellow et al. 2016. Deep Learning. MIT Press. [Online] http://www.deeplearningbook.org/ [Accessed: 21/12/2016] Note: Chapter 9, Convolutional Networks [Available: http://www.deeplearningbook.org/contents/convnets.html]

[8] Nielsen, M. 2017. Neural Networks and Deep Learning. [Online] EBook. Available: http://neuralnetworksanddeeplearning.com/index.html [Accessed: 06/03/2017].

[9] ImageNet refers to a popular image dataset for Computer Vision. Each year entrants compete in a series of different tasks called the ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Available: http://image-net.org/challenges/LSVRC/2016/index

[10] See「What I learned from competing against a ConvNet on ImageNet」by Andrej Karpathy. The blog post details the author』s journey to provide a human benchmark against the ILSVRC 2014 dataset. The error rate was approximately 5.1% versus a then state-of-the-art GoogLeNet classification error of 6.8%. Available: http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

[11] See new datasets later in this piece.

[12] Keras is a popular neural network-based deep learning library: https://keras.io/

[13] Chollet, F. 2016. Information-theoretical label embeddings for large-scale image classification. [Online] arXiv: 1607.05691. Available: arXiv:1607.05691v1

[14] Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. [Online] arXiv:1610.02357. Available: arXiv:1610.02357v2

[15] Places2 dataset, details available: http://places2.csail.mit.edu/. See also new datasets section.

[16] Hikvision. 2016. Hikvision ranked No.1 in Scene Classification at ImageNet 2016 challenge. [Online] Security News Desk. Available: http://www.securitynewsdesk.com/hikvision-ranked-no-1-scene-classification-imagenet-2016-challenge/ [Accessed: 20/03/2017].

[17] See Residual Networks in Part Four of this publication for more details.

[18] Details available under team information Trimps-Soushen from: http://image-net.org/challenges/LSVRC/2016/results

[19] Xie, S., Girshick, R., Dollar, P., Tu, Z. & He, K. 2016. Aggregated Residual Transformations for Deep Neural Networks. [Online] arXiv: 1611.05431. Available: arXiv:1611.05431v1

[20] ImageNet Large Scale Visual Recognition Challenge (2016), Part II, Available: http://image-net.org/challenges/LSVRC/2016/ [Accessed: 22/11/2016]

[21] Hu and Ramanan. 2016. Finding Tiny Faces. [Online] arXiv: 1612.04402. Available: arXiv:1612.04402v1

[22] Liu et al. 2016. SSD: Single Shot MultiBox Detector. [Online] arXiv: 1512.02325v5. Available: arXiv:1512.02325v5

[23] Redmon, J. Farhadi, A. 2016. YOLO9000: Better, Faster, Stronger. [Online] arXiv: 1612.08242v1. Available: arXiv:1612.08242v1

[24] YOLO stands for「You Only Look Once」.

[25] Redmon et al. 2016. You Only Look Once: Unified, Real-Time Object Detection. [Online] arXiv: 1506.02640. Available: arXiv:1506.02640v5

[26]Redmon. 2017. YOLO: Real-Time Object Detection. [Website] pjreddie.com. Available: https://pjreddie.com/darknet/yolo/ [Accessed: 01/03/2017].

[27] Lin et al. 2016. Feature Pyramid Networks for Object Detection. [Online] arXiv: 1612.03144. Available: arXiv:1612.03144v1

[28] Facebook's Artificial Intelligence Research

[29] Common Objects in Context (COCO) image dataset

[30] Dai et al. 2016. R-FCN: Object Detection via Region-based Fully Convolutional Networks. [Online] arXiv: 1605.06409. Available: arXiv:1605.06409v2

[31] Huang et al. 2016. Speed/accuracy trade-offs for modern convolutional object detectors. [Online] arXiv: 1611.10012. Available: arXiv:1611.10012v1

[32] ibid

[33] Wu et al. 2016. SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving. [Online] arXiv: 1612.01051. Available: arXiv:1612.01051v2

[34] Hong et al. 2016. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection. [Online] arXiv: 1611.08588v2. Available: arXiv:1611.08588v2

[35] DeepGlint Official. 2016. DeepGlint CVPR2016. [Online] Youtube.com. Available: https://www.youtube.com/watch?v=xhp47v5OBXQ [Accessed: 01/03/2017].

[36] COCO - Common Objects in Common. 2016. [Website] Available: http://mscoco.org/ [Accessed: 04/01/2017].

[37] ILSRVC results taken from: ImageNet. 2016. Large Scale Visual Recognition Challenge 2016.

[Website] Object Detection. Available: http://image-net.org/challenges/LSVRC/2016/results [Accessed: 04/01/2017].

[38] COCO Detection Challenge results taken from: COCO - Common Objects in Common. 2016. Detections Leaderboard [Website] mscoco.org. Available: http://mscoco.org/dataset/#detections-leaderboard [Accessed: 05/01/2017].

[39] ImageNet. 2016. [Online] Workshop Presentation, Slide 31. Available: http://image-net.org/challenges/talks/2016/ECCV2016_ilsvrc_coco_detection_segmentation.pdf [Accessed: 06/01/2017].

[40] Bertinetto et al. 2016. Fully-Convolutional Siamese Networks for Object Tracking. [Online] arXiv: 1606.09549. Available: https://arxiv.org/abs/1606.09549v2

[41] Held et al. 2016. Learning to Track at 100 FPS with Deep Regression Networks. [Online] arXiv: 1604.01802. Available: https://arxiv.org/abs/1604.01802v2

[42] David Held. 2016. GOTURN - a neural network tracker. [Online] YouTube.com. Available: https://www.youtube.com/watch?v=kMhwXnLgT_I [Accessed: 03/03/2017].

[43] Gladh et al. 2016. Deep Motion Features for Visual Tracking. [Online] arXiv: 1612.06615. Available: arXiv:1612.06615v1

[44] Gaidon et al. 2016. Virtual Worlds as Proxy for Multi-Object Tracking Analysis. [Online] arXiv: 1605.06457. Available: arXiv:1605.06457v1

[45] Lee et al. 2016. Globally Optimal Object Tracking with Fully Convolutional Networks. [Online] arXiv: 1612.08274. Available: arXiv:1612.08274v1

原报告地址:http://www.themtank.org/a-year-in-computer-vision

2019-01-22 08:00:00 cpongo4 阅读数 41
  • 计算机视觉实战:如何使用OpenCV构建视觉应用

    本次公开课讲师屈老师是哈尔滨工业大学副教授,视觉技术研究室负责人。课程会介绍计算机视觉的基本概念、系统基本构成及各要素。并使用OpenCV,带领大家从零开始一步一步的搭建一个简单但可用的实际的视觉跟踪系统,使大家从中学习视觉系统的构建及OpenCV系统实现。

    9528 人正在学习 去看看 AI100讲师

序言

人的大脑分配了大量的资源用于视觉,对视觉的“投入”比听觉、味觉、嗅觉多得多:40%-50% 的神经元都与视觉功能有关,在大脑顶层 IT 区尤为密集。相较于其他感官,人类使用眼的场景也更多,平均活跃时间也更多,视觉占据人类感官系统的 80%。

于是,看,是人类感知世界最直接的方式。

随着技术的进步,人类已经不仅仅满足于用自己的眼睛看世界、看宇宙,因为人类本身生理结构的局限性,有些东西是光靠人类的眼睛看不到的,所以人类开始研究如何教会机器去“看”。

计算机视觉就是这样一门学科,用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。

2016年被很多人称作人工智能的元年,但对于中国计算机视觉来说,2012年开始,就已经陆续出现了不少后来为人所熟知的CV初创公司,依图科技、旷视科技等等都是在那一年创立的。

据AI前线调查,这些企业主要创立的时间都集中在2015~2016年前后,2015成为了视觉公司创立最多的一年,约有80家企业在这一年成立

从2012年到2018年,六年间,中国的国际机器视觉品牌已有近200多家,而中国自有的机器视觉品牌也已有超过100多家,机器视觉各类产品代理商超过了300家,专业的机器视觉系统集成商也有100多家,这些企业主要应用于安防、金融、互联网等方向。

2016~2017年,也就是所谓的“人工智能元年”,中国的计算机视觉领域出现了一次明显的分水岭。在这一年的时间里,中国涌现出了一批优秀的独角兽企业,根据《2017年中国独角兽企业发展报告》,2017年称得上中国“独角兽”企业的公司已达164家,这其中包括了7家人工智能企业,而计算机视觉企业就在其中占了四个名额,他们分别是:旷视科技、商汤科技、云从科技与依图科技

计算机视觉在这不到一年的时间里已经遍地开花,地铁的安防摄像头、火车站飞机场的人脸识别闸机、智能手机的人脸识别解锁与支付功能……不知不觉中,计算机视觉技术“渗透”到了人们生活的方方面面。

也同样是这一年,中国计算机视觉领域的几场数额巨大的融资活动,再一次吸引了世界的目光。被称为人工智能领域最“吸金”的产业,计算机视觉在这一年获得超过230亿元的投资,在中国人工智能领域的投资当中占比超过三分之一

为了让全行业对计算机视觉发展现状有更清晰地了解,AI前线策划并发布了《2018中国计算机视觉行业报告》,我们采访了多家计算机视觉领域的“独角兽”企业与老牌技术大厂,并邀请多位专家从多角度对行业进行深度解读,希望这份报告能够为行业提供帮助并产生价值。

第一章:2018计算机视觉行业全回顾

\"image\"

计算机视觉已经成为变现最顺利的人工智能技术,根据中国信通院2018年2月发布的报告数据,2017年中国人工智能市场中计算机视觉占比37%,以80亿元的行业收入排名第一。

其中,安防影像分析是目前计算机视觉最大的应用,2017年占比约67.9%,但目前新的应用领域正在不断创新涌现,例如无人驾驶、医疗影像,但现在没有大规模普及,都还是在初级阶段。

作为落地应用最广的人工智能技术,尤其在中国的发展如此之顺利,主要有以下几点原因:

  • 第一,深度学习的突破。 深度学习是非常庞大的一个神经网络,通过深度学习,技术能做出非常好的结果来,虽然它不知道如何得出这个结果,但是它带来的提升以及足够AI技术从实验室真正走进生活;

  • 第二,视觉场景极大丰富。人类有70-80%的信息来源于视觉。相比语音场景的单一,CV可以做的事情更多;

  • 第三,华人群体在全球范围内的崛起。随着中国的日益强盛,越来越多的留学生出国选择计算机及相关专业,将前沿的技术与研发理念带回国内,这也客观导致了在AI和CV领域,华人人才储备的快速增长;

  • 第四,中国国家层面的重视。中国在新兴技术领域与国外的差距并没有传统领域那么大,非常有希望在中短期赶上其他国家,且AI技术是中国产业转型升级的重要动力,所以国家从顶层部委到地方都十分重视AI技术的培育与发展,这就营造了一个非常好的发展环境。

2018年,更多的技术得到应用,更多的产品得到推广,我们将从市场发展与技术进步两个方面进行详细解析。

市场发展

从整个计算机视觉行业发展的角度看,纵观中西计算机视觉发展,可以看到,中国与西方国家的演进路线不同

国际上前沿的技术主要集中在深度学习的基础研究层面,而中国的计算机视觉技术更倾向于产业落地。经过了过去这些年的沉淀,中国已经在人才、数据、场景和政策层面做了比较多的储备,为中国计算机视觉技术的发展提供了丰沃的土壤。

尤其是在应用方面。从全球范围来看,计算机视觉领域一定要通过落地应用才能推动学术的发展,而中国在这方面具有巨大的优势。

说到计算机视觉场景的落地,以及赛道的抢占,这都与技术是否突破工业红线息息相关。

与其他AI技术一样,CV技术的突破也在促使两个工具的产生:一个是生产力工具,对传统行业中的人力部分进行替代,降本增效;另一个是交互工具,带来新的交互体验和应用,形成新的应用场景。

目前CV公司比较集中的技术赛道有:人脸识别、自动驾驶、医疗图像等,但目前而言,商业化落地最快的还是人脸识别及其业务相关的一些技术,比如银行会用到人脸和自然场景下的OCR(文字识别),还有浸入式大数据风控,安防会用到人脸、人体、车辆与大数据分析等。

全球CV领域在发展方向上与国内差别不大,但是行业落地的速度会有差距,国内在人脸、自动驾驶等技术在安防及部分行业落地非常快,这得益于政府的重视和政策的开放。

每年计算机视觉顶级会议上,来自中国的论文总数、最佳论文数量占比越来越高,中国计算机视觉学术团稳坐第一梯队。同时,技术的落地应用跑得快,往往也对这项技术提出了更多超前的、突破性的问题,倒逼技术向着创新的方向、领域突破发展,这些论文大部分都是来自于实际应用对技术的推动。

技术发展

从技术角度来看,目前计算机视觉技术在医疗、教育、自动驾驶、零售、社区等多个领域都有不错的发展,但人脸识别技术研发和落地情况是比较领先,因为人脸是天然的跨行业入口,每个行业都与人有关,所以人脸识别顺势成为了最先商业化的技术,而这一技术落地最为广泛的领域,就是每个人生活都离不开的手机。

计算机视觉落地手机行业

2017 年,越来越多的手机厂商意识到了 AI 给智能手机行业带来的价值,纷纷推出了自己的 “AI+ 手机” 。2018 年,主流手机厂商更是在各自的旗舰机型中全面引入 AI 技术,甚至搭载 AI 芯片的手机正在成为市场的主流。

但是,同样我们也看到,目前的“AI+ 手机 ”还处在较为初级的阶段很多的功能应用还具有局限性,只是在部分特定场景下才能发挥作用,距离真正的“AI 手机”普及还有不小的技术门槛。

AI 对于智能手机的价值,是能够提前预测用户需求,主动给出相应指引或回应,实现从 Smart 到 Intelligent,AI 解锁仅仅是行业向前迈出的第一步。而视觉应用是手机 AI 应用中最主要的诉求,主流的手机 AI 应用大多与视觉应用相关,可以说,提升视觉技术是当前是改善用户体验最直接和最有效的手段,甚至已经成为评判一款手机产品重要的指标之一。

从技术上来看,计算机视觉技术在手机的应用主要可以分为三大方向:识别与认证、AI 摄影、3D 视觉。其中3D 视觉是手机视觉技术最具潜力的应用。随着光学器件的提升,3D 视觉将原来平面的数字世界做到立体。

但目前基于 3D 的视觉应用还不普及,应用、算法、 硬件、解决方案之间的技术壁垒还没有完全打通,需要有更为简单和高效的技术方案来进行一站式的整合,需要产业生态进行更深度的融合与协作。后文将会对3D视觉的核心技术:3D结构光进行更详尽的解释。

  • 3D结构光:3D结构光是获取面部立体信息的最佳方案之一,它是通过人脸表现反射光线来确定深度信息的,主要用于终端人脸识别,如手机刷脸解锁等。

结构光听起来很高大上,但实际上也很好理解,工作时相关器件会投影具备一定结构的光,比如亮灭相间的条纹光线,如果打到平面上,那么反射回来会是原样粗细的条纹;而如果打到不规则物体上,那么反射回来就会时条纹就会发生变化,然后根据计算,就能得出物体的结构。

\"image\"

目前3D结构光技术在手机领域已经得到了应用,如:小米8透明探索版就是全球首款支持3D结构光技术的安卓旗舰手机。

云端和嵌入式

人工智能需要大量的数据,所以AI最早是往往是从云端起步的,但是随着时间的推移,因为安全性、人性化的需求,逐渐地的会有一个迁移,很多的应用会从云端迁移到终端,未来最常见的AI应用模式,可能是在云端做训练、做培训,最后在终端做执行。可以说,在万物互联的时代,云端AI和嵌入式AI会是相互共存、相互补充的关系。

在靠近数据产生端进行计算,将网络、计算、存储能力从云端延伸到网络边缘,也因此拥有低时延、本地性高、对贷款要求低等优势的新型计算模式。
 
人工智能强于人类的地方,在于它拥有并行处理能力,人工智能可以拥有多双“眼睛”,去观察这个世界并不断自我提升。如果“眼睛”会思考,就减少了回传大脑的“视神经”的负担。不必将全部数据都上传至云端,减少了对网络的负担,避免了网络堵塞,提高了网络带宽利用效率,于是拥有上万双“眼睛”的人工智能成为了可能。

人才培养

对于技术行业来说,人才培养是非常重要的一环,人工智能高准入的技术门槛,决定了 AI 人才需要较长周期的培养,所以当人工智能产业迎来爆发的同时,造成了大量的人才缺口。

目前,中国高校培养的AI人才更侧重于应用层面,这与中国AI产业的特色密切相关。同时,大学开放的氛围、校企合作提供的平台,也使得这批人才在进入企业后能够快速成长,深入到行业中来。

相比之下,国外的AI人才更加偏向于基础研究。但如今,中国AI人才也在基础研究方面有了成果,在CVPR、ECCV等全球视觉顶会上,中国的AI人才也展现出了强劲的实力。

根据AI前线对于国内计算机视觉相关企业的调查:社招人才由于其应用方面的丰富经验,在招聘时会更加受到关注;而随着大量毕业生对于人工智能企业,尤其是初创企业的认知不断提升,校招人才的竞争力也有所提升。

从整体来看,AI创业公司对专业人才的重视程度更高,专业人才代表了企业的核心实力,高质量的人才能够帮助公司获得更强的市场竞争力。人工智能技术现在属于增长期,此时人才是最稀缺的。未来3-5年内,人工智能领域最重要的竞争都是人才战,最顶级的懂算法的人才尤为重要,全球范围内,人工智能领域突破性工作的研究人员数量及其有限,而AI竞争最核心的就是研究人之间的比拼。

一方面,技术专业人才能够加速公司底层技术的突破;另一方面,企业对应用型专业人才的需求同样强烈。尤其是在针对不同的行业深入落地时,专业人才能够协助企业更加精准地完成技术与新场景的匹配,帮助企业快速进入赛道。

此外,在人工智能领域做产品研发,需要深入各个垂直领域,成为每一个领域的专家,所以人才也需要永远保持学习能力和好奇心,要善于思考、勇于创新,才能走在时代前列。

第二章:“独角兽”的崛起

融资能力凸显

2018年对于计算技术觉初创公司来说可谓是“丰收”的一年。

4月,商汤科技获得6亿美元融资,而就在此后不久,今年5月,商汤又获得了6.2亿美元的融资。

7月,旷视科技拿下了6亿美元的D轮融资,同月,依图科技也获得了1亿美元的融资。

10月,云从科技获得10亿元融资。

不到一年的时间里,这四家公司就已经拿下了超100亿元人民币的融资,而根据CB Insight数据,2017年中国AI创业公司的融资总额也不过500亿人民币(73亿美元)。

相应的,这几家公司的估值也随着融资能力的上升而一涨再涨。

商汤科技目前估值已经达到45亿美元,云从科技估值达33亿美元,旷视科技估值达到35亿美元,依图科技估计达20亿美元。

当然,除了这四家被“重点关注”的明星企业,2018年计算机视觉领域整体的融资水平都处在比较高的状态,根据AI前线统计,截至2018年12月,中国计算机视觉行业融资数额已达到260亿人民币,比去年整体高出近30亿元

对于初创企业来说,融资能力当然可以展现出一部分实力,而真正要从竞争中获得认可,还是需要靠强大的技术水平。

技术争霸激烈

2018年对于整个人工智能领域来说都是有些平淡的,甚至有人开玩笑说:2018年AI领域最大的进步就是毫无进步。

对于计算机视觉领域来说是否也是同一番景象呢?

以上文所述的几家初创公司为例。

商汤科技

\"image\"

提到中国的AI独角兽,大概很少有人不知道商汤科技的。

从2014年成立至今,商汤科技也不过才走过四个年头,2018年9月,商汤科技被国家科技部选入国家新一代人工智能开放创新平台的队伍当中,成为国家队的一员。与之同列的是百度、阿里云、腾讯、科大讯飞等技术大厂。

据AI前线调查,商汤科技已与国内外700多家公司和机构建立合作,涵盖智慧城市、智能手机、互动娱乐及广告、汽车、金融、零售、教育、医疗、地产等多个行业。

此外,商汤科技自主搭建了深度学习平台SenseParrots,对超深的网络规模、超大的数据学习以及复杂关联应用等支持更具优势。商汤科技还自主搭建了深度学习超算中心,大幅降低了各类人工智能技术的研发成本,并且缩短了开发深度学习算法模型的时间。

在今年,商汤科技促成了包括SenseAR美体塑形、SenseDriveDMS驾驶员监测、SenseMatrix人脸3D重建等多个炫酷AI技术的落地。在智慧城市方面,商汤也加大了投入,据了解,商汤原创的SenseSpace智慧公共空间管理平台已经在黄浦江西岸正式落地并投入使用。

云从科技

\"image\"

2015年4月,时任中科院重庆研究院智能多媒体中心主任的周曦正式创立云从。作为计算机视觉领域的“后来者”,云从的技术实力却一点不弱。

2018年,云从建立了包含人脸识别、跨镜追踪、车辆识别、姿态识别、语音识别、文字识别等智能感知技术和大数据分析、知识图谱、人物画像等认知决策技术为核心的技术闭环。

今年1月,云从基于高准确度人脸识别系统产业化及应用,入选国家发改委“人工智能”创新发展工程;同年9月,依靠其自研的SoC芯片,云从入选工信部人工智能与实体经济深度融合创新项目;10月,云从发布了国家发改委 “国家人工智能基础资源公共服务平台”项目,该项目启动于2017年,由腾讯、百度、科大讯飞、云从科技四家承建。
 
云从科技是第一家同时承担国家人工智能基础平台、人工智能应用平台和人工智能核心芯片平台的人工智能企业。

目前,云从科技已经成为中国银行业第一大AI供应商。包括农行、建行、中行、招行总行等全国400多家银行已采用公司产品,为全国银行提供对比服务日均2.16亿次。
 
在安防领域,云从的产品已在29个省级行政区上线实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;
 
在民航领域,已有60余家机场选择云从产品,日均服务旅客超6千万。

旷视科技

\"image\"

2011年,旷视科技在北京成立。在计算机视觉独角兽里,旷视算得上绝对的“老前辈”。除了是业界最早一批进军 AI 移动智能终端产业的人工智能企业之一,旷视科技也是手机 AI 解决方案提供商。

旷视的核心 AI 技术应用早已拓展到了手机行业,基于核心的深度学习和计算机视觉技术推出人脸支付、人脸识别解锁、人像光效、人像背景虚化、视频美化、3D Animoji 等一系列移动端 AI 产品,以满足不同手机厂商在人脸解锁、图像增强、相机增强、智能图像和视频处理上的需求,在不到一年的时间内已经与华为、小米、vivo、OPPO 等国内头部手机企业实现深度合作

2018年,旷视在学术领域也收获颇丰,全年先后发表 20 余篇 CV 顶会论文,并在\tECCV COCO 2018一举包揽四项冠军。

在安防领域,旷视拥有全国最大的第三方人脸身份验证平台。据了解,平台涵盖了全球2.95亿人次的人脸信息,能够提高在户籍排查、重点场所管控、出入境管理和案件侦查等警务活动和国际会议、全球赛事等安保活动的安全性。也能将人脸身份验证平台应用于人脸识别支付、人脸识别解锁、人像卡口系统等非安防领域中。

市场调研机构 WiseGuy Reports 发布的《2022年全球面部识别市场预测报告》显示,旷视科技成为中国唯一入选的人工智能企业。

依图科技

\"image\"

依图科技成立于2012年,深耕安防领域,维持金融业务,大力布局医疗影像业,在 2017 年,依图科技获封安防领域表现最强的算法型厂商。

2018年,除了两次上亿美元级别的融资外,依图科技的技术也同样令业界瞩目,尤其是在AI+医疗领域。

今年3月,依图推出世界首套AI医疗影像质控系统,可在在目前医疗影像缺少有效质控手段的情况下,基于人工智能图像识别技术,通过海量数据训练,使医院系统具备医学影像成像质量的自动评价与评分能力。

6月15日,四川大学华西医院与依图医疗合作研发出国内首个肺癌临床科研智能病种库和全球首个肺癌多学科智能诊断系统。

11月,全球人脸识别算法测试(FRVT)上,依图以以千万分之一误报下的识别准确率超过99%,成为冠军。

第三章:大厂的发展

对于技术大厂来说,2018年在计算机视觉上的发展是从多方面体现出来的。

以百度为例,计算机视觉+雷达的方案成为Apollo自动驾驶的首选,不仅在公园等封闭环境中已经有了落地案例,百度还计划2020 年开始交付高速自动驾驶车辆,可解决包括直道弯道定速巡航、检测车辆汇入、跟车行驶、前车刹车、拔杆变道等常见的驾驶问题。此外,百度在智慧城市方向也开始有所行动,为解决城市道路问题,百度突出了车路协同方案,在道路上安装智能探头用来监控路况,通过 AI 实时反应并处理突发情况。在智慧产业领域,百度的视觉技术也落地在医疗、制造等诸多产业当中。

对于阿里巴巴来说,阿里巴巴视觉智能计算团队目前的重点在四个方向:城市大脑,医疗 AI,工业视觉和智能设计。其中“城市大脑”致力于通过云计算和人工智能技术去解决依靠人脑无法解决的城市治理和发展问题。围绕这一目标,阿里巴巴目前的重点研究方向包括:多模态城市感知、交通预测与干预、并行异构计算加速、基于视频的行人与行为搜索识别、大规模城市视觉计算平台等。基于视频的城市对象感知几乎是所有工作的基础,也是阿里率先取得突破的技术方向之一。

而腾讯优图实验室在9月正式升级为腾讯计算机视觉研发中心,聚焦计算机视觉研究,专注在图像处理、模式识别、机器学习、数据挖掘等领域开展技术研发和业务落地。在技术上,优图重点专注于图像技术及人脸技术的研究及应用探索。图像技术包含图像识别、智能鉴黄、OCR 技术、图像分割以及超分辨率技术等。人脸识别包含人脸配准追踪技术、人脸核身技术、活体检测技术、海量人脸检索技术等。

目前优图 AI 技术已经广泛应用在零售、工业、社交娱乐、社会公益、道路感知、金融、鉴黄、安防、医疗、政务等领域,在手机 QQ、QQ 空间、QQ 音乐、微信、广点通、全民 K 歌、腾讯觅影等产品中落地,并与滴滴、公安部门、快递等行业已经有了合作案例。其中,智能医疗和自动驾驶是该实验室今年刚涉足的领域。

第四章:悬而未决的问题

\"image\"

计算机视觉是 AI 最为成熟的技术之一,其应用已经在政府、金融、互联网等行业市场率先落地。但是,整体而言,计算机视觉的应用仍处于起步状态。

当前市场关注度、渗透率及技术采用度相对较高的应用场景,如人脸识别、物体识别、物体检测等还停留在较为基础的物体探测阶段,在更具体的事件检测、更灵活的人机交互及更复杂的信息重组、自主行为等方面的应用明显不足。可以说, 当前的应用仅是冰山一角。

此外,自2018年起,人工智能商业化落地也成为了全行业都在重点关注的问题,计算机视觉技术的商业化产品最多,但是在行业内真正做到可以盈利的企业屈指可数。

与此同时,部分计算机视觉企业依靠竞赛刷榜、刷分来现实自身实力,虽然可以通过这种方式获得融资、招揽人才,但是对行业来说,落地才是硬道理。

在算法与硬件层,计算机视觉也同样遇到了一些短时间内无法解决的问题。

深度学习弥补了手工设计特征的缺陷,非线性变换可以做非常多次,特征表示能力显著提高,并且可以自动地训练所有参数,大幅提升了视觉算法的效率。但是,由于硬件方面如:设备外观、电池容量、设计成本、供应链等多方面的限制,算法无法在端侧最大限度地发挥作用,导致了最终结果受到了一定的限制。

虽然目前在边缘计算领域已经有不少企业进行了探索,但是要满足大规模应用的需求,尚需时日。

除了技术上的诸多问题外,2018年的几次重大的数据泄露事故,让普通用户更加在意道德层面的问题,首当其冲的就是隐私安全性。

中国是人口大国,人口是一项巨大的优势,这也就决定了计算机视觉技术可以在中国取得更好的发展。但是,安装在道路上的摄像头、每个人手机上的镜头、行车记录仪、家用安防摄像头等等,都可以成为隐私泄露的窗口,此类消息在世界各地也屡见不鲜。

如何既满足技术发展的需求,同时保证用户在隐私方面的安全,这也是全行业仍在积极解决的问题。

总结

相信2019年计算机视觉方面的落地与技术研发,会更多的以人为中心来扩展。人与物体的结构化分析会成为主流,并且打通大数据分析这一环,为客户产生真正的价值,各个行业都会产生细分行业龙头。头部公司的行业特点会越来越鲜明,大家都会有自己侧重的业务点。

当然,在近两年也会有一些企业在浪潮中退出历史舞台。

从技术发展的趋势来看,现在是参数学习,未来是结构学习,再以后是目标学习。到那个阶段,计算机视觉或许可以理解出来一些意料之外的能力。

从行业发展来看,视觉AI可以把整个生态环境形成起来。AI并非一个独立的行业,它更像是一种为所有传统行业提供变革契机的基础设施。因此在未来,具有核心平台化能力的AI企业才能够不被淘汰

从人才培养来看,就视觉领域来说,随着AI的发展与普及,有更多的人才加入了学习计算机视觉技术的行列,但是大多数人还处在“正在进行时”的状态。行业需要真正有工程能力的人才,所以人才短缺的情况仍会继续,还是需要时间来培养

随着万物互联的物联网时代的到来,AI 面临着全新的发展机遇,与物联网的结合将更为紧密。越来越多的物联网设备接入网络,通过嵌入式模组、计算单元、感知单元等将物理世界数字化,获取丰富的数据,大大提升 AI 的感知能力,为 AI 奠定坚实的数据基础,让充分的数据价值挖掘成为可能。

鸣谢

衷心感谢商汤科技、云从科技的技术专家本报告提供的指导与支持。

2018-07-27 06:00:32 weixin_39277458 阅读数 3450
  • 计算机视觉实战:如何使用OpenCV构建视觉应用

    本次公开课讲师屈老师是哈尔滨工业大学副教授,视觉技术研究室负责人。课程会介绍计算机视觉的基本概念、系统基本构成及各要素。并使用OpenCV,带领大家从零开始一步一步的搭建一个简单但可用的实际的视觉跟踪系统,使大家从中学习视觉系统的构建及OpenCV系统实现。

    9528 人正在学习 去看看 AI100讲师

1. 计算机视觉在机器人上的应用

该部分内容源自一篇中文文献,由于是在大约一年前读的,现在只是把当时的笔记复制过来,具体是哪篇文章会随后去找,如果有知情的也可以告诉我,谢谢大家。

1.1 传统工业机器人(机械臂)的工作原理是“示教-再现”的模式,这种模式缺乏对非设计情况的适应性。这篇文章是将计算机视觉技术利用在原有机械臂控制系统上,从而提高机械臂对不同环境条件的适用性。

1.2 具体构成图如下:

1.3 视觉系统算法构成:

1.4 软件实现基本流程:

1.5 这个项目中用的是定标算法,在实际拍摄场景中标定几个定位点,然后根据定位点确定摄像机和物体的3D位置。

1.6 本项目实现流程图:

2. 人机交互中计算机视觉应用

2.1 人机交互的组成:人机交互可以大概分为两个组成部分,语音和视觉,语音对应于语音自动识别,其试图构造能够感知人们交流的文字方面的机器;视觉对应于计算机视觉技术。其致力于构造能够“观察人”并自动感知相关视觉信息的机器。

2.2 计算机视觉在的发展定义:计算机视觉是一门试图通过图像处理或视频处理而使计算机具备“看”的能力的学科。通过理解图像形成的几何和辐射线测定,接受器(相机)的属性和物理世界的属性,就有可能(至少在某些情况下)从图像中推断出关于事物的有用信息。

2.3 计算机视觉发展的关联性:传统意义上,计算机视觉由诸如生物视觉建模、机器人导航和操作、监控安防、医疗图像及各种检查、检测和识别推动的。近年来,计算机视觉呈现多模态感知交互的态势。

2.4 计算机视觉中的人机交互:着重于建模、识别和解释人的行为。

1)人脸检测和定位:场景中有多少人,他们在哪里?

2)人脸识别:他是谁?

3)头和脸部的跟踪:用户的头部在哪里,脸部的位置和方向是什么?

4)脸部表情分析:用户在微笑,大笑,皱眉,说话还是困乏?

5)视听语音识别:使用语音识别以及伴随视话(lip-reading)和face-reading,判断用户说什么?

6)眼睛注视跟踪:用户的眼睛朝哪里看?

7)身体跟踪:用户的身体在何处?关节处(articulation)是什么?

8)手跟踪:用户的手在哪里?是2维的还是3维的?特别地,手的结构是怎样的?

9)步态识别:这是谁的走路/跑步风格?

10)姿势、手势和活动识别:这个人在做什么?

※ 人机交互的难点:

这些任务都非常困难,从一个摄像机拍得图像(有时或者是多相机从不同的视角)开始,这项 工作典型情况下至少包括每秒30次的240*320个像素每像素24比特)。我们试图很快地使这些数据变得有意义。与语音识别问题相比较,语音识别是从一个一维的,时间序列信号开始,然后尝试将其分段并分类成相对少数目的已知类别(音素或词)。计算机视觉事实上是一堆子问题的集合,这些子问题彼此间很少有共同点,且都非常复杂。

2.5 基于计算机视觉的前沿成果

虽然计算机视觉在局部取得了进展,但是依然没有被真正的商业应用,不过有一些征兆显示商业应用即将到来。

1)摩尔定律(英特尔的创始人Gordon Moore:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。);相机技术的进步;相机的进步;数码视频的普及;软件的推广(Inter的OpenCV库)。

2)美国政府资助的人脸识别项目:FERET项目(1993-1997)和FRVT项目(2000-2002)。

3)DARPA资助的远距离识别人和视频监防的大型工程。

4)Geometrix,A4Vision和3Dbiometrics。

5)MIT媒体实验室的幼儿室工程。

2.6 技术挑战

虽然有很多这一类研究项目,但是为了从实验室走向商业化,几个问题需要说明:

1)鲁棒性:大多数视觉技术是脆弱,缺乏鲁棒性的,照明和相机位置的微小变化可能会导致系统出错。系统需要在各种条件下工作,且能适度地、快速地从错误中恢复。

2)速度:对于大多数计算机视觉技术,在全面和快速交互两者间都采取了实际折衷。视频数据太多了,以至于无法实时地做复杂处理。我们需要更好的算法、更快的硬件设备和更灵巧的方法来决策需要计算什么,可以忽略什么。(提供了已处理的图像流的数码相机能够有很大的帮助)

3)初始化:许多技术在得到了初始模型后,跟踪效果都很好,但是初始化步骤往往很慢且需要用户参与。系统必须能快速和透明地进行初始化。

前三个问题已经在日常的研究实验室和全球的产品研发组织得到了关注,使用性和上下文集成很少被考虑,但是随着更多的应用开发,这两个问题将会提到研究日程的前面。

4)使用性:对于开发系统的人来说(花费了许多时间研究复杂难点)视觉技术的示范使用能工作地很好,但对于那些没有经过“系统训练”的新手却很困难。这些系统需 要适应用户,处理无法预期的用户行为。此外,它们需要提供简单的纠错和处理错误解释机制以及能提供反馈给用户,以避免预料之外的灾难性后果。

5)上下文集成:一个基于视觉的交互技术本身不是最终的结果,而是一个更庞大的系统中的组成部分。手势和活动需要放在合适的应用过程中加以理解,而不是孤立的行为。从长期来看,这需要在各种应用的上下文关系中深刻地理解人类行为。

3. 基于计算机视觉的智能机器人设计

3.1 这个项目的设计内容包括传感器模块图像处理模块执行模块,目的是用于煤矿井下发生突发事件时井下环境的探测,完成安全检查和监控等功能。

3.2 原始输入图像是连续的数字视频图像,系统工作时,需调用图像处理模块对原始输入图像进行缩小边缘检测二值化哈夫变换等处理,从而获得有用的路径信息,运动控制模块根据此信息作出决策,通过无线串口将控制命令发给机器人。机器人接收指令在电机控制模块下作出相应的移动。

3.3 具体来说,这个项目是在视频中加有一个引导线,引导线在图像中的方位将会控制机器人的走向。此项目的局限性在于,此项目的机器人需要时刻保证引导线在视野内,这对于环境的适用性下降了。

3.4 本项目的设计模块统称为“上位机”。下位机是具体的执行平台。下位机的控制芯片采用NXP公司的ARM7中的PC2132微处理器,用来完成命令接收、电机控制和机器人状态信息的上传等功能。

3.5 电机控制电路利用L298芯片构成差动方式驱动电机运行,通过处理器驱动PWM信号控制电机转速,并且采用了PID闭环控制

没有更多推荐了,返回首页