精华内容
下载资源
问答
  • 计算机视觉技术应用.pdf
  • 对于前景目标的阴影消除是计算机视觉中 的公认难题,本文先对感兴趣区(ROI)进行2.D Haard、波变换,然后将ROI区 域从RGB空间转换到HSI空间,则阴影部分对应的是小波系数模极大值小(对应 边缘较少)且亮度较低的区域...
  • 船舶自动识别系统中的计算机视觉技术应用.pdf
  • 智能交通系统中的计算机视觉技术应用 (2).pdf
  • 计算机视觉技术应用探索.pptx
  • 计算机视觉技术应用探索.pdf
  • 计算机视觉技术应用于虾干燥期间的颜色变化实时监测.pdf
  • 船舶自动识别系统中的计算机视觉技术应用 (1).pdf
  • 智能交通系统中的计算机视觉技术应用.pdf
  • 智能交通系统中的计算机视觉技术应用研究.rar
  • 计算机视觉技术应用综述

    千次阅读 多人点赞 2019-08-19 09:53:47
    引用自:无人系统之“眼”——计算机视觉技术应用浅析 张 丹,单海军,王 哲,吴陈炜 一、前言 ​         近年来,人工智能和深度学习获得突破,成为了大众关注的焦点。如LeCun Y,Bengio ...

    引用自:无人系统之“眼”——计算机视觉技术与应用浅析 张 丹,单海军,王 哲,吴陈炜

    一、前言

    ​         近年来,人工智能和深度学习获得突破,成为了大众关注的焦点。如LeCun Y,Bengio Y,Hinton G等[1]提出的深度卷积网络在图像识别领域大放异彩就是典型。计算机视觉是人工智能领域最重要的研究方向,因为视觉也是人体获得信息最多的感官来源,Treicher[2]等通过实验证实:视觉信息占人类获得全部信息的83%。因此,计算机视觉也一直是各大研究机构和企业争相研究的热点,也是人工智能领域研究历史最长、技术积累最多的方向。本文尝试从计算机视觉的两大研究内容——图像和视频,来阐述图像识别与理解、视频识别与理解的研究历史和最新技术进展,并对计算机视觉技术在公共安防、智慧医疗、自动驾驶等领域的应用现状进行介绍。通过对技术及应用的归纳和总结,希望能为关注该领域的专家和学者提供最新且有价值的内容。

    二、图像识别与理解进展综述

    ​        计算机视觉的研究主体之一是图像,目的是对图像进行各种各样的处理与分析。按照对图像理解层次的不同,一般可以把计算机视觉分为低级视觉和高级视觉,低级视觉包括图像去噪、拼接、超分辨率等传统任务。通常而言,这些任务不需要计算机理解图像上有什么,而高级视觉则明确要求计算机理解图像上有什么,以及解决基于此而引出的新问题。本文将重点对高级视觉进行介绍。

    ​        人们通常喜欢把计算机和人脑进行对比,以更好地理解和探讨计算机视觉技术在做什么。我们也由一个例子开始:对于一个牙牙学语的婴儿,父母会拿着一张图,问这是什么,这其实就是在教婴儿做最简单的图像分类。等婴儿大了一些,他可以指着图上的树、房子、小狗,依次说出这些是什么,聪明的孩子还可以用手指把房子的轮廓勾勒出来,这就是计算机视觉中的图像检测和图像分割。随着大脑发育,孩子对图像理解地更深了,学会看图说话了,这也就对应了我们要介绍的图像描述任务。
    本节将以图像分类、图像检测、图像分割和图像描述的顺序,由易到难地介绍计算机视觉的几个重要方面。

    1.图像分类进展综述

    ​         图像分类进展综述图像分类是计算机视觉最基础的任务之一,也叫图像识别,主要通过算法识别图像中的物体类别,如一匹马、花朵、小狗等。该领域长期以来吸引了大量研究者们的关注。2012年,由Hinton团队[3]研发的基于神经网络的算法在ImageNet图像分类挑战赛上夺得第一,并以15.3% 的错误率大幅领先第二名26.2%,一举震惊学术界。在此之前,传统算法大多使用手工设计的特征配合当时最好的分类算法支持向量机来进行分类[4],这类方法最大的问题就是当分类种类变多后,人一般很难设计出相应的图像特征来表示新的类别,需要相关领域的专家花费以年为单位的时间反复试验。而Hinton团队的巨大成功让人们看到:神经网络可以通过学习大量标注后的数据以及梯度反传算法,端到端地优化整个图像识别任务,从而使得人们不再需要关注为每个新的种类设计独特的特征,而只需要设计网络结构使网络更容易被优化。

    ​         神经网络一般由一层层的神经元组成,神经元之间通过权重进行关联,不同层的神经元之间还会设置激活函数,使得神经网络具有非线性的表达能力。在其后的几年至今,基于神经网络的深度学习算法几乎统治了所有计算机视觉相关领域。一个最重要的发现就是随着神经网络的层数加深,参数增多,它的表达能力越强,能拟合的数据量越大,VGG 和Inception 网络都是其中的典型代表。但是随着网络变深,梯度消失问题逐渐明显,较浅的神经层几乎接收不到深层网络传来的梯度,导致网络无法收敛到较好的局部最优。此后最重要的工作就是2015 年何恺明等[5]提出的残差网络,该方法通过恒等映射解决了梯度消失的问题,并破记录的将原来几十层的网络加深到了几百层,基于该网络的方法在多个挑战中都取得了冠军。2016 年围棋人机大战中,以4∶1 战胜世界围棋冠军李世石的算法AlphaGo 采用的也是残差网络的结构。虽然现在图像分类问题上的研究已有很多,该领域的研究也相对比较成熟。但是还面临较多的细分问题挑战,如同种类物体内的识别,图像遮挡下的物体识别与分类,视点变化和尺度变化等,这些问题都值得继续探索。

    2.图像目标检测进展综述

    ​         图像目标检测的任务是要求算法用一个矩形框框出图上每一个物体,并对框里的物体进行分类。从任务难度上看,图像检测比图像分类增加了一个定位的功能,即需要找到图上所有目标的位置,然后再对框进行图像分类的处理。

    ​         经典的检测算法包括基于梯度直方图(HOG)特征的算法以及Deformable Part Model( DPM)。HOG 特征算法主要提取图上的方向梯度直方图,并通过支持向量机来得到目标的模板。然而,对于一些非刚体、可以形变的目标来说,要用模板来穷尽其所有的姿态几乎是不可能的。DPM 的解决办法就是对目标的每个部分单独建立子模型,并且建立了子模型与主模型之间的形变约束。比如人的手臂可以摆到头部附近,但是不可能离开身体两米远。这些先验的位置关系通过损失函数的形式定义出来,就可以有效建模目标的变形情况。深度学习兴起后, 区域卷积神经网络(RCNN)首次将其应用到目标检测问题上,并在检测准确率上大幅超越以往的HOG 和DPM 算法,成为了新的研究热点[6]。RCNN首先通过SelectiveSearch算法为图像生成上百个候选框,再将每个候选框送入神经网络提取特征,最后用支持向量机进行分类[7]。RCNN 在训练和测试时都有多个步骤,只有其中提取特征的部分是由神经网络完成的,之后的研究重点集中在如何将其余所有步骤都通过神经网络来完成,从而可以端到端的优化整个系统的性能。其中,快速区域卷积神经网络(Faster-RCNN)算法提出了Region Proposal network(RPN)来进行候选框的生成,由神经网络来预测候选框的位置和大小[8],同时,RPN 和RCNN 两
    部分可以共享底层网络并联合优化。这个方法大大提高了网络效率,而且由网络预测的候选框质量也优于Selective Search和Edgebox这类传统算法。Faster-RCNN 推理时分为两个阶段,第一阶段是RPN 生成上万个候选框,网络预测框里是否有物体,按框得分筛选出可信度较高的候选框,进入第二阶段,进一步细分类。为了让网络运行更快,研究者又提出了以SSD和YOLO为代表的一阶段检测器,这些方法的特点是对所有的候选框直接进行分类,跳过了是否有目标的步骤。

    3.图像分割进展综述

    ​         图像分割是将整个图像分成一个个像素组,并对每个像素进行标记和分类。它试图在语义上理解图像中每个像素的类别,是行人、道路、建筑物还是其他类别。因此,与图像分类不同,研究人员需要用模型对密集的像素进行预测。较早的算法一般通过对每个像素的局部领域提取纹理、光照等特征,再对该像素进行粗分类,然后基于条件随机场对分割结果进行建模。粗分类的结果由于是基于每个像素独立预测的,一般有比较大的不稳定性。条件随机场假设相邻的像素应该具有相同的类别,除非两个像素刚好落在图像梯度较大的位置。通过优化单像素的预测结果和领域约束,条件随机场可以优化出一个较平滑的分割结果。

    ​         由于神经网络可以通过数据驱动,并能自动优化参数,特征提取和分类两部分可以在网络中统一完成。只需要将以每个像素为中心选取一个邻域作为网络的输入,网络就可以较好地预测出该区块中心像素的类别,比如2013年Lecun等[9]提出的方法是提取多尺度的图像区块进行学习,让网络从多个层级的信息中学到更全面的信息;2014年Pinheiro等[10]提出的基于循环神经网络来对图像区块进行预测,每次的输入是图像块以及上一轮的预测概率图,网络可以基于上一轮的预测对自己进行修正。

    ​         但是,这类方法在推理时,需要将相邻像素的重合部分反复输入网络,非常低效。2015 国际计算机视觉顶会上,Darrell 等[11]提出的全卷积神经网络(FCN)因为解决此问题而获得了最佳论文的荣誉。FCN 的原理就是通过卷积操作等效替换了原本分割网络中的全连接层,并且用反卷积层解决了网络特征层降采样后分辨率下降的问题。这样,FCN 的输入不再是某个像素为中心的图像区块,而直接是原图像,输出则是相同大小的分割结果图。此后,几乎所有的图像分割方法都采用了FCN 或其相似的原理。较有代表性的是Deeplab,将概率统计模型条件随机场通过神经网络建模,自动学习其中的参数。图像分割(UNet)在网络中添加了跳层连接,增加了多尺度的信息使预测的细节更完善。

    4.图像描述进展综述

    ​         图像描述是指给定一张图像,算法自动生成一段描述性文字,即看图作文。图像描述是上述几个任务的能力递进与语义理解递进,它需要算法不仅要理解图上有什么物体,而且要理解物体之间的相互关系,最后要用文字将其描述出来。因此,主流的图像描述框架一般分为两步,先将图像进行编码,提取语义特征,然后再将特征通过长短期记忆网络进行解码,逐字输出描述语句。

    ​         由于图像上的物体可能有很多,但真正重要的目标只有少量,最早的方法在图像编码中引入了注意力机制,即让网络在无监督的情况下自己学习哪些空间区域是比较重要的,这样会比直接不加区分地对整张图编码要更合理,比如SCACNN和Show,Attend and Tell就是其中的代表。但是,由于注意力机制是靠网络自动学习的,本身的精度无法保证,并且一般来说图像描述的主语都是图上的目标物体,因此研究者又引入了目标检测和属性分析的模型。通常可以把在专门做目标检测和属性分析的数据集上训练得到的神经网络引入到系统中,作为一种强有力的图像编码方式。这种编码方式不仅得到了显式的目标类别、属性等信息,同时也通过这些网络得到了目标的外观特征,可以进一步在解码中帮助生成语句。在训练方式上,一般深度学习的算法使用交叉熵损失来优化网络,每个算法预测的句子需要和人类描述的句子逐个单词地一一对应起来。但是,由于自然语言具有多义性的特点,即同一个意思可以由多种相同的方式表达,逐词比较的损失函数显然过于死板。同时,由于生成单词的过程是不可微的,无法通过反向传播算法来直接优化,因此很多工作引入了强化学习来解决这些问题[12-14]。

    三、视频识别与理解进展综述

    ​         视频是图像在时序上的序列组成。相对图像而言,视频有其特点:不仅仅只有视觉画面,视频还包含声音,具有多模态信息;另外视频中包含运动,有物体的运动信息,它对于行为类的内容有强有力的表现形式,需要理解的层次和维度更深。计算机视觉技术的迅速发展和深度学习的突破不仅拓宽了图像领域的应用,同时也给视频内容的识别与理解带来了新的契机。相对图像识别与理解,视频信息更丰富,研究也更富挑战性。目前,视觉领域研究还比较少,随着AI 能力的进一步发展,以及与5G时代的深度融合,视频将成为未来社会主要的沟通交流的信息媒介。所以说视频是下一个风口,值得大力投入进行研究。

    下文将由浅入深地介绍视频识别与理解的几大领域:视频目标检测与识别、视频目标跟踪、视频行为识别和视频描述,阐述各分支的研究现状。

    1.视频目标检测与识别进展综述

    ​         目标检测是计算机视觉的一个热门研究方向,应用广泛,如视频智能监控、机器人导航、工业视觉检测等诸多领域。视频目标检测是图像目标检测的延伸,找出图像或视频帧中所有感兴趣的物体,并定位出目标物体位置和类别。不过在图像中,目标是静态的,目标和位置均固定不变;在视频中,目标和位置均随视频动态变化,要进
    行目标检测难度更大。

    ​         计算机视觉对于目标运动的分析可以大致分为三个层次:运动分割与目标检测,目标跟踪,动作识别与行为描述。其中,目标检测既是计算机视觉领域要解决的基础任务之一,同时也是视频监控技术的基本任务。视频目标检测本质上解决两个问题:图像识别和目标定位。

    ​         简单来讲,相比单张图片检测,视频检测多了时间上下文的信息。充分利用好时序上下文关系,可以解决视频中连续帧之间的信息冗余问题,减少计算量,从而提高检测速度。同时关注如何提高检测质量,解决视频中的运动模糊、视频失焦等问题。

    ​         按照技术实现的原理来看,现在的视频目标检测方法主要有以下三类:一是与光流相结合,如微软亚洲研究院的Dai的Deep Feature Flow(DFF)算法[15-16],该模型首先将检测任务分为特征提取任务和检测任务两部分,通过算法识别出关键帧、非关键帧,在关键帧上提取特征得到特征图,在非关键帧上使用FlowNet估计光流,通过关键帧提取的特征做双线性的形式得到非关键帧的特征图,在两种方式得到特征图后使用检测网络完成目标检测。二是与RNN 模型结合,如Xiao等[17]提出了用于视频对象检测的空间-时间记忆网络,其核心是一种新颖的时空记忆模块(STMM)作为反复计算单元,用于模拟长期时间外观和运动动力学。STMM的设计实现了预训练骨干卷积神经网络(CNN)重量的完全集成,这对于精确检测至关重要。此外,针对视频中的对象运动,提出了一种新颖的MatchTrans 模块,用于在帧与帧之间对齐空间- 时间记忆。三是与检测相结合,如Feichtenhofer等[18]提出了一种ConvNet架构,它能同时执行检测和跟踪。总的来说,视频目标检测相关的研究还不多,该领域处于起步阶段。但是不管是从实用性而言,还是从学术研究的角度来说,都是很不错的研究课题。

    2.视频目标跟踪进展综述

    ​         目标跟踪是计算机视觉中一类非常重要的问题,也是视频中特有的研究问题。简单来讲,目标跟踪是在动态连续的视频序列中,建立所要跟踪物体的位置关系,得到目标物体完整的运动轨迹,并判断其运动趋势。按照跟踪目标数量的多少,可分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨迹。

    ​         单目标跟踪一般默认为目标一直在视频中,视频中跟踪的目标也唯一。这类问题研究历史已久,相对比较成熟。对于多目标跟踪,一般情况下,对象位置变化很大,跟踪目标个数不固定。相对单目标跟踪来说,多目标跟踪问题更加复杂,通常需要解决以下问题:跟踪目标的自动初始化和自动终止,即如何判断新目标的出现,旧目标的消失;跟踪目标的运动预测和相似度判别,即准确的区分每一个目标;跟踪目标之间的交互和遮挡处理;跟丢目标再次出现时,如何进行再识别等。

    ​         目标跟踪是计算机视觉研究领域的热点问题之一,过去几十年以来,涌现出了一批性能出色的技术和方法,按照技术的原理,大致可以分为三大类:一是经典跟踪方法,如 Meanshift、粒子滤波(Particle Filter)和卡尔曼滤波等;二是基于检测(Track By Detection)或相关滤波(CorrelationFilter)的方法;三是近几年来出现的深度学习相关方法。

    ​        2010 年以前,目标跟踪领域大部分采用一些经典的跟踪方法,比如Meanshift、粒子滤波和卡尔曼滤波,以及基于特征点的光流算法等。Meanshift 的本质是一种基于概率密度分布的跟踪方法,其原理是使目标的搜索一直沿着概率梯度上升的方向,直到迭代收敛到局部峰值。粒子滤波方法是一种基于粒子分布统计的方法,首先对跟踪目标进行建模,并定义一种相似度度量方法,以确定粒子与目标的匹配程度。卡尔曼滤波常被用于描述目标的运动模型,它不对目标的特征建模,而是对目标的运动模型进行建模,以估计目标在下一帧的位置。另外,基于特征点的光流跟踪也属于经典跟踪方法,它的原理是在目标上提取一些特征点,然后在下一帧计算这些特征点的光流匹配点,统计得到目标的位置。

    ​         经典的跟踪方法有很多缺陷:如无法处理和适应复杂的跟踪变化,另外,算法也不够鲁棒,准确性也偏低。随着技术的发展,逐渐提出了基于检测的跟踪方法,基本原理是把跟踪的目标作为前景,利用在线学习或离线训练的检测器来区分前景目标和背景,从而得到前景目标的位置。相比经典方法,基于检测的跟踪方法更能适应跟踪过程中的复杂变化。随着技术的发展,还出现了相关滤波的跟踪算法,如Martins 等[19]在2012年提出的CSK 方法,作者提出了一种基于循环矩阵的核跟踪方法,并解决了密集采样的问题,最后利用傅立叶变换快速实现了检测过程。其后又衍生出了基于HOG特征的KCF方法、考虑多尺度或颜色特征的方法以及用深度学习提取的特征结合 KCF 的方法等。

    ​         第三大类是深度学习相关的视频目标跟踪方法。在目标跟踪上,深度学习的应用方式是把神经网络学习到的特征直接应用到相关滤波或Struck 的跟踪框架里面,从而实现目标跟踪。本质上,深度学习方法是提取到了更好的特征表达,跟踪模型有效地利用深度学习的特征提升目标跟踪性能。根据特征的层次不同,基于深度学习的多目标跟踪可以分为表观特征的深度学习、基于相似性度量的深度学习,以及基于高阶匹配特征的深度学习。另外,基于深度学习的跟踪方法有比较好的特性,是端到端输出的跟踪框架,如GOTURN。目前,基于深度学习的跟踪框架还在不断发展中,从SiameseFC到CFNet等,这个领域正在蓬勃发展。

    ​         总的来说,基于深度学习的单目标跟踪算法取得了长足的进步。相对而言,深度学习在多目标跟踪领域的应用还比较多的局限于匹配度量的学习。在多目标跟踪领域中,研究如何采用生成式网络模型和深度强化学习来学习跟踪场景的适应性,以提升跟踪算法的性能是未来的研究趋势。

    3.视频行为识别

    ​        视频行为识别,也称为动作识别,在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着很重要的角色。简单来讲,是给定一个视频,让计算机判断感兴趣的人或物体在进行什么行为,比如跑步、打太极、骑自行车等。视频行为识别是计算机视觉的一个基本问题,也是计算机视觉中视频理解的关键基础技术,只有识别视频中的单个行为,才能整合起来对视频整体有所理解。

    ​         行为识别是非常有难度的,其处理对象是视频,相对于图像分类来说多了一个需要处理的时序维度。行为识别还有一个难点是视频段长度不一,而且开放环境下视频中存在多尺度、多目标、摄像机移动等众多问题,实际问题非常复杂。按照技术的发展历程来看,行为识别技术主要分为两类:一是传统方法,如iDT( improved Dense Trajectories)方法;二是基于深度学习的相关方法。

    ​         在传统方法中,iDT算法最为经典和有效,其框架主要包含密集采样特征点、特征轨迹跟踪和基于轨迹的特征提取三个部分。通过网格划分的方式在多尺度图像中分别密集采样特征点,特征轨迹跟踪通过计算特征点领域内的光流中值来得到特征点的运动方向,运动描述完成基于轨迹的特征提取。基于深度学习的行为识别方法是目前行为识别领域的主流技术。按照实现原理的不同,也可以分为几大类:时空结合网络、双流网络、深层生成网络。

    ​        时空网络(Spatialtemporal Networks)建模本质上是三维卷积网络,受到卷积神经网络在图像分类领域取得成功的启发,研究人员把卷积神经网络用于视频分类,即在2D卷积网络的基础之上把时间信息加入卷积运算。利用三维核从空间和时间维度提取特征,从而捕捉编码在相邻帧中的时空信息和运动,最经典的方法就是Facebook 提出的C3D模型。

    ​         双流网络模型(Two-Stream Networks)[20]主要借鉴人类视觉皮层织物的原理,视觉皮层包含两个通路:腹流参与物体识别,背流参与空间位置信息处理以及识别动作。Simonyan和Zisserman设计了一类深层神经网络,引入两个并行网络用于行为识别,即空间流(Spatial stream)接受原始静止视频帧,时间流网络(Temporal stream)接受光流场为输入,这两个流在最后融合进行识别和分类。

    ​         深层生成网络(Deep Generative Networks)本质是一种无监督技术,因为数据注释的成本很高, 如果训练不需要标签, 模型还能够很好地捕捉到序列的内容和运动,则可以实现准确的预测。目前主要的模型有Dynencoder[21],它是一种深度自动编码器, 用于捕获视频动态;还有L S T M 自动编码器,它能接受序列为输入并学习相应的紧凑表示,用于发现长期线索[22]。

           行为识别现在是一个正在大力进行研究的领域,还有很多问题远远没有到解决:从短时特征的提取到长时时间序列的建模,包括多尺度的检测、跟踪、姿态估计以及相关问题。另外,行为分析识别还和视频描述有很大的相关性,是后者的基础,都属于视频理解。

    4.视频描述

    ​         在对视频的物体识别分类,目标的行为识别之后,最重要的工作是对视频内容的理解。图像描述(Image Captioning)是为一张图像生成一句描述,视频描述(Video Captioning)与其类似,是为一个视频片段生成一句描述。因为短视频包含多帧视频图像,所以相比于图像描述,视频描述更复杂更具难度,需要考虑帧与帧之间的关系(时序因素)对生成句子的影响,以及视频上下文之间的联系。

    ​         在视频描述中,理解视频时不仅要理解每一帧中的物体,也要理解物体在多帧之间的运动。所以,视频理解往往比图像理解更为复杂。主要表现为如下几点:一、视频既可以被视为帧流,亦可以视为Trimmed Video Clip;当其被视为帧流的时候,首先将视频帧作为图片,最后对其进行池化操作;对于Trimmed Video Clip的情况,可以使用时域频域模型来学习视频中的一些行为。二、视频中的多模态信息,如音频和字符,都可以作为视频描述的输入特征。三、在视频描述中可以使用不同的池化方式,如基于时间轴的均值池化和最大值池化,还可以使用注意力机制,比如Hard-Attention和Soft-Attention,或者使用编解码的方法对其进行处理。

    ​        S2VT 模型(Sequence to Sequence-Video toText)是视频描述领域最早的研究之一,它使用了编码器解码器结构[23]。编码器的主要作用是将有用的视频信息使用深度神经网络(CNN,RNN)转化成特征给解码器使用。

    ​         SA 模型和S2VT 模型一样是比较经典的视频描述任务模型,两者的创新性各有偏重:S2VT将seq2seq模型引入了视频描述任务,SA模型则是将注意力机制引入了视频描述任务。注意力机制本质上是在视频中有权重地选择特征,即视频提取多帧的图像特征后,在生成描述的时候,会给每个图像特征一个权重系数,决定这个权重系数的是模型解码阶段每个RNN(LSTM)隐藏单元,所有权重系数的和为1。

    ​         总结来讲,在视频描述领域,目前主要有两大类方法:一类是基于CNN-LSTM 框架,另一类是基于编解码框架。

    四、计算机视觉的应用概况

    1.在智慧医疗领域的应用

    ​         随着近几年来计算机视觉技术的进步,智慧医疗领域受到了学术界和产业界的持续关注,其应用也越来越广泛和深入。Topol 等[24]指出,面向智慧医疗,人工智能技术从三个层面将产生深刻的影响:第一层面对于临床医生,计算机视觉技术能帮助其更快速、更准确地进行图像分析工作;第二层面对于卫生系统,其能通过人工智能的方式改善工作流程、减少医疗差错;第三层面对于患者,通过增强的云存储能力,他们可以处理自己的数据,以促进自我健康。

    ​         深度学习在医学图像等领域的应用有大量的研究成果被报道。如图像配准技术,是在医学图像分析领域进行量化多参数分析与视觉评估领域的关键技术[25]。Monti[26]等比较并且评估了PET与MR 两种图像模式下的配准方式,通过实验论证了PET 与MR 混合的配准方式能在头颈部这类复杂的解剖区域提供更高的配准精度。Esener等[27]则针对乳腺癌的诊断,采用多阶段分类的方式研究了一种特征集合技术,获得了相对于单阶段分类更高的分类准确率。Gargiulo 等[28]将CT 和MRI 图像与DTI 跟踪成像结合起来,使用图像分割协议对颅骨基底、肿瘤和关键纤维束进行三维建模,为神经外科手术提供了先进的治疗方式。

    ​         Gurovich等[29]通过训练能代表200 多种综合症的17000 多张罕见病患者的面部图像,得到了DeepGestlt 算法模型,该模型能够提高识别罕见遗传综合征的准确率,在实验的502 张不同的图像中,其正确识别综合征的准确率达到了91%。Friedman等人训练了基于卷积神经网络的人工智能来识别心室功能障碍患者,当在52870 名患者上测试该神经网络,灵敏度、特异性和准确度的值分别为86.3%、85.7%和85.7%。而且在没有心室功能障碍的患者中,人工智能筛查阳性的患者未来发生心室功能障碍的风险是阴性的4 倍。

    2.在公共安全领域的应用

    ​         公共安防领域是计算机视觉技术的重要应用场景,尤其是人脸识别技术,作为构建立体化、现代化社会治安防控体系的重要抓手和技术突破点,在当前的图侦实战中具有重要应用价值[30]。近十年来,街道摄像头等视觉传感器的普及为智能安防的应用提供了硬件基础与数据基础,为深度学习算法模型提供了大量的训练数据,从而大幅提升了人脸识别的技术水平[31-33]。

    ​         国内多家人脸识别产品已经被公安部门用于安防领域。完整的人脸识别系统包括人脸检测、人脸配准、人脸匹配、人脸属性分析等模块[34],其主要应用包括静态人脸识别、动态人脸识别、视频结构化等。如1:1 比对的身份认证,相当于静态环境下的人脸验证任务,用于比对输入图像与指定图像之间的匹配,已经成熟应用于人脸解锁、身份验证等场景,在2008 年北京奥运会期间作为国家级项目投入使用,在奥运会历史上第一次使用该项技术保障了开闭幕式安检的安全通畅[35]。

    ​         动态人脸识别技术则通过摄像头等视觉传感设备在视频流中获得动态的多个人脸图像,从数据库中的大量图像中找到相似度最高的人脸图像,用于人群密集场所当中的布控,协助安全部门进行可疑人口排查、逃犯抓捕等情报研判任务。视频结构化则是面向人、车、物等对象,从视频流中抽象出对象的属性,如人员的体貌特征、车辆的外形特征等。这些技术能够预警打架斗殴、高危车辆等社会治安问题的发生,为公安工作提供了一大利器,成为打击违法犯罪活动、建设平安城市的重要技术[36]。

    3.在无人机与自动驾驶领域的应用

    ​         无人机与自动驾驶行业的兴起,让计算机视觉在这些领域的应用也成为了近年来的研究热点。以无人机为例,简单至航拍,复杂至救援救灾和空中加油等应用,都需要高精度的视觉信号以保障决策与行动的可靠性[37]。无人机的核心导航系统中,很重要的一个子系统就是视觉系统,通过单摄像头、双摄像头、三摄像头甚至全方向的摄像头布置,视觉系统能克服传统方法的限制与缺点,结合SLAM、VO 等技术,应用近几年热门的深度学习算法,能够提升位姿估计、高度探测、地标跟踪、边缘检测、视觉测距、障碍检测与规避、定位与导航等任务的进度。从外界获取的信号与无人机飞控系统的视觉伺服系统形成闭环能提升飞行器的稳定性[38]。目前,商用的无人机已被广泛地应用于活动拍摄、编队表演、交通检测乃至载人飞行等领域。

    ​         计算机视觉软硬件技术的齐头并进加速了自动驾驶汽车技术的发展,特别是在摄像头普及,激光雷达、毫米波雷达、360o大视场光学成像、多光谱成像等视觉传感器配套跟进条件下,在卷积神经网络深度学习算法等的配合下,基于计算机视觉系统的目标识别系统利用计算机视觉观测交通环境,从实时视频信号中自动识别出目标,为自动驾驶,如起步、加速、制动、车道线跟踪、换道、避撞、停车等操作提供判别依据[39]。自动驾驶的车辆可以完成道路及道路边沿识别、车道线检测、车辆识别、车辆类型识别、非机动车识别、行人识别、交通标志识别、障碍物识别与避让等任务。目前国内外一些企业在自动驾驶领域都取得了不错的成绩。

    4.在其他社会领域的应用

           ​ 计算机视觉应用非常广泛,除了上文提到的三个重要的领域之外,在三大产业( 工业、农业、服务业)都有着大量的应用实践,为人类生活提供了越来越多的便利。如在工业领域,计算机视觉是工业机器人领域的关键技术,配合机械装置能够实现产品外观检测、缺陷检测、质量检测、产品分类、部件装配等功能。ABB 公司研发的IRB360 工业机器人借助FlexPiker视觉系统实现了跟踪传送带物品并且完成分拣,大大提升了工作效率。在工业互联网大力推进的大背景下,计算机视觉的应用将越来越普及,在智能化、无人化的工业上发挥出更大的作用。

    ​         在农业领域,计算机视觉的应用成果涉及农产品品质检测、作物识别与分级、农副产品出厂质量监测、植物生长监测、病虫害的探测与防治、自动化收获等领域,为精细农业和农业生产自动化奠定了基础。腾讯报道了其在2018 年利用摄像头等传感器收集温室气温等环境数据,再通过深度学习模型计算、判断与决策,远程控制黄瓜的生产,减少了人力资源的投入。

    ​         在第三产业,“ 智慧城市”概念带动了诸如智慧交通、智慧教育、智慧社区、智慧零售、智慧政务等基于计算机视觉技术的应用场景。在泛娱乐行业,应用深度卷积神经网络的AlphaGo在2016年击败了围棋世界冠军李世石九段,成为了人工智能发展历史上的一个里程碑事件。而不久后,其研发团队推出了更为先进的AlphaGoZero系统,采用新的强化学习算法,获得了超人的性能,同时打败围棋、将棋、西洋棋的世界顶尖人类选手。这也预示以计算机视觉为代表的人工智能技术未来将深刻改变人类的生活方式乃至社会形态。

    参考文献

    [1] LeCun Y,Bengio Y,Hinton G. Deep learning[ J].Nature,2015,521(7553):436.
    [2] Treichler D G. Are you missing the boat in training aids[ J].Film and AV Communication,1967,1:14-16.
    [3] Krizhevsky A,Sutskever I,Hinton G. ImageNet classification with deep convolutional neural networks[ J].Advances in Neural Information Processing Systems,2012,25(2).
    [4] Corinna C,Vapnik V. Support-vector networks[ J].Machine learning,1995,20(3):273-297.
    [5] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[ C]. Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016.
    [6] Girshick R,Donahue J,Darrelland T,et al. Rich featurehierarchies for object detection and semantic segmentation
    [C]. 2014 IEEE Conference on Computer Vision andPattern Recognition,2014.
    [7] Uijlings J R R,Sande K E A,Gevers T,et al. Selective search for object recognition[J]. International Journal ofComputer Vision,2013,104(2):154-171.
    [8] Ren S,He K,Girshick R,et al. Faster r-cnn:Towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems,2015:91-99.
    [9] Farabet C,Couprie C,Najman L,et al. Scene parsing with multiscale feature learning,purity trees,and optimalcovers[ J]. ArXiv Preprint ArXiv:1202.2160,2012.
    [10] Pinheiro P,Collobert R. Recurrent convolutional neural networks for scene labeling[C]. International conference on Machine Learning,2014.
    [11] Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation[C]. Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2015.
    [12] Rennie S J,Marcheret E,Mroueh Y,et al. Self-critical sequence training for image captioning[C]. Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017.
    [13] Liu S,Zhu Z,Ye N,et al. Improved image captioning viapolicy gradient optimization of spider[C]. Proceedings of the IEEE international Conference on Computer Vision,2017.
    [14] Ren Z,Wang X,Zhang N,et al. Deep reinforcement learning-based image captioning with embedding reward[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017.
    [15] Zhu X,Xiong Y,Dai J,et al. Deep feature flow for videore cognition[C]. Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017.
    [16] Zhu X,Wang Y,Dai J,et al. Flow-guided feature aggregation for video object detection[C]. Proceedingsof the IEEE International Conference on Computer Vision,2017.
    [17] Xiao F,Jae L Y. Video object detection with an aligned spatial-temporal memory[C]. Proceedings of theEuropean Conference on Computer Vision( ECCV),2018.
    [18] Feichtenhofer C,Pinz A,Zisserman A. Detect to track and track to detect[C]. Proceedings of the IEEE International Conference on Computer Vision,2017.
    [19] Comaniciu D,Meer P. Mean shift:A robust approach toward feature space analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002( 5):603-619.
    [20] Zhu G,Wang J,Wu Y,et al. MC-HOG correlation tracking with saliency proposal[C]. Thirtieth AAAI Conference on Artificial Intelligence,2016.
    [21] Yan X,Chang H,Shan S,et al. Modeling video dynamics with deep dynencoder[C]. European Conference on Computer Vision. Springer,Cham,2014.
    [22] You Q,Jin H,Wang Z,et al. Image captioning with semantic attention[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016.
    [23] Shin H C,Orton M R,Collins D J,et al. Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data [J]. IEEE transactions on pattern analysis and machine intelligence,2013,35(8):1930-1943.
    [24] Topol E J. High-performance medicine:the convergence of human and artificial intelligence[ J]. Nature Medicine,2019,25(1):44.
    [25] Junfeng G,Yong Y,Pan L,et al. Computer Vision in Healthcare Applications[ J]. Journal of Healthcare
    Engineering,2018,2018:1-4.
    [26] Serena M,Carlo C,Mario C,et al. An evaluation of the benefits of simultaneous acquisition on PET/MR coregistration in head/neck imaging[ J]. Journal of Healthcare Engineering,2017,2017:1-7.
    [27] Idil I E,Semih E,Tolga Y. A new feature ensemble with a multistage classification scheme for breast cancer diagnosis [J]. Journal of Healthcare Engineering,2017,2017:1-15.
    [28] Paolo G,árnadóttir í,Gíslason M,et al. New directions in 3D medical modeling:3D-printing anatomy and functions in neurosurgical planning[ J]. Journal of Healthcare Engineering,2017,2017:1-8.
    [29] Gurovich Y,Hanani Y,Bar O,et al. Identifying facial phenotypes of genetic disorders using deep learning[ J]. Nature Medicine,2019,25(1):60.
    [30] 胡雪地,庄唯,罗忆. 人脸识别技术在警务实战中的应 用探索[J]. 警察技术,2017( 4):65-68.
    [31] Sun Y , Wang X , Tang X . Deep learning face representation from predicting 10,000 classes[ C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition( CVPR),IEEE Computer Society,2014.
    [32] Taigman Y,Yang M,Ranzato M,et al. DeepFace: closing the gap to human-level performance in face verification[ C]. Conference on Computer Vision and Pattern Recognition( CVPR),IEEE Computer Society, 2014.
    [33] Trigueros D S,Meng L,Hartnett M. Face recognition: from traditional to deep learning methods[ J]. ArXiv preprint arXiv:1811.00116,2018.
    [34] 汪海洋. 人脸识别技术的发展与展望[J]. 中国安防, 2015(21):62-65.
    [35] 苏光大. 人脸识别在社会公共安全领域的应用[J]. 中国安防,2015(14):12-14.
    [36] 刘晗. 人脸识别技术在十大领域的创新应用[J]. 中国安防,2015(21):66-69.
    [37] Erdos D,Erdos A,Watkins S E. An experimental UAV system for search and rescue challenge[ J]. IEEE Aerospace and Electronic Systems Magazine,2013,28(5): 32-37.
    [38] Milford M J,Schill F,Corke P,et al. Aerial SLAM with a single camera using visual expectation[C]. 2011 IEEE International Conference on Robotics and Automation, 2011.
    [39] SAE International,Surface Vehicle Recommended Practice,J3016. Taxonomy and Definitions for Terms Related to Driving Automation Systems for on-Road Motor Vehicles[ S]. June 2018.

    展开全文
  • 计算机视觉应用综述

    千次阅读 2018-12-09 10:05:19
    近年来,我们随处可以听到一个词,“人工智能”。机器的智能化成为了现今的一大研究热点,...那么计算机视觉具体有哪些应用呢? 无人驾驶  无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽...

        近年来,我们随处可以听到一个词,“人工智能”。机器的智能化成为了现今的一大研究热点,而机器要变得更加智能,必然少不了对外界环境的感知。有研究表明,人对外界的环境的感知70%以上来自人类的视觉系统,机器也是如此,大多数的信息都包含在图像中,人工智能的实现少不了计算机视觉。那么计算机视觉具体有哪些应用呢?

    1. 无人驾驶

        无人驾驶又称自动驾驶,是目前人工智能领域一个比较重要的研究方向,让汽车可以进行自主驾驶,或者辅助驾驶员驾驶,提升驾驶操作的安全性。目前已经有一些公司研发出了自动泊车等辅助驾驶功能并得以应用。目前这方面做得比较好的是谷歌的无人驾驶汽车。国内也有一些比较好的公司,如百度无人驾驶车已经在一些园区得以应用,还有图森未来的货运车也完成了多次路测,并已经投入市场使用。

        计算机视觉在无人驾驶中起到了非常关键的作用,比如道路的识别,路标的识别,红绿灯的识别,行人识别等等平常驾驶过程中需要注意的。另外还包括三维重建及自主导航,通过激光雷达或者视觉传感器可以重建三维模型,辅助汽车进行自主定位及导航,进行合理的路径规划和相关决策。

    2.人脸识别

       人脸识别技术目前已经研究得相对比较成熟,并在很多地方得到了应用,且人脸识别准确率目前已经高于人眼的识别准确率,很多高铁站及门禁的地方都用到了人脸识别,很多都有刷脸系统,有些城市甚至在银行取钱都可以直接刷脸。

    3.无人安防

       安防一直是我国比较重视的问题,也是人们特别重视的问题,在很多重要地点都安排有巡警巡查,在居民小区以及公司一般也都有保安巡查来确保安全。随着计算机视觉的发展,计算机视觉技术已经能够很好的应用到安防领域,目前很多智能摄像头都已经能够自动识别出异常行为以及可疑危险人物,及时提醒相关安防人员或者报警,加强安全防范。

    4.车辆车牌识别

        车辆车牌识别目前已经是一种非诚成熟的技术了,高速路上的违章检测,车流分析,安全带识别,智能红绿灯,还有停车场的车辆身份识别等都用到了车辆车牌识别,不仅能识别出车牌的号码,目前车辆识别技术已经能对道路上的车辆车型进行识别,通过识别摄像头获取的图像,能获取到车辆的型号及颜色等特征。

    5.智能识图

        智能识图是我们生活中比较常见的计算机视觉的应用了。看到一个纸质文档,想要把其转换成电子文档,直接把文档拍下来,用相关软件进行文字识别,就能把图像中的文字自动转换成电子文档,甚至还能自动翻译成其他语言。看到一件衣服或一个物品,想在网上找他的来源等其他相关信息,直接输入图片,以图搜图,很快就能找到很多该图片出现的地方以及很多类似的图片。甚至还有些能直接告诉你图片中的物体是个什么东西,或者大概判断图片中的人像的大概年龄等比较好玩的功能。

    6.3D重构

        3D重构之前在工业领域应用比较多,可以用于对三维物体进行建模,方便测量出物体的各种参数,或者对物体进行简单复制。最近也慢慢开始应用到民用领域了,比如新出的华为mate20系列手机,就已经可以对玩偶进行三维建模,并能够设置一些特定的动作,让玩偶“活”起来,甚至可以与人进行一些互动。当然这里与人互动还用到AR技术。

    7.VR/AR

        VR/AR技术相信大家都已经比较熟悉了。VR眼睛在前两年卖得特别火爆,还有一些9D游戏机,就是利用VR技术让人能够有一种身临其境的感觉。而AR技术目前比较常见的可能是双十一时候淘宝的天猫,还有之前比较火爆的宠物捕获游戏,可以在现实场景中加入一些其他元素,目前这个领域还在快速发展中。很多方便人们生活的应用也在不断推出,比如智能翻译,用手机对着需要翻译的字,在这个界面上就自动显示出相关的翻译,或者后面可能实现的虚拟试衣间等,将大大的方便人们的生活。

     

    8.智能拍照

        这个相信是大家很熟悉的一个名词了,基本每个智能手机都开始配有这个功能。最基础的功能包括自动曝光,自动白平衡,自动对焦等,还有一些去燥算法,能很好的提高手机拍照的图像质量。随着计算机视觉技术的进步,一些自动美颜算法,自动挂件,自动滤镜,场景切换等越来越多有趣的功能都被开发出来。还有一些图像处理软件,像专业的Photoshop,还有比较民用化的美图秀秀,美颜相机等,基本也都是利用计算机视觉的技术。

    9.医学图像处理

        常见的医学成像,比如B超,核磁共振,X光拍片等。随着AI技术的发展,还开始有一些AI诊断的功能,AI根据图像的特征对相关疾病的可能性进行分析。

    10.无人机

        随着无人机技术的发展,计算机视觉技术在无人机上的应用必不可少,军用无人机中,可以对目标进行自动识别并自主导航,精确制导等,民用的无人机也类似,例如大疆的无人机,能够跟踪人进行实时的拍照,还有一些手势控制等。还有一些特殊场景的应用,例如电力巡检,农作物分析等。

    11.工业检测

        工业领域计算机视觉也得到了充分应用,例如产品缺陷检测,工业机器人姿态控制,利用立体视觉来获得工件和机器人之间的相对位置姿态。

    12.其他

        计算机视觉还有很多应用,随着技术的发展,应用领域也会越来越多。在工业领域的应用,在机器人技术方面的应用,这里就不一一的赘述了。相信随着计算机视觉技术的不断发展,我们的生活能够越来越智能化,便捷化。

        因为机器视觉课程刚好布置了这门作业,所以大概总结了一下,自己之前一段时间也在找计算机视觉相关的工作,所以多数还是根据自己对这个行业的了解来写的,难免和其他相关的总结有点类似。转载请注明出处。

    参考文献:

    https://36kr.com/p/5074487.html

    http://wb.qdqss.cn/html/qdwb/20180226/qdwb303829.html

    展开全文
  • 基于OpenCV的计算机视觉技术实现》是2008年由科学出版社出版的图书,作者是陈胜勇。本书可供广大科研人员、工程技术人员、高校相关专业师生及计算机视觉和图像编程爱好者阅读参考。《基于OpenCV的计算机视觉技术实现...
  • 计算机视觉:算法与应用》探索了用于分析和解释图像的各种常用技术,描述了具有一定挑战性的视觉应用方面的成功实例,兼顾专业的医学成像和图像编辑与拼接之类有趣的大众应用,以便学生能够将其应用于自己的照片和...
  • 计算机视觉——算法与应用》探索了用于分析和解释图像的各种常用技术,描述了具有一定挑战性的视觉应用方面的成功实例,兼顾专业的医学成像和图像编辑与交织之类有趣的大众应用,以便学生能够将其应用于自己的照片...
  • 《图像处理与计算机视觉算法及应用(第2版)》介绍了最新的算法,包括基于内容搜索中的2D视觉方法和使用显卡作为图像处理计算工具等。对于软件工程师和开发人员、高级程序员、图形程序员、科学家,以及其他需要高度...
  • 计算机视觉技术在食品品质检测中的应用.pdf
  • 图像处理与计算机视觉算法及应用 第2版 (高清完整版) pdf 扫描版
  • 计算机视觉技术应用.pdf
  • 人工智能技术应用专业与计算机视觉1+X证书融合路径研究.pdf
  • 计算机视觉技术在地理信息系统中的应用,高利鹏,,目前,地理信息系统领域中的数字摄影测量和遥感特征目标识别主要是侧重于测绘技术与理论,而较少考虑计算机视觉技术理论,因此本
  • 计算机视觉顾名思义,就是让计算机具备像人眼...作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。计算机视觉目前还主要停留在图像信息表达和物...

    计算机视觉顾名思义,就是让计算机具备像人眼一样观察和识别的能力,更进一步的说,就是指用摄像机和电脑代替人眼对目标进行识别、跟踪和测量,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

    那么计算机视觉和人工智能是什么联系呢?
    作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取“信息”的人工智能系统。计算机视觉目前还主要停留在图像信息表达和物体识别阶段,人工智能更强调推理和决策。

    目前计算机视觉主要应用在安防摄像头、交通摄像头、无人驾驶、无人机、金融、医疗等方面。国内代表性公司有海康威视、大华股份等传统大公司,还有商汤科技、云从科技、依图科技以及旷视科技等独角兽企业,还有思岚科技、速感科技、阅面科技、云天励飞、Yi+、图漾信息、码隆科技、格灵深瞳、Insta360等创业企业。
    人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
    人工智能时代,AI人才都有哪些特征?
    http://www.duozhishidai.com/article-1792-1.html
    深度学习与计算机视觉的具体介绍
    http://www.duozhishidai.com/article-15924-1.html
    计算机视觉如何入门
    http://www.duozhishidai.com/article-8235-1.html
    计算机视觉影响人工智能的发展方式,主要有哪五种?
    http://www.duozhishidai.com/article-2903-1.html


    多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

    多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
    展开全文
  • 图像处理、图像分析和机器视觉领域的有关原理与技术展开了广泛而深入的讨论,包括图像预处理、图像分割、形状表示与描述、物体识别与图像理解、三维视觉、数学形态学图像处理技术、离散图像变换、图像压缩、纹理描述...
  • 计算机视觉技术应用进展.pdf
  • 编者按:本文来自微信公众号“IT桔子”(ID:itjuzi521),...我们将那些核心技术为「将深度学习技术应用于视觉与图像领域」的公司归到「计算机视觉与图像」类。同时,「无人机」和「机器人」相关公司并未被统计在...
    计算机视觉与图像:八大热点公司以及九大应用场景

    编者按:本文来自微信公众号“IT桔子”(ID:itjuzi521),作者IT桔子数据分析部;36氪经授权发布。

    根据 IT 桔子数据,国内人工智能产业中「计算机视觉与图像」领域的公司数量已达 111 家,仅次于「自然语言处理」类公司,位居第二。

    我们将那些核心技术为「将深度学习技术应用于视觉与图像领域」的公司归到「计算机视觉与图像」类。同时,「无人机」和「机器人」相关公司并未被统计在内,这部分公司虽然也会涉及到计算机视觉技术,但以后将会单独在「无人机」和「机器人」专题中有所体现。

    我们通过对这 111 家公司进行观察,按公司的业务对企业进行统计如下:

    计算机视觉与图像:八大热点公司以及九大应用场景

    总融资额过亿的第一梯队公司盘点

    在这 111 家人工智能「视觉与图像」企业中,IT 桔子根据其历史融资数据进行了分析,并挑选出总融资额过亿元(人民币)的八家该领域创业公司,进行盘点:

    计算机视觉与图像:八大热点公司以及九大应用场景注:以下所有公司图谱来自桔子雷达 radar.itjuzi.com

    TOP 1:商汤科技融资总额 13.65 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景商汤科技专注于打造人工智能视觉引擎,基于自主研发的深度学习平台,输出全套人工智能视觉技术,包括成像处理、感知、识别,目前服务于金融、平安城市、机器人、无人驾驶等多个行业。

    4 月 20 日,商汤科技获得赛领资本 6000 万美元战略投资。本次融资后,商汤科技可能将重点精力放在商业化运作上,据商汤科技 CEO 徐立则透露,赛领的加盟将带来更多重量级的资源,帮助商汤的商业化布局。

    TOP 2:旷视科技融资总额 9.65 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景2016 年 12 月,Face++旷视科技融资一亿美元,成为了国内计算机视觉领域第一家完成 C 轮融资的创业公司,本轮投资方是建银国际和富士康。

    旷视目前的主营方向是互联网金融,这次建银国际的投资后,可能会进一步帮助让旷视在银行业务有所进展;另外,富士康的投资可能跟旷视在仓储机器人领域新成立的公司(艾瑞思机器人)有关。

    TOP 3:深醒科技融资总额 3 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景深醒科技成立于 2016 年初,以人脸识别技术切入 AI 战场,在识别动态模糊拍摄和暗光拍摄的人像上有技术优势。目前已面向安防监控、金融、地产、学校、医院等领域提供多种解决方案。

    2017 年 1 月最新一轮融资后,深醒科技表示会进一步在综合实战环境算法优化及数据训练等方面加大投入,并在中国公安领域加大市场投入,全面提升高科技在技防中的实战成效。此外,团队还在争取与中航工业、中石油、中铁建等有较高安防需求的企业选择与深醒合作。

    TOP 4:依图科技融资总额 2.18 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景依图科技也是人脸识别领域的佼佼者,2015 年获得「公安部科技进步奖」,并且与阿里云合作搭建「贵州公安交警大数据实时作战云平台」。同年,依图在与银行合作方面,招商银行将「依图人脸识别技术」推广到全国 1500 家网点。浦发银行「人像识别平台及直销银行远程开户视频认证建设项目」投产,实现 VTM 和手机银行的人脸身份认证。

    2016 年 3 月份,依图科技获得 B 轮数千万美元融资,本轮投资方云锋基金创始人马云、虞锋的企业管理经验可能将对依图有所帮助。依图已经开始在医疗健康,城市数据大脑等领域的探索和实践,并且为海关总署及中国边检提供人像比对系统。

    TOP 5:图普科技融资总额 2.15 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景图普科技是为数不多的技术紧密结合了盈利的商用场景的 AI 创业公司,在识别色情、暴恐、时政敏感信息、小广告等违规图片和视频方面市场挖掘出了国内市场的刚需获取了大量客户。随着移动直播的热潮,图普科技借势也获得了较大提升,已与国内大多数直播公司建立了合作。

    据之前图普科技数据显示,网络图像内容审查业务服务费约为 25 元/万张图片,提供月付费或包年方式。由此推测,图普科技的现金流和营收都很可观。但是,拿下了国内绝大多数直播公司的订单后,在该领域可能会很快迎来增长的瓶颈。

    2016 年 9 月份,图普科技拿到新一轮融资后,已经开始拓展新的业务方向。在人脸识别、物体及场景识别、文字识别等方向都已经推出服务。依图已经成为旷视(Face++)、商汤等公司的有力竞争对手。

    TOP 6:格灵深瞳融资总额 1.98 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景格灵深瞳致力于计算机视觉和深度学习,现主攻安防领域。格灵深瞳早期曾组建过汽车计算机视项目组,该项目组已与驭视科技合并,格灵深瞳现作为驭视科技的股东之一。

    2014 年 6 月,格灵深瞳获红杉中国数千万美元 A 轮投资。有尚未证实的消息称,格灵深瞳现拿到了新一轮战略投资,领投方为安防领域大佬,将来业务将可能继续深耕安防领域。

    TOP 7:云天励飞融资总额 1.95 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景云天励飞是一家专注于视觉智能领域,以深度学习和新型处理器技术为核心的创业公司,致力于实现视觉识别的「端智能」与大数据分析的「云智能」。曾服务过 2016 年的杭州 G20 峰会、双创周主会场、乌镇互联网大会等,并协助深圳公安破获各类案件 500 余起,找回多名失踪走失儿童。

    据云天励飞创始人陈宁称:「截止到 2016 年底,云天励飞已经在平安城市、智慧商业、无人机船车、机器人与智能制造等行业的 1000 家企业提供视觉芯片和智能解决方案。公司第一年即实现过亿元订单,2017 年预计销售额过 10 亿元。」

    今年 3 月,云天励飞获得数千万美元的 A 轮融资,投资方包括山水从容传媒投资有限公司、松禾资本、深投控、投控东海、红秀盈信等多家投资机构。云天励飞创始人陈宁透露,在获得本轮融资后,公司将会致力于软硬件的一体化建设。

    TOP 8:纵目科技融资总额 1.4 亿元人民币

    计算机视觉与图像:八大热点公司以及九大应用场景

    计算机视觉与图像:八大热点公司以及九大应用场景纵目科技成立于 2013 年,主要研发 2D 和 3D 全景视觉辅助驾驶系统,及自动停车和驾驶记录系统等。产品已被中国许多汽车制造商广泛使用,包括吉利汽车和上汽集团,以及野马等汽车配件供应商。

    今年 2 月 21 日,纵目科技正式挂牌新三板。两天后,纵目科技又完成了 1 亿元定增融资,认购方主要为北京君联成业股权投资合伙企业 (有限合伙)、厦门德丰嘉润股权投资基金合伙企业 (有限合伙),两者分别认购 7000 万元、3000 万元。

    纵目科技透露,此轮融资将主要用于公司运营以及自动驾驶研发。公司计划在厦门新设子公司,开展 ADAS 系统相关传感器的研发和生产,向产业链前端延展布局。本次募集的部分资金将用于新设子公司的实缴出资。

    九大黄金应用场景盘点

    从以上 8 家公司的盘点我们可以看到的一点是,大家将人工智能「视觉与图像」技术的应用在各个领域、场景都有所应用与布局。那么在全部的 111 家企业中,哪些应用场景的热度与成熟度较高?

    IT 桔子详细梳理出了主要的九个不同场景下的应用,并根据企业分布数量排序进行盘点:

    计算机视觉与图像:八大热点公司以及九大应用场景TOP 1:人脸识别

    IT 桔子数据显示,「人脸识别」是人工智能「视觉与图像」领域中最热门的应用,在本次筛选出的 111 家公司中有接近三分之一的企业提供「人脸识别」产品或服务。

    今年 2 月,《麻省理工科技评论》发布「2017 全球十大突破性技术」榜单,来自中国的技术「刷脸支付」位列其中。这是该榜单创建 16 年来首个来自中国的技术突破。

    计算机视觉与图像:八大热点公司以及九大应用场景代表企业:Face++旷视科技、依图科技、商汤科技、深醒科技、云从科技等。

    人脸识别技术目前已经广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗等行业。据业内人士分析,我国的人脸识别产业的需求旺盛,需求推动导致企业敢于投入资金。目前,该技术已具备大规模商用的条件,未来三到五年将高速增长。而今年,这一技术有望在金融与安防领域迎来大爆发。

    TOP 2:视频/监控分析

    在企业数量统计中,「视频/监控分析」是人工智能「视觉与图像」领域中第二大热门应用。

    计算机视觉与图像:八大热点公司以及九大应用场景代表企业:SenseTime 商汤科技、DeepGlint 格灵深瞳、依图科技、云天励飞、深网视界等。

    人工智能技术可以对结构化的人、车、物等视频内容信息进行快速检索、查询。这项应用使得让公安系统在繁杂的监控视频中搜寻到罪犯的有了可能。在大量人群流动的交通枢纽,该技术也被广泛用于人群分析、防控预警等。

    视频/监控领域盈利空间广阔,商业模式多种多样,既可以提供行业整体解决方案,也可以销售集成硬件设备。将技术应用于视频及监控领域在人工智能公司中正在形成一种趋势,这项技术应用将率先在安防、交通甚至零售等行业掀起应用热潮。

    TOP 3:图片识别分析

    「静态图片识别」应用热度在视觉与图像领域中排名第三。将人工智能技术单纯用于图片识别分析的应用企业数量并不如预想的多,可能有一下几个方面原因:

    1、目前视频监控方向的盈利空间大,众多企业的注意力都放在了视频监控领域;

    2、人脸识别属于图片识别的一个应用场景,做人脸识别的大多数企业同时也在提供图片识别服务,但是销售效果不佳,主要赢利点还在于人脸识别;

    3、图片识别大多商用场景还属于蓝海,潜力有待开发;

    4、图片数据大多被大型互联网企业所掌握,创业公司数据资源稀少。

    计算机视觉与图像:八大热点公司以及九大应用场景代表企业:Face++旷视科技、图普科技、码隆科技、酒咔嚓、YI+陌上花科技等。

    TOP 4:驾驶辅助/智能驾驶

    随着汽车的普及,汽车已经成为人工智能技术非常大的应用投放方向,但就目前来说,想要完全实现自动驾驶/无人驾驶,距离技术成熟还有一段路要走。

    不过利用人工智能技术,汽车的驾驶辅助的功能及应用越来越多,这些应用多半是基于计算机视觉和图像处理技术来实现。

    计算机视觉与图像:八大热点公司以及九大应用场景代表企业:纵目科技、TuSimple 图森科技、驭势科技、MINIEYE 佑驾创新、中天安驰等。

    Mobileye 是一家以色列计算机视觉公司,是公认的全球一流驾驶辅助公司。在今年 3 月份,英特尔以 153 亿美元高价收购了 Mobileye,以布局自动驾驶。此事件成为以色列历史上最贵的一次科技收购案,也引起了市场的广泛关注。

    TOP 5:三维图像视觉

    三维图像视觉主要是对于三维物体的识别,应用于三维视觉建模,三维测绘等领域。

    计算机视觉与图像:八大热点公司以及九大应用场景代表企业:DeepGlint 格灵深瞳、拓视觉、非白三维科技、图漾科技等。

    TOP 6:工业视觉检测

    机器视觉可以快速获取大量信息,并进行自动处理。在自动化生产过程中,人们将机器视觉系统广泛地用于工况监视、成品检验和质量控制等领域。

    机器视觉系统的特点是提高生产的柔性和自动化程度。运用在一些危险工作环境或人工视觉难以满足要求的场合;此外,在大批量工业生产过程中,机器视觉检测可以大大提高生产效率和生产的自动化程度。

    计算机视觉与图像:八大热点公司以及九大应用场景代表企业:创想智控、凯视佳、拓视觉、帆声图像、华睿科技等。

    TOP 7:医疗影像诊断

    医疗数据中有超过 90% 的数据来自医疗影像。医疗影像领域拥有孕育深度学习的海量数据,医疗影像诊断可以辅助医生,提升医生的诊断的效率。

    2015 年 4 月,IBM 成立了 Watson Health 部门,开始进军医疗行业。2015 年 8 月 6 日,IBM 宣布以 10 亿美元的价格收购医疗影像公司 MergeHealthcare,并将其与新成立的 WatsonHealth 合并。2016 年 2 月,IBM 又斥资 26 亿美元收购医疗数据公司 TruvenHealthAnalytics。今年 2 月份,在 HIMSS17 大会上 Watson Health 公布了 IBM 的第一个认知影像产品 Watson Clinical Imaging Review,该产品可检查包括图像在内的医疗数据,帮助医疗服务提供商识别需要关注的最危急情况。

    代表企业:推想科技、雅森科技、汇医慧影、12Sigma 图玛深维、DeepCare 等。

    TOP 8:文字识别

    计算机文字识别,俗称光学字符识别,它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。这是实现文字高速录入的一项关键技术。

    今年三月份,海康威视研究院预研团队基于深度学习技术的 OCR(Optical Character Recognition,图像中文字识别)技术,刷新了 ICDAR Robust Reading 竞赛数据集的全球最好成绩,并在「互联网图像文字」、「对焦自然场景文字」和「随拍自然场景文字」三项挑战的文字识别(Word Recognition)任务中取得第一。同期参赛的有来自 82 个国家的 2367 支队伍参加,其中包括 Google、微软、百度、三星、旷视等团队。

    代表企业:海康威视、合合信息、鼎识科技、易道博识等。

    TOP 9:图像及视频编辑

    2016 年,Google 举行了一场「人工智能作家」的画展。通过一个名叫「DeepDream」的艺术生成器,谷歌可以将神经网络由内部传送到外部。不是识别图像,而是创作图像。有人称这些机器做的画为「机器之梦」。

    计算机视觉与图像:八大热点公司以及九大应用场景目前市场上也出现了很多运用及机器学习算法对图像进行处理,可以实现对图片的自动修复、美化、变换效果等操作。并且越来越受到用户青睐。

    近日,全球知名的数字媒体编辑软件供应商 Adobe,也加入了人工智能的大潮,发布了旗下首个基于深度学习和机器学习的底层技术开发平台——Adobe Sensei。

    代表公司:美图秀秀、泼辣熊、SenseTime 商汤科技、微禾迅科技等。

    总结

    在分析了「计算机视觉与图像」领域的公司中总融资额过亿元(人民币)的八家吸金大户及九大应用场景后,我们可以得到一些结论及推测。

    1、2016 年「人脸识别」成为了小风口,大量资本涌入,而 2017 年可能将是人脸识别产业应用产生突破性进展的一年。

    2、人脸识别和视频监控两大方向最受资本青睐,同时技术也在寻找其他方向的突破。

    3、「计算机视觉与图像」技术在互联网金融、银行业、安防、交通等行业应用最为广泛。

    4、八家吸金大户创业公司业务全为 toB 的,人工智能技术的普及确实非常需要借助行业的力量。

    5、目前「计算机视觉与图像」泡沫问题并不是特别突出,人工智能概念确实炒的过热,但大多数资本还是趋于理性。

    6、人脸识别、视频监控、互联网图像内容审查等应用,已经成为「计算机视觉与图像」技术的产业切入口,未来市场的认可将加速人工智能的产业化进程。

    7、我们在梳理企业的时候发现,目前互联网创业公司蹭人工智能热点的现象非常普遍,确实存在「人工智能泛化」的问题,但是多数真正拥有人工智能核心技术的公司,成长状况都比较良好。

    8、技术固然重要,但是,产业的切入点、应用场景、行业服务也是重中之重。最重要的是解决实际问题。


    展开全文
  • 浅析计算机视觉技术应用发展.pdf
  • 人工智能系列图谱:八大热点公司以及九大应用场景本文来自微信...我们将那些核心技术为「将深度学习技术应用于视觉与图像领域」的公司归到「计算机视觉与图像」类。同时,「无人机」和「机器人」相关公司并未被统计...
  • 本文主要介绍了电子和计算机技术对计算机视觉技术发展的影响,以及与计算机视觉系统开发相关的虚拟仪器开发平台Labview和图像处理软件Imaq Vision的特点,重点说明了模型匹配新技术的原理和特性,并给出这些新技术在...
  • 计算机视觉技术在棉花异物检测中的应用综述
  • 论文运用图像识别和字符识别技术,研究开发了一套发动机活塞装配计算机视觉识别系统

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 96,283
精华内容 38,513
关键字:

计算机视觉技术的应用