精华内容
参与话题
问答
  • 计算机视觉技术专题
  • 计算机视觉技术之人脸识别实战

    千人学习 2019-09-11 11:01:11
    计算机视觉是一门研究如何使机器通过“看”去理解...本门课程将带领大家深入浅出计算机视觉技术的核心,了解视觉领域项目和落地情况。为更多有志加入深度学习-计算机视觉领域的IT人员搭建有力的通道,建立坚实的基础。
  • 基于OpenCV的计算机视觉技术实现(pdf电子书)

    千次下载 热门讨论 2011-09-27 11:49:42
    自己在网上找了遍也没有找到《基于OpenCV的计算机视觉技术实现》这本书,找到的都是该书每章对应的程序实现代码,但是如果原理不知道的话,光看代码很难理解的。希望这本书给学习利用opencv研究机器视觉的朋友带来...
  • 资源包括opencv学习中的一些典型示例程序——图像处理方面,均已经通过...5、基于OpenCV的计算机视觉技术实现 6、深入理解OpenCV:实用计算机视觉项目解析——中文PDF扫描版 其中相关的电子版书籍可以见我的其他资源。
  • 资源名称:计算机视觉技术相关资料汇总资源目录:【】(贾云得)机器视觉【】MVIPS机器视觉图像处理软件说明【】数字图像处理与机器视觉【】机器人视觉技术【】机器视觉的现状及发展趋势资源截图: 资源太大,传百度...
  • 智能视频源自计算机视觉技术,是在图像及图像描述之间建立关系,从而使计算机能够通过数字图像处理和分析来理解视频画面中的内容,达到自动分析和抽取视频源中关键信息的目的,也就是智能视频分析技术(IVS)。...
  • 目 录 目 录 摘 要 III 摘 要 III Abstract IV Abstract IV 引 言 1 引 言 1 第一章 绪 论 2 第一章 绪 论 2 1.1 系统开发背景 2 1.1 系统开发背景 2 1.2 计算机视觉技术发展的历程 2 1.2 计算机视觉技术发展的历程 ...
  • 用户只需要在 H5 页面上提交自己的头像照片,就可以自动生成诸如此类风格的人脸比对照片,简洁操作的背后离不开计算机视觉技术和腾讯云技术的支持。 那么这个爆款应用的背后用到了哪些计算机视觉技术?掌握这些技术...
  • AI开发者大会——计算机视觉技术专题 CSDN讲师名下集合了诸多业界知名讲师...

    扫码下载「CSDN程序员学院APP」,1000+技术好课免费看

    APP订阅课程,领取优惠,最少立减5元 ↓↓↓

    订阅后:请点击此处观看视频课程

     

    视频教程-AI开发者大会——计算机视觉技术专题-计算机视觉

    学习有效期:永久观看

    学习时长:80分钟

    学习计划:2天

    难度:

     

    口碑讲师带队学习,让你的问题不过夜」

    讲师姓名:CSDN讲师

    技术讲师

    讲师介绍:CSDN讲师名下集合了诸多业界知名讲师的公开课内容,内容涵盖人工智能、大数据、区块链等诸多热门技术领域的最佳技术实践,聚合美团、滴滴、AWS、科大讯飞等知名企业的应用实践及分享。

    ☛点击立即跟老师学习☚

     

    「你将学到什么?」

    计算机视觉技术专题

     

    「课程学习目录」

    1.人工智能在教育场景下的应用探索
    2.算丰高性能边缘运算芯片应用在计算机视觉的实时解决方案
    3.物体检测与语义分割的算法创新及实践

     

    7项超值权益,保障学习质量」

    • 大咖讲解

    技术专家系统讲解传授编程思路与实战。

    • 答疑服务

    专属社群随时沟通与讲师答疑,扫清学习障碍,自学编程不再难。

    • 课程资料+课件

    超实用资料,覆盖核心知识,关键编程技能,方便练习巩固。(部分讲师考虑到版权问题,暂未上传附件,敬请谅解)

    • 常用开发实战

    企业常见开发实战案例,带你掌握Python在工作中的不同运用场景。

    • 大牛技术大会视频

    2019Python开发者大会视频免费观看,送你一个近距离感受互联网大佬的机会。

    • APP+PC随时随地学习

    满足不同场景,开发编程语言系统学习需求,不受空间、地域限制。

     

    「什么样的技术人适合学习?」

    • 想进入互联网技术行业,但是面对多门编程语言不知如何选择,0基础的你
    • 掌握开发、编程技术单一、冷门,迫切希望能够转型的你
    • 想进入大厂,但是编程经验不够丰富,没有竞争力,程序员找工作难。

     

    「悉心打造精品好课,2天学到大牛3年项目经验」

    【完善的技术体系】

    技术成长循序渐进,帮助用户轻松掌握

    掌握计算机视觉知识,扎实编码能力

    【清晰的课程脉络】

    浓缩大牛多年经验,全方位构建出系统化的技术知识脉络,同时注重实战操作。

    【仿佛在大厂实习般的课程设计】

    课程内容全面提升技术能力,系统学习大厂技术方法论,可复用在日后工作中。

     

    「你可以收获什么?」

    计算机视觉技术

    AI技术

     

    展开全文
  • 集成计算机视觉技术的建筑工人位置安全管理系统研究,刘相池,仲光庆,针对建筑施工环境复杂、事故多发,传统的工程监理无法面面俱到的问题,引入了计算机视觉技术,构建了基于位置的建筑工人安全管理
  • 计算机视觉技术与应用综述

    千次阅读 2019-08-19 09:53:47
    引用自:无人系统之“眼”——计算机视觉技术与应用浅析 张 丹,单海军,王 哲,吴陈炜 一、前言 ​         近年来,人工智能和深度学习获得突破,成为了大众关注的焦点。如LeCun Y,Bengio ...

    引用自:无人系统之“眼”——计算机视觉技术与应用浅析 张 丹,单海军,王 哲,吴陈炜

    一、前言

    ​         近年来,人工智能和深度学习获得突破,成为了大众关注的焦点。如LeCun Y,Bengio Y,Hinton G等[1]提出的深度卷积网络在图像识别领域大放异彩就是典型。计算机视觉是人工智能领域最重要的研究方向,因为视觉也是人体获得信息最多的感官来源,Treicher[2]等通过实验证实:视觉信息占人类获得全部信息的83%。因此,计算机视觉也一直是各大研究机构和企业争相研究的热点,也是人工智能领域研究历史最长、技术积累最多的方向。本文尝试从计算机视觉的两大研究内容——图像和视频,来阐述图像识别与理解、视频识别与理解的研究历史和最新技术进展,并对计算机视觉技术在公共安防、智慧医疗、自动驾驶等领域的应用现状进行介绍。通过对技术及应用的归纳和总结,希望能为关注该领域的专家和学者提供最新且有价值的内容。

    二、图像识别与理解进展综述

    ​        计算机视觉的研究主体之一是图像,目的是对图像进行各种各样的处理与分析。按照对图像理解层次的不同,一般可以把计算机视觉分为低级视觉和高级视觉,低级视觉包括图像去噪、拼接、超分辨率等传统任务。通常而言,这些任务不需要计算机理解图像上有什么,而高级视觉则明确要求计算机理解图像上有什么,以及解决基于此而引出的新问题。本文将重点对高级视觉进行介绍。

    ​        人们通常喜欢把计算机和人脑进行对比,以更好地理解和探讨计算机视觉技术在做什么。我们也由一个例子开始:对于一个牙牙学语的婴儿,父母会拿着一张图,问这是什么,这其实就是在教婴儿做最简单的图像分类。等婴儿大了一些,他可以指着图上的树、房子、小狗,依次说出这些是什么,聪明的孩子还可以用手指把房子的轮廓勾勒出来,这就是计算机视觉中的图像检测和图像分割。随着大脑发育,孩子对图像理解地更深了,学会看图说话了,这也就对应了我们要介绍的图像描述任务。
    本节将以图像分类、图像检测、图像分割和图像描述的顺序,由易到难地介绍计算机视觉的几个重要方面。

    1.图像分类进展综述

    ​         图像分类进展综述图像分类是计算机视觉最基础的任务之一,也叫图像识别,主要通过算法识别图像中的物体类别,如一匹马、花朵、小狗等。该领域长期以来吸引了大量研究者们的关注。2012年,由Hinton团队[3]研发的基于神经网络的算法在ImageNet图像分类挑战赛上夺得第一,并以15.3% 的错误率大幅领先第二名26.2%,一举震惊学术界。在此之前,传统算法大多使用手工设计的特征配合当时最好的分类算法支持向量机来进行分类[4],这类方法最大的问题就是当分类种类变多后,人一般很难设计出相应的图像特征来表示新的类别,需要相关领域的专家花费以年为单位的时间反复试验。而Hinton团队的巨大成功让人们看到:神经网络可以通过学习大量标注后的数据以及梯度反传算法,端到端地优化整个图像识别任务,从而使得人们不再需要关注为每个新的种类设计独特的特征,而只需要设计网络结构使网络更容易被优化。

    ​         神经网络一般由一层层的神经元组成,神经元之间通过权重进行关联,不同层的神经元之间还会设置激活函数,使得神经网络具有非线性的表达能力。在其后的几年至今,基于神经网络的深度学习算法几乎统治了所有计算机视觉相关领域。一个最重要的发现就是随着神经网络的层数加深,参数增多,它的表达能力越强,能拟合的数据量越大,VGG 和Inception 网络都是其中的典型代表。但是随着网络变深,梯度消失问题逐渐明显,较浅的神经层几乎接收不到深层网络传来的梯度,导致网络无法收敛到较好的局部最优。此后最重要的工作就是2015 年何恺明等[5]提出的残差网络,该方法通过恒等映射解决了梯度消失的问题,并破记录的将原来几十层的网络加深到了几百层,基于该网络的方法在多个挑战中都取得了冠军。2016 年围棋人机大战中,以4∶1 战胜世界围棋冠军李世石的算法AlphaGo 采用的也是残差网络的结构。虽然现在图像分类问题上的研究已有很多,该领域的研究也相对比较成熟。但是还面临较多的细分问题挑战,如同种类物体内的识别,图像遮挡下的物体识别与分类,视点变化和尺度变化等,这些问题都值得继续探索。

    2.图像目标检测进展综述

    ​         图像目标检测的任务是要求算法用一个矩形框框出图上每一个物体,并对框里的物体进行分类。从任务难度上看,图像检测比图像分类增加了一个定位的功能,即需要找到图上所有目标的位置,然后再对框进行图像分类的处理。

    ​         经典的检测算法包括基于梯度直方图(HOG)特征的算法以及Deformable Part Model( DPM)。HOG 特征算法主要提取图上的方向梯度直方图,并通过支持向量机来得到目标的模板。然而,对于一些非刚体、可以形变的目标来说,要用模板来穷尽其所有的姿态几乎是不可能的。DPM 的解决办法就是对目标的每个部分单独建立子模型,并且建立了子模型与主模型之间的形变约束。比如人的手臂可以摆到头部附近,但是不可能离开身体两米远。这些先验的位置关系通过损失函数的形式定义出来,就可以有效建模目标的变形情况。深度学习兴起后, 区域卷积神经网络(RCNN)首次将其应用到目标检测问题上,并在检测准确率上大幅超越以往的HOG 和DPM 算法,成为了新的研究热点[6]。RCNN首先通过SelectiveSearch算法为图像生成上百个候选框,再将每个候选框送入神经网络提取特征,最后用支持向量机进行分类[7]。RCNN 在训练和测试时都有多个步骤,只有其中提取特征的部分是由神经网络完成的,之后的研究重点集中在如何将其余所有步骤都通过神经网络来完成,从而可以端到端的优化整个系统的性能。其中,快速区域卷积神经网络(Faster-RCNN)算法提出了Region Proposal network(RPN)来进行候选框的生成,由神经网络来预测候选框的位置和大小[8],同时,RPN 和RCNN 两
    部分可以共享底层网络并联合优化。这个方法大大提高了网络效率,而且由网络预测的候选框质量也优于Selective Search和Edgebox这类传统算法。Faster-RCNN 推理时分为两个阶段,第一阶段是RPN 生成上万个候选框,网络预测框里是否有物体,按框得分筛选出可信度较高的候选框,进入第二阶段,进一步细分类。为了让网络运行更快,研究者又提出了以SSD和YOLO为代表的一阶段检测器,这些方法的特点是对所有的候选框直接进行分类,跳过了是否有目标的步骤。

    3.图像分割进展综述

    ​         图像分割是将整个图像分成一个个像素组,并对每个像素进行标记和分类。它试图在语义上理解图像中每个像素的类别,是行人、道路、建筑物还是其他类别。因此,与图像分类不同,研究人员需要用模型对密集的像素进行预测。较早的算法一般通过对每个像素的局部领域提取纹理、光照等特征,再对该像素进行粗分类,然后基于条件随机场对分割结果进行建模。粗分类的结果由于是基于每个像素独立预测的,一般有比较大的不稳定性。条件随机场假设相邻的像素应该具有相同的类别,除非两个像素刚好落在图像梯度较大的位置。通过优化单像素的预测结果和领域约束,条件随机场可以优化出一个较平滑的分割结果。

    ​         由于神经网络可以通过数据驱动,并能自动优化参数,特征提取和分类两部分可以在网络中统一完成。只需要将以每个像素为中心选取一个邻域作为网络的输入,网络就可以较好地预测出该区块中心像素的类别,比如2013年Lecun等[9]提出的方法是提取多尺度的图像区块进行学习,让网络从多个层级的信息中学到更全面的信息;2014年Pinheiro等[10]提出的基于循环神经网络来对图像区块进行预测,每次的输入是图像块以及上一轮的预测概率图,网络可以基于上一轮的预测对自己进行修正。

    ​         但是,这类方法在推理时,需要将相邻像素的重合部分反复输入网络,非常低效。2015 国际计算机视觉顶会上,Darrell 等[11]提出的全卷积神经网络(FCN)因为解决此问题而获得了最佳论文的荣誉。FCN 的原理就是通过卷积操作等效替换了原本分割网络中的全连接层,并且用反卷积层解决了网络特征层降采样后分辨率下降的问题。这样,FCN 的输入不再是某个像素为中心的图像区块,而直接是原图像,输出则是相同大小的分割结果图。此后,几乎所有的图像分割方法都采用了FCN 或其相似的原理。较有代表性的是Deeplab,将概率统计模型条件随机场通过神经网络建模,自动学习其中的参数。图像分割(UNet)在网络中添加了跳层连接,增加了多尺度的信息使预测的细节更完善。

    4.图像描述进展综述

    ​         图像描述是指给定一张图像,算法自动生成一段描述性文字,即看图作文。图像描述是上述几个任务的能力递进与语义理解递进,它需要算法不仅要理解图上有什么物体,而且要理解物体之间的相互关系,最后要用文字将其描述出来。因此,主流的图像描述框架一般分为两步,先将图像进行编码,提取语义特征,然后再将特征通过长短期记忆网络进行解码,逐字输出描述语句。

    ​         由于图像上的物体可能有很多,但真正重要的目标只有少量,最早的方法在图像编码中引入了注意力机制,即让网络在无监督的情况下自己学习哪些空间区域是比较重要的,这样会比直接不加区分地对整张图编码要更合理,比如SCACNN和Show,Attend and Tell就是其中的代表。但是,由于注意力机制是靠网络自动学习的,本身的精度无法保证,并且一般来说图像描述的主语都是图上的目标物体,因此研究者又引入了目标检测和属性分析的模型。通常可以把在专门做目标检测和属性分析的数据集上训练得到的神经网络引入到系统中,作为一种强有力的图像编码方式。这种编码方式不仅得到了显式的目标类别、属性等信息,同时也通过这些网络得到了目标的外观特征,可以进一步在解码中帮助生成语句。在训练方式上,一般深度学习的算法使用交叉熵损失来优化网络,每个算法预测的句子需要和人类描述的句子逐个单词地一一对应起来。但是,由于自然语言具有多义性的特点,即同一个意思可以由多种相同的方式表达,逐词比较的损失函数显然过于死板。同时,由于生成单词的过程是不可微的,无法通过反向传播算法来直接优化,因此很多工作引入了强化学习来解决这些问题[12-14]。

    三、视频识别与理解进展综述

    ​         视频是图像在时序上的序列组成。相对图像而言,视频有其特点:不仅仅只有视觉画面,视频还包含声音,具有多模态信息;另外视频中包含运动,有物体的运动信息,它对于行为类的内容有强有力的表现形式,需要理解的层次和维度更深。计算机视觉技术的迅速发展和深度学习的突破不仅拓宽了图像领域的应用,同时也给视频内容的识别与理解带来了新的契机。相对图像识别与理解,视频信息更丰富,研究也更富挑战性。目前,视觉领域研究还比较少,随着AI 能力的进一步发展,以及与5G时代的深度融合,视频将成为未来社会主要的沟通交流的信息媒介。所以说视频是下一个风口,值得大力投入进行研究。

    下文将由浅入深地介绍视频识别与理解的几大领域:视频目标检测与识别、视频目标跟踪、视频行为识别和视频描述,阐述各分支的研究现状。

    1.视频目标检测与识别进展综述

    ​         目标检测是计算机视觉的一个热门研究方向,应用广泛,如视频智能监控、机器人导航、工业视觉检测等诸多领域。视频目标检测是图像目标检测的延伸,找出图像或视频帧中所有感兴趣的物体,并定位出目标物体位置和类别。不过在图像中,目标是静态的,目标和位置均固定不变;在视频中,目标和位置均随视频动态变化,要进
    行目标检测难度更大。

    ​         计算机视觉对于目标运动的分析可以大致分为三个层次:运动分割与目标检测,目标跟踪,动作识别与行为描述。其中,目标检测既是计算机视觉领域要解决的基础任务之一,同时也是视频监控技术的基本任务。视频目标检测本质上解决两个问题:图像识别和目标定位。

    ​         简单来讲,相比单张图片检测,视频检测多了时间上下文的信息。充分利用好时序上下文关系,可以解决视频中连续帧之间的信息冗余问题,减少计算量,从而提高检测速度。同时关注如何提高检测质量,解决视频中的运动模糊、视频失焦等问题。

    ​         按照技术实现的原理来看,现在的视频目标检测方法主要有以下三类:一是与光流相结合,如微软亚洲研究院的Dai的Deep Feature Flow(DFF)算法[15-16],该模型首先将检测任务分为特征提取任务和检测任务两部分,通过算法识别出关键帧、非关键帧,在关键帧上提取特征得到特征图,在非关键帧上使用FlowNet估计光流,通过关键帧提取的特征做双线性的形式得到非关键帧的特征图,在两种方式得到特征图后使用检测网络完成目标检测。二是与RNN 模型结合,如Xiao等[17]提出了用于视频对象检测的空间-时间记忆网络,其核心是一种新颖的时空记忆模块(STMM)作为反复计算单元,用于模拟长期时间外观和运动动力学。STMM的设计实现了预训练骨干卷积神经网络(CNN)重量的完全集成,这对于精确检测至关重要。此外,针对视频中的对象运动,提出了一种新颖的MatchTrans 模块,用于在帧与帧之间对齐空间- 时间记忆。三是与检测相结合,如Feichtenhofer等[18]提出了一种ConvNet架构,它能同时执行检测和跟踪。总的来说,视频目标检测相关的研究还不多,该领域处于起步阶段。但是不管是从实用性而言,还是从学术研究的角度来说,都是很不错的研究课题。

    2.视频目标跟踪进展综述

    ​         目标跟踪是计算机视觉中一类非常重要的问题,也是视频中特有的研究问题。简单来讲,目标跟踪是在动态连续的视频序列中,建立所要跟踪物体的位置关系,得到目标物体完整的运动轨迹,并判断其运动趋势。按照跟踪目标数量的多少,可分为单目标跟踪与多目标跟踪。前者跟踪视频画面中的单个目标,后者则同时跟踪视频画面中的多个目标,得到这些目标的运动轨迹。

    ​         单目标跟踪一般默认为目标一直在视频中,视频中跟踪的目标也唯一。这类问题研究历史已久,相对比较成熟。对于多目标跟踪,一般情况下,对象位置变化很大,跟踪目标个数不固定。相对单目标跟踪来说,多目标跟踪问题更加复杂,通常需要解决以下问题:跟踪目标的自动初始化和自动终止,即如何判断新目标的出现,旧目标的消失;跟踪目标的运动预测和相似度判别,即准确的区分每一个目标;跟踪目标之间的交互和遮挡处理;跟丢目标再次出现时,如何进行再识别等。

    ​         目标跟踪是计算机视觉研究领域的热点问题之一,过去几十年以来,涌现出了一批性能出色的技术和方法,按照技术的原理,大致可以分为三大类:一是经典跟踪方法,如 Meanshift、粒子滤波(Particle Filter)和卡尔曼滤波等;二是基于检测(Track By Detection)或相关滤波(CorrelationFilter)的方法;三是近几年来出现的深度学习相关方法。

    ​        2010 年以前,目标跟踪领域大部分采用一些经典的跟踪方法,比如Meanshift、粒子滤波和卡尔曼滤波,以及基于特征点的光流算法等。Meanshift 的本质是一种基于概率密度分布的跟踪方法,其原理是使目标的搜索一直沿着概率梯度上升的方向,直到迭代收敛到局部峰值。粒子滤波方法是一种基于粒子分布统计的方法,首先对跟踪目标进行建模,并定义一种相似度度量方法,以确定粒子与目标的匹配程度。卡尔曼滤波常被用于描述目标的运动模型,它不对目标的特征建模,而是对目标的运动模型进行建模,以估计目标在下一帧的位置。另外,基于特征点的光流跟踪也属于经典跟踪方法,它的原理是在目标上提取一些特征点,然后在下一帧计算这些特征点的光流匹配点,统计得到目标的位置。

    ​         经典的跟踪方法有很多缺陷:如无法处理和适应复杂的跟踪变化,另外,算法也不够鲁棒,准确性也偏低。随着技术的发展,逐渐提出了基于检测的跟踪方法,基本原理是把跟踪的目标作为前景,利用在线学习或离线训练的检测器来区分前景目标和背景,从而得到前景目标的位置。相比经典方法,基于检测的跟踪方法更能适应跟踪过程中的复杂变化。随着技术的发展,还出现了相关滤波的跟踪算法,如Martins 等[19]在2012年提出的CSK 方法,作者提出了一种基于循环矩阵的核跟踪方法,并解决了密集采样的问题,最后利用傅立叶变换快速实现了检测过程。其后又衍生出了基于HOG特征的KCF方法、考虑多尺度或颜色特征的方法以及用深度学习提取的特征结合 KCF 的方法等。

    ​         第三大类是深度学习相关的视频目标跟踪方法。在目标跟踪上,深度学习的应用方式是把神经网络学习到的特征直接应用到相关滤波或Struck 的跟踪框架里面,从而实现目标跟踪。本质上,深度学习方法是提取到了更好的特征表达,跟踪模型有效地利用深度学习的特征提升目标跟踪性能。根据特征的层次不同,基于深度学习的多目标跟踪可以分为表观特征的深度学习、基于相似性度量的深度学习,以及基于高阶匹配特征的深度学习。另外,基于深度学习的跟踪方法有比较好的特性,是端到端输出的跟踪框架,如GOTURN。目前,基于深度学习的跟踪框架还在不断发展中,从SiameseFC到CFNet等,这个领域正在蓬勃发展。

    ​         总的来说,基于深度学习的单目标跟踪算法取得了长足的进步。相对而言,深度学习在多目标跟踪领域的应用还比较多的局限于匹配度量的学习。在多目标跟踪领域中,研究如何采用生成式网络模型和深度强化学习来学习跟踪场景的适应性,以提升跟踪算法的性能是未来的研究趋势。

    3.视频行为识别

    ​        视频行为识别,也称为动作识别,在智能监控、人机交互、视频序列理解、医疗健康等众多领域扮演着很重要的角色。简单来讲,是给定一个视频,让计算机判断感兴趣的人或物体在进行什么行为,比如跑步、打太极、骑自行车等。视频行为识别是计算机视觉的一个基本问题,也是计算机视觉中视频理解的关键基础技术,只有识别视频中的单个行为,才能整合起来对视频整体有所理解。

    ​         行为识别是非常有难度的,其处理对象是视频,相对于图像分类来说多了一个需要处理的时序维度。行为识别还有一个难点是视频段长度不一,而且开放环境下视频中存在多尺度、多目标、摄像机移动等众多问题,实际问题非常复杂。按照技术的发展历程来看,行为识别技术主要分为两类:一是传统方法,如iDT( improved Dense Trajectories)方法;二是基于深度学习的相关方法。

    ​         在传统方法中,iDT算法最为经典和有效,其框架主要包含密集采样特征点、特征轨迹跟踪和基于轨迹的特征提取三个部分。通过网格划分的方式在多尺度图像中分别密集采样特征点,特征轨迹跟踪通过计算特征点领域内的光流中值来得到特征点的运动方向,运动描述完成基于轨迹的特征提取。基于深度学习的行为识别方法是目前行为识别领域的主流技术。按照实现原理的不同,也可以分为几大类:时空结合网络、双流网络、深层生成网络。

    ​        时空网络(Spatialtemporal Networks)建模本质上是三维卷积网络,受到卷积神经网络在图像分类领域取得成功的启发,研究人员把卷积神经网络用于视频分类,即在2D卷积网络的基础之上把时间信息加入卷积运算。利用三维核从空间和时间维度提取特征,从而捕捉编码在相邻帧中的时空信息和运动,最经典的方法就是Facebook 提出的C3D模型。

    ​         双流网络模型(Two-Stream Networks)[20]主要借鉴人类视觉皮层织物的原理,视觉皮层包含两个通路:腹流参与物体识别,背流参与空间位置信息处理以及识别动作。Simonyan和Zisserman设计了一类深层神经网络,引入两个并行网络用于行为识别,即空间流(Spatial stream)接受原始静止视频帧,时间流网络(Temporal stream)接受光流场为输入,这两个流在最后融合进行识别和分类。

    ​         深层生成网络(Deep Generative Networks)本质是一种无监督技术,因为数据注释的成本很高, 如果训练不需要标签, 模型还能够很好地捕捉到序列的内容和运动,则可以实现准确的预测。目前主要的模型有Dynencoder[21],它是一种深度自动编码器, 用于捕获视频动态;还有L S T M 自动编码器,它能接受序列为输入并学习相应的紧凑表示,用于发现长期线索[22]。

           行为识别现在是一个正在大力进行研究的领域,还有很多问题远远没有到解决:从短时特征的提取到长时时间序列的建模,包括多尺度的检测、跟踪、姿态估计以及相关问题。另外,行为分析识别还和视频描述有很大的相关性,是后者的基础,都属于视频理解。

    4.视频描述

    ​         在对视频的物体识别分类,目标的行为识别之后,最重要的工作是对视频内容的理解。图像描述(Image Captioning)是为一张图像生成一句描述,视频描述(Video Captioning)与其类似,是为一个视频片段生成一句描述。因为短视频包含多帧视频图像,所以相比于图像描述,视频描述更复杂更具难度,需要考虑帧与帧之间的关系(时序因素)对生成句子的影响,以及视频上下文之间的联系。

    ​         在视频描述中,理解视频时不仅要理解每一帧中的物体,也要理解物体在多帧之间的运动。所以,视频理解往往比图像理解更为复杂。主要表现为如下几点:一、视频既可以被视为帧流,亦可以视为Trimmed Video Clip;当其被视为帧流的时候,首先将视频帧作为图片,最后对其进行池化操作;对于Trimmed Video Clip的情况,可以使用时域频域模型来学习视频中的一些行为。二、视频中的多模态信息,如音频和字符,都可以作为视频描述的输入特征。三、在视频描述中可以使用不同的池化方式,如基于时间轴的均值池化和最大值池化,还可以使用注意力机制,比如Hard-Attention和Soft-Attention,或者使用编解码的方法对其进行处理。

    ​        S2VT 模型(Sequence to Sequence-Video toText)是视频描述领域最早的研究之一,它使用了编码器解码器结构[23]。编码器的主要作用是将有用的视频信息使用深度神经网络(CNN,RNN)转化成特征给解码器使用。

    ​         SA 模型和S2VT 模型一样是比较经典的视频描述任务模型,两者的创新性各有偏重:S2VT将seq2seq模型引入了视频描述任务,SA模型则是将注意力机制引入了视频描述任务。注意力机制本质上是在视频中有权重地选择特征,即视频提取多帧的图像特征后,在生成描述的时候,会给每个图像特征一个权重系数,决定这个权重系数的是模型解码阶段每个RNN(LSTM)隐藏单元,所有权重系数的和为1。

    ​         总结来讲,在视频描述领域,目前主要有两大类方法:一类是基于CNN-LSTM 框架,另一类是基于编解码框架。

    四、计算机视觉的应用概况

    1.在智慧医疗领域的应用

    ​         随着近几年来计算机视觉技术的进步,智慧医疗领域受到了学术界和产业界的持续关注,其应用也越来越广泛和深入。Topol 等[24]指出,面向智慧医疗,人工智能技术从三个层面将产生深刻的影响:第一层面对于临床医生,计算机视觉技术能帮助其更快速、更准确地进行图像分析工作;第二层面对于卫生系统,其能通过人工智能的方式改善工作流程、减少医疗差错;第三层面对于患者,通过增强的云存储能力,他们可以处理自己的数据,以促进自我健康。

    ​         深度学习在医学图像等领域的应用有大量的研究成果被报道。如图像配准技术,是在医学图像分析领域进行量化多参数分析与视觉评估领域的关键技术[25]。Monti[26]等比较并且评估了PET与MR 两种图像模式下的配准方式,通过实验论证了PET 与MR 混合的配准方式能在头颈部这类复杂的解剖区域提供更高的配准精度。Esener等[27]则针对乳腺癌的诊断,采用多阶段分类的方式研究了一种特征集合技术,获得了相对于单阶段分类更高的分类准确率。Gargiulo 等[28]将CT 和MRI 图像与DTI 跟踪成像结合起来,使用图像分割协议对颅骨基底、肿瘤和关键纤维束进行三维建模,为神经外科手术提供了先进的治疗方式。

    ​         Gurovich等[29]通过训练能代表200 多种综合症的17000 多张罕见病患者的面部图像,得到了DeepGestlt 算法模型,该模型能够提高识别罕见遗传综合征的准确率,在实验的502 张不同的图像中,其正确识别综合征的准确率达到了91%。Friedman等人训练了基于卷积神经网络的人工智能来识别心室功能障碍患者,当在52870 名患者上测试该神经网络,灵敏度、特异性和准确度的值分别为86.3%、85.7%和85.7%。而且在没有心室功能障碍的患者中,人工智能筛查阳性的患者未来发生心室功能障碍的风险是阴性的4 倍。

    2.在公共安全领域的应用

    ​         公共安防领域是计算机视觉技术的重要应用场景,尤其是人脸识别技术,作为构建立体化、现代化社会治安防控体系的重要抓手和技术突破点,在当前的图侦实战中具有重要应用价值[30]。近十年来,街道摄像头等视觉传感器的普及为智能安防的应用提供了硬件基础与数据基础,为深度学习算法模型提供了大量的训练数据,从而大幅提升了人脸识别的技术水平[31-33]。

    ​         国内多家人脸识别产品已经被公安部门用于安防领域。完整的人脸识别系统包括人脸检测、人脸配准、人脸匹配、人脸属性分析等模块[34],其主要应用包括静态人脸识别、动态人脸识别、视频结构化等。如1:1 比对的身份认证,相当于静态环境下的人脸验证任务,用于比对输入图像与指定图像之间的匹配,已经成熟应用于人脸解锁、身份验证等场景,在2008 年北京奥运会期间作为国家级项目投入使用,在奥运会历史上第一次使用该项技术保障了开闭幕式安检的安全通畅[35]。

    ​         动态人脸识别技术则通过摄像头等视觉传感设备在视频流中获得动态的多个人脸图像,从数据库中的大量图像中找到相似度最高的人脸图像,用于人群密集场所当中的布控,协助安全部门进行可疑人口排查、逃犯抓捕等情报研判任务。视频结构化则是面向人、车、物等对象,从视频流中抽象出对象的属性,如人员的体貌特征、车辆的外形特征等。这些技术能够预警打架斗殴、高危车辆等社会治安问题的发生,为公安工作提供了一大利器,成为打击违法犯罪活动、建设平安城市的重要技术[36]。

    3.在无人机与自动驾驶领域的应用

    ​         无人机与自动驾驶行业的兴起,让计算机视觉在这些领域的应用也成为了近年来的研究热点。以无人机为例,简单至航拍,复杂至救援救灾和空中加油等应用,都需要高精度的视觉信号以保障决策与行动的可靠性[37]。无人机的核心导航系统中,很重要的一个子系统就是视觉系统,通过单摄像头、双摄像头、三摄像头甚至全方向的摄像头布置,视觉系统能克服传统方法的限制与缺点,结合SLAM、VO 等技术,应用近几年热门的深度学习算法,能够提升位姿估计、高度探测、地标跟踪、边缘检测、视觉测距、障碍检测与规避、定位与导航等任务的进度。从外界获取的信号与无人机飞控系统的视觉伺服系统形成闭环能提升飞行器的稳定性[38]。目前,商用的无人机已被广泛地应用于活动拍摄、编队表演、交通检测乃至载人飞行等领域。

    ​         计算机视觉软硬件技术的齐头并进加速了自动驾驶汽车技术的发展,特别是在摄像头普及,激光雷达、毫米波雷达、360o大视场光学成像、多光谱成像等视觉传感器配套跟进条件下,在卷积神经网络深度学习算法等的配合下,基于计算机视觉系统的目标识别系统利用计算机视觉观测交通环境,从实时视频信号中自动识别出目标,为自动驾驶,如起步、加速、制动、车道线跟踪、换道、避撞、停车等操作提供判别依据[39]。自动驾驶的车辆可以完成道路及道路边沿识别、车道线检测、车辆识别、车辆类型识别、非机动车识别、行人识别、交通标志识别、障碍物识别与避让等任务。目前国内外一些企业在自动驾驶领域都取得了不错的成绩。

    4.在其他社会领域的应用

           ​ 计算机视觉应用非常广泛,除了上文提到的三个重要的领域之外,在三大产业( 工业、农业、服务业)都有着大量的应用实践,为人类生活提供了越来越多的便利。如在工业领域,计算机视觉是工业机器人领域的关键技术,配合机械装置能够实现产品外观检测、缺陷检测、质量检测、产品分类、部件装配等功能。ABB 公司研发的IRB360 工业机器人借助FlexPiker视觉系统实现了跟踪传送带物品并且完成分拣,大大提升了工作效率。在工业互联网大力推进的大背景下,计算机视觉的应用将越来越普及,在智能化、无人化的工业上发挥出更大的作用。

    ​         在农业领域,计算机视觉的应用成果涉及农产品品质检测、作物识别与分级、农副产品出厂质量监测、植物生长监测、病虫害的探测与防治、自动化收获等领域,为精细农业和农业生产自动化奠定了基础。腾讯报道了其在2018 年利用摄像头等传感器收集温室气温等环境数据,再通过深度学习模型计算、判断与决策,远程控制黄瓜的生产,减少了人力资源的投入。

    ​         在第三产业,“ 智慧城市”概念带动了诸如智慧交通、智慧教育、智慧社区、智慧零售、智慧政务等基于计算机视觉技术的应用场景。在泛娱乐行业,应用深度卷积神经网络的AlphaGo在2016年击败了围棋世界冠军李世石九段,成为了人工智能发展历史上的一个里程碑事件。而不久后,其研发团队推出了更为先进的AlphaGoZero系统,采用新的强化学习算法,获得了超人的性能,同时打败围棋、将棋、西洋棋的世界顶尖人类选手。这也预示以计算机视觉为代表的人工智能技术未来将深刻改变人类的生活方式乃至社会形态。

    参考文献

    [1] LeCun Y,Bengio Y,Hinton G. Deep learning[ J].Nature,2015,521(7553):436.
    [2] Treichler D G. Are you missing the boat in training aids[ J].Film and AV Communication,1967,1:14-16.
    [3] Krizhevsky A,Sutskever I,Hinton G. ImageNet classification with deep convolutional neural networks[ J].Advances in Neural Information Processing Systems,2012,25(2).
    [4] Corinna C,Vapnik V. Support-vector networks[ J].Machine learning,1995,20(3):273-297.
    [5] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[ C]. Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2016.
    [6] Girshick R,Donahue J,Darrelland T,et al. Rich featurehierarchies for object detection and semantic segmentation
    [C]. 2014 IEEE Conference on Computer Vision andPattern Recognition,2014.
    [7] Uijlings J R R,Sande K E A,Gevers T,et al. Selective search for object recognition[J]. International Journal ofComputer Vision,2013,104(2):154-171.
    [8] Ren S,He K,Girshick R,et al. Faster r-cnn:Towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems,2015:91-99.
    [9] Farabet C,Couprie C,Najman L,et al. Scene parsing with multiscale feature learning,purity trees,and optimalcovers[ J]. ArXiv Preprint ArXiv:1202.2160,2012.
    [10] Pinheiro P,Collobert R. Recurrent convolutional neural networks for scene labeling[C]. International conference on Machine Learning,2014.
    [11] Long J,Shelhamer E,Darrell T. Fully convolutional networks for semantic segmentation[C]. Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2015.
    [12] Rennie S J,Marcheret E,Mroueh Y,et al. Self-critical sequence training for image captioning[C]. Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2017.
    [13] Liu S,Zhu Z,Ye N,et al. Improved image captioning viapolicy gradient optimization of spider[C]. Proceedings of the IEEE international Conference on Computer Vision,2017.
    [14] Ren Z,Wang X,Zhang N,et al. Deep reinforcement learning-based image captioning with embedding reward[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017.
    [15] Zhu X,Xiong Y,Dai J,et al. Deep feature flow for videore cognition[C]. Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017.
    [16] Zhu X,Wang Y,Dai J,et al. Flow-guided feature aggregation for video object detection[C]. Proceedingsof the IEEE International Conference on Computer Vision,2017.
    [17] Xiao F,Jae L Y. Video object detection with an aligned spatial-temporal memory[C]. Proceedings of theEuropean Conference on Computer Vision( ECCV),2018.
    [18] Feichtenhofer C,Pinz A,Zisserman A. Detect to track and track to detect[C]. Proceedings of the IEEE International Conference on Computer Vision,2017.
    [19] Comaniciu D,Meer P. Mean shift:A robust approach toward feature space analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002( 5):603-619.
    [20] Zhu G,Wang J,Wu Y,et al. MC-HOG correlation tracking with saliency proposal[C]. Thirtieth AAAI Conference on Artificial Intelligence,2016.
    [21] Yan X,Chang H,Shan S,et al. Modeling video dynamics with deep dynencoder[C]. European Conference on Computer Vision. Springer,Cham,2014.
    [22] You Q,Jin H,Wang Z,et al. Image captioning with semantic attention[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016.
    [23] Shin H C,Orton M R,Collins D J,et al. Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data [J]. IEEE transactions on pattern analysis and machine intelligence,2013,35(8):1930-1943.
    [24] Topol E J. High-performance medicine:the convergence of human and artificial intelligence[ J]. Nature Medicine,2019,25(1):44.
    [25] Junfeng G,Yong Y,Pan L,et al. Computer Vision in Healthcare Applications[ J]. Journal of Healthcare
    Engineering,2018,2018:1-4.
    [26] Serena M,Carlo C,Mario C,et al. An evaluation of the benefits of simultaneous acquisition on PET/MR coregistration in head/neck imaging[ J]. Journal of Healthcare Engineering,2017,2017:1-7.
    [27] Idil I E,Semih E,Tolga Y. A new feature ensemble with a multistage classification scheme for breast cancer diagnosis [J]. Journal of Healthcare Engineering,2017,2017:1-15.
    [28] Paolo G,árnadóttir í,Gíslason M,et al. New directions in 3D medical modeling:3D-printing anatomy and functions in neurosurgical planning[ J]. Journal of Healthcare Engineering,2017,2017:1-8.
    [29] Gurovich Y,Hanani Y,Bar O,et al. Identifying facial phenotypes of genetic disorders using deep learning[ J]. Nature Medicine,2019,25(1):60.
    [30] 胡雪地,庄唯,罗忆. 人脸识别技术在警务实战中的应 用探索[J]. 警察技术,2017( 4):65-68.
    [31] Sun Y , Wang X , Tang X . Deep learning face representation from predicting 10,000 classes[ C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition( CVPR),IEEE Computer Society,2014.
    [32] Taigman Y,Yang M,Ranzato M,et al. DeepFace: closing the gap to human-level performance in face verification[ C]. Conference on Computer Vision and Pattern Recognition( CVPR),IEEE Computer Society, 2014.
    [33] Trigueros D S,Meng L,Hartnett M. Face recognition: from traditional to deep learning methods[ J]. ArXiv preprint arXiv:1811.00116,2018.
    [34] 汪海洋. 人脸识别技术的发展与展望[J]. 中国安防, 2015(21):62-65.
    [35] 苏光大. 人脸识别在社会公共安全领域的应用[J]. 中国安防,2015(14):12-14.
    [36] 刘晗. 人脸识别技术在十大领域的创新应用[J]. 中国安防,2015(21):66-69.
    [37] Erdos D,Erdos A,Watkins S E. An experimental UAV system for search and rescue challenge[ J]. IEEE Aerospace and Electronic Systems Magazine,2013,28(5): 32-37.
    [38] Milford M J,Schill F,Corke P,et al. Aerial SLAM with a single camera using visual expectation[C]. 2011 IEEE International Conference on Robotics and Automation, 2011.
    [39] SAE International,Surface Vehicle Recommended Practice,J3016. Taxonomy and Definitions for Terms Related to Driving Automation Systems for on-Road Motor Vehicles[ S]. June 2018.

    展开全文
  • 面对不断发展的工程需要,计算机视觉技术也在逐渐完善,本篇博客介绍计算机视觉的技术进阶。 第一阶 图像识别。 图像识别解决的是日常生活中,‘ 这是什么?’ 的问题,对于该种问题,其实就是要求设计模型能准确...

    深度学习在计算机视觉中的应用,使得传统的图像处理无法解决的问题成为可能,并因此衍生出更多的学术和工程需求。面对不断发展的工程需要,计算机视觉技术也在逐渐完善,本篇博客介绍计算机视觉的技术进阶。

    第一阶 图像识别。

    图像识别解决的是日常生活中,‘ 这是什么?’ 的问题,对于该种问题,其实就是要求设计模型能准确分类出具体事物的label标签,像下面这张图一样。
    模型需要说出来的是:‘这是猫’
    这张图是什么

    • 对于这种分类问题,是简单地神经网络,或者说简单几层多层感知机就能解决。这就引申出来CNN的鼻祖 Lenet。基础版的卷积神经网络DIY 设计很简单,你可以使用很多的框架几行代码就可以写出来,基本遵循 卷积–激活函数–池化 – 卷积 – …… – Flatten层 – 全连接层。 如果你有个纯净的数据集,都可以获得一个比较不错的分类结果。
    • 总结: 图像识别问题可以解决大部分的简单分类问题。

    第二阶 图像检测

    图像识别问题,对训练数据有个严苛的要求,就是图片纯净,也就是图片中需要只存在一种label的物体,这其实在现实应用中很难获得,也有很多的局限性。在日常接触到的图像数据中,更多的是这样的图片。
    因此,图像检测需要结局的是 ‘ **这是什么,它在哪?**的问题。
    图像检测问题

    • 这延伸出来需要准确把目标物体的大致位置找出来。在图片中也可以看出来,目标检测就是在大的图片中找到物体区域,再给每个区域进行物体的分类。
    • 定位涉及到位置回归的问题,在这方面的介绍我会另开一个系列的博客,包括 R-CNN 系列, SSD 系列, YOLO系列。
    • 目标检测基本是工业场景中应用最广泛的基础技术,是重点问题。

    第三阶 图像分割

    用过PS的同学应该都好理解,简称就是让模型自动去抠图,但图像分割并不是让模型去抠图,而是为了能够更准确获得目标的准确位置,这个位置不是图像检测中简单地一个框,而是目标地轮廓。
    在这里插入图片描述

    • 准确的位置,在很多场景中有很高的要求,如自动驾驶中的车道线保持,物体避让,这些不能仅仅靠目标检测的一个框,而且随着更多的场景开发,图像分割会有越来越多地应用场景。
    • 图像分割也有一个专业领域,会单开一个系列去具体介绍。
    • 图像分割能解决地问题是’ 这是什么,找到它的轮廓

    第四阶 图像聚类

    自然界的图片数据集太多了,不可能给每一张图片都打上label, 而且label也不可能特别细化。 如淘宝网中庞大的衣服图片,有时我们喜欢一款衣服,我们想去淘宝买同款,但不可能淘宝把每件相似的衣服都打上一个标签。这就需要用到聚类技术了。
    在这里插入图片描述

    • 其实不难发现以图搜图其实是在比较和图片相似的图片,这个相似比较的内容不是简单的像素值,更多的用的是经CNN提取的特征,这个CNN是经过训练后的,不然这个特征也没什么参考性。这个应该是了解分类网络的人都应该知道。
    • 聚类技术同样会开一个单独系列。
    • 聚类的应用范围同样很广,主要是两个方面: 标签数据的粗清洗 和 类似以图搜图的应用。

    第五阶 图像翻译

    其实工业场景中,前四阶已经可以大有可为。往后的内容更多地应用在娱乐化或学术性的内容。今天先写到这里,有时间再回来补

    展开全文
  • 《基于OpenCV的计算机视觉技术实现》介绍了大约200多个典型的技术问题,覆盖了基于OpenCV基础编程的主要内容,利用大量生动有趣的编程案例和编程技巧,从解决问题和答疑解惑入手,以因特网上最新资料为蓝本,深入浅...
  • 基于OpenCV的计算机视觉技术实现》是2008年由科学出版社出版的图书,作者是陈胜勇。本书可供广大科研人员、工程技术人员、高校相关专业师生及计算机视觉和图像编程爱好者阅读参考。《基于OpenCV的计算机视觉技术实现...
  • 这种高端系统的建成离不开计算机视觉技术的强有力的支撑。文章将先简要概述计算机视觉技术的工作原理及理论框架,并着重分析该项技术在农业、工业、医学自动化领域的应用,希望可供相关专业人士参考。 关键词:...

    摘 要:科技发展,计算机新技术兴起,不断地在更新功能与配件,以此为人们的工作和生活带来了诸多便利。近两年来,人们开始在原先技术上进行创新,力求探索人工智能系统。这种高端系统的建成离不开计算机视觉技术的强有力的支撑。文章将先简要概述计算机视觉技术的工作原理及理论框架,并着重分析该项技术在农业、工业、医学自动化领域的应用,希望可供相关专业人士参考。

    关键词:计算机视觉技术;应用;参考
    在这里插入图片描述

    计算机视觉技术主要是利用图像来实现对环境信息的识别与认知,为实现这项技术功能需要依靠多种高尖端技术提供支撑。随着近几年来技术的研发创新,计算机视觉技术的先进化、便利化等都有了明显的提升,已逐步应用在实际的生产与生活中。

    PART 1-计算机视觉技术相关概念

    1.1 相关概念
    计算机视觉技术是在图像与信号处理技术、概率分析统计、网络神经技术以及信息处理技术的基础上,与计算机系统相连来分析、处理数据信息的一项视觉信息的技术,它是在现代社会科学技术发展下新兴起的一项高新技术。在技术运行上具体是通过用摄像机来代替人眼,计算机主体充当人的大脑,使其能够在技术的支撑下进行识别、判断以及记忆目标的功能,代替人类进行部分生产作业。现如今,该项技术已在众多领域得到推广使用[1]。

    1.2 工作原理

    在亮度满足要求的情况下,摄影机开始通过镜头对具体事物的图像信息进行采集,接着利用进行内部信息的输送,计算机系统迅速响应与接收,并利用图像处理技术进一步处理原始图像,优化图像效果,分类与整理图像中的关键信息,从而识别提取到所需的精准、高层次的抽象信息,最后再将信息储存到数据库中,以用来实时对需识别事物与所储存信息的进行对比,高效地完成技术运行作业。

    1.3 理论框架

    自 20 世纪 80 年代起,计算机视觉技术在市场上所占 比例开始直线攀升,从理论的归纳提出,到应用策略问题的解决,计算机视觉技术在不断的完善。视觉计算理论研究层次涵盖计算机理论、算法以及实际执行等多个方面。如若以计算机的理论视角入手来分析视觉技术,需要借助于要素图、维图以及三维模型表像来进一步探索。在此过程中,我们通过有效信息的传送进而去完成处理、识别等作业。视分析作业的复杂程度,大致可分为低层、中层、高层视觉处理三大层次,方便于用户根据需求自行选择,快捷地完成功能命令[2]。

    PART 02-计算机视觉技术在自动化中的应用

    2.1 应用在农业自动化领域

    农业与我们的日常生活息息相关,农业作业要考虑生产周期、产量等因素,保质保量的进行生产,所以在作业的过程中对高新技术的使用也有所需求。在生产作业的过程中,也可通过利用计算机视觉技术,来实现全天候实时监测农作物的生长状况,及时的发现问题与寻找应对措施去解决问题,科学地、高效地管理农作物的生产近况。同时,该项技术还可用于检测农产品的质量,保障优质化的产出。以农业中对蔬菜质量的监测为例,使用传统的人工检测既费时费力,且在检测过程中易造成蔬菜损伤,最终所得的结果准确度也不高。依据此情况,我们可借助计算机视觉技术进行辅助作业,先通过感应外部所释放出来的红外线、紫外线以及其他可见光的大小,接着与标准值相对比,进而依据对比结果科学地判断蔬菜质量的优劣,这种方法快捷、效率高,在有效的时间内检测能够精准检测多于人工检测几倍的农田,获得事半功倍的结果,在技术上 具有无可比拟的优势,所以现如今被广泛地应用于农业生产自动化领域[3]。

    2.2 应用在工业自动化领域

    计算机视觉技术在工业自动化领域也可发挥功效,如精密零件尺寸的测量等。其测量与被测对象的原理如图 1所示。
    图 1 位移检测系统示意图图 1 位移检测系统示意图
    具体运行原理为:在计算机检测系统中主要包括光学系统、处理系统以及 CCD 摄像头,运行时先通过光源发出平行光束照射到被检测对象身上,后利用显微光学镜将轮廓图像投射到摄像机的面阵 CCD 上,待系统接收到信息后进行处理,获取被测部位的轮廓的准确位置信息。若此时发现被测对象出现了轻微位移,则需重复操作过程进行二次测量,后将两次测量的位置差进行比较,避免误差的出现,最终得出被测物体的位移量及准确位置。

    除此之外,计算机视觉技术还可被应用在工业自动化领域的逆向工程中。所谓的逆向工程是指:应用 3D 数字化测量仪快速测出现有工件轮廓的坐标值,同时构建起曲面,利于保存成 CAD 或 CAM 图像,便于后期在 CNC 制作中心加工,最终运用这些数据信息生产出具有统一规格的产品。仔细分析可发现逆向工程中最关键一环在于“如何通过精密测量系统来测量样品的三围尺寸?”进而获取数据、曲面处理与加工生产。针对这一问题可结合计算机视觉技术的功效,利用线结构光测量物体表面轮廓技术来完成精准测量。具体轮廓结构示意图如图 2 所示。
    图 2 线结构光测量物体表面轮廓结构

    图 2 线结构光测量物体表面轮廓结构

    检测与图像转换流程为:先利用激光穿越平行、等距的振幅光栅组件,或直接式的采用干涉仪,来构建形成平面条纹结构光,投向物体表面,条纹会依据各物体表面深度、曲率的不同产生变化,保障所测数据的准确。接着,通过使用 CCD 摄像机对变形条纹进行拍摄,进一步分析物体表面轮廓的变化情况,并及时的将图像信号转化为模拟信号,再转化为数字信号,传送再还原信号到图形处理系统,得到我们最终所要的三维轮廓图像。

    从上述论述的两项计算机视觉技术在工业自动化领域应用的案例中我们可以明显看出,计算机视觉技术的深入广泛应用,不仅能够通过精准测量、科学对比来保障产 品的生产质量,还可促成产品的生产速度得到跨越式的提高。计算机视觉技术的辐射范围很大,可用以检测产品包装质量,封口质量以及印刷质量等细节部分,自然因功能的强大,受到了多个领域的一致好评。据一些权威书刊、互联网平台上的统计数据显示,在印刷造币机器上应用计算机视觉技术可以几乎没有出现任何差错,由此可知,在工业自动领域中应用计算机视觉技术的应用具有相当大的可行性以及宽阔的发展前景。

    2.3 应用医学自动化领域

    在医学自动化领域也可从 CT 图像、X 射线图像上等多方面看到计算机视觉技术的应用。高新技术的辅助应用,在一定程度上简化了诊断流程,方便医生可准确判断病人病情。不仅在医疗诊断过程中计算机视觉技术可发挥出功效,而且在生产药品方面该项技术也可用于检测药品包装的合格程度。当向传送装置下达运输命令,传送装置通过内置的检测与分离两个区域,迅速采集的所需图像信息与传送药品到指定区域,接着将采集信息传递到计算机系统,进而去进行处理,精准地识别出未能包装好的药品,将信息传递到分离区,由分离区的自动装置进行药品的分离,有效地分类出包装好的药品与未能包装好的药品,这一检测过程大大地简化了传统检测的流程,在很大程度上减少了人力、物力的浪费,并做到了准确无误的检测,完善了药品生产的自动化作业,让工作效率得以提升,节约了企业经营成本,为企业创造更多收益。从此处可以看出,在医学自动化领域中应用计算机视觉技术既可以辅助医疗诊断,又可推动药品生产,值得被广泛推广使用。

    PART 3-结束语

    总而言之,计算机视觉技术作为专门研究计算机识别能力的一项高新技术,它的身上涵盖了多项技术功能,虽看似具有一定的复杂性,但技术功能具有强有力的应用价值,能够给人们生产生活带来极大的便利。在自动化的各项生产过程中,要想科学、合理的应用该项技术提高生产效率,就必须在明确地理解基础理论知识的基础上,进一步结合实际生产情况,边探索边应用,坚持在实践探索中总结经验与突破创新,从而令计算机视觉技术得到更好地推广与应用,以此来辅助生产、检测等一系列作业流程,更好的服务于社会,服务于人类,进而促进社会发展与科技发展。

    参考文献

    [1]王依楠.船舶自动识别系统中的计算机视觉技术应用[J].舰船科
    学技术,2019,41(02):76-78.
    [2]黄藩,刘飞,王云,等.计算机视觉技术在茶叶领域中的应用现状
    及展望[J].茶叶科学,2019,39(01):81-87.
    [3]应婧,王攀,卢营蓬,等.计算机视觉技术在农业上的应用初探
    [J].四川农业与农机,2019(01):25.微信公众号在这里插入图片描述
    欢迎加入群聊,或者加微信交流。
    vx:chhfbluesky2009

    展开全文
  • 简介:计算机视觉将彻底改变物联网……计算机视觉的发展演进我们可以轻松地在日常产品中找到计算机视觉技术的应用,从可以识别手势的游戏机到可以自动聚焦于人脸的智能手机摄像头。如今,计算机视觉正在影响我们生活...
  • 但是,在本文中,我想介绍一些计算机视觉技术不太明显的用途。特别是以下的三个行业,可能会从这种技术趋势的发展中受益匪浅。计算机视觉技术(也被称为机器视觉)允许机器以视觉方式解释周围的世界。作为人工智能的一...
  • 计算机视觉技术公司列表 汽车助理类 Iteris (美国) http://www.iteris.com/ 卡车和小汽车的车道偏离和碰撞警示系统。已经被用于超过10万辆车辆中(2009)。也开发交通监控系统 MobilEye...
  • Udacity的自驾车课程使用机器学习和计算机视觉技术进行车辆检测
  • 书籍:《三维计算机视觉技术和算法导论》陆军,董晓瑞 译(密码:www.linuxprobe.com)
  • 计算机视觉技术学习路线(3D视觉)

    千次阅读 2019-12-14 10:18:26
    2D视觉技术借助强大的计算机视觉和深度学习算法取得了超越人类认知的成就,而3D视觉则因为算法建模和环境依赖等问题,一直处于正在研究的前沿。近年来,3D视觉技术快速发展,并开始结合深度学习算法,在智能制造、...
  • 计算机视觉技术在标签在线检测系统中的应用,于洪亮,刘玉锋,针对目前检测技术在自动化生产中越来越重要的地位,本文设计了一套图像处理系统,利用工业摄像镜头替代目视作为传感器,通过图像
  • 德国马普所&苏黎世理工67页综述论文:针对自动驾驶的计算机视觉技术
  • AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》、《基于昇腾AI处理器的计算机视觉应用》、...
  • 大家好,今天开设新的专栏《AI产品》,在这个专栏中...今天就体验抖音基于计算机视觉技术实现的几项高大上的功能,希望可以加深大众对计算机视觉技术及人工智能产品进程的认知。 作者 | Luna 编辑 | 言有三 ...
  • 计算机视觉技术路径

    千次阅读 2017-12-20 21:15:22
    本文章用于说明计算机视觉的学习路径,具体内容后面补入。
  • 深度学习是近几年来非常热门的技术,深度学习的高速发展直接推动了计算机视觉技术的进步,并进一步促进了无人驾驶领域的繁荣。无人配送是无人驾驶最好的落地场景之一,并且可以很好的解决人力不足等诸多问题。 无人...
  • 今天,联想正式发布《联想混合现实与计算机视觉技术白皮书》,全面介绍了联想在这一领域的前瞻布局、技术积累、相关产品以及端到端的行业智能化解决方案。联想研究院于2015年开始布局虚拟现实相关技术研究,其后陆续...

空空如也

1 2 3 4 5 ... 20
收藏数 7,564
精华内容 3,025
关键字:

计算机视觉技术