精华内容
参与话题
问答
  • 计算机视觉基本研究方向

    千次阅读 2013-10-29 10:27:36
    图像显著性是图像中重要的视觉特征,体现了人眼对图像某些区域重视程度 自从1998年Itti工作以来,产生了大量显著性映射方法,图像显著性也广泛应用于图像压缩、编码、图像边缘和区域加强、显著性目标分割和...

    显著性

    图像显著性是图像中重要的视觉特征,体现了人眼对图像的某些区域的重视程度

    自从1998年Itti的工作以来,产生了大量的显著性映射方法,图像显著性也广泛应用于图像压缩、编码、图像边缘和区域加强、显著性目标分割和提取等.

    我们研究的方面包括以下:

    1 图像显著性的评价体系:特别是针对图像显著性映射在目标提取中的应用,研究如何有效评价已有的显著性映射,方法包括F-measure,分割熵等。

    2构建新的显著性映射:通过分析研究已有的图像显著性方法,构建新的适合于显著性目标提取和检测的显著性映射。

     

    分割

    高用于查找物体用于实现聚类。同时注意包括视频分割。这里注意研究更深入的外围线。

             

    图像分类

    根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读.图像分类


     图像恢复

    图像恢复是通过计算机处理,对质量下降的图像加以重建或恢复的处理过程。因摄像机与物体相对运动、系统误差、畸变、噪声等因素的影响,使图像往往不是真实景物的完善映像。在图像恢复中,需建立造成图像质量下降的退化模型,然后运用相反过程来恢复原来图像,并运用一定准则来判定是否得到图像的最佳恢复。在遥感图像处理中,为消除遥感图像的失真、畸变,恢复目标的反射波谱特性和正确的几何位置,通常需要对图像进行恢复处理,包括辐射校正、大气校正、条带噪声消除、几何校正等内容

          

     

    立体视觉

    人的立体感是这样建立的:双眼同时注视某物体,双眼视线交叉于一点,叫注视点,从注视点反射回到视网膜上的光点是对应的,这两点将信号转入大脑视中枢合成一个物体完整的像。不但看清了这一点,而且这一点与周围物体间的距离、深度、凸凹等等都能辨别出来,这样成的像就是立体的像,这种视觉也叫立体视觉

     

    对象识别(人脸识别)

    通过人脸识别对对象的认识

    一.人脸检测/跟踪

    人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置和大小;对于跟踪而言,还需要确定帧间不同人脸间的对应关系。

    二.人脸特征点定位

    人脸特征点定位的目的是在人脸检测/跟踪获取的人脸区域的基础上,进一步,确定脸部特征点(眼睛、嘴巴中心点、眼睛、嘴巴轮廓特征点、器官轮廓特征点等)的位置。人脸特征点定位的基本思路,主要是将人脸局部器官的纹理特征和器官特征点之间的位置约束进行结合来进行处理。

    三.人脸表示

    人脸表示是指根据人脸特征点的位置,对人脸进行几何校正并割取人脸区域(归一化到固定大小)之后,得到最具有鉴别(区分)能力的特征的过程。

     

     

    观察物体的视点选择(做的很少)

    通过对物体的不同部分的观测重点的不同,设计一个观察物体的视点

     

     

    研究光的一些性质

    光具有各种各样的性质,对图像的影响各不相同

     

     

    视频问题

    连续帧进行分割物体(这个出现的比较多),视频稳像,视频跟踪,同时还有根据现有状态估计将来的动作

     

    跟踪

    物体的跟踪从而创建不同的模型。

     

     

    图形(图像)变换

    这个地方图形变换中的相同物体的识别

    前景和背景的分离

    展开全文
  • 计算机视觉研究方向

    2020-08-06 12:09:44
    计算机视觉属于机器学习在视觉领域的应用,是一个多学科交叉的研究领域,涉及数学,物理,生物,计算机工程等多个学科,由此也可以想象到计算机视觉的研究范围非常广,也是图像,语音,自然语言处理领域中从业人数...

    所谓计算机视觉,即compute vision,就是通过用计算机来模拟人的视觉工作原理,来获取和完成一系列图像信息处理的机器。计算机视觉属于机器学习在视觉领域的应用,是一个多学科交叉的研究领域,涉及数学,物理,生物,计算机工程等多个学科,由此也可以想象到计算机视觉的研究范围非常广,也是图像,语音,自然语言处理领域中从业人数最多的。

    1.图像分类

    1.1 基本概念

    图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来更大一点的10分类的cifar10和100分类的cifar100,到后来的imagenet,图像分类任务伴随着数据库的增长,一步一步提升到了今天的水平。

    现在在imagenet这样的超过1000万图像,2万类的数据集中,计算机的图像分类水准已经超过了人类。

    图像分类,顾名思义,就是一个模式分类问题,它的目标是将不同的图像,划分到不同的类别,实现最小的分类误差。

    总体来说,对于二分类的问题,图像分类可以分为跨物种语义级图像分类子类细粒度图像分类,以及实例级图像分类三大类别。
    在这里插入图片描述
    传统机器学习方法:

    通过各种经典的特征算子+经典分类器组合学习,比如HoG+SVM。

    深度学习方法:

    各种分类网络,最为大家熟知的就是ImageNet竞赛了。

    2012年Alexnet诞生,意味着GPU训练时代的来临。

    Alexnet是第一个真正意义上的深度网络,与LeNet5的5层相比,它的层数增加了3 层,网络的参数量也大大增加,输入也从32变成了224。

    2014年VGG诞生,它共包含参数约为550M。全部使用33的卷积核和22的最大池化核,简化了卷积神经网络的结构。VGG很好的展示了如何在先前网络架构的基础上通过增加网络层数和深度来提高网络的性能,网络虽然简单,但是却异常的有效,在今天VGG仍然被很多的任务选为基准模型。

    同一年GoogleNet诞生,也被成为Inception Model,它的核心是Inception Module。一个经典的inception 结构,包括有四个成分,11卷积,33 卷积, 55 卷积,33 最大池化,最后对运算结果进行通道上组合,可以得到图像更好的表征。自此,深度学习模型的分类准确率已经达到了人类的水平(5%~10%)。

    2015年,ResNet被提出。ResNet以 3.57%的错误率表现超过了人类的识别水平,并以152层的网络架构创造了新的模型记录。由于resnet采用了跨层连接的方式,它成功的缓解了深层神经网络中的梯度消散问题,为上千层的网络训练提供了可能。

    2016年ResNeXt诞生,101层的ResNeXt可以达到ResNet152 的精确度,却在复杂度上只有后者的一半,核心思想为分组卷积。即首先将输入通道进行分组,经过若干并行分支的非线性变换,最后合并。

    在resnet基础上,密集连接的densenet将前馈过程中将每一层与其他的层都连接起来。对于每一层网络来说,前面所有网络的特征图都被作为输入,同时其特征图也都被其他网络层作为输入所利用。

    2017年,也是imagenet图像分类比赛的最后一年,senet获得了冠军。这个结构,仅仅使用了“特征重标定”的策略来对特征进行处理,也就是通过学习获取每个特征通道的重要程度,根据重要性去抑制或者提升相应的特征。

    1.2 方向特点

    图像分类的比赛基本落幕,也接近算法的极限。但是在实际的应用中却面临着比比赛中更加复杂,比如样本不均衡,分类界面模糊,未知类别等

    2.目标检测

    2.1 基本概念

    分类任务给出的是整张图片的内容描述,而目标检测任务则关注图片中特定的目标。

    检测任务包含两个子任务,其一是这一目标的类别信息和概率,它是一个分类任务。其二是目标的具体位置信息,这是一个定位任务
    在这里插入图片描述
    与计算机视觉领域里大部分的算法一样,目标检测也经历了从传统的人工设计特征和浅层分类器的思路,到大数据时代使用深度神经网络进行特征学习的思路。

    在传统方法时代,很多的任务不是一次性解决,而是需要多个步骤的。而深度学习时代,很多的任务都是采用End-To-End的方案,即输入一张图,输出最终想要的结果,算法细节和学习过程全部丢给了神经网络,这一点在物体检测这个领域,体现得尤为明显。

    不管是清晰地分步骤处理,还是深度学习的end-to-end的方法,目标检测算法一定会有3个模块。第一个是检测窗口的选择,第二个是图像特征的提取,第三个是分类器的设计。

    2.2 方法分类

    传统机器学习方法:

    以保罗·维奥拉和迈克尔·琼斯于2001年提出的维奥拉-琼斯目标检测框架为代表,这是第一篇基于Haar+Adaboost的检测方法,也是首次把检测做到实时的框架,此方法在opencv中被实现为cvHaarDetectObjects(),是opencv中最为人熟知的目标检测方法。速度非常快,检测召回率相对如今的算法较低。

    深度学习方法:

    仍然要解决区域选择、提取特征、分类回归三个问题。但是在演变过程中,却发展出了multi-stage和one-stage的方法。其中multi-stage方法,是分步骤完成上面的任务,甚至可能需要单独训练各个网络。而one-stage则是一步到位。

    RCNN的框架是multi-stage方法的典型代表。它使用了Selective search先生成候选区域再检测,候选窗口的数量被控制在了2000个左右。选择了这些图像框之后,就可以将对应的框进行resize操作,然后送入CNN中进行训练。由于CNN非常强大的非线性表征能力,可以对每一个区域进行很好的特征表达,CNN最后的输出,使用多个分类器进行分类判断。该方法将PASCAL VOC上的检测率从 35.1% 提升到了53.7%,其意义与Alexnet在2012年取得分类任务的大突破是相当的,对目标检测领域影响深远。

    随后Fast R-CNN提出RoIPooling从整图对应的卷积特征图选取区域特征,解决了重复提取特征的问题。Faster R-CNN则提出Region Proposal, anchors把一张图片划分成n*n个区域,每个区域给出9个不同ratio和scale的proposal,解决了重复提取候选proposal的问题。 RCNN系列在工业届应用非常广泛,因此从事目标检测的同学必须掌握。

    除了multi-stage方法,还有one-stage方法。以YOLO为代表的方法,没有显式的候选框提取过程。它首先将图片resize到固定尺寸,将输入图片划分成一个7x7的网格,每个网格预测2个边框,对每一个网络进行分类和定位。YOLO方法也经过了许多版本的发展,从YOLO v2到YOLO v3。YOLO的做法是速度快,但是会有许多漏检,尤其是小的目标。所以SSD就在 YOLO的基础上添加了Faster R-CNN的Anchor 概念,并融合不同卷积层的特征做出预测。虽然YOLO和SSD系列的方法没有了region proposal的提取,速度更快,但是必定会损失信息和精度。

    2.3 方向特点

    目标检测方向有一些固有的难题,比如小脸,遮挡,大姿态。
    在这里插入图片描述
    而在方法上,多尺度与级联网络的设计,难样本的挖掘,多任务loss等都是比较大的研究小方向。

    3.图像分割

    3.1 基础概念

    图像分割属于图像处理领域最高层次的图像理解范畴。所谓图像分割就是把图像分割成具有相似的颜色或纹理特性的若干子区域,并使它们对应不同的物体或物体的不同部分的技术。这些子区域,组成图像的完备子集,又相互之间不重叠。
    在这里插入图片描述
    在这里插入图片描述
    在图像处理中,研究者往往只对图像中的某些区域感兴趣,在此基础上才有可能对目标进行更深层次的处理与分析,包括对象的数学模型表示、几何形状参数提取、统计特征提取、目标识别等。

    传统方法:

    图像分割问题最早来自于一些文本的分割,医学图像分割。在文本图像分割中,我们需要切割出字符,常见的问题包括指纹识别,车牌识别;由于这一类问题比较简单,因为基于阈值和聚类的方法被经常使用。

    基于阈值和聚类的方法虽然简单,但因此也经常失效。以graphcut为代表的方法,是传统图像分割里面鲁棒性最好的方法。Graphcut的基本思路,就是建立一张图,其中以图像像素或者超像素作为图像顶点,然后移除一些边,使得各个子图不相连从而实现分割。图割方法优化的目标是找到一个切割,使得移除边的和权重最小。

    深度学习方法:

    全卷积神经网络(Fully connected Network)是第一个将卷积神经网络正式用于图像分割问题的网络。

    一个用于分类任务的深度神经网络通过卷积来不断抽象学习,实现分辨率的降低,最后从一个较小的featuremap或者最后的特征向量,这个featuremap通常为55或者77等大小。而图像分割任务需要恢复与原尺度大小一样的图片,所以,需要从这个featuremap恢复原始图片尺寸,这是一个上采样的过程。由于这个过程与反卷积是正好对应的逆操作,所以我们通常称其为反卷积。

    实际上并没有反卷积这样的操作,在现在的深度学习框架中,反卷积通常有几种实现方式,一个是双线性插值为代表的插值法,一个是转置卷积。

    在这里插入图片描述

    3.2 方向特点

    在基于深度学习的图像分割中,有一些比较关键的技术,包括反卷积的使用,多尺度特征融合,crf等后处理方法。

    多尺度与上下文信息:

    多尺度的信息融合可以从特征图,还可以直接采用多尺度的输入图像,不过这两者本质上没有太多的差异。使用金字塔的池化方案可实现不同尺度的感受野,它能够起到将局部区域上下文信息与全局上下文信息结合的效果。对于图像分割任务,全局上下文信息通常是与整体轮廓相关的信息,而局部上下文信息则是图像的细节纹理,要想对多尺度的目标很好的完成分割,这两部分信息都是必须的。

    CRF:

    由于经典的cnn是局部的方法,即感受野是局部而不是整个图像。另一方面,cnn具有空间变换不变性,这也降低了分割的边缘定位精度。针对cnn的这两个缺陷,crf可以进行很好的弥补。crf是一种非局部的方法,它可以融合context信息,Deeplab系列就使用了cnn加上全连接的crf的方式。

    另一方面,前面我们说的图像分割,是属于硬分割,即每一个像素都以绝对的概率属于某一类,最终概率最大的那一类,就是我们所要的类别。但是,这样的分割会带来一些问题,就是边缘不够细腻,当后期要进行融合时,边缘过渡不自然。此时,就需要用到image matting技术。

    4.目标跟踪

    4.1 基本概念

    目标跟踪,指的其实就是视频中运动目标的跟踪,跟踪的结果通常就是一个框。目标跟踪是视频监控系统中不可缺少的环节。
    在这里插入图片描述
    根据目标跟踪方法建模方式的不同,可以分为生成式模型方法与判别式模型方法。

    生成式模型跟踪算法以均值漂移目标跟踪方法和粒子滤波目标跟踪方法为代表,判别式模型跟踪算法以相关滤波目标跟踪方法和深度学习目标跟踪方法为代表。

    生成类方法:

    在原始影像帧中对目标按指定的方法建立目标模型,然后在跟踪处理帧中搜索对比与目标模型相似度最高的区域作为目标区域进行跟踪。算法主要对目标本身特征进行描述,对目标特征刻画较为细致,但忽略背景信息的影响。在目标发生变化或者遮挡等情况下易导致失跟现象。

    判别类方法:

    通过对原始影像帧,对目标及背景信息进行区分建立判别模型,通过对后续影像帧搜索目标进行判别是目标或背景信息进而完成目标跟踪。

    判别类方法与生成类方法的根本不同在于判别类方法考虑背景信息与目标信息区分来进行判别模型的建立,由于判别类方法将背景与目标进行区分,因此该类方法在目标跟踪时的表现通常更为鲁棒,目前已经成为目标跟踪的主流跟踪方式。判别类方法包括相关滤波,深度学习方法。

    4.2 方向特点

    目标跟踪有一些难点:

    (1) 目标表征表达问题,虽然深度学习方法具有很强的目标表征能力,但是仍然容易受相似环境的干扰。

    (2) 目标快速运动,由于很多跟踪的物体都是高速运动,因此既要考虑较大的搜索空间,也要在保持实时性的前提下减小计算量。

    (3) 变形,多尺度以及遮挡问题,当目标发生很大的形变或者临时被遮挡如何保持跟踪并且在目标重新出现时恢复跟踪。

    5.图像滤波与降噪

    5.1 基本概念

    现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,称为含噪图像或噪声图像。减少数字图像中噪声的过程称为图像降噪,有时候又称为图像去噪。

    降噪可以应用于图像增强和美颜等领域。
    在这里插入图片描述
    传统方法:

    传统降噪算法根据降噪的原理不同可分为基于邻域像素特征的方法,基于频域变换的方法,和基于特定模型的方法。

    基于空域像素特征的方法,是通过分析在一定大小的窗口内,中心像素与其他相邻像素之间在灰度空间的直接联系,来获取新的中心像素值的方法,因此往往都会存在一个典型的输入参数,即滤波半径r。此滤波半径可能被用于在该局部窗口内计算像素的相似性,也可能是一些高斯或拉普拉斯算子的计算窗口。在邻域滤波方法里面,最具有代表性的滤波方法有以下几种:算术均值滤波与高斯滤波,统计中值滤波,双边滤波,非局部平均滤波方法,BM3D算法。

    深度学习方法:

    在2012年,随着Alexnet的出现,深度学习做去噪的工作取得了一些进展,可以达到和BM3D差不多的水平。对于仿真的噪声和固定的噪声,深度学习已经可以很好的去除,达到或超过传统领域里最好的算法。

    利用卷积神经网络去除噪声的原理很简单,输入是一张有噪声的图,标签是一张无噪声的图,输出是一张降噪后的图,损失函数是无噪声groundtruth与网络输出的L2距离,网络通常就是与图像分割算法一样的网络,卷积+与之对称的反卷积。

    5.2 方向特点

    降噪的研究聚焦在真实数据的去噪声,因为真实世界的噪声不符合高斯加性噪声的假设,而且是依赖于信息本身的。不过,真实噪声图像和相应的无噪声图像获取是非常困难,慢慢的也有了一些benchmark,大家以后关注我们就知道了。

    6.图像增强

    6.1 基本概念

    图像增强,即增强图像中的有用信息,改善图像的视觉效果。

    在这里插入图片描述
    图像增强实际上包含了很多的内容,上面的降噪也属于其中,只是因为降噪多了美颜这一个应用单独拿出来说一下。

    对比度增强,用于扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,可用于改善图像的识别效果,满足某些特殊分析。

    超分辨,使图像变得更加清晰,可以用于视频的传输先进行降采样,再进行升采样,即降低了传输成本,又增加了视觉效果。

    图像修复,重建图像和视频中丢失或损坏的部分,也被称为图像插值或视频插值,主要是替换一些小区域和瑕疵,如photoshop中的印章工具。随着发展,已经从原先针对划痕、污点等的修复到现在对图像、视频中文字、物体等的移除,比如水印等。

    传统方法:

    传统的方法就是一个预定义好的非线性变换,主要有三大类方法,一类是点操作,一类是直方图操作,一类是Retinex理论。

    点操作也被称为直接对比度增强,将每个像素独立操作,包括对数变化,指数变化,负图像,阈值化等。我们熟知的gamma变换如下,可以进行不同形状的映射。

    直方图操作也被称为间接对比度增强,包括直方图均衡,直方图匹配等。直方图均衡化通常用来增加图像的全局对比度,尤其是当图像中主体和背景对比度相当接近的时候。直方图均衡化的效果就是让直方图更均衡的分布,这种方法对于背景和前景都太亮或者太暗的图像非常有用,通常是曝光过度或者曝光不足的图片。

    Retinex理论,即颜色恒常知觉的计算理论,Retinex是一个合成词,它的构成是retina(视网膜)+cortex(皮层),它将图像认为是reflectance和illumination的点乘,理论基础是在不同的照明条件下,物体的色彩不受光照非均性的影响是恒定的,而物体的颜色是由物体对长波、中波和短波光线的反射能力决定的而不是由反射光强度的绝对值决定。

    深度学习方法:

    以增强对比度为例,深度学习方法使用了CNN来进行非线性变换的学习,而且通常不仅仅局限在对比度增强,经常会同时学习到降噪。深度学习的方法有两种,一种是采用成对的图片训练,比如pix2pix,learning in the dark,缺点是没有普适性,只能对所实验的数据集有用。一种是不需要成对图片训练,只需要好图,比如WESPE,常配合GAN使用。

    6.2 方向特点

    一个图像增强任务,传统方法需要分别进行降噪,颜色校正,对比度增强等各种操作,而深度学习算法的好处就是end-to-end输出,将整个流程丢给了网络。目前图像增强相对于前面的一些方向还是一个蓝海,覆盖的方向和应用非常广,有精力的朋友可以好好研究。

    7.风格化

    7.1 基本概念

    图像风格化之所以引起我们的注意,完全是因为2015年的一个研究,可以将任意的图像转换为梵高的画作风格。 也是得益于深度学习技术的发展,传统的方法做不到这么好的效果。而随着美图秀秀,天天P图等app层出不穷的滤镜,风格化已经成为了单独的一个研究领域。

    图像风格化是一个综述性的技术应用,为了简单起见,就理解为艺术类滤镜把,它指通过算法,将数码相机拍摄的照片,变成绘画、素描等艺术类的非数码相机效果,是后期程度最深的操作,将彻底改变相片的风格。
    在这里插入图片描述
    深度学习方法:

    以A Neural Algorithm of Artistic Style 论文发表为起始,Prisma滤镜为典型代表。虽然风格迁移技术的发展日新月异,但是最革命性的还是该文章的方法,这是德国图宾根大学的研究,它通过分析某种风格的艺术图片,能将图片内容进行分离重组,形成任意风格的艺术作品,最开始的时候需要将近一个小时来处理。

    就是把一幅图作为底图,从另外一幅画抽取艺术风格,重新合成新的艺术画,可以参考上面的图。

    研究者认为,图片可以由内容层(Content)与风格层(Style)两个图层描述,相互分离开。在图像处理中经常将图像分为粗糙层与细节层,即前者描述图像的整体信息,后者描述图像的细节信息,具体可以通过高斯金字塔来得到。

    卷积神经网络的各个神经元可以看做是一个图像滤波器,而输出层是由输入图像的不同滤波器的组合,深度由浅到深,内容越来越抽象。

    底层信息重建,则可以得到细节,而从高层信息重建,则得到图像的”风格“。因此,可以选择两幅图像,一幅构建内容信息,一幅构建风格信息,分别进行Content重建与Style 重建。通过将内容与风格组合,可以得到新的视觉信息更加有意思的图像,如计算机油画,这就是它的基本原理。方法的核心在于损失函数的设计,包括内容损失和风格损失。

    内容损失在像素空间,要求风格化后的图能够保证内容的完整性。风格损失使用vgg特征空间的gram矩阵,这样就有了较高的抽象层级,实践结果表明可以很好的捕捉风格。

    7.2 方向特点

    如今风格化方法在很多地方都有应用,比如大家熟悉的变脸等。方法也演变成了几个方向;

    (1)单模型单风格,即一个网络只能做一种风格化。

    (2)单模型多风格,即一个网络可以实现多种风格,比(1)实用的多。

    (3)单模型任意风格,即一个网络可以任意风格,视输入图像而定,这是最好的,更多的研究我们以后会开专题。

    8.三维重建

    8.1 基本概念

    什么是三维重建呢?广义上来说,是建立真实世界的三维模型。随着软硬件的成熟,在电影,游戏,安防,地图等领域,三维重建技术的应用越来越多。目前获取三维模型的方法主要包括三种,手工建模,仪器采集与基于图像的建模。
    在这里插入图片描述
    (1) 手工建模作为最早的三维建模手段,现在仍然是最广泛地在电影,动漫行业中应用。顶顶大名的3DMax就是典型代表,当然了,它需要专业人士来完成。

    (2) 由于手工建模耗费大量的人力,三维成像仪器也得到了长期的研究和发展。基于结构光(structured light)和激光扫描技术的三维成像仪是其中的典型代表。这些基于仪器采集的三维模型,精度可达毫米级,是物体的真实三维数据,也正好用来为基于图像的建模方法提供评价数据库。由于仪器的成本太高,一般的用户是用不上了。

    (3) 基于图像的建模技术(image based modeling),顾名思义,是指通过若干幅二维图像,来恢复图像或场景的三维结构,这些年得到了广泛的研究。

    我们这里说的三维重建,就特指基于图像的三维重建方法,而且为了缩小范围,只说人脸图像,并简单介绍其中核心的3DMM模型。

    3DMM模型:

    人脸三维重建方法非常多,有基于一个通用的人脸模型,然后在此基础上进行变形优化,会牵涉到一些模板匹配,插值等技术。有基于立体匹配(各种基于双目,多目立体视觉匹配)的方法,通过照相机模型与配准多幅图像,坐标系转换,获取真实的三维坐标,然后进行渲染。有采用一系列的人脸作为基,将人脸用这些基进行线性组合的方法,即Morphable models方法。

    其中,能够融会贯通不同传统方法和深度学习方法的,就是3D Morphable Models系列方法,从传统方法研究到深度学习。

    它的思想就是一幅人脸可以由其他许多幅人脸加权相加而来,学过线性代数的就很容易理解这个正交基的概念。我们所处的三维空间,每一点(x,y,z),实际上都是由三维空间三个方向的基量,(1,0,0),(0,1,0),(0,0,1)加权相加所得,只是权重分别为x,y,z。

    转换到三维空间,道理也一样。每一个三维的人脸,可以由一个数据库中的所有人脸组成的基向量空间中进行表示,而求解任意三维人脸的模型,实际上等价于求解各个基向量的系数的问题。

    每一张人脸可以表示为:

    形状向量Shape Vector:S=(X1,Y1,Z1,X2,Y2,Z2,…,Yn,Zn)

    纹理向量Texture Vector:T=(R1,G1,B1,R2,G2,B2,…,Rn,Bn)
    在这里插入图片描述
    而一张任意的人脸,其等价的描述如下:
    在这里插入图片描述
    其中第一项Si,Ti是形状和纹理的平均值,而si,ti则都是Si,Ti减去各自平均值后的协方差矩阵的特征向量。 基于3DMM的方法,都是在求解α,β这一些系数,当然现在还会有表情,光照等系数,但是原理都是通用的。

    原理就说到这里,我们以后会专门讲述。

    8.2 方向特点

    人脸的三维建模有一些独特的特点。

    (1)预处理技术非常多,人脸检测与特征点定位,人脸配准等都是现在研究已经比较成熟的方法。利用现有的人脸识别与分割技术,可以缩小三维人脸重建过程中需要处理的图像区域,而在有了可靠的关键点位置信息的前提下,可以建立稀疏的匹配,大大提升模型处理的速度。

    (2)人脸共性多。正常人脸都是一个鼻子两只眼睛一个嘴巴两只耳朵,从上到下从左到右顺序都不变,所以可以首先建立人脸的参数化模型,实际上这也是很多方法所采用的思路。

    人脸三维重建也有一些困难。

    (1)人脸生理结构和几何形状非常复杂,没有简单的数学曲面模型来拟合。

    (2)光照变化大。同一张脸放到不同的光照条件下,获取的图像灰度值可能大不一样的,这些都会影响深度信息的重建。

    (3)特征点和纹理不明显。图像处理最需要的就是明显的特征,而光滑的人脸除了特征关键点,很难在脸部提取稠密的有代表性的角点特征。这个特点,使得那些采用人脸配准然后求取三维坐标的方法面临着巨大的困难。

    9.图像检索

    9.1 基本概念

    图像检索的研究从20世纪70年代就已经开始,在早期是基于文本的图像检索技术(Text-based Image Retrieval,简称TBIR),利用文本来描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。随着计算机视觉技术的发展,90年代开始出现了对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术,也就是基于内容的图像检索(Content-based Image Retrieval,简称CBIR)技术,本小节的图像检索就特指基于内容的图像检索。

    基于内容的图像检索也经历了传统方法和深度学习方法两个主要阶段,传统的基于内容的图像检索通常包括以下流程:
    在这里插入图片描述
    预处理,通常包括一些图像归一化,图像增强等操作。特征提取,即提取一些非常鲁棒的图像特征,比如SIFT,HoG等特征。特征库就是要查询的库,库中不存储图像而是存储特征,每一次检索图像完成特征提取之后,就在特征库中进行匹配和相似度计算。索引就是在某种相似性度量准则下计算查询向量到特征库中各个特征的相似性大小,最后按相似性大小进行高效的排序并顺序输出对应的图片。

    图像检索的中最复杂的一步就是检索,在这一步完成验证过程。
    在这里插入图片描述
    最简单的方法就是暴力(brute-force) 搜索方法(又称线性扫描),即逐个与数据库中的每个点进行相似性计算然后进行排序,这种简单粗暴的方式虽然很容易实现,但是会随着数据库的大小以及特征维度的增加其搜索代价也会逐步的增加,从而限制在数据量小的小规模图像数据库,在大规模图像库上这种暴力搜索的方式不仅消耗巨大的计算资源,而且单次查询的响应时间会随着数据样本的增加以及特征维度的增加而增加,为了降低搜索的空间的空间复杂度与时间复杂度,研究者们提出了很多高效的检索技术,其中最成功的大家也最熟悉到方法是基于哈希的图像检索方法。

    深度学习在图像检索里面的作用就是把表征样本的特征学习好,就够了。

    9.2 方向特点

    图像检索系统具有非常大的商业价值,从搜索引擎的以图搜图,到人脸验证和识别系统,到一些搜索排序系统(比如基于美学的摄影图库)。由于图像特征的学习是一个通用的研究方向,因此更多的在于设计高效的检索系统。

    10.GAN

    10.1 基本概念

    GAN,即Generative adversarial net,被誉为新的深度学习,涉及的研究非常多,可以单列为一个方向,一个经典的网络结构如下。
    在这里插入图片描述
    GAN的原理很简单,它包括两个网络,一个生成网络,不断生成数据分布。一个判别网络,判断生成的数据是否为真实数据。

    在这里插入图片描述
    上图是原理展示,黑色虚线是真实分布,绿色实线是生成模型的学习过程,蓝色虚线是判别模型的学习过程,两者相互对抗,共同学习到最优状态。

    10.2 方向特点

    作为新兴和热门方向,GAN包含的研究方向非常的广,包括GAN的应用,GAN的优化目标,GAN的模型发展,GAN的训练技巧,GAN的理论分析,GAN的可视化等等

    展开全文
  • 计算机视觉研究方向进展

    千次阅读 2018-12-25 13:49:15
    因此大部分最新工作都首先发表在顶级会议上,这些顶级会议完全能反映“热门研究方向”、“最新方法”。(2)很多经典工作大家可能引是某顶级期刊上论文,这是因为期刊论文表述得比较完整、实验充分。但实...

    最新计算机视觉动态哪里看?

    1 背景

    会议论文比期刊论文更重要的原因是:(1)因为机器学习、计算机视觉和人工智能领域发展非常迅速,新的工作层出不穷,如果把论文投到期刊上,一两年后刊出时就有点out了。因此大部分最新的工作都首先发表在顶级会议上,这些顶级会议完全能反映“热门研究方向”、“最新方法”。(2)很多经典工作大家可能引的是某顶级期刊上的论文,这是因为期刊论文表述得比较完整、实验充分。但实际上很多都是在顶级会议上首发。比如PLSA, Latent Dirichlet Allocation等。(3)如果注意这些领域大牛的pulications,不难发现他们很非常看重这些顶级会议,很多人是80%的会议+20%的期刊。即然大牛们把最新工作发在顶级会议上,有什么理由不去读顶级会议?

    2 顶级会议

    2.1 三大CV顶级会议

    作为刚入门的CV新人,有必要记住计算机视觉方面的三大顶级国际会议:ICCV,CVPR和ECCV,统称为ICE。

    • CV的全称是International Comference on Computer Vision,正如很多和他一样的名字的会议一行,这样最朴实的名字的会议,通常也是这方面最nb的会议。ICCV两年一次,与ECCV正好错开,是公认的三个会议中级别最高的。它的举办地方会在世界各地选,上次是在北京,下次在巴西,2009在日本。iccv上的文章看起来一般都比较好懂,我是比较喜欢的。
    • CVPR的全称是International Conference on Computer Vision and Pattern Recogintion。这是一个一年一次的会议,举办地从来没有出过美国,因此想去美国旅游的同学不要错过。正如它的名字一样,这个会上除了视觉的文章,还会有不少模式识别的文章,当然两方面的结合自然也是重点。
    • ECCV的全称是Europeon Conference on Computer Vision,是一个欧洲的会议。虽然名字不是International,但是会议的级别不比前面两个差多少。欧洲人一般比较看中理论,但是从最近一次会议来看,似乎大家也开始注重应用了,oral里面的demo非常之多,演示效果很好,让人赏心悦目、叹为观止。不过欧洲的会有一个不好,就是他们的人通常英语口音很重,有些人甚至不太会说英文,所以开会和交流的时候,稍微有些费劲。

    总的来说,以上三个会议是做计算机视觉人必须关注的会议,建议每一期的oral都要精读,poster挑自己相关的仔细看看。如果有好的进一步的想法,可以马上发表,因为他们已经是最新的了,对他们的改进通常也是最新的。同时如果你做了类似的工作,却没有引用这些会议的文章,很有可能会被人指出综述部分的问题,因为评审的人一般都是牛人,对这三个会议也会很关注的。

    ICCV/CVPR/ECCV三个顶级会议, 都在一流会议行列, 没有必要给个高下. 有些us的人认为ICCV/CVPR略好于ECCV,而欧洲人大都认为ICCV/ECCV略好于CVPR。

    笔者就个人经验浅谈三会异同, 以供大家参考和讨论. 三者乃cv领域的旗舰和风向标,其oral paper (包括best paper) 代表当年度cv的最高水准, 在此引用Harry Shum的一句话, 想知道某个领域在做些什么, 找最近几年此领域的proceeding看看就知道了. ICCV/CVPR由IEEE Computer Society牵头组织, ECCV好像没有专门负责的组织. CVPR每年(除2002年)都在美国开, ECCV每两年开一次,仅限欧洲, ICCV也是每两年一次, 各洲轮值. 基本可以保证每年有两个会议开, 这样研究者就有两次跻身牛会的机会.

    2.2 其他会议

    • 机器学习顶级会议:NIPS, ICML, UAI, AISTATS; (期刊:JMLR, ML, Trends in ML, IEEE T-NN)
    • 计算机视觉和图像识别:ICCV, CVPR, ECCV; (期刊:IEEE T-PAMI, IJCV, IEEE T-IP)
    • 人工智能:IJCAI, AAAI; (期刊AI)
    • 另外相关的还有SIGRAPH, KDD, ACL, SIGIR, WWW等。

    特别是,如果做机器学习,必须地,把近4年的NIPS, ICML翻几遍;如果做计算机视觉,要把近4年的ICCV, CVPR, NIPS, ICML翻几遍。

    3 论文下载

    以上期刊很多论文都可以在网上免费下载,在CV方面如:CVPapersNIPSJMLR(期刊)COLT和ICML(每年度的官网)

    参考文献

    展开全文
  • 主要区分:图像分类、目标检测、语义分割、实例分割、全景分割


    参考:https://my.oschina.net/u/876354/blog/3055850


    图像分类(image classification)

    识别图像中存在的内容,只进行label分类。如下图所示,分类结果包括人(person)、树(tree)、草地(grass)、天空(sky)
    在这里插入图片描述


    目标检测(object detection)

    不仅要识别图像中目标的类别,还要框选出位置。如下图所示
    在这里插入图片描述


    语义分割(semantic segmentation)

    相比目标检测更加精细,需要将目标区域(mask)标注出来。如下图©所示,其中人(person)用浅蓝色标注,绵羊(sheep)用深蓝色标注,狗(dog)用红色标注,其他物体不做区分,全部归为背景(background)标注为绿色。
    在这里插入图片描述


    实例分割(instance segmentation)

    相比语义分割难度更大,还需要区别属于相同类别的不同实例。如上图(d)所示,需要区分每一只绵羊。
    在这里插入图片描述


    全景分割(panoptic segmentation)

    以上分割都只关注类别中包含的目标,之外所有都划分成背景,而全景分割则不存在背景概念,图中所有像素都应该归为某一具体类别。

    在这里插入图片描述

    除此之外还有:目标跟踪、超分重建等

    展开全文
  • 图像说明:计算机视觉+自然语言处理,为图像生成一个最适合图像标题,图像检测+说明 目标识别/检测:对边界框围绕目标检测体 图像/实例分割:将图像划分成互不相交区域 普通分割:狗,猫,...
  • 相信看了前面的几篇文章后很多朋友已经等不及快速入行了,今天就来介绍一下计算机视觉的各大研究方向及其特点。 所谓计算机视觉,即compute vision,就是通过用计算机来模拟人的视觉工作原理,来获取和完成一系列图...
  • 点击上方“3D视觉工坊”,选择“星标”干货第一时间送达整理:3D视觉工坊 | 来源:知乎https://www.zhihu.com/question/330153893/answer/1...
  • 1、计算机视觉的主要研究领域 计算机视觉领域包括的主要领域有图像分割(图像信息预处理)、三维重建和模式识别(包括对静态、动态物体的识别与理解)。 (1)图像分割:图像分割是图像识别和计算机视觉至关重要的...
  • 计算机图形学,计算机视觉,机器人三个研究方向重叠公共部分应该包含什么研究内容
  • 非常完整机器视觉研究方向总结,按技术原理、按应用场景进行划分。 转自:http://studyai.com/article/70f86341 PS: 若MarkDown不支持 TOC 和 TOCM 标题预览,可访问上述地址,分类结构更加清晰。 [TOCM] [TOC] ...
  • 作者&编辑:李中梁为什么需要自监督学习随着深度模型兴起,基于监督图像特征提取方式已经成为主流。然而这种方法需要大量有标签数据,标注成本过高,在小样本数据集上面临着过拟合等问...
  • ideo understand,是属于visual analysis的第三个层次,比较high-level的研究方向。 1)最基础的video classification,从相应数据集来看,比如sport1m,hmdb51,activity-net等,大都属于运动/行为类型的类别,...
  • 今天是新专栏《AI白身境》的第10篇,所谓白身,就是什么都不会,还没有进入角色。相信看了前面的几篇文章后很多朋友已经等不及快速入行了,今天就来介绍一下计算机视觉的各大研究...
  • 最近需要调研CV领域一些研究方向,所以爬取了近三年CVPR(2018、2019、2020)、ECCV2018、ICCV2019文章和链接,根据标题生成对应词云,统计不同单词出现频次生成折线图,所有爬取文章标题列表和下载链接:戳...
  • 【AI白身境】计算机视觉都有哪些研究方向

    千次阅读 多人点赞 2019-03-01 07:22:52
    相信看了前面的几篇文章后很多朋友已经等不及快速入行了,今天就来介绍一下计算机视觉的各大研究方向及其特点。 所谓计算机视觉,即compute vision,就是通过用计算机来模拟人的视觉工作原理,来获取和完成一系列...
  • http://blog.csdn.net/kaspar1992/article/details/53196060 https://ocw.mit.edu/index.htm https://zhuanlan.zhihu.com/learn-robotics ...
  • 我是研究移动机器人,想通过视觉方式实现机器人在有障碍物环境中面向目标自主移动,首先要实现在没有障碍物环境中面向目标移动,现在我需要人为设定一个目标,通过图像处理方法识别出该目标,并获取改目标...
  • 计算机视觉方向博客整理

    千次阅读 2013-07-01 10:59:19
    提示:本文为笔者原创,转载请注明出处:blog.csdn.net/carson2005 以下链接是本人整理关于计算机视觉(ComputerVision, CV)相关领域网站链接,其中有CV牛人主页,CV研究小组主页,CV领域paper,代码,CV...
  • 然后综述了基于深度学习的卷积神经网络模型在图像分类、物体检测、姿态估计、图像分割和人脸识别等多个计算机视觉应用领域中的研究现状和发展趋势,主要从典型的网络结构的构建、训练方法和性能表现3个方面进行介绍。...
  • 作者:akkaze-郑安坤 ...来源:知乎 著作权归作者所有。...毫无疑问,3d方向,是非常值得研究的,包括深度估计,立体匹配,3d检测(包括单目,双目,lidar和rgbd,19年也终于出现了真正点云卷积pointconv)...
  • 点击文末的阅读原文或者公众号界面左下角的调剂信息或者公众号回复“调剂”是计算机/软件等专业的所有调剂信息集合,会一直更新的。本人一直致力于模式识别、计算机视觉等方面的研究工作,并取得了一...
  • 深度学习与计算机视觉

    千人学习 2020-07-13 17:12:35
    1、本课程总计9大章节,是一门系统入门计算机视觉的课程,未来将持续更新。 2、课程从计算机视觉理论知识出发,理论结合实战,手把手的实战代码实现(霍夫变换与模板匹配,AlexNet OCR应用,VGG迁移学习,多...
  • 时尚是我们向世界展示自己的方式,并已成为世界上最大的产业之一。时尚主要通过视觉传达,近些年来已经吸引了诸多计算机视觉研究者的关注。基于这个领域的快速发展,本文对...此外,我们强调了未来有希望的研究方向
  • 人脸图像属于最早被研究的一类图像,也是计算机视觉领域中应用最广泛一类图像,可以说掌握好人脸算法,基本就玩转了计算机视觉领域。在经历了几十年发展后,现在人脸图像都有哪些研究和应用领域呢?本文从人脸...
  • 清华大学软件学院软件系统与工程研究所招聘计算机视觉方向博士后 课题组介绍: 课题组主要从事计算机视觉、机器学习与工业网络安全基础理论与应用研究。课题组目前有4名教师(中国工程院院士1人)及二十余名博士...
  • 国内计算机视觉CV方向的大牛/导师 李航:http://research.microsoft.com/en-us/people/hangli/ 是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,...
  • 1.3 计算机视觉领域利用深度学习可能带来未来研究方向 第一个,深度图像分析。目前基于深度 学习图像算法在实验数据库上效果还是 不错,但是远远不能够满足实际大规模 应用需求,需要进一步提升算法性能从 ...
  • 问题1:SLAM与计算机视觉的联系与区分 问题2:SLAM在移动机器人上的特殊点及动态SLAM是怎么回事? 问题3:SLAM的研究方向有哪些呢? 问题4:导航中的一些逻辑 ...

空空如也

1 2 3 4 5 ... 20
收藏数 1,379
精华内容 551
关键字:

计算机视觉的研究方向