2005-11-23 00:12:00 zoezinsser 阅读数 2244

参考资料:

中国图像工程及当前的几个研究热点  章毓晋 第14 卷第6 期 计算机辅助设计与图形学学报


图像工程及三个层次:图像处理、图像分析和图像理解

图像处理指比较低层的操作, 着重强调在图像之间进行的变换;

图像分析则进入了中层, 主要是对图像中感兴趣的目标进行检测和测量, 以获得它们的客观信息, 从而建立对图像的描述;

图像理解主要是高层操作, 对从描述抽象出来的符号进行运算, 通过研究目标的性质和它们之间的相互联系,

得到对图像内容含义的理解以及对原来客观场景的解释, 从而指导和规划行动.

图像工程是一门系统地研究各种图像理论、技术和应用的新的交叉学科. 从它的研究方法来看, 它与数学、物

理学、生理学、心理学、电子学、计算机科学等许多学科可以相互借鉴; 从它的研究范围来看, 它与模式识别、计算机视觉、计算机图形学等多个专业又互相交叉,

///////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

一般来说, 基于视觉内容的图像查询检索系统是介于信息用户和视觉内容数据库之间的一种信息服务系统.

基于内容的视频检索既可在镜头层进行, 也可在情节层进行; 在镜头层的检索可借助镜头的关键帧进行, 在情节层的检索可借助情节的代表帧进行.

目前试用的各种基于内容的图像和视频检索系统多遇到两个主要障碍:
一是检索的质量常常很不一致,检索结果虽有许多需要的, 但也总有许多不相关的;
二是实用性比较低, 如在网上检索时, 很难指定一个查询图.   再如当有多个特征可用时,又缺乏明确的选择依据.

人们尝试利用称之为“语义特征”的高层特征. 这种基于语义的图像检索技术从人类的视觉理解出发, 着眼于提取图像中符合人类视觉概念的部分, 与人类对图像内容的理解更为符合

为了提高系统的性能, 人们引入了相关反馈技术, 以充分发挥人机交互的作用.而为了适应人在检索过程中时常发生的兴趣跳转现象, 还可以引入具有更大灵活性的关联反馈技术

在理解基础上的检索会是一个有前途的研究领域; 基于内容的视觉信息检索又是为人服务的, 所以人性化
的检索也会是一个值得努力的发展方向, 包括如何将用户的情绪(emotion) 状态或情感(affect ion) 结合进来

网络技术的发展也为基于内容视觉信息检索的研究和应用提供了契机并提出了挑战, 所以, 结合网络特点的相关工作值得重视,如由于网络上数据量更大而带来的筛选和分类工

 Gao Y Y, Zhang Y J , M erzlyakov N S. Semantic2based image descrip tion model and its implementation for image retrieval[A ]. In: P roceedings of IC IG, 2000. 657~ 660

 Wang Huifeng, Sun Zhengxing. The methods of semanticsp rocessing in content2based image retrieval [ J ]. Journal of Image and Graph ics, 2001, 6A (10) : 945~ 952 ( in Ch inese)(王惠锋, 孙正兴. 基于内容的图像检索中的语义处理方法 [J ]. 中国图象图形学报, 2001, 6A (10) : 945~952)

 Xu Y, Zhang Y J. Image retrieval framewo rk driven by association feedback w ith feature element evaluation built in[A ]. In: P roceedings of SP IE, U SA , 2001, 4315: 118~ 129

2015-05-29 13:47:46 u011177305 阅读数 4709

图像分割是图像处理中的一项关键技术,自20世纪70年代起一直受到人们的高度重视,至今已提出了上千种各种类型的分割算法,现提出的分割算法大都是针对具体问题的,并没有一种适合于所有图像的通用分割算法,而且近年来每年都有上百篇相关研究报道发表。然而,还没有制定出选择合适分割算法的标准,这给图像分割技术的应用带来许多实际问题。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。

图像分割在图像工程中的位置它起着承上启下的作用,可以认为是介于低层次处理和高层次处理的中间层间。最近几年又出现了许多新思路、新方法、或改进算法。下面对一些经典传统方法作简要的概述。

多年来人们对图像分割提出了不同的解释和表述,借助集合概念对图像分割可给出如下定义:令集合R代表整个图像区域,对R的图像分割可以看做是将R分成N个满足以下条件的非空子集R1,R2,R3,…,RN

(1)在分割结果中,每个区域的像素有着相同的特性;

(2)在分割结果中,不同子区域具有不同的特性,并且它们没有公共特性;

(3)分割的所有子区域的并集就是原来的图像;

(4)各个子集是连通的区域;

图像分割是把图像分割成若干个特定的、具有独特性质的区域并提取出感兴趣目标的技术和过程,这些特性可以是像素的灰度、颜色、纹理等提取的目标可以是对应的单个区域,也可以是对应的多个区域。图像分割方法有许多种分类方式,在这里将分割方法概括为四类:(1)边缘检测方法(2)区域提取方法(3)阈值分割方法(4)结合特定理论工具的分割方法。下面就这些方法展开介绍。

1 边缘检测法

图像分析和理解的第一步常常是边缘检测。边缘检测方法是人们研究得比较多的一种方法,它通过检测图像中不同区域的边缘来达到分割图像的目的。边缘检测的实质是采用某种算法来提取出图像中对象与背景问的交界线。我们将边缘定义为图像中灰度发生急剧变化的区域边界。图像灰度的变化情况可以用图像灰度分布的梯度来反映,因此我们可以用局部图像微分技术来获得边缘检测算子。经典的边缘检测方法,是通过对原始图像中像素的某小邻域构造边缘检测算子来达到检测边缘这一目的。

2 区域提取法

区域提取法有两种基本形式:一种是从单个像素出发,逐渐合并以形成所需的分割区域;另一种是从全图出发,逐渐分裂切割至所需的分割区域。在实际中使用的通常是这两种基本形式的结合。根据以上两种基本形式,区域提取法可以分为区域生长法和分裂合并法。区域生长法的基本思想是将具有相似性质的像素合起来构成区域,具体做法是先给定图像中要分割的目标物体内的一个小块或者说种子区域,再在种子区域的基础上不断将其周围的像素点以一定的规则加入其中,达到最终将代表该物体的所有像素点结合成一个区域的目的。该方法的关键是要选择合适的生长或相似准则。生长准则一般可分为三种:基于区域灰度差准则、基于区域内灰度分布统计性质准则和基于区域形状准则。分裂合并法是先将图像分割成很多的一致性较强的小区域,再按一定的规则将小区域融合成大区域,达到分割图像的目的。区域提取法的缺点是往往会造成过度分割,即将图像分割成过多的区域,因此近年来针对这种方法的研究较少。

3 阈值分割法


对灰度图像的取阈值分割就是先确定一个处于图像灰度取值范围之中的灰度阈值,然后将图像中各个像素的灰度值都与这个阈值相比较,并根据比较结果将对应的像素分为两类。这两类像素一般分属图像的两类区域,从而达到分割的目的。阈值分割算法主要有两个步骤:

(1)确定需要的阈值;

(2)将分割阈值与像素值比较以划分像素。

可以看出,确定一个最优阈值是分割的关键。现有的大部分算法都是集中在阈值确定的研究上。阈值分割方法根据图像本身的特点,可分为单阈值分割方法和多阈值分割方法:也可分为基于像素值的阈值分割方法、基于区域性质的阈值分割方法和基于坐标位置的阈值分割方法.若考虑分割算法所用的特征或准则的特点,还可以分为直方图与直方图变换法、最大类空间方差法、最小误差法与均匀化误差法、共生矩阵法、最大熵法、简单统计法与局部特性法、概率松弛法、模糊集法等。

4 结合特定理论工具的分割方法

近年来,随着各学科许多新理论和方法的提出,人们也提出了许多结合特定理论工具的分割方法,例如基于数学形态学的分割方法,基于神经网络的分割方法,基于信息论的分割方法,基于模糊集合和逻辑的分割方法,基于小波分析和变换的分割方法,基于遗传算法的分割方法等。基于小波分析和变换的分割方法是借助新出现的数学工具小波变换来分割图像的一种方法,也是现在非常新的一种方法。小波变换是一种多尺度多通道分析工具,比较适合对图像进行多尺度的边缘检测,例如可利用高斯函数的一阶和二阶导数作为小波函数,利用Mallat算法分解小波,然后基于马尔算子进行多尺度边缘检测,这里小波分解的级数可以控制观察距离的“调焦”。而改变高斯函数的标准差可选择所检测边缘的细节程度。小波变换的计算复杂度较低,抗噪声能力较强。理论证明以零点为对称点的对称二进小波适合检测屋顶状边缘,而以零点为反对称点的反对称二进小波适合检测阶跃状边缘。近年来多通道小波也开始用于边缘检测。另外,利用正交小波基的小波变换也可提取多尺度边缘,并可通过对图像奇异度的计算和估计来区分一些边缘的类型。

2017-11-26 10:48:51 wjmnju 阅读数 724

人,是感官的动物。

 

我们的大脑,像一块复杂度极高的CPU,每天在接收着各种格式的数据,进行着无休止的计算,我们以各种感官接触着这个世界,抽取着不同感官下的信息,从而认知了世界。而图像作为承载信息最为丰富的一种媒介,在人类探索智慧的历史中,一直占据着重要的位置。人用这样一双肉眼如何识别不同类别的图像(image classification and pattern recognition),如何在图像中分割出形形色色的物体(semantic segmentation and object detection),如何从模糊的图像中想象出物体的轮廓(image super-resolution,如何创作出天马行空的图画(image synthesis),都是目前机器视觉图像处理领域关注的热点问题。全世界的研究者都希望有朝一日,计算机能代替人眼来识别这一幅幅图像,发现在图像中隐藏的密码。

 

图像分类

 

图像分类是图像处理中的一个重要任务。在传统机器学习领域,去识别分类一个一个图像的标准流程是特征提取、特征筛选,最后将特征向量输入合适的分类器完成特征分类。直到2012Alex Krizhevsky突破性的提出AlexNet的网络结构,借助深度学习的算法,将图像特征的提取、筛选和分类三个模块集成于一体,设计5层卷积层加3层全连接层的深度卷积神经网络结构,逐层对图像信息进行不同方向的挖掘提取,譬如浅层卷积通常获取的是图像边缘等通用特征,深层卷积获取的一般是特定数据集的特定分布特征。AlexNet15.4%的创纪录低失误率夺得2012ILSVRCImageNet大规模视觉识别挑战赛)的年度冠军,值得一提的是当年亚军得主的错误率为26.2%AlexNet超越传统机器学习的完美一役被公认为是深度学习领域里程碑式的历史事件,一举吹响了深度学习在计算机领域爆炸发展的号角。

(图为李飞飞博士和她的ImageNet数据集)

 

时间转眼来到了2014年,GoogleNet横空出世,此时的深度学习,已经历ZF-net VGG-net的进一步精炼,在网络的深度,卷积核的尺寸,反向传播中梯度消失问题等技术细节部分已有了详细的讨论,Google在这些技术基础上引入了Inception单元,大破了传统深度神经网络各计算单元之间依次排列,即卷积层->激活层->池化层->下一卷积层的范式,将ImageNet分类错误率提高到了6.7%的高水平。

 

在网络越来越深,网络结构越来越复杂的趋势下,深度神经网络的训练越来越难,2015Microsoft大神何恺明(现就职于Facebook AI Research)为了解决训练中准确率先饱和后降低的问题,将residual learning的概念引入深度学习领域,其核心思想是当神经网络在某一层达到饱和时,利用接下来的所有层去映射一个f(x)=x的函数,由于激活层中非线性部分的存在,这一目标几乎是不可能实现的。

 

ResNet中,将一部分卷积层短接,则当训练饱和时,接下来的所有层的目标变成了映射一个f(x)=0的函数,为了达到这一目标,只需要训练过程中,各训练变量值收敛至0即可。Resdiual learning的出现,加深网络深度提高模型表现的前提下保证了网络训练的稳定性。2015年,ResNet也以3.6%的超低错误率获得了2015ImageNet挑战赛的冠军,这一技术也超越了人类的平均识别水平,意味着人工智能在人类舞台中崛起的开始。

 

图像中的物体检测

 

图像分类任务的实现可以让我们粗略的知道图像中包含了什么类型的物体,但并不知道物体在图像中哪一个位置,也不知道物体的具体信息,在一些具体的应用场景比如车牌识别、交通违章检测、人脸识别、运动捕捉,单纯的图像分类就不能完全满足我们的需求了。

 

这时候,需要引入图像领域另一个重要任务:物体的检测与识别。在传统机器领域,一个典型的案例是利用HOGHistogram of Gradient)特征来生成各种物体相应的“滤波器”,HOG滤波器能完整的记录物体的边缘和轮廓信息,利用这一滤波器过滤不同图片的不同位置,当输出响应值幅度超过一定阈值,就认为滤波器和图片中的物体匹配程度较高,从而完成了物体的检测。这一项工作由Pedro F. Felzenszalb Ross B. Girshick David Mcallester还有Deva RamananObject Detection with Discriminatively Trained Part-Based Models共同发表在20109月的IEEETransactions on Pattern Analysis and Machine Interlligence期刊上。

 

(传统机器学习典型案例,HOG特征滤波器完整的记录了人的整体轮廓以及一些如眼睛、躯干、四肢等特征部位的细节信息)

 

时间如白驹过隙,惊鸿一瞥,四年过去,Ross B. Girishick已由当年站在巨人肩膀上的IEEE Student Member成长为了AI行业内独当一面的神级人物,继承了深度学习先驱的意志,在2014CVPR会议上发表题为Rich Feature Hirarchies for Accurate Object Detection and SemanticSegmentation文章。RCNN,一时无两,天下皆知。

 

 

(图为深度学习“上古四杰”,从左向右依次为[1]卷积神经网络的提出者Yan Lecun,[2]被誉为“深度学习之父”,深度学习领路人,近期逆流而行提出深度网络Capsule概念的Geoffery Hinton,[3]《Deep Learning》一书作者Yoshua Bengio, [4]前斯坦福人工智能实验室主任Andrew Ng(吴恩达))

 

RCNN的核心思想在于将一个物体检测任务转化为分类任务RCNN的输入为一系列利用selectivesearch算法从图像中抽取的图像块,我们称之为region proposal

经过warping处理,region proposals被标准化到相同的尺寸大小,输入到预先训练好并精细调参的卷积神经网络中,提取CNN特征。得到了每一个proposalCNN特征后,针对每一个物体类别,训练一个二分类器,判断该proposal是否属于该物体类别。2015年,为了缩短提取每一个proposalCNN特征的时间,Girishick借鉴了Spatial Pooling Pyramid NetworkSPPnet)中的pooling技术,首先利用一整幅图像提取CNN特征图谱,再在这张特征图谱上截取不同的位置的proposal,从而得到不同尺寸的feature proposals,最后将这些feature proposals通过SPPnet标准化到相同的尺寸,进行分类。这种改进,解决了RCNN中每一个proposal都需要进行CNN特征抽取的弊端,一次性在整图上完成特征提取,极大的缩短了模型的运行时间,因而被称作“Fast R-CNN”,同名文章发表于ICCV 2015会议。

 

2015年,Girishick大神持续发力,定义RPNregion-proposal-network)层,取代传统的regionproposal截取算法,将region proposal的截取嵌入深度神经网络中,进一步提高了fast R-CNN的模型效率,因而被称作“Faster R-CNN”,在NIPS2015Girishick发表了题为“Faster R-CNN: Towards Real-Time Object Detection with RegionProposal Networks”的关键文章,完成了RCNN研究领域的三级跳壮举。

(图为RCNN算法流程,最终可识别“马”以及骑在马背上的“人”)

 

图像生成

 

随着时代的发展,科学家们不仅仅是技术的研究者,更是艺术的创造者。

 

在人工智能领域的另一位新一代灵魂人物,Ian Goodfellow2014年提出了Generative Adversarial Net的概念,通过定义一个生成器(generator)和一个判别器(discriminator)来完成图像生成任务。其原理在于生成器的任务是从随机噪声中“创造”出接近目标图像的“假图像”去欺骗判别器,而判别器的任务是去甄别哪一些图像是来自于真实的数据集,哪一些图像是来自于生成器,在生成器和判别器的互相对抗中,通过合理的损失函数设计完成训练,最终模型收敛后,判别器的概率输出为常数0.5,即一幅图像来自于生成器和真实数据集的概率相同,生成器生成的图像的概率分布无限趋近于真实数据集。

 

GAN技术成为20152016年深度学习研究的热门领域,在图像恢复、降噪、超分辨重建等方向获得了极佳的表现,衍生出一系列诸如WGANInfo-GANDCGANConditional-GAN等技术,引领了一波风潮。

(图为利用Cycle-GAN技术,由一幅普通的照片生成莫奈、梵高等风格的油画)

 

图像的故事才刚刚开始。

 

当我们把一帧帧图像串联在一起,变成流动的光影,我们研究的问题就从空间维度上扩展到了时间维度,我们不仅需要关心物体在图像中的位置、类别、轮廓形状、语义信息,我们更要关心图像帧与帧之间的时间关系,去捕捉、识别一个物体的运动,去提取视频的摘要,去分析视频所表达的含义,去考虑除了图像之外的声音、文本标注,去处理一系列的自然语言,我们的研究一步一步,迈向了更广阔的星辰与大海。

 

图像和视频,都是虚拟的一串串数字,一个个字节,但却让这个世界更加真实。


联系我们


图鸭微信公众号:


2019-01-15 21:18:08 dyq1995 阅读数 4054

下面来介绍一下如何在MATLAB中实现图像的融合,具体原理及步骤如下:

图像融合:图像融合是指将多源信道所采集到的关于同一目标的图像数据经过图像处理和计算机技术等,最大限度的提取各自信道中的有利信息,最后综合成高质量的图像,以提高图像信息的利用率、改善计算机解译精度和可靠性、提升原始图像的空间分辨率和光谱分辨率,利于监测。图像融合作为信息融合的一个分支,是当前信息融合研究中的一个热点。图像融合的数据形式是包含有明暗、色彩、温度、距离以及其他的景物特征的图像。这些图像可以以一幅,或者一列的形式给出。而图像融合是将2张或2张以上的图像信息的融合到1张图像上,使得融合的图像含有更多的信息、能够更方便人来观察或者计算机处理。图像融合的目标是在实际应用目标下将相关信息最大合并的基础上减少输出的不确定度和冗余度。图像融合的优点很明显,它能扩大图像所含有的时间空间信息,减少不确定性,增加可靠性,改进系统的鲁棒性能。

MATLAB中的具体实现步骤:

1、打开MATLAB软件,在其主界面的编辑器中写入下列代码:

I=imread('rice.png');        %读取路径下的图片
figure(1),imshow(I,[])         %figure1显示图片
I2=imread('cameraman.tif')    %读取第二张图片
figure(2),imshow(I2,[])        %显示图片
K=imadd(I,I2,'uint16');        %使用imadd函数进行图像融合
figure(3),imshow(K,[])         %显示融合后的图片

2、保存代码至自定义路径下,点击运行,结果如下:

 

 

如图所示,可以清晰看到两张图巧妙的结合在一起,这就是图像融合的效果体现,融合后图像要含有所有源图像的明显突出信息,对源图像中不感兴趣的信息,如噪声要尽可能多地抑制其出现在融合图像中,介绍完毕,请大家继续关注!!!

2017-06-20 08:13:32 weixin_39175124 阅读数 136

本文为课堂笔记,严禁转载

研究热点

Computer Vision

形状抓取
图形分割,聚类
物体识别

AI

MLP/ConvNets
随机森林
概率模型

Remote Sensing

PoISAR
Optical Imagery
物体识别

Photogrammetric CV

3D 重构

综上所诉
主要内容有
1.Image Processing
Image to Image
Image to Desciption

2.Image analysis
Image to Object Model
Image to Object Detection

参考资料

Petrou: Image Processing – The Fundamentals
Gonzalez, Woods: Digital Image Processing
Jähne: Digital Image Processing
Sonka et al.: Image Processing, Analysis, and Machine Vision

图像处理任务类别

by David Marr

Bottom-up

接受片面信息,并将其组合。
信息来自于刺激物
依赖与刺激物的性质,如图形的明暗区域
基于方法
通过联系图像内的证据建立假设

Top-Down

接受全面信息,并按照需要分割
经验驱动与刺激物去驱动相反,依靠推理
依赖于更高层的知识,如常识和经验
基于知识
映射模型于图像并去匹配

3R of Computer vision

Reconstruction:提取不同区域特征
Reorganization:抽象化
Recognition:认知

应用

Image Restoration
Image Segmentation
Semantic Segmentation
Feature Extraction
Face Detection
Imgae Categorization
Object Detection

Goal:Image Interpretation

图像分割综述

阅读数 1291

没有更多推荐了,返回首页