图像处理研究现状

2019-08-16 08:48:45 weixin_42137700 阅读数 937

2019-08-15 21:39:20

随着计算机软件、硬件技术的日新月异的发展和普及,人类已经进入一个高速发展的信息化时代,人类大概有80%的信息来自图像,科学研究、技术应用中图像处理技术越来越成为不可缺少的手段。安防行业已经进入一个崭新的时代,高清、智能与大数据和云技术的广泛结合应用,成为时代新的话题。随着而来的是,视频图像处理技术也逐渐成熟起来,只有这样才能切合行业技术发展,为此,对于视频图像处理技术的研究成为安防行业值得重视的领域。

视频图像处理技术的应用价值

视频图像处理技术简而言之就是用计算机对视频数字图像进行处理,其本质是一种信号处理过程,而且是离散信号处理。在视频监控行业为什么要进行图像处理呢?那我们就需要分析视频图像处理后所带来的优势有哪些?

其一,提高图像的视感质量,如进行图像的亮度、彩色变换,增强、抑制某些成分,对图像进行几何变换等,以改善视频图像的质量。

其二,提取视频图像中所包含的某些特征或特殊信息,这些被提取的特征或信息往往为计算机分析图像提供便利。提取特征或信息的过程是计算机或计算机视觉的预处理。提取的特征可以包括很多方面,如频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等。

其三,视频图像增强与复原。图像增强的目的是将图像转换为更适合人和机器的分析的形式。常用的增强方法有:灰度等级直方图处理;干扰抵制;边缘锐化;伪彩色处理。图像复原的目的与图像增强相同,其主要原则是为了消除或减少图像获取和传输过程中造成的图像的损伤和退化,这包括图像的模糊、图像的干扰和噪声等,尽可能的获得原来的真实图像。无论是图像增强还是图像的复原,都必须对整副图像的所有像素进行运算,出于图像像素的大数量考虑,其运算也十分的巨大。编码的目的是在不改变图像的质量基础上压缩图像的信息量,以满足传输与存储的要求。编码多采用数字编码技术对图像逐点的进行加工。这一点在公安针对视频图像来还原细节中经常遇到。

其四,图像的分析。从图像中抽取某些有用的度量、数据和信息,以的到某种数值结果。图像分析用图像分割方法抽取图像的特征然后对图像进行符号化的描述,这种描述不仅能对图像是否存在某一特定的对象进行回答,还能对图像内容进行详细的描述。

其五,能使图像再现性。数字图像处理与模拟图像处理的根本不同在于,它不会因图像的存储、传输或复制等一系列变换操作而导致图像质量的退化,只要图像在数字化时准确地表现了原稿,则数字图像处理过程始终能保持图像的再现。

其六,灵活多变的处理功能。针对模拟技术而言,我们现在的视频监控图像处理技术可以把监控画面分割为任意大小的二维数组,这意味着图像的数字化精度可以达到满足任一应用需求,符合行业高清化趋势。

其七,适用面宽。视频监控图像可以来自多种信息源,比如可以是银行画面,也可以是机场或者海事等远距离监控,不论是来自哪个行业的信息源的图像只要被变换为数字编码形式后,均是用二维数组表示的灰度图像组合而成,

其八,灵活性高。数字图像处理不仅能完成线性运算,而且能实现非线性处理,即凡是可以用数学公式或逻辑关系来表达的一切运算均可用数字图像处理实现。

不过,视频图像处理技术占用的频带较宽,,所以在成像、传输、存储、处理、显示等各个环节的实现上,技术难度较大,成本也高,这就需要我们了解制约视频图像处理技术的因素。

视频图像处理技术的主流技术

视频图像处理就技术而言涉及的知识面十分广阔,具体方法种类繁多,应用也极为普遍,但如果在安防行业角度分析,该技术的主要内容包括三大部分:图像压缩;增强和复原;匹配、描述和识别。由于超高清的要求,在图像压缩方面H.265自然优势大,由于关于H.265的技术专题已经阐述了和视频图像处理的关系,本文就不在这方面做具体介绍。为此,在剩下的两部分我们目前主要关注的视频图像处理技术有以下几个方面:

智能分析处理技术

智能分析处理技术是目前中国安防行业较为关注的图像处理技术,该技术简而言之,就是发现图像中运动的物体,并对其进行跟踪、分析,及时发现异常行为,触发报警并采取其他措施进行干预。智能分析处理技术是基于监控图像处理软件包而开发的,主要有以下几种图像处理形式:

1、将(运动)目标从视频图像中分离出来。2、对目标进行行为分析,判定其运动的方向、方式,并能发现和告警异常的行为;产生目标的运动轨迹,并能进行目标的自动跟踪。3、实现视频语义的解析,图像处理分析的高层次。通过对一个图像序列作出分析,得出其包含的真实信息,可以与话音的语义解析结合起来,逐步实现视频语义的解析。4、在复杂环境下实现目标的分离、行为分析和运动跟踪,特别是实现多目标的跟踪。

上述几点早已有实际应用(比如,单绊线入侵检测、多绊线、围栏入侵、进入/退出区域检测、徘徊检测、遗留物检测、物体搬移检测、物体出现检测、物体消失检测、人群密度、人群突变、奔跑检测、逆向检测、人流量、火焰检测、烟雾检测、场景变化、单球机PTZ自动跟踪等),但基本上是在简单环境下,针对少数目标进行智能化的图像处理。在复杂环境视频监控环境(多人流、多移动、恶劣天气)下实现这些功能,是图像智能分析处理技术真正价值所在。要解决多个图像的综合分析,图像间目标的关联,目标跟踪的连续性,这都是市场应用的迫切需要,也是我们亟待解决的问题。

宽动态技术

宽动态技术是松下第一个在监控行业尝试,那是1977年它的宽动态范围是40倍,引入国内受到业界追捧是在2005年的深圳安博会。两年后,美国PIXIM方案也在市场上广为流行,成为宽动态的另一种选择。

宽动态视频图像处理技术主要是用来解决摄像机在宽动态场景中采集的图像出现亮区域过曝而暗区域曝光不够的现象。简而言之,宽动态技术可以使场景中特别亮的区域和特别暗的区域在最终成像中同时看清楚。这种技术是安防行业应为普遍的视频图像处理技术,经过十多年的市场洗礼和技术提升,目前还是存在一些不足。一是源自它在高亮区域短曝特征,会导致在日光灯场景下亮区域出现横条纹闪烁,这是常见的日光灯工频引起的闪烁现象,因为在亮区域的曝光时间非常短,没有达到抗闪所需的最低曝光时间;二是源自它在暗区域长曝特征,当物体进行高速运动时会因过长的曝光时间而产生拖影现象。

透雾处理

这个技术在2010年随着高清的到来开始在国内应用,当时日立推出的机芯产品就主打透雾功能。该技术是可实时处理各种雾霾天气中的视频图像,去除由雾霾造成的景象朦胧、模糊、看不清或看不见的情况,能够显著增强视频图像的细节信息,使原来被遮隐的图像细节得以充分展现,并保持了原有的色彩色调,使视频图像变得极其明亮、通透和清晰,因而获得了良好的图像质量与视觉感受。

无损实时放大处理

可实时对视频图像进行各种倍率的放大,放大的视频图像没有任何模糊和马赛克,并能够对原视频图像的细节部分予以充分的保留。

强光抑制处理

可实时对视频图像中的强光亮点或区域进行抑制,使强光范围和亮度减小,恢复被强光散射遮掩的目标景物的轮廓和色彩,获得清晰的视频图像。

去除模糊处理

可处理图像中的散焦模糊和运动模糊等,使被观察景物图像变得清晰。

前三种可以说是目前安防行业关注的三种视频图像处理技术,后三者的图像处理由于各个厂家大多采用市面上几个主流的产品方案,以至于在产品性能表现时都没有多大优劣区别。

视频图像处理技术在安防的要求特殊

由于计算机的处理速度极快,且数字信号具有失真小、易保存、易传输、抗干扰能力强等特点,因而计算机图像处理的应用十分广泛,包括航空航天、遥测技术、医疗器械、工业自动化检测、安全识别、安防监控、娱乐媒体等各大领域。每一个应用领域都有其领域的特殊性要求,安防监控行业应用也有其固有的特殊性。

对图像清晰度要求较高。在治安监控现场,公安机关往往需要通过监控录像来辨认嫌疑人、证据等。一般清晰度不高的视频都达不到这种要求。在交通监控现场,交警需要通过监控图像来识别车牌、违章行为、驾驶人等要求,模糊的图像在这种场合根本无法应用。

不同的行业监控,对图像要求的差异性。比如医疗监控,对图像的色彩还原性要求比较高。智能交通监控,对摄像机夜间照度和抓拍速度要求比较高,要求能清晰辨别车牌。在无人值守监控,需要设备在无人看管的条件下能长期稳定的工作。

户外安装,无人看守。在安防领域,大多情况设备需要安装在室外,设备需要经受常年的风吹日晒。要经历常年温度、湿度、盐度、辐射等自然条件的影响。电子设备自身的老化的速度会比其他领域要相对快一些。摄像机镜头、电子设备、传输线路等设施的老化会导致图像越来越模糊。

海量视频路数的要求。在大型平安城市监控项目中,视频路数会达到上万路,甚至更多路。如此海量的视频路数,对网络带宽、存储设备都提出了很高的要求。所以在视频监控领域都期望视频编码的码率压缩比达到较高水平,从而降低对带宽和容量的要求。这就导致在视频编码环节产生更多的信息丢失,从而导致

图像模糊

安防的这些特殊应用场所,都会导致图像清晰度的下降,反过来又对图像清晰度有很高的要求,势必会导致模糊图像处理技术在这里有广阔的应用前景。

视频监控图像处理技术发展趋势

之前也介绍了智能视频分析和宽动态在技术应用中还是存在一些不足或者说发展空间,比如在提高精度的同时着重解决处理速度的问题,巨大的信息量和数据量和处理速度仍然是一对主要矛盾。除此之外,视频监控图像处理技术由于部分设备性能不足、客观条件限制等因素,在实际的视频监控应用中,仍会出现视频图像模糊不清、关键信息捕捉不到等问题。而在视频图像处理的过程中,由于操作技术问题或者客观因素等,给视频图像处理技术的应用带来一些负面影响,降低了处理技术的水平和质量。所以,我们在探究该技术的未来发展趋势就便得十分有意义。有几个趋势如下:

其一,在大数据时代,未来数据图像技术强调高清晰度、高速传输、实时图像处理、三维成像或多维成像、智能化、自动化等方向发展。

其二,智能化方面,力争使计算机识别和理解能够按照人的认识和思维方式工作,能够考虑到主观概率和非逻辑思维。这里有一点需要指出,AI在智能化方面可以做图像数据与内容的提取与分析,但是并不能在视频图像处理方面做文章。

其三,未来视频图像处理技术强调操作、运用的方便性,图像处理功能的集中化趋势是必然会存在的。所以,硬件芯片的开发研究十分重要,如Thomson公司采用Systolic结构设计了把图像处理的众多功能固化在芯片上。

结束语

图像处理技术起源于20世纪20年代,当时通过海底电缆从英国伦敦到美国纽约采用数字压缩技术传输了第一幅数字照片。许多年过去,视频图像处理技术被安防行业大量应用,技术更新日新月异。如果把图像处理当做一个细节的话,那么,细节将决定成败,监控行业亦如此。

2019-07-09 22:15:51 electech6 阅读数 4950

本文作者 张伟,公众号:计算机视觉life,编辑成员

0、引言

医学图像处理的对象是各种不同成像机理的医学影像,临床广泛使用的医学成像种类主要有X-射线成像 (X-CT)、核磁共振成像(MRI)、核医学成像(NMI)和超声波成像(UI)四类。在目前的影像医疗诊断中,主要是通过观察一组二维切片图象去发现病变体,这往往需要借助医生的经验来判定。利用计算机图象处理技术对二维切片图象进行分析和处理,实现对人体器官、软组织和病变体的分割提取、三维重建和三维显示,可以辅助医生对病变体及其它感兴趣的区域进行定性甚至 定量的分析,从而大大提高医疗诊断的准确性和可靠性;在医疗教学、手术规划、手术仿真及各种医学研究中也能起重要的辅助作用[1,2]。目前,医学图像处理主要集中表现在病变检测、图像分割、图像配准及图像融合四个方面。

用深度学习方法进行数据分析呈现快速增长趋势,称为2013年的10项突破性技术之一。深度学习是人工神经网络的改进,由更多层组成,允许更高层次包含更多抽象信息来进行数据预测。迄今为止,它已成为计算机视觉领域中领先的机器学习工具,深度神经网络学习自动从原始数据(图像)获得的中级和高级抽象特征。最近的结果表明,从CNN中提取的信息在自然图像中的对目标识别和定位方面非常有效。世界各地的医学图像处理机构已经迅速进入该领域,并将CNN和其它深度学习方法应用于各种医学图像分析。

在医学成像中,疾病的准确诊断和评估取决于医学图像的采集和图像解释。近年来,图像采集已经得到了显着改善,设备以更快的速率和更高的分辨率采集数据。然而,图像解释过程,最近才开始受益于计算机技术。对医学图像的解释大多数都是由医生进行的,然而医学图像解释受到医生主观性、医生巨大差异认知和疲劳的限制。

用于图像处理的典型CNN架构由一系列卷积网络组成,其中包含有一系列数据缩减即池化层。与人脑中的低级视觉处理一样,卷积网络检测提取图像特征,例如可能表示直边的线或圆(例如器官检测)或圆圈(结肠息肉检测),然后是更高阶的特征,例如局部和全局形状和纹理特征提取[3]。CNN的输出通常是一个或多个概率或种类标签。

CNN是高度可并行化的算法。与单核的CPU处理相比,今天使用的图形处理单元(GPU)计算机芯片实现了大幅加速(大约40倍)。在医学图像处理中,GPU首先被引入用于分割和重建,然后用于机器学习。由于CNN的新变种的发展以及针对现代GPU优化的高效并行网络框架的出现,深度神经网络吸引了商业兴趣。从头开始训练深度CNN是一项挑战[4]。首先,CNN需要大量标记的训练数据,这一要求在专家注释昂贵且疾病稀缺的医学领域中可能难以满足。其次,训练深度CNN需要大量的计算和内存资源,否则训练过程将是非常耗时。第三,深度CNN训练过程中由于过度拟合和收敛问题而复杂化,这通常需要对网络的框架结构或学习参数进行重复调整,以确保所有层都以相当的速度学习[5]。鉴于这些困难,一些新的学习方案,称为“迁移学习”和“微调”,被证明可以解决上述问题从而越来越受欢迎。

1、病变检测

计算机辅助检测(CAD)是医学图像分析的有待完善的领域,并且非常适合引入深度学习。在CAD 的标准方法中,一般通过监督方法或经典图像处理技术(如过滤和数学形态学)检测候选病变位置。病变位置检测是分阶段的,并且通常由大量手工制作的特征描述。将分类器用于特征向量映射到候选者来检测实际病变的概率。采用深度学习的直接方式是训练CNN操作一组以图像为中心的图像数据候选病变。Setio等在3D胸部CT扫描中检测肺结节,并在九个不同方向上提取以这些候选者为中心的2D贴片[6],使用不同CNN的组合来对每个候选者进行分类,CAD系统结构如图1所示。根据检测结果显示,与先前公布的用于相同任务的经典CAD系统相比略有改进。罗斯等人应用CNN改进三种现有的CAD系统,用于检测CT成像中的结肠息肉,硬化性脊柱变形和淋巴结肿大[7]。他们还在三个正交方向上使用先前开发的候选检测器和2D贴片,以及多达100个随机旋转的视图。随机旋转的“2.5D”视图是从原始3D数据分解图像的方法。采用CNN对这些2.5D视图图像检测然后汇总,来提高检测的准确率。对于使用CNN的三个CAD系统,病变检测的准确率度提高了13-34%,而使用非深度学习分类器(例如支持向量机)几乎不可能实现这种程度的提升。早在1996年,Sahiner等人就已将CNN应用于医学图像处理。从乳房X线照片中提取肿块或正常组织的ROI。 CNN由输入层,两个隐藏层和输出层组成,并用于反向传播。在“GPU时代”以前,训练时间被描述为“计算密集型”,但没有给出任何时间。1993年,CNN应用于肺结节检测;1995年CNN用于检测乳腺摄影中的微钙化。

img

图1.CAD系统概述。(a)从立方体的九个对称平面中提取的二维斑块的示例。候选者位于贴片的中心,边界框为50 50 mm和64 64 px。(b)通过合并专门为固体,亚固体和大结节设计的探测器的输出来检测候选人。误报减少阶段是作为多个ConvNets的组合实现的。每个ConvNets流处理从特定视图中提取的2-D补丁。(c)融合每个ConvNet流输出的不同方法。 灰色和橙色框表示来自第一个完全连接的层和结节分类输出的连接神经元。 使用完全连接的层与softmax或固定组合器(产品规则)组合神经元。(a)使用体积对象的九个视图提取二维补丁。(b)拟议系统的示意图。(c)融合方法。

img

图2.结肠息肉的检测:不同息肉大小的FROC曲线,使用792测试CT结肠成像患者的随机视图ConvNet观察。

2、图像分割

医学图像分割就是一个根据区域间的相似或不同把图像分割成若干区域的过程。目前,主要以各种细胞、组织与器官的图像作为处理的对象。传统的图像分割技术有基于区域的分割方法和基于边界的分割方法,前者依赖于图像的空间局部特征,如灰度、纹理及其它象素统计特性的均匀性等,后者主要是利用梯度信息确定目标的边界。结合特定的理论工具,图象分割技术有了更进一步的发展。比如基于三维可视化系统结合FastMarching算法和Watershed 变换的医学图象分割方法,能得到快速、准确的分割结果[8]。

img

图3Watershed分割方法原理

近年来,随着其它新兴学科的发展,产生了一些全新的图像分割技术。如基于统计学的方法、基于模糊理论的方法、基于神经网络的方法、基于小波分析的方法、基于模型的snake 模型(动态轮廓模型)、组合优化模型等方法。虽然不断有新的分割方法被提出,但结果都不是很理想。目前研究的热点是一种基于知识的分割方法,即通过某种手段将一些先验的知识导入分割过程中,从而约束计算机的分割过程,使得分割结果控制在我们所能认识的范围内而不至于太离谱。比如在肝内部肿块与正常肝灰度值差别很大时,不至于将肿块与正常肝看成 2 个独立的组织。

医学图像分割方法的研究具有如下显著特点:现有任何一种单独的图像分割 算法都难以对一般图像取得比较满意的结果,要更加注重多种分割算法的有效结合;由于人体解剖结构的复杂性和功能的系统性,虽然已有研究通过医学图像的自动分割区分出所需的器官、组织或找到病变区的方法,但目前现成的软件包一般无法完成全自动的分割,尚需要解剖学方面的人工干预[9]。在目前无法完全由计算机来完成图像分割任务的情况下,人机交互式分割方法逐渐成为研究重点;新的分割方法的研究主要以自动、精确、快速、自适应和鲁棒性等几个方向作为研究目标,经典分割技术与现代分割技术的综合利用(集成技术)是今后医学图像分割技术的发展方向[10,11]。

利用2891次心脏超声检查的数据集,Ghesu等结合深度学习和边缘空间学习进行医学图像检测和分割[12]。“大参数空间的有效探索”和在深度网络中实施稀疏性的方法相结合,提高了计算效率,并且与同一组发布的参考方法相比,平均分割误差减少了13.5%,八位患者的检测结果如图4所示。Brosch等人利用MRI图像上研究多发性硬化脑病变分割的问题。开发了一种3D深度卷积编码器网络,它结合了卷积和反卷积[13],图5.增加网络深度对病变的分割性能的影响。卷积网络学习了更高级别的特征,并且反卷积网络预进行像素级别分割。将网络应用于两个公开的数据集和一个临床试验数据集,与5种公开方法进行了比较,展现了最好的方法。Pereira等人的研究中对MRI上的脑肿瘤分割进行了研究,使用更深层的架构,数据归一化和数据增强技巧[14]。将不同的CNN架构用于肿瘤,该方法分别对疑似肿瘤的图像增强和核心区域进行分割。在2013年的公共挑战数据集上获得了最高成绩。

img img img
img img img

图4示例图像显示了不同患者的检测结果从测试集。检测到的边界框以绿色显示,标准的框以黄色显示。原点位于每个框中心的线段定义相应的坐标系

img

图5.增加网络深度对病变的分割性能的影响。真阳性,假阴性和假阳性体素分别以绿色,黄色和红色突出显示。由于感受野的大小增加,具有和不具有捷径的7层CEN能够比3层CEN更好地分割大的病变。

2018年德国医疗康复机构提出一种具有代表性的基于全卷积的前列腺图像分割方法。用CNN在前列腺的MRI图像上进行端到端训练,并可以一次完成整个分割。提出了一种新的目标函数,在训练期间根据Dice系数进行优化[15]。通过这种方式,可以处理前景和背景之间存在不平衡的情况,并且增加了随机应用的数据非线性变换和直方图匹配。实验评估中表明,该方法在公开数据集上取得了优秀的结果,但大大降低了处理时间。

img

图6 网络架构的示意图

img

图7 PROMISE 2012数据集分割结果。

3、图像配准

图象配准是图象融合的前提,是公认难度较大的图象处理技术,也是决定医学图象融合技术发展的关键技术。在临床诊断中,单一模态的图像往往不能提供医生所需要的足够信息,常需将多种模式或同一模式的多次成像通过配准融合来实现感兴趣区的信息互补。在一幅图像上同时表达来自多种成像源的信息,医生就能做出更加准确的诊断或制定出更加合适的治疗方法[16]。医学图像配准包括图像的定位和转换,即通过寻找一种空间变换使两幅图像对应点达到空间位置和解剖结构上的完全一致。图6简单说明了二维图像配准的概念。图(a)和图(b)是对应于同一人脑同一位置的两幅 MRI 图像,其中图(a)是质子密度加权成像,图(b)是纵向弛豫加权成像。这两幅图像有明显的不同,第一是方位上的差异,即图(a)相对于图(b)沿水平和垂直方向分别进行了平移;第二是两幅图像所表达的内容是不一致的,图(a)表达不同组织质子含量的差别,而图(b)则突出不同组织纵向弛豫的差别。图©给出了两幅图像之间像素点的对应映射关系,即(a)中的每一个点fx都被映射到(b)中唯一的一个点rx。如果这种映射是一一对应的,即一幅图像空间中的每一个点在另外一幅图像空间中都有对应点,或者至少在医疗诊断上感兴趣的那些点能够准确或近似准确的对应起来,我们就称之为配准[17,18]。图(d)给出了图(a)相对于图(b)的配准图像。从图(d)中可以看出,图(d)与(b)之间的的像素点的空间位置已经近似一致了。1993 年 Petra 等综述了二维图像的配准方法,并根据配准基准的特性,将图像配准的方法分为基于外部特征的图象配准(有框架) 和基于图象内部特征的图象配准(无框架) 两种方法。 后者由于其无创性和可回溯性, 已成为配准算法的研究中心。

img

​ (a) (b) (c) (d)

图8 医学图像配准原理

2019年华中科技大学对基于PCANet的结构非刚性多模医学图像配准展开研究。提出了一种基于PCANet的结构表示方法用于多模态医学图像配准[19]。与人工设计的特征提取方法相比,PCANet可以通过多级线性和非线性变换自动从大量医学图像中学习内在特征。所提出的方法可以通过利用PCANet的各个层中提取的多级图像特征来为多模态图像提供有效的结构表示。对Atlas,BrainWeb和RIRE数据集的大量实验表明,与MIND,ESSD,WLD和NMI方法相比,所提出的方法可以提供更低的TRE值和更令人满意的结果。

img

图9 第一行分别是x和y方向变形的真实结果,第二行是PSR与x和y方向的真实情况的差异;第三行是MIND方法的变形和真实值之间的差异

img

图10 PSR,MIND,ESSD,WLD和NMI方法的CT-MR图像配准。(a)参考PD图像;(b)浮动CT图像;(c)PSR方法;(d)MIND方法;(e)ESSD方法;(f)WLD方法;(g)NMI方法

近年来,医学图像配准技术有了新的进展,在配准方法上应用了信息学的理论和方法,例如应用最大化的互信息量作为配准准则进行图像的配准,基于互信息的弹性形变模型也逐渐成为研究热点[20]。在配准对象方面从二维图像发展到三维多模医学图像的配准。一些新算法,如基于小波变换的算法、统计学参数绘图算法、遗传算法等,在医学图像上的应用也在不断扩展。向快速和准确方面改进算法,使用最优化策略改进图像配准以及对非刚性图像配准的研究是今后医学图像配准技 术的发展方向[21,22]。

4、图像融合

图像融合的主要目的是通过对多幅图像间的冗余数据的处理来提高图像的可读性,对多幅图像间的互补信息的处理来提高图像的清晰度。多模态医学图像的融合把有价值的生理功能信息与精确的解剖结构结合在一起,可以为临床提供更加全面和准确的资料[23]。融合图像的创建分为图像数据的融合与融合图像的显示两部分来完成。目前,图像数据融合主要有以像素为基础的方法和以图像特征为基础的方法。前者是对图像进行逐点处理,把两幅图像对应像素点的灰度值进行加权求和、灰度取大或者灰度取小等操作,算法实现比较简单,不过实现效果和效率都相对较差,融合后图像会出现一定程度的模糊。后者要对图像进行特征提取、目标分割等处理,用到的算法原理复杂,但是实现效果却比较理想。融合图像的显示常用的有伪彩色显示法、断层显示法和三维显示法等。伪彩色显示一般以某个图像为基准,用灰度色阶显示,另一幅图像叠加在基准图像上,用彩色色阶显示。断层显示法常用于某些特定图像,可以将融合后的三维数据以横断面、冠状面和矢状面断层图像同步地显示,便于观察者进行诊断。三维显示法是将融合后数据以三维图像的形式显示,使观察者可更直观地观察病灶的空间解剖位置,这在外科手术设计和放疗计划制定中有重要意义。

img

图11 医学图像融合阶段的总结。 两阶段过程包括图像配准,然后是图像融合。

在图像融合技术研究中,不断有新的方法出现,其中小波变换、 基于有限元分析的非线性配准以及人工智能技术在图像融合中的应用将是今后图像融合研究的热点与方向。随着三维重建显示技术的发展,三维图像融合技术的研究也越来越受到重视,三维图像的融合和信息表达,也将是图像融合研究的一个重点。

在计算机辅助图像处理的基础上,开发出综合利用图像处理方法, 结合人体常数和部分疾病的影像特征来帮助或模拟医生分析、诊断的图像分析系统成为一种必然趋势。目前已有一些采用人机交互定点、自动测量分析的图像分析软件,能定点或定项地完成一些测量和辅助诊断的工作,但远远没有达到智能分析和专家系统的水平;全自动识别标志点并测量分析以及医学图像信息与文本信息的融合, 是计算机辅助诊断技术今后的发展方向。

img

图12 多模态医学图像融合的例子。使用特定图像融合技术的模态1与模态2的组合可以使医学诊断和评估改进

5、预测与挑战

1)数据维度问题-2D与3D:在迄今为止的大多数工作中,是在2D图像中进行处理分析。人们常常质疑向3D过渡是否是迈向性能提高的重要一步。数据增强过程中存在若干变体,包括2.5D。例如,在Roth等人的研究中,以结肠息肉或淋巴结候选体中的体素为中心截取轴向图像,存在冠状和矢状图像。

2)学习方法 - 无监督与监督:当我们查看网络文献时,很明显大多数工作都集中在受监督的CNN上,以实现分类。这种网络对于许多应用是重要的,包括检测,分割和标记。尽管如此,一些工作仍集中于无监督方案,这些方案主要表现为图像编码。诸如玻尔兹曼机器(RBM)之类的无监督表示学习方法可能胜过滤波器,因为它们直接从训练数据中学习特征描述。RBM通过生成学习目标进行培训;这使网络成为可能从未标记的数据中学习,但不一定产生最适合分类的特征。Van Tulder等人进行了一项调查,结合卷积分类和RBM的生成和判别学习目标的优点,该机器学习了对描述训练数据和分类都很好的过滤器。结果表明,学习目标的组合完全胜过生成性学习。

3)迁移学习和微调:在医学成像领域中获取与ImageNet一样全面注释的数据集仍然是一个挑战。当没有足够的数据时,有几种方法可以继续:1)迁移学习:从自然图像数据集或不同医学领域预训练的CNN模型(监督)用于新的医疗任务。在一个方案中,预先训练CNN应用于输入图像,然后从网络层提取输出。提取的输出被认为是特征并且用于训练单独的模式分类器。2)微调:当手头的任务确实存在中等大小的数据集时,较好的方案是使用预先训练的CNN作为网络的初始化,然后进行进一步的监督训练,其中几个(或全部)网络层,使用任务的新数据。

4)数据隐私受社会和技术问题的影响,需要从社会学和技术学的角度共同解决。在卫生部门讨论隐私时,会想到HIPAA(1996年健康保险流通与责任法案)。它为患者提供有关保护个人身份信息的法律权利,并为医疗保健提供者承担保护和限制其使用或披露的义务。在医疗保健数据不断增加的同时,研究人员面临如何加密患者信息以防止其被使用或披露的问题。同时带来,限制访问数据可能遗漏非常重要的信息。

6、结论

近几年来,与传统的机器学习算法相比,深度学习在日常生活自动化方面占据了中心位置,并取得了相当大的进步。基于优秀的性能,大多数研究人员认为在未来15年内,基于深度学习的应用程序将接管人类和大多数日常活动。但是,与其它现实世界的问题相比,医疗保健领域的深度学习尤其是医学图像的发展速度非常慢。到目前为止深度学习应用提供了积极的反馈,然而,由于医疗保健数据的敏感性和挑战,我们应该寻找更复杂的深度学习方法,以便有效地处理复杂的医疗数据。随着医疗技术和计算机科学的蓬勃发展,对医学图象处理提出的要求也越来越高。有效地提高医学图象处理技术的水平,与多学科理论的交叉融合,医务人员和理论技术人员之间的交流就显得越来越重要。医学图象处理技术作为提升现代医疗诊断水平的有力依据, 使实施风险低、创伤性小的手术方案成为可能,必将在医学信息研究领域发挥更大的作用。

参考文献

[1]林晓, 邱晓嘉. 图像分析技术在医学上的应用 [J] . 包头医学院学报, 2005, 21 (3) : 311~ 314

[2]周贤善. 医学图像处理技术综述[J]. 福建电脑, 2009(1):34-34.

[3]Mcinerney T , Terzopoulos D . Deformable models in medical image analysis: a survey[J]. Medical Image Analysis, 1996, 1(2):91.

[4]Litjens G , Kooi T , Bejnordi B E , et al. A survey on deep learning in medical image analysis[J]. Medical Image Analysis, 2017, 42:60-88.

[5]Deserno T M , Heinz H , Maier-Hein K H , et al. Viewpoints on Medical Image Processing: From Science to Application[J]. Current Medical Imaging Reviews, 2013, 9(2):79-88.

[6]A. Setio et al., “Pulmonary nodule detection in CT images using multiview convolutional networks,” IEEE Trans. Med. Imag., vol. 35, no. 5,pp. 1160–1169, May 2016.

[7]H. Roth et al., “Improving computer-aided detection using convolutional neural networks and random view aggregation,” IEEE Trans.Med. Imag., vol. 35, no. 5, pp. 1170–1181, May 2016

[8]林瑶, 田捷. 医学图像分割方法综述[J]. 模式识别与人工智能, 2002, 15(2).

[9]Ghesu F C , Georgescu B , Mansi T , et al. An Artificial Agent for Anatomical Landmark Detection in Medical Images[C]// International Conference on Medical Image Computing & Computer-assisted Intervention. Springer, Cham, 2016.

[10]Pham D L , Xu C , Prince J L . Current methods in medical image segmentation.[J]. Annual Review of Biomedical Engineering, 2000, 2(2):315-337.

[11]Lehmann T M , Gonner C , Spitzer K . Survey: interpolation methods in medical image processing[J]. IEEE Transactions on Medical Imaging, 1999, 18(11):1049-1075.

[12]Cootes T F , Taylor C J . Statistical Models of Appearance for Medical Image Analysis and Computer Vision[J]. Proceedings of SPIE - The International Society for Optical Engineering, 2001, 4322(1).

[13] T. Brosch et al., “Deep 3D convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation,” IEEE Trans. Med. Imag., vol. 35, no. 5,pp. 1229–1239, May 2016.

[14]Ghesu F C , Krubasik E , Georgescu B , et al. Marginal Space Deep Learning: Efficient Architecture for Volumetric Image Parsing[J]. IEEE Transactions on Medical Imaging, 2016, 35(5):1217-1228.

[15]Milletari F , Navab N , Ahmadi S A . V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation[J]. 2016.

[16] .周永新, 罗述谦. 一种人机交互式快速脑图象配准系统[J] . 北京生物医学工程, 2002; 21 (1) :11~14

[17]杨虎, 马斌荣, 任海萍. 基于互信息的人脑图象配准研究[J] . 中国医学物理学杂志, 2001; 18 (2) :69~73

[18]汪家旺,愈同福,姜晓彤,等.肺部孤立性结节定量研究[J].中国医学影 像技术,2003,19(9):1218~1219

[19]Ishihara S , Ishihara K , Nagamachi M , et al. An analysis of Kansei structure on shoes using self-organizing neural networks[J]. International Journal of Industrial Ergonomics, 1997, 19(2):93-104.

[20]Maintz J B , Viergever M A . A Survey of Medical Image Registration[J]. Computer & Digital Engineering, 2009, 33(1):140-144.

[21]Hill D L G , Batchelor P G , Holden M , et al. Medical image registration[J]. Physics in Medicine & Biology, 2008, 31(4):1-45.

[22]Razzak M I , Naz S , Zaib A . Deep Learning for Medical Image Processing: Overview, Challenges and Future[J]. 2017.

[23]林晓, 邱晓嘉. 图像分析技术在医学上的应用 [J] . 包头医学院学报, 2005, 21 (3) : 311~ 314

推荐阅读

如何从零开始系统化学习视觉SLAM?
从零开始一起学习SLAM | 为什么要学SLAM?
从零开始一起学习SLAM | 学习SLAM到底需要学什么?
从零开始一起学习SLAM | SLAM有什么用?
从零开始一起学习SLAM | C++新特性要不要学?
从零开始一起学习SLAM | 为什么要用齐次坐标?
从零开始一起学习SLAM | 三维空间刚体的旋转
从零开始一起学习SLAM | 为啥需要李群与李代数?
从零开始一起学习SLAM | 相机成像模型
从零开始一起学习SLAM | 不推公式,如何真正理解对极约束?
从零开始一起学习SLAM | 神奇的单应矩阵
从零开始一起学习SLAM | 你好,点云
从零开始一起学习SLAM | 给点云加个滤网
从零开始一起学习SLAM | 点云平滑法线估计
从零开始一起学习SLAM | 点云到网格的进化
从零开始一起学习SLAM | 理解图优化,一步步带你看懂g2o代码
从零开始一起学习SLAM | 掌握g2o顶点编程套路
从零开始一起学习SLAM | 掌握g2o边的代码套路
零基础小白,如何入门计算机视觉?
SLAM领域牛人、牛实验室、牛研究成果梳理
我用MATLAB撸了一个2D LiDAR SLAM
可视化理解四元数,愿你不再掉头发
最近一年语义SLAM有哪些代表性工作?
视觉SLAM技术综述
汇总 | VIO、激光SLAM相关论文分类集锦
研究SLAM,对编程的要求有多高?
2018年SLAM、三维视觉方向求职经验分享
2018年SLAM、三维视觉方向求职经验分享
深度学习遇到SLAM | 如何评价基于深度学习的DeepVO,VINet,VidLoc?
视觉SLAM关键方法总结
SLAM方向公众号、知乎、博客上有哪些大V可以关注?
SLAM实验室
SLAM方向国内有哪些优秀公司?
SLAM面试常见问题
SLAM相关领域数据集调研
从零开始一起学习SALM-ICP原理及应用
解放双手——相机与IMU外参的在线标定
目标检测
图像分割综述

2006-11-27 08:19:00 hitzqb 阅读数 6102

数字图像处理(Digital Image Processing)又称为计算机图像处理,它是指将图
像信号转换成数字信号并利用计算机对其进行处理的过程。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。首次获得实际成功应用的是美国喷气推进实验室(JPL)。他们对航天探测器徘徊者7号在1964年发回的几千张月球照片使用了图像处理技术,如几何校正、灰度变换、去除噪声等方法进行处理,并考虑了太阳位置和月球环境的影响,由计算机成功地绘制出月球表面地图,获得了巨大的成功。随后又对探测飞船发回的近十万张照片进行更为复杂的图像处理,以致获得了月球的地形图、彩色图及全景镶嵌图,获得了非凡的成果,为人类登月创举奠定了坚实的基础,也推动了数字图像处理这门学科的诞生。在以后的宇航空间技术,如对火星、土星等星球的探测研究中,数字图像处理技术都发挥了巨大的作用。 数字图像处理取得的另一个巨大成就是在医学上获得的成果。1972年英国EMI公司工程师Housfield发明了用于头颅诊断的X射线计算机断层摄影装置,也就是我们通常所说的CT(Computer Tomograph)。CT的基本方法是根据人的头部截面的投影,经计算机处理来重建截面图像,称为图像重建。1975年EMI公司又成功研制出全身用的CT装置,获得了人体各个部位鲜明清晰的断层图像。1979年,这项无损伤诊断技术获得了诺贝尔奖,说明它对人类作出了划时代的贡献。 与此同时,图像处理技术在许多应用领域受到广泛重视并取得了重大的开拓性成就,属于这些领域的有航空航天、生物医学工程、工业检测、机器人视觉、公安司法、军事制导、文化艺术等,使图像处理成为一门引人注目、前景远大的新型学科。 随着图像处理技术的深入发展,从70年代中期开始,随着计算机技术和人工智能、思维科学研究的迅速发展,数字图像处理向更高、更深层次发展。人们已开始研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界,这被称为图像理解或计算机视觉。很多国家,特别是发达国家投入更多的人力、物力到这项研究,取得了不少重要的研究成果。其中代表性的成果是70年代末MIT的Marr提出的视觉计算理论,这个理论成为计算机视觉领域其后十多年的主导思想。图像理解虽然在理论方法研究上已取得不小的进展,但它本身是一个比较难的研究领域,存在不少困难,因人类本身对自己的视觉过程还了解甚少,因此计算机视觉是一个有待人们进一步探索的新领域。
 数字图像处理主要研究的内容有以下几个方面: 1) 图像变换 由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。 2) 图像编码压缩 图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。 3) 图像增强和复原 图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立"降质模型",再采用某种滤波方法,恢复或重建原来的图像。 4) 图像分割 图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。5) 图像描述 图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。 6) 图像分类(识别) 图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。

数字图像处理的基本特点
(1)目前,数字图像处理的信息大多是二维信息,处理信息量很大。如一幅256×256低分辨率黑白图像,要求约64kbit的数据量;对高分辨率彩色512×512图像,则要求768kbit数据量;如果要处理30帧/秒的电视图像序列,则每秒要求500kbit~22.5Mbit数据量。因此对计算机的计算速度、存储容量等要求较高。 (2)数字图像处理占用的频带较宽。与语言信息相比,占用的频带要大几个数量级。如电视图像的带宽约5.6MHz,而语音带宽仅为4kHz左右。所以在成像、传输、存储、处理、显示等各个环节的实现上,技术难度较大,成本亦高,这就对频带压缩技术提出了更高的要求。 (3)数字图像中各个像素是不独立的,其相关性大。在图像画面上,经常有很多像素有相同或接近的灰度。就电视画面而言,同一行中相邻两个像素或相邻两行间的像素,其相关系数可达0.9以上,而相邻两帧之间的相关性比帧内相关性一般说还要大些。因此,图像处理中信息压缩的潜力很大。 (4)由于图像是三维景物的二维投影,一幅图象本身不具备复现三维景物的全部几何信息的能力,很显然三维景物背后部分信息在二维图像画面上是反映不出来的。因此,要分析和理解三维景物必须作合适的假定或附加新的测量,例如双目图像或多视点图像。在理解三维景物时需要知识导引,这也是人工智能中正在致力解决的知识工程问题。 (5)数字图像处理后的图像一般是给人观察和评价的,因此受人
的因素影响较大。由于人的视觉系统很复杂,受环境条件、视觉性能、人的情绪爱好以及知识状况影响很大,作为图像质量的评价还有待进一步深入的研究。另一方面,计算机视觉是模仿人的视觉,人的感知机理必然影响着计算机视觉的研究。例如,什么是感知的初始基元,基元是如何组成的,局部与全局感知的关系,优先敏感的结构、属性和时间特征等,这些都是心理学和神经心理学正在着力研究的课题。

数字图像处理的优点
1. 再现性好 数字图像处理与模拟图像处理的根本不同在于,它不会因图像的存储、传输或复制等一系列变换操作而导致图像质量的退化。只要图像在数字化时准确地表现了原稿,则数字图像处理过程始终能保持图像的再现。 2.处理精度高 按目前的技术,几乎可将一幅模拟图像数字化为任意大小的二维数组,这主要取决于图像数字化设备的能力。现代扫描仪可以把每个像素的灰度等级量化为16位甚至更高,这意味着图像的数字化精度可以达到满足任一应用需求。对计算机而言,不论数组大小,也不论每个像素的位数多少,其处理程序几乎是一样的。换言之,从原理上讲不论图像的精度有多高,处理总是能实现的,只要在处理时改变程序中的数组参数就可以了。回想一下图像的模拟处理,为了要把处理精度提高一个数量级,就要大幅度地改进处理装置,这在经济上是极不合算的。 3.适用面宽 图像可以来自多种信息源,它们可以是可见光图像,也可以是不可见的波谱图像(例如X射线图像、 射线图像、超声波图像或红外图像等)。从图像反映的客观实体尺度看,可以小到电子显微镜图像,大到航空照片、遥感图像甚至天文望远镜图像。这些来自不同信息源的图像只要被变换为数字编码形式后,均是用二维数组表示的灰度图像(彩色图像也是由灰度图像组合成的,例如RGB图像由红、绿、蓝三个灰度图像组合而成)组合而成,因而均可用计算机来处理。即只要针对不同的图像信息源,采取相应的图像信息采集措施,图像的数字处理方法适用于任何一种图像。 4.灵活性高 图像处理大体上可分为图像的像质改善、图像分析和图像重建三大部分,
每一部分均包含丰富的内容。由于图像的光学处理从原理上讲只能进行线性运算,这极大地限制了光学图像处理能实现的目标。而数字图像处理不仅能完成线性运算,而且能实现非线性处理,即凡是可以用数学公式或逻辑关系来表达的一切运算均可用数字图像处理实现。

数字图像处理的应用
 图像是人类获取和交换信息的主要来源,因此,图像处理的应用领域必然涉及到人类生活和工作的方方面面。随着人类活动范围的不断扩大,图像处理的应用领域也将随之不断扩大。 1)航天和航空技术方面的应用 数字图像处理技术在航天和航空技术方面的应用,除了上面介绍的JPL对月球、火星照片的处理之外,另一方面的应用是在飞机遥感和卫星遥感技术中。许多国家每天派出很多侦察飞机对地球上有兴趣的地区进行大量的空中摄影。对由此得来的照片进行处理分析,以前需要雇用几千人,而现在改用配备有高级计算机的图像处理系统来判读分析,既节省人力,又加快了速度,还可以从照片中提取人工所不能发现的大量有用情报。从60年代末以来,美国及一些国际组织发射了资源遥感卫星(如LANDSAT系列)和天空实验室(如SKYLAB),由于成像条件受飞行器位置、姿态、环境条件等影响,图像质量总不是很高。因此,以如此昂贵的代价进行简单直观的判读来获取图像是不合算的,而必须采用数字图像处理技术。如LANDSAT系列陆地卫星,采用多波段扫描器(MSS),在900km高空对地球每一个地区以18天为一周期进行扫描成像,其图像分辨率大致相当于地面上十几米或100米左右(如1983年发射的LANDSAT-4,分辨率为30m)。这些图像在空中先处理(数字化,编码)成数字信号存入磁带中,在卫星经过地面站上空时,再高速传送下来,然后由处理中心分析判读。这些图像无论是在成像、存储、传输过程中,还是在判读分析中,都必须采用很多数字图像处理方法。现在世界各国都在利用陆地卫星所获取的图像进行资源调查(如森林调查、海洋泥沙和渔业调查、水资源调查等),灾害检测(如病虫害检测、水火检测、环境污染检测等),资源勘察(如石油勘查、矿产量探测、大型工程地理位置勘探分析等),农业规划(如土壤营养、水份和农作物生长、产量的估算等),城市规划(如地质结构、水源及环境分析等)。我国也陆续开展了以上诸方面的一些实际应用,并获得了良好的效果。在气象预报和对太空其它星球研究方面,数字图像处理技术也发挥了相当大的作用。
2)生物医学工程方面的应用 数字图像处理在生物医学工程方面的应用十分广泛,而且很有成效。除了上面介绍的CT技术之外,还有一类是对医用显微图像的处理分析,如红细胞、白细胞分类,染色体分析,癌细胞识别等。此外,在X光肺部图像增晰、超声波图像处理、心电图分析、立体定向放射治疗等医学诊断方面都广泛地应用图像处理技术。 3)通信工程方面的应用 当前通信的主要发展方向是声音、文字、图像和数据结合的多媒体通信。具体地讲是将电话、电视和计算机以三网合一的方式在数字通信网上传输。其中以图像通信最为复杂和困难,因图像的数据量十分巨大,如传送彩色电视信号的速率达100Mbit/s以上。要将这样高速率的数据实时传送出去,必须采用编码技术来压缩信息的比特量。在一定意义上讲,编码压缩是这些技术成败的关键。除了已应用较广泛的熵编码、DPCM编码、变换编码外,目前国内外正在大力开发研究新的编码方法,如分行编码、自适应网络编码、小波变换图像压缩编码等。 4)工业和工程方面的应用 在工业和工程领域中图像处理技术有着广泛的应用,如自动装配线中检测零件的质量、并对零件进行分类,印刷电路板疵病检查,弹性力学照片的应力分析,流体力学图片的阻力和升力分析,邮政信件的自动分拣,在一些有毒、放射性环境内识别工件及物体的形状和排列状态,先进的设计和制造技术中采用工业视觉等等。其中值得一提的是研制具备视觉、听觉和触觉功能的智能机器人,将会给工农业生产带来新的激励,目前已在工业生产中的喷漆、焊接、装配中得到有效的利用。 5)军事公安方面的应用 在军事方面图像处理和识别主要用于导弹的精确末制导,各种侦察照片的判读,具有图像传输、存储和显示的军事自动化指挥系统,飞机、坦克和军舰模拟训练系统等;公安业务图片的判读分析,指纹识别,人脸鉴别,不完整图片的复原,以及交通监控、事故分析等。目前已投入运行的高速公路不停车自动收费系统中的车辆和车牌的自动识别都是图像处理技术成功应用的例子。 6)文化艺术方面的应用 目前这类应用有电视画面的数字编辑,动画的制作,电子图像游戏,纺织工艺品设计,服装设计与制作,发型设计,文物资料照片的复制和修复,运动员动作分析和评分等等,现在已逐渐形成一门新的艺术--计算机美术。

 
2016-09-08 13:29:08 Real_Myth 阅读数 15331

图像检测技术的研究现状

技术检测

图像处理知识库 · 2016-01-08 19:59

图像检测技术的研究现状

图像检测技术的研究现状

所谓图像检测,就是通过图像对感兴趣的特征区域(检测目标)进行提取的过程,其中图像是承载检测目标的载体,检测目标需要事先进行特征提取、归纳,最终通过相应算法分离出来。

图像检测方法可分为单帧图像检测和多帧图像检测。单帧图像检测主要是利用图像的灰度信息对目标进行分割,主要包括基于灰度阈值的目标检测方法和基于边缘信息的目标检测方法。

多帧图像检测通过序列图像的变化特征实现对目标的提取,主要用于运动目标的检测,大体包括:基于像素分析的方法、特征检测的方法和基于变换的方法。本文主要对单帧图像的检测方法进行详述。

1、基于灰度阈值的目标检测

基于灰度阈值的目标检测是根据目标灰度与背景灰度的不同,通过选取合适的阈值将图像二值化,使得目标从背景中分离出来的过程。显然,阈值的选取是目标检测的关键,同样也是目标检测的难点,如何能得到合适的灰度阈值,最大程度的将目标提取出来,并消除背景的干扰,这一直是研究的热点。根据阈值选取数量的不同,基于灰度阈值的目标检测方法又可分为单阈值目标检测和多阈值目标检测。

单阈值目标检测适合于噪声少、照度均匀、目标和背景灰度值相差较明显的情况。最常用的方法有直方图分析法、迭代分割法。直方图分析法是多种空间域处理技术的基础,在目标相比背景比较突出的情况下,直方图会有明显的双峰现象,两峰之间的谷点即为最佳阈值,这种阈值选取方法又称为峰谷法。峰谷法主要在理想情况下对阈值进行选取,现实中采集图像的直方图经常会有峰值悬殊极大或宽平谷底的情况,一般需要通过分析直方图的凹形来确定一个较理想的全局阈值迭代分割法的实现过程是:首先对初始图像的最大灰度值和最小灰度值取平均,得到初始阈值T0;其次根据阈值T0将图像分为前景与背景,分别求得前景灰度平均值Vq和背景灰度平均值Vb,并对两者取平均得到T1;通过T1再次将图像分为前景与背景,通过对前景灰度平均值和背景灰度平均值取平均得到T2;如此往复,当|Tk+1-Tk|<ε时(ε为一无穷小常数),我们认为Tk为最终阈值。迭代分割方法得到的阈值处在与前景和背景区域的重心成反比的位置,因此从路径规划的角度可看做一种最优阈值。此外,单阈值分割方法中还有最大类间方差法,最大熵分割法,贝叶斯分割法。其中,最大类间方差法通过寻找一个阈值,使分割后目标和背景之间的方差最大,仅适用于目标和背景所占比例相差不大的情况。最大熵分割法通过在规定的分布集合中寻找熵值最大者作为真实分布的一种判断,一般情况下由于推测分布与实际分布差距较大,错分率较大。贝叶斯分割法要求精确估算目标和背景先验概率,由于实际中采集图像存在大量噪声,处理效果会与预想差距较大。

多阈值分割方法是将图像分为多个具有不同区域特征的分块,在这些分块中分别采用不同的阈值对图像进行分割的方法。相比单阈值分割,它能够兼顾图像各处的情况,在有突发噪声、照度不均、各处对比度不同时对图像进行有效分割,特别是在目标和背景的灰度有梯度变化时效果最为明显。

2、基于边缘信息的目标检测

图像的边缘包含了用于识别的有用信息,是图像分割所依赖的重要特征。边缘信息包含的往往是图像中最重要的信息,通常情况下边缘附近灰度值会发生剧烈变化,基于边缘信息的目标检测就是根据这一特征对目标的边缘进行检测,进而实现目标的定位。边缘检测最为通用的方法是检测亮度的不连续性,这样的不连续主要通过求一阶导数和二阶导数得到检测,若找到亮度的一阶导数在幅值上比指定的阈值大或二阶导数有零交叉的位置,可将其识别为边缘。基于边缘信息的目标检测方法大体包括:梯度算子检测、最优算子检测、多尺度信号处理方法、自适应平滑滤波法以及利用其它数学工具的边缘检测方法。

梯度算子检测是最基本的边缘检测方法,主要通过计算模板系数与所包围区域内灰度级的乘积之和,并与设定阈值T比较实现。一般情况下,设定的模板系数总和为零,在灰度不变的区域,模板响应也为零,而在灰度变化的区域,模板响应不为零,梯度算子就是依据这一特点对图像进行检测的。梯度算子主要包括Roberts算子、Sobel算子、Prewitt算子、Laplacian算子等。Roberts算子是数字图像中最简单的算子,经常用于图像检测的硬件实现中,不足之处是功能有限(如不能检测45倍数的边缘)。Sobel算子和Prewitt算子是在实践中计算数字梯度时最常用的,基于Prewitt算子的图像检测相比Sobel算子在计算上要简单一些,但基于Sobel算子的图像检测在噪声抑制特性方面略胜一筹。Laplacian算子一般不以其原始形式用于边缘检测,主要原因是:作为一个二阶导数,它对噪声具有无法接受的敏感性,幅值产生双边缘且不能检测边缘方向,这些均是图像检测过程中不希望有的结果。

最优算子检测是在传统算子的基础上发展起来的边缘检测方法,主要有LOG(Laplacian of a Gaussian)算子、Canny算子以及基于曲面拟合的边缘检测算法。

LOG算子为高斯型的Laplacian算子,它将高斯型平滑函数与Laplacian算子相结合, 首先对图像进行平滑处理,然后使用Laplacian算子产生双边缘图像,最后通过找到两个边缘之间的零交叉定位边缘。其中,图像的平滑处理不仅减小了噪声的影响,还抵消了由Laplacian算子的二阶导数引起的逐渐增加的噪声影响,为Laplacian算子在边缘检测中发挥作用提供了有力的条件支持。采用LOG算子进行图像检测的优点是抗干扰能力强,边界定位精度高,连续性好,且能提取出对比度弱的边界;不足之处是当边界宽度小于算子宽度时,零交叉处的斜坡发生融合,小于2✔2σ(σ为标准差)的区域边界细节会丢失。

Canny算子的基本思想是把边缘检测问题转换为检测单位函数的极大值问题,它根据边缘检测对好的信噪比与定位性能、边缘响应唯一性的要求,采用最优化数值方法,得到了对应给定边缘类型的最佳边缘检测模板。基于曲面拟合的边缘检测算法的基本思想是用一个平滑曲面与待测点周围某邻域内像素的灰度值进行拟合,在此基础上计算曲面的一阶或二阶导数。最早采用曲面拟合对图像进行边缘检测的是Prewitt,他首先采用最小二乘法用n阶多项式对原始图像拟合,然后用梯度算子在拟合曲面上进行边缘检测,取得了较理想的效果。Haralick在一个规则对称领域构造了正交多项式,对图像每一像素邻域灰度变化作曲面拟合,再用二阶方向导数的零交叉检测阶跃边缘,算法精度有较大提高,但由于正交多项式基构造过程复杂,灵活性差,不易表达复杂边界形状,应用受到了限制。

多尺度图像检测方法是在尺度空间滤波理论的基础上发展起来的,它不仅可以辨识出信号中的重要特征,而且能以不同细节程度对信号进行重构,在高级视觉处理中有广泛的应用。多尺度图像检测方法主要包括边缘聚焦和小波变换。边缘聚焦的基本思想是用一个很强的平滑在低分辨率下检测出重要边缘,再减弱平滑强度进行跟踪聚焦以确定其准确位置。它的特点是:可不使用阈值,所需计算量与最粗分辨率尺度上的计算量相同,很好的将定位的高精度与良好的噪声抑制结合起来。小波变换具有本质的多尺度特性,它能把图像信号分解成不同尺度上的多个分量,对图像进行多分辨率分析;利用小波变换进行多尺度边缘检测,能提高定位目标的准确度,取得良好的检测效果。20世纪80年代,在多分辨率理论中,小波首次作为分析基础出现。接着Mallat首次将小波变换用于信号奇异点的检测,奠定了小波在信号检测方面应用的基础[18]。在小波变换基础上发展起来的最新理论有1999年Donoho等人提出的curvelet变换,相比以往的小波变换在图像增强与去噪方面有了很大的提高。至今小波变换仍是学术界讨论的热点,在图像处理中也发挥着越来越重要的作用。

自适应平滑滤波是一种变尺度边缘检测方法,它的基本思想是用一个随像素点的梯度变化的平均模板与待平滑的信号进行迭代卷积。其中,模板函数以k为尺度变化参数,该参数控制了迭代过程中所要保留的突变点幅度,保证了在不同尺度下边缘检测的正确性。自适应平滑滤波方法通过自适应迭代平滑提高了图像的信噪比;在边缘检测之前对图像进行平滑滤波迭代运算,提高了边缘定位精度;相比其它边缘检测方法,在图像检测过程中具有很强的自适应能力。

除上述方法之外,许多学者一直致力于将各种数学思想引入图像的边缘检测中。20世纪80年代,Pal和King将模糊集理论与边缘检测相结合,提出了图像边缘检测模糊算法,该算法可对图像中的背景和目标进行有效的分离,成功应用在了模式识别与医疗图像处理领域。近年来,基于神经网络的边缘提取方法已成为一个重要的研究热点,其中基于BP网络的边缘检测方法已在许多领域得到应用。数学形态学引入图像处理,解决了噪声抑制、特征提取等问题。遗传算法作为一种优化算法也成功运用在边缘检测中。

2019-10-10 18:37:41 ctrigger 阅读数 583

计算机视觉领域的突出特点是其多样性与不完善性。

这一领域的先驱可追溯到更早的时候,但是直到20世纪70年代后期,当计算机的性能提高到足以处理诸如图像这样的大规模数据时,计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要,因而何谓“计算机视觉问题”始终没有得到正式定义,很自然地,“计算机视觉问题”应当被如何解决也没有成型的公式。

尽管如此,人们已开始掌握部分解决具体计算机视觉任务的方法,可惜这些方法通常都仅适用于一群狭隘的目标(如:脸孔、指纹、文字等),因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分(例如医学图像的处理,工业制造中的质量控制与测量)。在计算机视觉的大多数实际应用当中,计算机被预设为解决特定的任务,然而基于机器学习的方法正日渐普及,一旦机器学习的研究进一步发展,未来“泛用型”的计算机视觉应用或许可以成真。

人工智能所研究的一个主要问题是:如何让系统具备“计划”和“决策能力”?从而使之完成特定的技术动作(例如:移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别和机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

物理是与计算机视觉有着重要联系的另一领域。

计算机视觉关注的目标在于充分理解电磁波——主要是可见光与红外线部分——遇到物体表面被反射所形成的图像,而这一过程便是基于光学物理和固态物理,一些尖端的图像传感器甚至会应用到量子力学理论,来解析影像所表示的真实世界。同时,物理学中的很多测量难题也可以通过计算机视觉得到解决,例如流体运动。也由此,计算机视觉同样可以被看作是物理学的拓展。

另一个具有重要意义的领域是神经生物学,尤其是其中生物视觉系统的部分。

在整个20世纪中,人类对各种动物的眼睛、神经元、以及与视觉刺激相关的脑部组织都进行了广泛研究,这些研究得出了一些有关“天然的”视觉系统如何运作的描述(尽管仍略嫌粗略),这也形成了计算机视觉中的一个子领域——人们试图创建人工系统,使之在不同的复杂程度上模拟生物的视觉运作。同时计算机视觉领域中,一些基于机器学习的方法也有参考部分生物机制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法,尤其对是时变信号的处理,都可以很自然的被扩展为计算机视觉中对二元变量信号或者多元变量信号的处理方法。但由于图像数据的特有属性,很多计算机视觉中发展起来的方法,在单元信号的处理方法中却找不到对应版本。这类方法的一个主要特征,便是他们的非线性以及图像信息的多维性,以上二点作为计算机视觉的一部分,在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域,很多研究课题同样可被当作纯粹的数学问题。例如,计算机视觉中的很多问题,其理论基础便是统计学,最优化理论以及几何学。

如何使既有方法通过各种软硬件实现,或说如何对这些方法加以修改,而使之获得合理的执行速度而又不损失足够精度,是现今计算机视觉领域的主要课题。