图像处理量化数据库

2017-01-02 23:57:46 Real_Myth 阅读数 9611
  • 计算机系统--多媒体技术

    通过学习本课程,深入理解TCP/IP UDP服务器,客户端编程,H.264 AAC格式, FFmpeg库, QuickTime mp4容器等. 完全掌握iOS, Android, 嵌入式Linux平台音视频开发的相关知识并能够深入运用的自己的各大项目中。...

    575人学习 任铄
    免费试看

采样和量化

图像的获取(数字化)是通过传感器完成的,获取包含采样和量化两个过程

采样是对现实空间场景(坐标的)离散化形成数字化表示的过程。(也就是用空间上部分点的灰度值代表图像,这些点称为采样点。)



模拟图像经过采样后,在时间和空间上离散化为像素。但采样所得的像素值(即灰度值)仍是连续量。

把采样后所得的各像素的灰度值从模拟量到离散量的转换称为图像灰度的量化(也就是对现实空间场景的灰度数据进行离散化的操作)。



现实空间场景需要经过离散化成为数字图像后才能被计算机处理。

数码相机利用传感器获取图像的的模型如下:


采样分为均匀采样和非均匀采样

均匀采样量化——适合像素灰度值在黑白范围较均匀分布的图像。
非均匀采样量化——对图像中像素灰度值频繁出现的灰度值范围,量化间隔取小一些,而对那些像素灰度值极少出现的范围,则量化间隔取大一些。


图像空间分辨率变化产生的效果


图像灰度分辨率变化产生的效果(1)

图像灰度分辨率变化产生的效果(2)



图像空间和灰度分辨率同时变化产生的效果

未完待续


对图像的采样

图像的降采样

未完待续



图像的下采样

未完待续






2012-04-28 15:53:24 changbaolong 阅读数 4263
  • 计算机系统--多媒体技术

    通过学习本课程,深入理解TCP/IP UDP服务器,客户端编程,H.264 AAC格式, FFmpeg库, QuickTime mp4容器等. 完全掌握iOS, Android, 嵌入式Linux平台音视频开发的相关知识并能够深入运用的自己的各大项目中。...

    575人学习 任铄
    免费试看

       图像处理,是对图像进行分析、加工、和处理,使其满足视觉、心理以及其他要求的技术。图像处理是信号处理在图像域上的一个应用。目前大多数的图像是以数字形式存储,因而图像处理很多情况下指数字图像处理。此外,基于光学理论的处理方法依然占有重要的地位。

图像处理是信号处理的子类,另外与计算机科学人工智能等领域也有密切的关系。

传统的一维信号处理的方法和概念很多仍然可以直接应用在图像处理上,比如降噪量化等。然而,图像属于二维信号,和一维信号相比,它有自己特殊的一面,处理的方式和角度也有所不同。

 

目录

解决方案

影像强化

几十年前,图像处理大多数由光学设备在模拟模式下进行。由于这些光学方法本身所具有的并行特性,至今他们仍然在很多应用领域占有核心地位,例如全息摄影。但是由于计算机速度的大幅度提高,这些技术正在迅速的被数字图像处理方法所替代。

从通常意义上讲,数字图像处理技术更加普适、可靠和准确。比起模拟方法,它们也更容易实现。专用的硬件被用于数字图像处理,例如,基于流水线的计算机体系结构在这方面取得了巨大的商业成功。今天,硬件解决方案被广泛的用于视频处理系统,但商业化的图像处理任务基本上仍以软件形式实现,运行在通用个人电脑上。

常用的信号处理技术

大多数用于一维信号处理的概念都有其在二维图像信号领域的延伸,它们中的一部分在二维情形下变得十分复杂。同时图像处理也具有自身一些新的概念,例如,连通性旋转不变性,等等。这些概念仅对二维或更高维的情况下才有非平凡的意义。

图像处理中常用到快速傅立叶变换,因为它可以减小数据处理量和处理时间。

从一维信号处理扩展来的技术和概念

专用于二维(或更高维)的技术和概念

典型问题

  • 几何变换(geometric transformations):包括放大、缩小、旋转等。
  • 颜色处理(color):颜色空间的转化、亮度以及对比度的调节、颜色修正等。
  • 图像融合(image composite):多个图像的加、减、组合、拼接。
  • 降噪(image denoising):研究各种针对二维图像的去噪滤波器或者信号处理技术。
  • 边缘检测(edge detection):进行边缘或者其他局部特征提取。
  • 分割(image segmentation):依据不同标准,把二维图像分割成不同区域。
  • 图像编辑(image editing):和计算机图形学有一定交叉。
  • 图像配准(image registration):比较或集成不同条件下获取的图像。
  • 图像增强(image enhancement):
  • 图像数字水印(image watermarking):研究图像域的数据隐藏、加密、或认证。
  • 图像压缩(image compression):研究图像压缩。

应用

  • 摄影及印刷 (Photography and printing)
  • 卫星图像处理 (Satellite image processing)
  • 医学图像处理 (Medical image processing)
  • 面孔识别, 特征识别 (Face detection, feature detection, face identification)
  • 显微图像处理 (Microscope image processing)
  • 汽车障碍识别 (Car barrier detection)

软件工具

  • ImageJ [1]
  • OpenCV [2]
  • Rapidminer图像处理扩展 [3] -工具,图像处理和图像挖掘

相关相近领域

 

       计算机视觉是一门研究如何使机器“”的科学,更进一步的说,就是指用摄影机电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。

作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指夏农定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

作为一个工程学科,计算机视觉寻求基于相关理论与模型来建立计算机视觉系统。这类系统的组成部分包括:

  1. 程序控制(例如工业机器人无人驾驶汽车
  2. 事件监测(例如图像监测
  3. 信息组织(例如图像数据库和图像序列的索引建立)
  4. 物体与环境建模(例如工业检查,医学图像分析和拓扑建模)
  5. 交感互动(例如人机互动的输入设备)

计算机视觉同样可以被看作是生物视觉的一个补充。在生物视觉领域中,人类和各种动物的视觉都得到了研究,从而建立了这些视觉 系统感知信息过程中所使用的物理模型。另一方面,在计算机视觉中,靠软件和硬件实现的人工智能系统得到了研究与描述。生物视 觉与计算机视觉进行的学科间交流为彼此都带来了巨大价值。

计算机视觉包含如下一些分支:画面重建,事件监测,目标跟踪,目标识别,机器学习,索引建立,图像恢复等。

目录

计算机视觉的发展现状

计算机视觉与其他领域的关系

计算机视觉领域的突出特点是其多样性与不完善性。

这一领域的先驱可追溯到更早的时候,但是直到20世纪70年代后期,当计算机的性能提高到足以处理诸如图像这样的大规模数据时,计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要,因而何谓“计算机视觉问题”始终没有得到正式定义,很自然地,“计算机视觉问题”应当被如何解决也没有成型的公式。

尽管如此,人们已开始掌握部分解决具体计算机视觉任务的方法,可惜这些方法通常都仅适用于一群狭隘的目标(如:脸孔、指纹、文字等),因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分(例如医学图像的处理,工业制造中的质量控制与测量)。在计算机视觉的大多数实际应用当中,计算机被预设为解决特定的任务,然而基于机器学习的方法正日渐普及,一旦机器学习的研究进一步发展,未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研究的一个主要问题是:如何让系统具备“计划”和“决策能力”?从而使之完成特定的技术动作(例如:移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

物理是与计算机视觉有着重要联系的另一领域。

计算机视觉关注的目标在于充分理解电磁波——主要是可见光红外线部分——遇到物体表面被反射所形成的图像,而这一过程便是基于光学物理固态物理,一些尖端的图像感知系统甚至会应用到量子力学理论,来解析影像所表示的真实世界。同时,物理学中的很多测量难题也可以通过计算机视觉得到解决,例如流体运动。也由此,计算机视觉同样可以被看作是物理学的拓展。

另一个具有重要意义的领域是神经生物学,尤其是其中生物视觉系统的部分。

在整个20世纪中,人类对各种动物的眼睛、神经元、以及与视觉刺激相关的脑部组织都进行了广泛研究,这些研究得出了一些有关“天然的”视觉系统如何运作的描述(尽管仍略嫌粗略),这也形成了计算机视觉中的一个子领域——人们试图建立人工系统,使之在不同的复杂程度上模拟生物的视觉运作。同时计算机视觉领域中,一些基于机器学习的方法也有参考部分生物机制。

计算机视觉的另一个相关领域是信号处理。很多有关单元变量信号的处理方法,尤其对是时变信号的处理,都可以很自然的被扩展为计算机视觉中对二元变量信号或者多元变量信号的处理方法。但由于图像数据的特有属性,很多计算机视觉中发展起来的方法,在单元信号的处理方法中却找不到对应版本。这类方法的一个主要特征,便是他们的非线性以及图像信息的多维性,以上二点作为计算机视觉的一部分,在信号处理学中形成了一个特殊的研究方向。

除了上面提到的领域,很多研究课题同样可被当作纯粹的数学问题。例如,计算机视觉中的很多问题,其理论基础便是统计学最优化理论以及几何学

如何使既有方法通过各种软硬件实现,或说如何对这些方法加以修改,而使之获得合理的执行速度而又不损失足够精度,是现今电脑视觉领域的主要课题。

相邻领域的异同

计算机视觉图象处理图像分析机器人视觉机器视觉是彼此紧密关联的学科。如果你翻开带有上面这些名字的教材,你会发现在技术和应用领域上他们都有着相当大部分的重叠。这表明这些学科的基础理论大致是相同的,甚至让人怀疑他们是同一学科被冠以不同的名称。

然而,各研究机构,学术期刊,会议及公司往往把自己特别的归为其中某一个领域,于是各种各样的用来区分这些学科的特征便被提了出来。下面将给出一种区分方法,尽管并不能说这一区分方法完全准确。

计算机视觉的研究对象主要是映射到单幅或多幅图像上的三维场景,例如三维场景的重建。计算机视觉的研究很大程度上针对图像的内容。

图象处理图像分析的研究对象主要是二维图像,实现图像的转化,尤其针对像素级的操作,例如提高图像对比度,边缘提取,去噪声和几何变换如图像旋转。这一特征表明无论是图像处理还是图像分析其研究内容都和图像的具体内容无关。

机器视觉主要是指工业领域的视觉研究,例如自主机器人的视觉,用于检测和测量的视觉。这表明在这一领域通过软件硬件,图像感知与控制理论往往与图像处理得到紧密结合来实现高效的机器人控制或各种实时操作。

模式识别使用各种方法从信号中提取信息,主要运用统计学的理论。此领域的一个主要方向便是从图像数据中提取信息。

还有一个领域被称为成像技术。这一领域最初的研究内容主要是制作图像,但有时也涉及到图像分析和处理。例如,医学成像就包含大量的医学领域的图像分析。

对于所有这些领域,一个可能的过程是你在计算机视觉的实验室工作,工作中从事着图象处理,最终解决了机器视觉领域的问题,然后把自己的成果发表在了模式识别的会议上。

计算机视觉的经典问题

几乎在每个计算机视觉技术的具体应用都要解决一系列相同的问题。这些经典的问题包括:

识别

一个计算机视觉,图像处理和机器视觉所共有的经典问题便是判定一组图像数据中是否包含某个特定的物体,图像特征或运动状态。这一问题通常可以通过机器自动解决,但是到目前为止,还没有某个单一的方法能够广泛的对各种情况进行判定:在任意环境中识别任意物体。现有技术能够也只能够很好地解决特定目标的识别,比如简单几何图形识别,人脸识别,印刷或手写文件识别或者车辆识别。而且这些识别需要在特定的环境中,具有指定的光照,背景和目标姿态要求。

广义的识别在不同的场合又演化成了几个略有差异的概念:

  • 识别(狭义的):对一个或多个经过预先定义或学习的物体或物类进行辨识,通常在辨识过程中还要提供他们的二维位置或三维姿态。
  • 鉴别:识别辨认单一物体本身。例如:某一人脸的识别,某一指纹的识别。
  • 监测:从图像中发现特定的情况内容。例如:医学中对细胞或组织不正常技能的发现,交通监视仪器对过往车辆的发现。监测往往是通过简单的图象处理发现图像中的特殊区域,为后继更复杂的操作提供起点。

识别的几个具体应用方向:

  • 基于内容的图像提取在巨大的图像集合中寻找包含指定内容的所有图片。被指定的内容可以是多种形式,比如一个红色的大致是圆形的图案,或者一辆自行车。在这里对后一种内容的寻找显然要比前一种更复杂,因为前一种描述的是一个低级直观的视觉特征,而后者则涉及一个抽象概念(也可以说是高级的视觉特征),即‘自行车’,显然的一点就是自行车的外观并不是固定的。
  • 姿态评估:对某一物体相对于摄像机的位置或者方向的评估。例如:对机器臂姿态和位置的评估。
  • 光学字符识别对图像中的印刷或手写文字进行识别鉴别,通常的输出是将之转化成易于编辑的文档形式。

运动

基于序列图像的对物体运动的监测包含多种类型,诸如:

  • 自体运动:监测摄像机的三维刚性运动。
  • 图像跟踪:跟踪运动的物体。

场景重建

给定一个场景的二或多幅图像或者一段录像,场景重建寻求为该场景建立一个计算机模型/三维模型。最简单的情况便是生成一组三维空间中的点。更复杂的情况下会建立起完整的三维表面模型。

图像恢复

图像恢复的目标在于移除图像中的噪声,例如仪器噪声,模糊等

计算机视觉系统

计算机视觉系统的结构形式很大程度上依赖于其具体应用方向。有些是独立工作的,用于解决具体的测量或检测问题;也有些作为某个大型复杂系统的组成部分出现,比如和机械控制系统,数据库系统,人机接口设备协同工作。计算机视觉系统的具体实现方法同时也由其功能决定——是预先固定的抑或是在运行过程中自动学习调整。尽管如此,有些功能却几乎是每个计算机系统都需要具备的:

  • 图像获取:一幅数字图像是由一个或多个图像感知器产生,这里的感知器可以是各种光敏摄像机,包括遥感设备,X射线断层摄影仪,雷达,超声波接收器等。取决于不同的感知器,产生的图片可以是普通的二维图像,三维图组或者一个图像序列。图片的像素值往往对应于光在一个或多个光谱段上的强度(灰度图或彩色图),但也可以是相关的各种物理数据,如声波,电磁波或核磁共振的深度,吸收度或反射度。


  • 预处理:在对图像实施具体的计算机视觉方法来提取某种特定的信息前,一种或一些预处理往往被采用来使图像满足后继方法的要求。例如:
    • 二次取样保证图像坐标的正确
    • 平滑去噪来滤除感知器引入的设备噪声
    • 提高对比度来保证实现相关信息可以被检测到
    • 调整尺度空间使图像结构适合局部应用
  • 特征提取:从图像中提取各种复杂度的特征。例如:
更复杂的特征可能与图像中的纹理形状或运动有关。
  • 检测/分割:在图像处理过程中,有时会需要对图像进行分割来提取有价值的用于后继处理的部分,例如
    • 筛选特征点
    • 分割一或多幅图片中含有特定目标的部分
  • 高级处理:到了这一步,数据往往具有很小的数量,例如图像中经先前处理被认为含有目标物体的部分。这时的处理包括:
    • 验证得到的数据是否符合前提要求
    • 估测特定系数,比如目标的姿态,体积
    • 对目标进行分类

影响视觉系统的要件

  • 光源布局影响大需审慎考量。
  • 正确的选择镜组,考量倍率、空间、尺寸、失真… 。
  • 选择合适的摄影机(CCD),考量功能、规格、稳定性、耐用...。
  • 视觉软件开发需靠经验累积,多尝试、思考问题的解决途径。
  • 以创造精度的不断提升,缩短处理时间为最终目标。

=====================================================================================================================

参考wiki

2016-11-25 11:35:46 lanmengyiyu 阅读数 11714
  • 计算机系统--多媒体技术

    通过学习本课程,深入理解TCP/IP UDP服务器,客户端编程,H.264 AAC格式, FFmpeg库, QuickTime mp4容器等. 完全掌握iOS, Android, 嵌入式Linux平台音视频开发的相关知识并能够深入运用的自己的各大项目中。...

    575人学习 任铄
    免费试看

图像质量评价之数据库

视频质量专家组(Video Quality Experts Group, VQEG)发起的评价算法性能校准项目的主要思想是通过组织主观实验获取图像的主观质量,以主客观质量的一致性来判断客观评价算法的性能。目前常用的数据主要有以下8种:

1)LIVE(Laboratory for image & video engineering )    

http://live.ece.utexas.edu/index.php

LIVE是美国德克萨斯大学奥斯汀分校的电气与计算机工程系与心理学系联合建立,应用最为广泛。Release 2 版本含29幅参考图像,779幅失真图像,其中JPEG2000失真175幅,JPEG失真169幅,白噪声失真145幅,高斯模糊失真145幅,快速瑞利衰减失真145幅。该数据库的DMOS值由161个观察者给出的约25000个数据统计得到,DMOS取值范围为[0,100]。

2)CSIQ(Categorical subjective image quality)

http://vision.okstate.edu/csiq

CSIQ由美国俄克拉何马州立大学的电气与计算机工程学院建立,含30幅参考图像,866幅失真图像,失真类型包括JPEG压缩、JPEG2000压缩、整体对比度缩减、加性高斯粉红噪声、加性高斯白噪声以及高斯模糊6种。该数据库的DMOS值由25个观察者给出的约5000个数据统计得到,DMOS取值范围为[0,1]。

3)IVC

http://www2.irccyn.ec-nantes.fr/ivcdb/

IVC由法国南特中央理工大学建立,包括10幅参考图像,235幅失真图像。失真类型包括JPEG压缩、JPEG2000压缩、LAR编码和模糊。该数据库的MOS值由15个观察者给出数据统计得到,MOS取值范围为[0,5]。

4)MICT

http://mict.eng.u-toyama.ac.jp/mictdb.html

MICT由富山大学创立,包括14幅参考图像,168幅失真图像。失真类型包括JPEG压缩和JPEG2000压缩。该数据库的MOS值由16个观察者给出数据统计得到,MOS取值范围为[1,5]。

5)A57

http://foulard.ece.cornell.edu/dmc27/vsnr/vsnr.html

A57是由康奈尔大学创立,包括3幅参考图像,54幅失真图像。失真类型包括:a)对图像离散晓波变换后的5个LH子带上的量化,采用均匀步长进行量化,失真图像的对比度均方差相等。b)加性高斯白噪声  c)JPEG压缩  d)JPEG2000压缩不包括视觉频率加权 e)JPEG2000压缩,采用基于动态对比度的量化算法 f)高斯模糊 

该数据库的DMOS值由7个观察者给出数据统计得到,MOS取值范围为[0,1]。

6)TID2008(Tampere image database)

http://www.ponomarenko.info/tid2008.htm

TID2008是由乌克兰国家航空航天大学的N504信号接收、传输与处理系建立,包括25幅参考图像,1700幅失真图像。失真类型有17种包括:加性高斯噪声、颜色分量强于照明分量的加性噪声、空间位置相关噪声、掩膜噪声、高频噪声、脉冲噪声、量化噪声、高斯模糊、图像噪声、JPEG压缩、JPEG2000压缩、JPEG传输错误、JPEG2000传输错误、非偏心式噪声、不同强度的局部块失真、强度均值偏移以及对比度变化。该数据库的DMOS值由838观察者给出256428个数据统计得到,MOS取值范围为[0,9]。

7)TID2013(Tampere image database)

http://www.ponomarenko.info/tid2013.htm

TID2013是TID2008的加强版,包括25幅参考图像,3000幅失真图像。失真类型24种,增加了包括:改变色彩饱和度、多重高斯噪声、舒适噪声、有损压缩、彩色图像量化、色差以及稀疏采样。该数据库的DMOS值由971观察者给出524340个数据统计得到,MOS取值范围为[0,9]。由于该数据库失真种类多,数据库更为丰富,且是一种彩色失真数据库,因此越来越多的算法在对比试验中,包含了该数据库。

8)WIQ(Wireless imaging quality)

http://www.bth.se/tek/rcg.nsf/pages/wiq-db

WIQ是瑞典布莱金厄理工学院和印度尼西古纳德尔玛大学的研究人员合作建立的,包括7幅参考图像,80幅失真图像。失真类型5种,包括:“平”分配、JPEG压缩、JPEG2000压缩、JPEG200+DCQ压缩、高斯模糊以及高斯白噪声。该数据库的DMOS值由60观察者给出

参考文献:无参考图像质量评价综述_王志明

2017-10-16 17:00:50 weixin_40054912 阅读数 19780
  • 计算机系统--多媒体技术

    通过学习本课程,深入理解TCP/IP UDP服务器,客户端编程,H.264 AAC格式, FFmpeg库, QuickTime mp4容器等. 完全掌握iOS, Android, 嵌入式Linux平台音视频开发的相关知识并能够深入运用的自己的各大项目中。...

    575人学习 任铄
    免费试看

图像处理(image processing),用计算机对图像进行分析,以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用工业相机、摄像机、扫描仪等设备经过拍摄得到的一个大的二维数组,该数组的元素称为像素,其值称为灰度值。图像处理技术一般包括图像压缩,增强和复原,匹配、描述和识别3个部分。

概述

编辑
21世纪是一个充满信息的时代,图像作为人类感知世界的视觉基础,是人类获取信息、表达信息和传递信息的重要手段。数字图像处理,即用计算机对图像进行处理,其发展历史并不长。数字图像处理技术源于20世纪20年代,当时通过海底电缆从英国伦敦到美国纽约传输了一幅照片,采用了数字压缩技术。首先数字图像处理技术可以帮助人们更客观、准确地认识世界,人的视觉系统可以帮助人类从外界获取3/4以上的信息,而图像、图形又是所有视觉信息的载体,尽管人眼的鉴别力很高,可以识别上千种颜色,但很多情况下,图像对于人眼来说是模糊的甚至是不可见的,通过图象增强技术,可以使模糊甚至不可见的图像变得清晰明亮。
在计算机中,按照颜色和灰度的多少可以将图像分为二值图像灰度图像索引图像和真彩色RGB图像四种基本类型。大多数图像处理软件都支持这四种类型的图像。
中国物联网校企联盟认为图像处理将会是物联网产业发展的重要支柱之一,它的具体应用是指纹识别技术[1]  。

常用方法

编辑
1 )图像变换:由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。
2 )图像编码压缩:图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。
3 )图像增强和复原:图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。
4 )图像分割:图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。
5 )图像描述:图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。
6 )图像分类(识别):图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。

图像

编辑

二值图像

一幅二值图像的二维矩阵仅由0、1两个值构成,“0”代表黑色,“1”代白色。由于每一像素(矩阵中每一元素)取值仅有0、1两种可能,所以计算机中二值图像的数据类型通常为1个二进制位。二值图像通常用于文字、线条图的扫描识别(OCR)和掩膜图像的存储。

灰度图像

灰度图像矩阵元素的取值范围通常为[0,255]。因此其数据类型一般为8位无符号整数的(int8),这就是人们经常提到的256灰度图像。“0”表示纯黑色,“255”表示纯白色,中间的数字从小到大表示由黑到白的过渡色。在某些软件中,灰度图像也可以用双精度数据类型(double)表示,像素的值域为[0,1],0代表黑色,1代表白色,0到1之间的小数表示不同的灰度等级。二值图像可以看成是灰度图像的一个特例。

索引图像

索引图像的文件结构比较复杂,除了存放图像的二维矩阵外,还包括一个称之为颜色索引矩阵MAP的二维数组。MAP的大小由存放图像的矩阵元素值域决定,如矩阵元素值域为[0,255],则MAP矩阵的大小为256Ⅹ3,用MAP=[RGB]表示。MAP中每一行的三个元素分别指定该行对应颜色的红、绿、蓝单色值,MAP中每一行对应图像矩阵像素的一个灰度值,如某一像素的灰度值为64,则该像素就与MAP中的第64行建立了映射关系,该像素在屏幕上的实际颜色由第64行的[RGB]组合决定。也就是说,图像在屏幕上显示时,每一像素的颜色由存放在矩阵中该像素的灰度值作为索引通过检索颜色索引矩阵MAP得到。索引图像的数据类型一般为8位无符号整形(int8),相应索引矩阵MAP的大小为256Ⅹ3,因此一般索引图像只能同时显示256种颜色,但通过改变索引矩阵,颜色的类型可以调整。索引图像的数据类型也可采用双精度浮点型(double)。索引图像一般用于存放色彩要求比较简单的图像,如Windows中色彩构成比较简单的壁纸多采用索引图像存放,如果图像的色彩比较复杂,就要用到RGB真彩色图像。

RGB彩色图像

RGB图像与索引图像一样都可以用来表示彩色图像。与索引图像一样,它分别用红(R)、绿(G)、蓝(B)三原色的组合来表示每个像素的颜色。但与索引图像不同的是,RGB图像每一个像素的颜色值(由RGB三原色表示)直接存放在图像矩阵中,由于每一像素的颜色需由R、G、B三个分量来表示,M、N分别表示图像的行列数,三个M x N的二维矩阵分别表示各个像素的R、G、B三个颜色分量。RGB图像的数据类型一般为8位无符号整形,通常用于表示和存放真彩色图像,当然也可以存放灰度图像。
数字化图像数据有两种存储方式[6]:位图存储(Bitmap)和矢量存储(Vector)
我们平常是以图像分辨率(即像素点)和颜色数来描述数字图象的。例如一张分辨率为640*480,16位色的数字图片,就由2^16=65536种颜色的307200(=640*480)个素点组成。
位图图像:位图方式是将图像的每一个象素点转换为一个数据,当图像是单色(只有黑白二色)时,8个象素点的数据只占据一个字节(一个字节就是8个二进制数,1个二进制数存放象素点);16色(区别于前段“16位色”)的图像每两个象素点用一个字节存储;256色图像每一个象素点用一个字节存储。这样就能够精确地描述各种不同颜色模式的图像图面。位图图像弥补了矢量式图像的缺陷,它能够制作出色彩和色调变化丰富的图像,可以逼真地表现自然界的景象,同时也可以很容易地在不同软件之间交换文件,这就是位图图像的优点;而其缺点则是它无法制作真正的3D图像,并且图像缩放和旋转时会产生失真的现象,同时文件较大,对内存和硬盘空间容量的需求也较高。位图方式就是将图像的每一像素点转换为一个数据。如果用1位数据来记录,那么它只能代表2种颜色(2^1=2);如果以8位来记录,便可以表现出256种颜色或色调(2^8=256),因此使用的位元素越多所能表现的色彩也越多。通常我们使用的颜色有16色、256色、增强16位和真彩色24位。一般所说的真彩色是指24位(2^24)的位图存储模式适合于内容复杂的图像和真实照片。但随着分辨率以及颜色数的提高,图像所占用的磁盘空间也就相当大;另外由于在放大图像的过程中,其图像势必要变得模糊而失真,放大后的图像像素点实际上变成了像素“方格”。 用数码相机和扫描仪获取的图像都属于位图。
矢量图像:矢量图像存储的是图像信息的轮廓部分,而不是图像的每一个象素点。例如,一个圆形图案只要存储圆心的坐标位置和半径长度,以及圆的边线和内部的颜色即可。该存储方式的缺点是经常耗费大量的时间做一些复杂的分析演算工作,图像的显示速度较慢;但图像缩放不会失真;图像的存储空间也要小得多。所以,矢量图比较适合存储各种图表和工程

数据

编辑
图像处理离不开海量、丰富的基础数据,包括视频、静态图像等多种格式,如Berkeley分割数据集和基准500 (BSDS500)、西门菲沙大学不同光照物体图像数据库、神经网络人脸识别数据、CBCL-MIT StreetScenes(麻省理工学院街景数据库)等。

数字化

编辑
通过取样和量化过程将一个以自然形式存在的图像变换为适合计算机处理的数字形式。图像在计算机内部被表示为一个数字矩阵,矩阵中每一元素称为像素。图像数字化需要专门的设备,常见的有各种电子的和光学的扫描设备,还有机电扫描设备和手工操作的数字化仪。

图像编码

编辑
对图像信息编码,以满足传输和存储的要求。编码能压缩图像的信息量,但图像质量几乎不变。为此,可以采用模拟处理技术,再通过模-数转换得到编码,不过多数是采用数字编码技术。编码方法有对图像逐点进行加工的方法,也有对图像施加某种变换或基于区域、特征进行编码的方法。脉码调制、微分脉码调制、预测码和各种变换都是常用的编码技术。

图像压缩

编辑
由数字化得到的一幅图像的数据量十分巨大,一幅典型的数字图像通常由500×500或1000×1000个像素组成。如果是动态图像,其数据量更大。因此图像压缩对于图像的存储和传输都十分必要。
图像压缩有两类压缩算法,即无损压缩和有损压缩。最常用的无损压缩算法取空间或时间上相邻像素值的差,再进行编码。游程码就是这类压缩码的例子。有损压缩算法大都采用图像交换的途径,例如对图像进行快速傅里叶变换或离散的余弦变换。已作为图像压缩国际标准的JPEG和MPEG均属于有损压缩算法。前者用于静态图像,后者用于动态图像。它们都由芯片实现[2]  。

增强复原

编辑
图像增强的目标是改进图片的质量,例如增加对比度,去掉模糊和噪声,修正几何畸变等;图像复原是在假定已知模糊或噪声的模型时,试图估计原图像的一种技术。
图像增强按所用方法可分成频率域法和空间域法。前者把图像看成一种二维信号,对其进行基于二维傅里叶变换的信号增强。采用低通滤波(即只让低频信号通过)法,可去掉图中的噪声;采用高通滤波法,则可增强边缘等高频信号,使模糊的图片变得清晰。具有代表性的空间域算法有局部求平均值法和中值滤波(取局部邻域中的中间像素值)法等,它们可用于去除或减弱噪声[3]  。
早期的数字图像复原亦来自频率域的概念。现代采取的是一种代数的方法,即通过解一个大的方程组来复原理想的图片。
以提高图像质量为目的的图像增强和复原对于一些难以得到的图片或者在拍摄条件十分恶劣情况下得到的图片都有广泛的应用。例如从太空中拍摄到的地球或其他星球的照片,用电子显微镜或X光拍摄的生物医疗图片等。
图像增强 使图像清晰或将其转换为更适合人或机器分析的形式。与图像复原不同,图像增强并不要求忠实地反映原始图像。相反,含有某种失真(例如突出轮廓线)的图像可能比无失真的原始图像更为清晰。常用的图像增强方法有:①灰度等级直方图处理:使加工后的图像在某一灰度范围内有更好的对比度;②干扰抑制:通过低通滤波、多图像平均、施行某类空间域算子等处理,抑制叠加在图像上的随机性干扰;③边缘锐化:通过高通滤波、差分运算或某种变换,使图形的轮廓线增强;④伪彩色处理:将黑白图像转换为彩色图像,从而使人们易于分析和检测图像包含的信息。
图像复原 除去或减少在获得图像过程中因各种原因产生的退化。这类原因可能是光学系统的像差或离焦、摄像系统与被摄物之间的相对运动、电子或光学系统的噪声和介于摄像系统与被摄像物间的大气湍流等。图像复原常用二种方法。当不知道图像本身的性质时,可以建立退化源的数学模型,然后施行复原算法除去或减少退化源的影响。当有了关于图像本身的先验知识时,可以建立原始图像的模型,然后在观测到的退化图像中通过检测原始图像而复原图像。
图像分割将图像划分为一些互不重叠的区域,每一区域是像素的一个连续集。通常采用把像素分入特定区域的区域法和寻求区域之间边界的境界法。区域法根据被分割对象与背景的对比度进行阈值运算,将对象从背景中分割出来。有时用固定的阈值不能得到满意的分割,可根据局部的对比度调整阈值,这称为自适应阈值。境界法利用各种边缘检测技术,即根据图像边缘处具有很大的梯度值进行检测。这两种方法都可以利用图像的纹理特性实现图像分割。

形态学

编辑
形态学一词通常指生物学的一个分支,它用于处理动物和植物的形状和结构。在数学形态学的语境中也使用该词来作为提取图像分量的一种工具,这些分量在表示和描述区域形状(如边界,骨骼和凸壳)时是很有用的。此外,我们还很关注用于预处理和后处理的形态学技术,如形态学滤波、细化和裁剪。
数学形态学的基本运算
数学形态学的基本运算有4个:腐蚀、膨胀、开启和闭合。数学形态学方法利用一个称作结构元素的”探针”收集图像的信息,当探针在图像中不断移动时,便可考察图像各个部分之间的相互关系,从而了解图像的结构特征。在连续空间中,灰度图像的腐蚀、膨胀、开启和闭合运算分别表述如下。
腐蚀
腐蚀“收缩”或“细化”二值图像中的对象。收缩的方式和程度由一个结构元素控制。数学上,A被B腐蚀,记为AΘB,定义为:
换言
腐蚀运算腐蚀运算
之,A被B腐蚀是所有结构元素的原点位置的集合,其中平移的B与A的背景并不叠加。
膨胀
膨胀是在二值图像中“加长”或“变粗”的操作。这种特殊的方式和变粗的程度由一个称为结构元素的集合控制。结构元素通常用0和1的矩阵表示。数学上,膨胀定义为集合运算。A被B膨胀,记为A⊕B,定义为:
膨胀运算膨胀运算
其中,Φ为空集,B为结构元素。总之,A被B膨胀是所有结构元素原点位置组成的集合,其中映射并平移后的B至少与A的某些部分重叠。这种在膨胀过程中对结构元素的平移类似于空间卷积。
膨胀满足交换律,即A⊕B=B⊕A。在图像处理中,我们习惯令A⊕B的第一个操作数为图像,而第二个操作数为结构元素,结构元素往往比图像小得多。
膨胀满足结合律,即A⊕(B⊕C)=(A⊕B)⊕C。假设一个结构元素B可以表示为两个结构元素B1和B2的膨胀,即B=B1⊕B2,则A⊕B=A⊕(B1⊕B2)=(A⊕B1)⊕B2,换言之,用B膨胀A等同于用B1先膨胀A,再用B2膨胀前面的结果。我们称B能够分解成B1和B2两个结构元素。结合律很重要,因为计算膨胀所需要的时间正比于结构元素中的非零像素的个数。通过结合律,分解结构元素,然后再分别用子结构元素进行膨胀操作往往会实现很客观的速度的增长。

开启

A被B的形态学开
开运算开运算
运算可以记做A?B,这种运算是A被B腐蚀后再用B来膨胀腐蚀结果,即:
开运算的数学公式为:
其中
开运算开运算
,∪{·}指大括号中所有集合的并集。该公式的简单几何解释为:A?B是B在A内完全匹配的平移的并集。形态学开运算完全删除了不能包含结构元素的对象区域,平滑了对象的轮廓,断开了狭窄的连接,去掉了细小的突出部分。

闭合

A被B形态学闭运算记做A·B,它是先膨胀后腐蚀的结果:
从几何学
闭运算闭运算
上讲,A·B是所有不与A重叠的B的平移的并集。想开运算一样,形态学闭运算会平滑对象的轮廓。然后,与开运算不同的是,闭运算一般会将狭窄的缺口连接起来形成细长的弯口,并填充比结构元素小的洞。
基于这些基本运算可以推导和组合成各种数学形态学实用算法,用它们可以进行图像形状和结构的分析及处理,包括图像分割、特征提取、边界检测、图像降噪、图像增强和恢复等。

图像分析

编辑
从图像中抽取某些有用的度量、数据或信息。目的是得到某种数值结果,而不是产生另一个图像。图像分析的内容和模式识别、人工智能的研究领域有交叉,但图像分析与典型的模式识别有所区别。图像分析不限于把图像中的特定区域按固定数目的类别加以分类,它主要是提供关于被分析图像的一种描述。为此,既要利用模式识别技术,又要利用关于图像内容的知识库,即人工智能中关于知识表达方面的内容。图像分析需要用图像分割方法抽取出图像的特征,然后对图像进行符号化的描述。这种描述不仅能对图像中是否存在某一特定对象作出回答,还能对图像内容作出详细描述。
图像处理的各个内容是互相有联系的。一个实用的图像处理系统往往结合应用几种图像处理技术才能得到所需要的结果。图像数字化是将一个图像变换为适合计算机处理的形式的第一步。图像编码技术可用以传输和存储图像。图像增强和复原可以是图像处理的最后目的,也可以是为进一步的处理作准备。通过图像分割得出的图像特征可以作为最后结果,也可以作为下一步图像分析的基础。
图像匹配、描述和识别对图像进行比较和配准,通过分制提取图像的特征及相互关系,得到图像符号化的描述,再把它同模型比较,以确定其分类。图像匹配试图建立两张图片之间的几何对应关系,度量其类似或不同的程度。匹配用于图片之间或图片与地图之间的配准,例如检测不同时间所拍图片之间景物的变化,找出运动物体的轨迹[4]  。
从图像中抽取某些有用的度量、数据或信息称为图像分析。图像分析的基本步骤是把图像分割成一些互不重叠的区域,每一区域是像素的一个连续集,度量它们的性质和关系,最后把得到的图像关系结构和描述景物分类的模型进行比较,以确定其类型。识别或分类的基础是图像的相似度。一种简单的相似度可用区域特征空间中的距离来定义。另一种基于像素值的相似度量是图像函数的相关性。最后一种定义在关系结构上的相似度称为结构相似度。
以图片分析和理解为目的的分割、描述和识别将用于各种自动化的系统,如字符和图形识别、用机器人进行产品的装配和检验、自动军事目标识别和跟踪、指纹识别、X光照片和血样的自动处理等。在这类应用中,往往需综合应用模式识别和计算机视觉等技术,图像处理更多的是作为前置处理而出现的。
多媒体应用的掀起,对图像压缩技术的应用起了很大的推动作用。图像,包括录像带一类动态图像将转为数字图像,并和文字、声音、图形一起存储在计算机内,显示在计算机的屏幕上。它的应用将扩展到教育、培训和娱乐等新的领域[5]  。

应用

编辑
摄影及印刷
卫星图像处理(Satellite image processing)
医学图像处理(Medical image processing)
面孔识别,特征识别(Face detection, feature detection, face identification)
显微图像处理(Microscope image processing)
汽车障碍识别(Car barrier detection)[6] 

常见软件

编辑

Adobe Photoshop

软件特点:知名度以及使用率最高的图像处理软件
软件优势:使用业界标准的Adobe PhotoshopCS软件更加快速地获取更好效果,同时为图形和Web设计、摄影及视频提供必不可少的新功能。
与同行软件的比较:这回Adobe的确给设计师们带来了很大的惊喜,Photoshop CS新增了许多强有力的功能,特别是对于摄影师来讲,这次它大大突破了以往Photoshop系列产品更注重平面设计的局限性,对数码暗房的支持功能有了极大的加强和突破。
近期版本:2016年11月2日,Adobe 公司更新了旗下 Photoshop CC 2017最新版。[7] 

Adobe Illustrator

软件特点:专业矢量绘图工具,功能强大,界面友好。
软件优势:无论您是生产印刷出版线稿的设计者和专业插画家、生产多媒体图像的艺术家、还是互联网页或在线内容的制作者,都会发现Illustrator不仅仅是一个艺术产品工具,能适合大部分小型设计到大型的复杂项目。
与同行软件的比较:功能极其强大,操作相当专业。与Adobe公司其它软件如Photoshop、Primiere及Indesign等软件可以良好的兼容,在专业领域优势比较明显。

CorelDRAW

软件特点:界面设计友好,空间广阔,操作精微细致。兼容性佳。
软件优势:非凡的设计能力广泛地应用于商标设计、标志制作、模型绘制、插图描画、排版及分色输出等等诸多领域。市场领先的文件兼容性以及高质量的内容可帮助您将创意变为专业作品。从与众不同的徽标和标志到引人注目的营销材料以及令人赏心悦目的Web图形,应有尽有。
与同行软件的比较:功能强大,兼容性极好,可生成各种与其它软件相兼容的格式,操作较Illustrator简单,在国内中小型广告设计公司应用率极高。

可牛影像

软件特点:可牛影像是新一代的图片处理软件,独有美白祛痘、瘦脸瘦身、明星场景、多照片叠加等功能,更有50余种照片特效,数秒即可制作出影楼级的专业照片。
软件优势:图片编辑、人像美容、场景日历、添加水印饰品、添加各种艺术字体、制作动感闪图、摇头娃娃、多图拼接,使人能想到的功能,应有尽有,而且简单易用。
与同行软件的比较:场景日历、动感闪图、摇头娃娃等都是传统图像处理软件所没有的。有了可牛影像,不需要再像photoshop那样,需要专业的技能才能处理照片。

光影魔术手

软件特点:“nEO iMAGING”〖光影魔术手〗是一个对数码照片画质进行改善及效果处理的软件。简单、易用,不需要任何专业的图像技术,就可以制作出专业胶片摄影的色彩效果。
软件优势:模拟反转片的效果,令照片反差更鲜明,色彩更亮丽,模拟反转负冲的效果,色彩诡异而新奇,模拟多类黑白胶片的效果,在反差、对比方面,和数码相片完全不同。
与同行软件的比较:是一个照片画质改善和个性化处理的软件。简单、易用,每个人都能制作精美相框、艺术照、专业胶片效果,而且完全免费。

ACDSee

软件特点:不论您拍摄的相片是什么类型-家人与朋友的,或是作为业余爱好而拍摄的艺术照-您都需要相片管理软件来轻松快捷地整理以及查看、修正和共享这些相片。
软件优势:ACDSee 9可以从任何存储设备快速“获取相片”,还可以使用受密码保护的“隐私文件夹”这项新功能来存储机密信息。
与同行软件的比较:强大的电子邮件选项、幻灯放映、CD/DVD刻录,还有让共享相片变得轻而易举的网络相册工具。使用红眼消除、色偏消除、曝光调整以及“相片修复”工具等快速修正功能来改善相片。

Macromedia Flash

软件特点:一个可视化的网页设计和网站管理工具,支持最新的Web技术,包含HTML检查、HTML格式控制、HTML格式化选项等。
软件优势:除了新的视频和动画特性,还提供了新的绘图效果和更好的脚本支持,同时也集成了流行的视频辑和编码工具,还提供软件允许用户测试移动手机中的Flash内容等新功能。
与同行软件的比较:在编辑上你可以选择可视化方式或者你喜欢的源码编辑方式。

Ulead GIF Animator

软件特点:友立公司出版的动画GIF制作软件,内建的Plugin有许多现成的特效可以立即套用,可将AVI文件转成动画GIF文件,而且还能将动画GIF图片最佳化,能将你放在网页上的动画GIF图档减肥,以便让人能够更快速的浏览网页。
软件优势:这是一个很方便的GIF 动画制作软件,由Ulead Systems.Inc 创作。Ulead GIF Animator 不但可以把一系列图片保存为GIF 动画格式,还能产生二十多种2D 或3D 的动态效果,足以满足您制作网页动画的要求。
与同行软件的比较:与其它图形文件格式不同的是, 一个GIF文件中可以储存多幅图片,这时, GIF 将其中存储的图片像播放幻灯片一样轮流显示, 这样就形成了一段动画[8]  。



2019-10-24 21:13:23 qq_36614557 阅读数 1233
  • 计算机系统--多媒体技术

    通过学习本课程,深入理解TCP/IP UDP服务器,客户端编程,H.264 AAC格式, FFmpeg库, QuickTime mp4容器等. 完全掌握iOS, Android, 嵌入式Linux平台音视频开发的相关知识并能够深入运用的自己的各大项目中。...

    575人学习 任铄
    免费试看

一、图像质量评价数据库

常用的评价数据库有LIVE、CSIQ、TID2008/2013、MICT、IVC、A57、WIQ等,包含参考图像以及对应失真图像的主观评价分数。

  • LIVE:由德克萨斯大学的图像与视频工程实验室(Laboratory for Image and Video Engineering,LIVE)开发,包含不同大小的29个参考图像和779个失真图像,格式为BMP,失真包括高斯模糊、加性高斯白噪声、jpeg压缩、jpeg2000压缩、rayleigh衰减信道失真等。
  • CSIQ:由俄克拉荷马州立大学的计算感知与图像质量实验室(Computational Perception and Image Quality lab)开发,包含512*512大小的png格式的30个参考图像和866个失真图像,失真包括jpeg/jpeg2000压缩、加性高斯白噪声、加性高斯粉噪声、高斯模糊、对比度降低等。
  • TID:由坦佩雷理工大学开发,2008包含384*512大小的bmp格式的25个参考图像和17000个失真图像,共包含17种失真,每隔十帧图像包含4种失真。17种失真分别为加性高斯噪声、加性噪声、空间相关噪声、掩膜噪声、高频噪声、脉冲噪声、量化噪声、非偏心模式噪声、高斯模糊、图像去噪、jpeg/jpeg2000压缩、jpeg/jpeg2000传输、局部块失真、亮度偏移、对比度变化。2013把失真图像增加到了3000张,失真类型增加了饱和度改变、称性高斯噪声、舒适噪声、噪声图像的有损压缩、带抖动的图像颜色量化、色差、稀疏采样与重构。
  • MICT:由富山大学的媒体信息与传播技术实验室开发,包含512*768大小的bmp格式的14个参考图像和168个失真图像,只有jpeg/jpeg200压缩两种失真。
  • IVC:由IRCCyN开发,包含512*512大小的10张参考图像和185张失真图像。共有jpeg/jpeg2000压缩、局部自适应分辨率编码、高斯模糊等失真。
  • A57:由康奈尔大学的视觉通信实验室开发,包含512*512大小的bmp格式的3个参考图像和54个失真图像。失真包括jpeg/jpeg2000压缩、加性高斯白噪声、高斯模糊、5级离散小波变换的LH子代均匀量化等。
  • WIQ:由布京理工学院的无线通信小组开发,包括512*512大小的bmp格式的7张参考图像和80张失真图像,主要用来评价无线传输的图像质量。

前四个数据库含有图像较多,应用最广泛。

二、图像质量的有参考评价

1.SSIM结构相似度:

对M*N大小的参考图像和失真图像I、J,其亮度μ 、对比度σ2、结构相似程度σIJ计算如下:

定义亮度对比函数l、对比度对比函数c、结构对比函数s如下:

 最后SSIM分数为:

2.FSIM特征相似度

该算法采用相位一致性描述图像中的结构,并用图像的梯度来描述对比度的失真。利用两个图像相位一致性和梯度相似性(相似性与SSIM中的对比函数l、s相似)求得局部质量图,并利用相位一致性图作为权值加权得到FSIM。

3.GSM梯度相似度

该算法结合嫉妒相似度和亮度相似度进行评价。其中,在对亮度变化进行描述的时候采用归一化后的像素差。最后的分数为两者的加权和。

4.GMSD梯度大小相似偏差

该算法首先根据梯度计算图像的局部质量图,采用标准差衡量局部质量图局部质量图的变化,以判断图像的整体质量。

 

三、图像质量的无参考评价

<一>通用型

1.BIQI:

该算法首先根据从图像提取出的自然场景统计(NSS)特性判断图像中存在的失真以及对应失真的概率,并利用不同失真的质量评价算法计算响应的质量分数,最后通过概率加权得到最后的质量分数。该算法考虑了五中失真包括jpeg/jpeg2000压缩、白噪声、高斯模糊、快速衰减。最后的分数BIQI表示为五种失真的概率与对应质量分数的乘积之和。

2.BRISQUE:

该算法通过对图像局部像素归一化(MSCN)后通过拟合高斯分布模型(GGD)得36个参数,最后将参数进行回归计算得最后的分数。

3.NIQE:

该算法假设无失真图像满足某种统计特性,首先对自然图像提取出自然场景统计特性,并建立多变量高斯模型(MVG)。对于失真图像同样方法得到MVG模型,计算二者距离得质量分数。

<二>块效应

1.Wang方法:源自Wang Z, Bovik A C, Evan B L. Blind measurement of blocking artifacts in images[C]// International Conference on Image Processing. 2000.

该算法将图像建模为纯净的图像信号和只有块效应的信号的叠加,对水平和垂直方向上分别求相邻像素的绝对差分,然后转变为一维信号并进行一维傅里叶变换,通过功率谱描述块效应强度。

2.Bovik方法:源自Bovik A C , Liu S . [IEEE 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings - Salt Lake City, UT, USA (7-11 May 2001)] 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221) - DCT-domain blind measurement of blocking artifacts in DCT-coded images[J]. 2001, 3:1725-1728.

Brovik等人将图像重新建模为常值块与独立同分布的白噪声的叠加,通过构造二维阶跃函数,讲块效应的分数表示为阶跃函数的幅度。

3.Perra方法:源自Perra C , Massidda F , Giusto D D . Image blockiness evaluation based on Sobel operator[C]// IEEE International Conference on Image Processing. IEEE, 2005.

该方法首先利用sobel算子求得图像的梯度,然后将梯度图像划分为8*8的梯度块。对每个梯度块中的像素分为垂直边缘像素(第一列和第8列,记作1V)、水平边缘像素(第一行和第8行,记作1H)和内部像素(除了1V和1H的其他区域,记作2I)。定义S1、S2如下:

D为梯度,N1、N2分别为位于边缘、中心的像素点数。

总分数S:

 β设置为2.

4.Pan方法:源自Pan F , Lin X , Rahardja S , et al. Using edge direction information for measuring blocking artifacts of images[J]. Multidimensional Systems and Signal Processing, 2007, 18(4):297-308.

Pan等人通过统计分块边缘处存在完全水平和垂直两个梯度方向的边缘数占所有边缘数的比例大小,来衡量块效应的大小。

5.Liu方法:源自Liu H , Heynderickx I . A Perceptually Relevant No-Reference Blockiness Metric Based on Local Image Characteristics[J]. EURASIP Journal on Advances in Signal Processing, 2009, 2009(1):263540.

Liu等人基于图像的局部特性,通过比较块效应边界处的梯度和周围梯度的差异,并结合视觉掩蔽模型获得整体的块效应分数。

6.Chen方法:源自Chen C , Bloom J A . A Blind Reference-Free Blockiness Measure[C]// Advances in Multimedia Information Processing - PCM 2010 - 11th Pacific Rim Conference on Multimedia, Shanghai, China, September 21-24, 2010, Proceedings, Part I. Springer-Verlag, 2010.

Chen等人提出了一种基于DFT域的方法,该方法计算水平和垂直方向的像素的绝对差值并归一化,然后沿着两个方向求其均值,并变换为一维信号,最后在DFT域计算周期性尖峰的强度作为块效应分数。

7.Lee方法 :源自Lee S , Park S J . A new image quality assessment method to detect and measure strength of blocking artifacts[J]. Signal Processing Image Communication, 2012, 27(1):31-38.

该方法利用如果图像块边界出现块效应那么块边界两边的像素会剧烈变化,而沿着块边界的方向的像素变化很小的特点,首先在块边界检测是否存在块效应,然后对于存在块效应的边界计算块效应的强度,计算所有存在块效应的强度均值作为块效应分数。

8.Xia方法:源自Xia Y , Wang Z , Wang W , et al. Blind Measurement of Blocking Artifacts of Images Based on Edge and Flat-region Detection[J]. Journal of Software, 2013, 8(1).

该方法利用人眼对平坦区域的块效应更敏感,将图像分为平坦区域和非平坦区域,分别计算平坦区域的块强度BS和非平坦区域的块率BR,结合BS和BR得到块效应分数。

9.Golestaneh和Chandler方法:源自Golestaneh S A , Chandler D M . No-Reference Quality Assessment of JPEG Images via a Quality Relevance Map[J]. IEEE Signal Processing Letters, 2014, 21(2):155-158.

该方法首先统计图像块DCT变换后中值为0的系数数量,然后用描述图像中的块哪些是自然一致的哪些是由于jpeg压缩造成才一致的 的质量相关图加权得到块效应分数。

<三>模糊

1.Marziliano方法:源自Marziliano P , Dufaux F , Winkler S , et al. A no-reference perceptual blur metric[C]// Proceedings. International Conference on Image Processing. IEEE, 2002.和Marziliano P , Dufaux F , Winkler S , et al. Perceptual blur and ringing metrics: application to JPEG2000[J]. Signal Processing: Image Communication, 2004, 19(2):163-172.

该算法主要对边缘的宽度进行描述。首先,利用sobel算子对图像进行边缘提取,并设置阈值去掉边缘图像中较弱的边。对处理后的边缘图像逐行扫描,对处于边缘的像素,通过寻找其最邻近的极大值点和极小值点来确定该边缘的起点和终点,边缘宽度定义为起点和终点的距离。所有边缘宽度的均值即整体的模糊分数。

2.JNB(Just Noticeable Blur):源自Ferzli R , Karam L J . A No-Reference Objective Image Sharpness Metric Based on the Notion of Just Noticeable Blur (JNB)[J]. IEEE Transactions on Image Processing, 2009, 18(4):717-728.

文中,JNB(恰可见模糊)定义为在一定的对比度(高于最小可觉差JND)的情况下,在图像的边缘可以观察到的最小的模糊量,一般情况下,JNB随对比度的增加而减小。

在一定的对比度下,边缘e处可检测到模糊的概率为:

w(e)表示e的宽度,wJNB(e)表示JNB的宽度。一个边缘块R的模糊可表示为:

 

对于整个图像的模糊DI可表示为:

 

类似地,整个图像I检测到模糊的概率为:

图像的整体模糊分数定义为S=L/D,其中L为分块数量。

3.Fish算法:源自Vu P V , Chandler D M . A Fast Wavelet-Based Algorithm for Global and Local Image Sharpness Estimation[J]. IEEE Signal Processing Letters, 2012, 19(7):423-426.

思路:由于模糊会造成高频能量的减少,所以可以对图像小波变换后的高频部分能量进行描述,来表示模糊的程度。

首先对图像进行三级小波变换,每一级的三个高频自带分别记作HHn、LHn、HLn,n为小波级数。对每个高频子带对数能量计算如下:

其中,N表示右侧和式长度,XY取HH/HL/LH。

每一层分解的能量之和可以表示为En=0.5*(1-a)*(ELHn+EHLn)+a*EHHn。为了突出HH子带的能量的 重要性,设置a为0.8。最后的模糊分数定义为:

4.S3算法:源自Vu C T , Phan T D , Chandler D M . S3: a spectral and spatial measure of local perceived sharpness in natural images[J]. IEEE Transactions on Image Processing, 2012, 21(3):934-945.

该算法是一种基于混合域的算法,主要思路是在频率域用幅频的斜率来描述模糊造成的高频能量下降,空间与用全变差描述图像的局部对比度变化,最后取模糊图的前百分之一来计算模糊分数,精度和一致性高,但复杂度高。

5.LPC算法:源自Hassen的《No-reference image sharpness assessment based on local phase coherence measurement》和《Image sharpness assessment based on local phase coherence》.

作者在研究者发现相位一致性和模糊有直接的关系,即清晰部分的相位一致性图强度大,模糊则小。所以LPC算法利用相位一致性图来描述模糊,并且在更高精度和一致性情况下,获得更细的局部模糊质量图。

6.MLV算法:源自Bahrami K , Kot A C . A Fast Approach for No-Reference Image Sharpness Assessment Based on Maximum Local Variation[J]. IEEE Signal Processing Letters, 2014, 21(6):751-755.

由于模糊区域像素亮度变化小而清晰区域变化大,作者提出定义局部最大化变量(MLV)为一个像素和其周围8个像素亮度的最大变化,利用图像所有像素的MLV分布即可反应图像的模糊程度,并用MLV图的标准差作为图像的模糊分数。

数字图像处理入门

阅读数 10073