精华内容
下载资源
问答
  • 评价测试人员的工作绩效的方法软件测试为了能够更好测试过程进行管理,必须测试人员有一个客观、全面的评价。下面是本人在工作中的一些体会希望能给大家带来一些启发:一、测试人员工作绩效评价的误区1、仅从...
  • 十种客观评价语音质量的方法

    千次阅读 2020-11-07 11:35:54
    语音客观评价标准一般分为语音质量评价和语音可懂度评价,这里先介绍语音质量评价。提起语音质量评价,大家第一个想到的肯定是信噪比这个十分常用的评价标准以及它的相关衍生标准,这里总结一些常用的语

    目录

    1. 基于SNR的语音质量评价标准

    1.1 SNR和分段SNR

    1.2 频域SNR

    2. 基于LPC系数的语音质量评价标准

    2.1 对数似然比距离

    2.2 Itakura–Saito距离

    2.3 倒谱距离

    3. 基于感知的语音质量评价标准

    3.1 加权谱倾斜测度

    3.2 PESQ

    4. 总结


    语音客观评价标准一般分为语音质量评价和语音可懂度评价,这里先介绍语音质量评价。提起语音质量评价,大家第一个想到的肯定是信噪比这个十分常用的评价标准以及它的相关衍生标准,这里总结一些常用的语音质量评价标准供大家参考和使用。

    1. 基于SNR的语音质量评价标准

    1.1 SNR和分段SNR

    基于SNR的评价标准想必大家都已经有所了解, 我们首先给出信噪比的定义

     

    但是我们知道语音是短时平稳性的,在语音长度较长的情况下对整体按上式求信噪比,于是有了分段信噪比(segmental SNR),其计算公式为:

    其中L为语音长度,M为语音帧数,N为语音帧长度,x(n)为原始语音,x_hat(n)为增强后的语音。但是上述的计算方法会出现一个问题,那就是当语音静音部分较多时会降低信噪比的值,为了解决这一问题可以使用VAD检测的方法在只有语音段才计算信噪比。另外一种方法就是限制信噪比在一定范围内如[-10, 35dB]这样就不需要额外进行VAD检测。

    1.2 频域SNR

    值得一提的是SNR不仅可以在时域进行计算也可以在频域进行计算,频域分段信噪比的计算公式为:

    其中K为频带数目,Wj为每个频带的权重。权重可以通过回归分析得到(有兴趣的可以搜索frequency-variant objective measures),另一种方法就是查表,如下表所示。

     

    2. 基于LPC系数的语音质量评价标准

    有的算法针对干净语音和增强语音信号的所有LPC模型之间的差异,提出了客观评价标准。我们将语音用p阶全极点模型来表示,即

    其中ax就是这节的主角LPC系数,Gx是噪声的激励。

     

    2.1 对数似然比距离

    那么我们就可以使用对数似然比(Log-Likelihood Ratio, LLR)来评估语音质量,其计算公式为:

    同样的将其扩展到频域

    其中ax是原始语音的LPC系数,ax_hat是增强后语音的LPC系数,Rx是原始语音LPC系数的自相关矩阵。Ax(ω)对应的是频谱。LLR可以理解为增强信号和原始号的预测残差的能量之比。

     

    2.2 Itakura–Saito距离

    除了使用LLR之外还有另外一个测度Itakura–Saito, IS,其计算公式为:

    其中Gx为增益,计算公式为:

    r^T_x是自相关矩阵的第一行。这种方法有个缺点增强信号和原始信号频谱的差异会被这个算法惩罚,但心理声学研究表明频谱水平的差异对质量的影响最小。

     

    2.3 倒谱距离

    提到LPC不得不让人联想到倒谱,倒谱系数可以从LPC系数递归得到,即

    然后我们就可以使用基于倒谱的测度

     

     

    3. 基于感知的语音质量评价标准

    语音质量到底如何主观感受是最重要的,许多工作从听觉机理的角度去对语音质量进行评价。

    3.1 加权谱倾斜测度

    心理声学研究表明,人们对共振峰频率不同的成对元音感觉最敏锐。加权谱倾斜测度(Weighted Spectral Slope, WSS) 首先通过一阶差分来计算每个频段的频谱斜率

    然后根据频段是在谱峰值附近还是在波谷附近,峰值是否是最大峰值等条件对谱斜率进行加权,加权公式为:

    其中max下标表示全局最大值,locmax表示离其最近的最大值。最后WSS测度可以表示为:

     

    3.2 PESQ

    PESQ可谓是无人不知,无人不晓虽然它只能检测8000/16000窄带范围内的语音质量,但在很多论文中它被用来评估处理后的语音质量。PESQ的具体细节比较多,如果要写的话需要单独开一篇文章来介绍,因此这里只给出它的流程图。想要了解更多细节可以查看代码的注释。

     

    4. 总结

    大多数语音客观评价标准都关注在语音信号的失真程度,较少从人类的听觉去分析,不同评价标准和真实情况的相关系数如下表所示(最后的Composite方法是把上面几种方法加权综合起来得到一个最终的评价结果)。语音评价除了云质量外还有可懂度的评价,它们会在后续的文章中介绍。


    公众号语音算法组菜单栏点击More->Code即可获取本文相关代码


     

    参考文献:

    [1]. Speech Enhancement Theory and Practice

     

    展开全文
  • 面向图像失真的感知质量评价是图像处理领域中一项基础而富有挑战性的工作。 可靠的图像质量评价标准可用于监控网络视频的服务状况、 分配压缩 算法中的比特率参数、 校准图像采集和处理系统等。 图像质量评价最准确...
  • 该模型在主观赋权的基础上提高了评价结果的客观性,确保了对工作压力这一不易量化的因素定量化的准确性。最后通过选取某市5个大型国有煤矿50名高管为例进行工作压力评价,通过计算得出该地区高管工作压力具体情况和...
  • 为了指导煤矿企业开展...从辨识采掘生产工艺中的职业病危害因素入手,依据国家相关法规和标准,具体开展了采掘工作面粉尘、噪音和有害气体的检测,依据检测的结果客观评价采掘作业场所的职业病危害程度,并提出整改措施。
  • 一种遴选学术期刊审稿人的主客观评价方法,陈媛,,针对学术期刊审稿人的遴选问题,从审稿工作的实际需要出发,分析了影响审稿人的审稿质量的主要因素,建立了一套由主观和客观两个�
  • 尽管可以通过火眼金睛的“专家”来主观评价(一种观点认为主观评价要由于客观评价,毕竟视频给人看的),但对于Netflix、爱奇艺这样每日新增海量视频的平台而言,主观评价是行不通了。那么,如何选择视频质量客观...


    “视频质量评定是个大坑”,正如北京大学信息工程学院教授王荣刚所说。尽管可以通过火眼金睛的“专家”来主观评价(一种观点认为主观评价要由于客观评价,毕竟视频给人看的),但对于Netflix、爱奇艺这样每日新增海量视频的平台而言,主观评价是行不通了。那么,如何选择视频质量客观评价指标就很关键了。本文来自streaming media首席分析师Jan Ozer,详细介绍了市面上主流的视频质量客观评价指标(工具),并给出了自己的建议,点击『阅读原文』访问原文。


    LiveVideoStack对本文进行了摘译,感谢朱政和金山视频云团队对本文进行了技术审校。关于视频质量评价,本文抛了“砖”,如果你有相关实践或洞察,欢迎联系 contribute@livevideostack.com。


    文 / Jan Ozer

    译 / 王鸿蒙

    技术审校 / 金山视频云团队


    无论您是否知道,您观看的许多视频其实都是使用视频质量评价指标来优化的。哦,您不同意?那您最近看过Netflix吗?在过去两年多的时间里,Netflix的编码阶梯已经由公司的视频多方法评估融合(VMAF)的体系来驱动,然而在此之前使用的是峰值信噪比(PSNR)。您不是Netflix的客户?那么,YouTube呢? YouTube使用基于恒定码率因子(CRF)编码的神经网络,该编码本身也是由其内部的视频质量评价指标来驱动的。

     

    简而言之,视频质量评价指标试图从观众的主观视角出发来预测特定视频的评分,并基于预测的准确性来衡量评价指标本身的好坏。当然,还有很多纯粹主义者坚持认为主观比较是衡量视频质量的唯一有效方法,确实,正确执行主观测试才是黄金标准。


    但是,如果您考虑到每分钟都会有400小时的视频上传到YouTube,则可以理解该服务非常需要尽可能高效地对这些视频流进行编码,并且完全无法通过部署人员来实现这一点。即使是Netflix,2017年的新内容中的很小一部分——1000小时,也无法用人眼来为每个视频创建定制的编码阶梯。对于上述两家公司和其他大多数公司而言,使用客观的质量评价指标才是最主要的方式。


    最重要的是,如果您负责本公司的编码工作,而没有使用视频质量客观评价指标来开展工作,那么您就落伍了。幸运的是,您开始阅读这篇文章了。在本文中,我将概述有哪些视频质量度量标准及其工作原理,向您介绍应用这些度量标准的最常用工具,并告诉您如何根据需要选择最佳度量标准和工具。

     

    指标测量什么(如何测量)


    您可能已经听说过PSNR、结构相似性指数(SSIM)等评价指标,甚至可能还听说过Netflix的VMAF。 要理解这些指标的不同之处,就要理解每种指标是如何产生的,以及各自的作用。

     

    基于误差的评价指标


    第一类评价指标是基于误差的。 他们将压缩图像与原始图像进行比较,并创建一个数学上代表两个图像之间差异的评分,也称为噪声或误差。PSNR比率就是一个很好的例子。 基于这种方法的评价指标很简单,而且容易计算,但是该评分通常与主观评分不相关,因为人眼和机器对误差的认识毕竟不同。

     

    举例来说,我曾经测试过一个编码工具,其输出文件的PSNR得分令人沮丧。 我多次播放了压缩后的视频,但找不出原因。 然后,我将编码的图像与原始图像进行比较后发现,其实是一个轻微的颜色变化导致了较低的分数。在实时回放时,由于没有与原始视频的比较,没有观众会注意到这种转变,所以在这种情况下,与主观检验相比,PSNR其实是一个不够好的预测。

     

    那么为什么包括Netflix和Mozilla(与AV1编解码器有关)在内的公司还要继续发布PSNR结果呢? 首先,因为它是最著名的评价指标,所以其得分很容易被大家所理解。 其次,尽管PSNR是个旧的评价指标,它仍然会在很多情况下提供非常有用的数据参考,我将在下面讨论其中的部分细节。

     

    基于感知的模型

     

    在更高的层次上,像SSIM这样的基于感知的模型,试图引入人类如何视觉感知错误或者说“人类视觉系统模型”,以更准确地预测人类如何评价视频。例如,根据维基百科,PSNR估计绝对误差,而“SSIM是一种基于感知的模型,将图像质量的下降考虑为感知结构信息的变化,同时也纳入了重要的感知现象,包括亮度掩蔽和对比度掩蔽术语。” 换句话说,基于感知的评价指标会衡量误差,并尝试对人类如何感知这些误差进行数学建模。

     

    基于感知的模型从简单的SSIM到复杂的SSIMWave公司的SSIMPLUS评价指标、Tektronix公司的图像质量评级(PQR)和注意力加权差异平均意见评分(ADMOS)。所有这三种评级都可以将显示类型并入评分中,包括尺寸大小、亮度和观看距离等因素,这些因素都会明显影响对误差的感知。


    ADMOS还提供注意力加权,将观众在观看视频时关注的区域作为优先考虑质量的区域。 所以,屏幕中心一张模糊的脸会比边缘区域的模糊在得分上降低地更明显,而纯粹基于误差的模型可能会使得它们得分相同。

     

    虽然这些评价指标经过多年的研究、尝试和大量的测试,但它们只是能够比较两个视频、处理数字并输出结果的数学公式。他们不会像下一类中的评价指标一样进行“学习”。此外,依赖这些指标,时间相关的质量可能会,也可能不会被纳入评估。

     

    类似的,大部分评价指标体系都是基于比较全分辨率压缩帧和全分辨率原始帧而开发的。编码阶梯的发明以及与之相关的决策,产生了一种新型的分析。例如,为1080p源视频创建编码阶梯时,可以比较两个1.5Mbps码率的质量,一个是540p,另一个是720p。所有评价指标体系都可以计算两个备选方案的评分;您只需将每个视频上采样到1080p,并将其与源视频相比较即可。但是旧的评价指标体系很少考虑到这种分析(稍后会细说这一点)。

     

    机器学习和评价指标融合

     

    最后一类评价指标涉及机器学习的概念,图1中展示了Tektronix公司新的质量评价指标TekMOS。 简而言之,MOS代表平均意见评分,或一个回合中的主观测试结果,通常使用从1(不可接受)到5(优秀)的评分。

     

    Figure 1. TekMOS 评价指标体系和机器学习

     

    在图中所示的训练模式中,每帧被转换成一组量化的数据点,表示诸如亮度、对比度等多个值。然后将超过2000帧画面转换的这些值与实际主观评价的MOS分数进行比较,以便“学习”哪些值产生了正确的主观MOS分数值,而哪些没有。在测量模式下,TekMOS得到了从这2000多次试验中学到的东西、从分析的帧中输入数据点,并输出一个MOS分数。


    像上面讨论的评价指标体系一样,机器学习算法从一个数学模型开始。 然而,它将结果与主观MOS分数列进行比较,并对模型进行微调以使其随时间推移而改善。 此外,机器学习本身可以进行调整,因此一个模型可以表示动画,另一个模型表示体育等等,从而使不同的使用者能够对与他们领域最相关的视频进行度量。

     

    Netflix的VMAF是另一个可以训练的评价指标体系,使用所谓的支持向量机。由于VMAF的主要用途是帮助Netflix为其按标题编码功能生成编码阶梯,因此Netflix训练数据集包括码率从375Kbps到20Mbps、分辨率从384x288到1080p的视频片段。同样,通过将数学结果与主观MOS分数相关联,VMAF在做出如上述例子中选择540p还是720p的决策时会变得更明智。

     

    顾名思义,VMAF是三个评价指标体系的融合,两个用来量度图像质量,一个用来量度时间质量,使其成为一个真正的“视频”评价指标体系。类似的,Tektronix的TekMOS评价指标包含一个时间衰减过滤器,有助于使视频的评分更准确。 TekMOS也有一个兴趣区域过滤器,是VMAF目前没有的。 VMAF的一个巨大好处是Netflix选择了将评价指标体系开源,使其可以在多个平台上使用,您将会在后面介绍中了解更多信息。

     

    哪种评价指标体系最好?

     

    如果没有像图2所示的散布图,那么关于介绍评价指标体系的文章就是不完整的。这些图在Netflix关于VMAF的博客文章中有少量采用。左侧的散点图比较了VMAF得分(纵横)和实际MOS得分(横轴)。 右边的图表是关于PSNRHVS评价指标体系的,与左图结构类似。


    Figure 2. 评价指标体系比较散点图

     

    如果分数恰好相符,那么它们都将直接与红色的对角线重合,当然,这并不会发生。 不过,越接近红线,并且红线周围的模式越紧密,就表示评价指标体系就越准确地预测了人的主观分数。图2 以这种方式告诉我们,VMAF是一个优越的评价指标。

     

    有趣的是,每次发布一个评价指标体系时,都会附带一个类似于左图所示的散点图。 SSIMPLUS有一个,TekMOS有一个,Tektronix的旧评价指标PQR和ADMOS也有。 这不是要对他们的结果产生怀疑,而是要观察到所有这些评价指标都是高度起作用,并且通常与PSNR相比更准确地与主观评价相吻合。

     

    但是,精度并不是选择评价指标体系时唯一要需要考虑的因素。 我们再来探讨下其他几个方面。


    全参考与无参考模型

     

    评价指标体系之间的一个重要区别是有参考与无参照。全参靠评价体系将编码文件与原始文件进行比较以测度质量,而无参考评价体系仅仅分析编码文件。 一般来说,全参考测度被认为是更准确的,但由于要求源文件必须可用,所以显然使用场景相对有限。

     

    无参靠评价体系可以应用于存有压缩文件的任何地方。 例如,Tektronix 公司的Aurora平台中包含了TekMOS,这是一个自动质量控制软件包,可以评估视觉质量、合规性、包完整性和其他误差。 Telestream的子公司IneoQuest开发了iQ MOS,这是一个无参考评价体系,可以为公司Inspector系列产品提供多重流的实时质量评估。

     

    所以当选择一个评价指标体系时,请记住,它可能无法应用于您想使用的地方。全参考评价体系通常用于进行编码的地方,而无参考评价体系可以应用于视频点播(VOD)文件存在的任何地方,也可以访问实时视频流。

     

    评价指标的隐含意义

     

    在选择一个评价指标体系时,重要的是要准确理解评分代表什么和不代表什么。 例如,SSIMPLUS体系中的分数范围是1-100分,其中,80-100的分数预示主观观众将视频评为优秀。 这些主观评级每下降20点,分别表示良、合格、一般、差。包括TekMOS在内的大多数基于MOS的评价指标体系都是按照1-5的等级进行评分,其中5是最好的,1是不可接受的。 这种类型的评分使结果非常容易理解和交流。

     

    相比之下,PSNR的分数范围从1到100。尽管这些数字并不被普遍接受,但Netflix认为超过45dB的数值没有任何可察觉的好处,而低于30的数值几乎总是伴随着视觉失真。这些观察对我的工作非常有用,但只有在将全分辨率输出与全分辨率源进行比较时才是如此。当应用于编码阶梯中较低梯级时,较高的数字更好,但是失去了预测主观评价的能力。例如,对于360p的视频,与原始1080p视频源相比,即使没有可见的压缩失真,您也很少会看到PSNR得分高于39dB。

     

    虽然SSIM,特别是多尺度SSIM(MS SSIM)比PSRN更准确,但评分系统预期的范围很小,只从-1到+1,也是分数越高越好。大多数高质量的视频大约在.98及以上,这使得比较起来变得复杂。虽然你可以用数学的方法计算出.985比.982要好得多,最后还是觉得难于直观理解。

     

    VMAF的得分也在1-100之间。虽然较高的分数总是较好,但对于一个540p文件,个别分数(如55分的评分)对于主观质量没有预测价值。你不能说这是否意味着视频是完美的或糟糕的。也就是说,在分析编码阶梯时,VMAF分数通常从180p流的十几或更低,到1080p流的98+,这就有效地区分了分数。另外,VMAF的6分以上意味着明显的差异(JND),这对于分析许多与编码相关的场景(包括编解码器比较)非常有用。

     

    VMAF在编码阶梯的不同梯级的评分范围,使得它在梯级中选择最佳分辨率/数据速率流时很有吸引力。相比之下,PSNR可能在30-50dB之间,而低4个梯级会在30-37之间被压缩。这降低了它作为这些梯级之间可察觉差异的预测值的价值。

     

    在选择一个评价指标体系之前,你应该明白分数意味着什么,并确保它告诉你的是你想要知道的。

     

    探访标准体系

     

    选择一个评价指标体系,要了解如何获取并访问它和要花费多少钱。 在本节中,我将简要讨论可以计算上述评价指标体系的工具,从FFmpeg(FFmpeg是一个可以计算PSRN和SSIM的免费工具)开始。

     

    莫斯科州立大学(MSU)的视频质量评价指标体系工具(VQMT,直接售价999美元)支持PSNR,SSIM,MS SSIM等许多评价指标,其中包括版本10(目前该版本正处于测试阶段)的VMAF。 图3中的顶部窗口显示了两个1080p对话头文件的VMAF得分,其中一个以4500Kbps编码,另一个以8500Kbps编码,顶部的图显示整个文件,下面的图显示上方左侧的高亮区域。由于分数非常接近,表明额外花费在最高质量码流上的4Mbps浪费了。


    Figure 3. 使用莫斯科州立大学VQMT工具比较VMAF 

     

    您可以拖动播放头,并将视频中的任何帧并排显示,如图3底部所示,或者一个显示在另一个上面。这后一种视角使得在两个编码文件和原始文件之间切换变得简单,这更好地显现了像上面提到的色移那样的微小差异。 VQMT可能提供了在两个编码文件之间进行A / B比较的最佳界面(图3),并且其批量操作非常灵活。


    不利的一面是,VQMT只能比较相同分辨率的文件,因此如果您在编码阶梯上分析较低分辨率的梯级时,则必须先手动将它们缩放到全分辨率,这需要花费时间和大量的硬盘空间。在测试版中,VMAF的执行速度非常慢,实际上只使用了我的40核HP Z840工作站的一个核,我们还是希望这会在最终的产品中得到改善。 MSU提供的免费试用版仅适用于小于720p的文件,但这是通过它熟悉工具程序的好方法。我们也回顾了旧版本的VQMT。

     

    Hybrik媒体分析仪


    对于大批量的分析,Hybrik媒体分析仪可以计算PSNR,SSIM和VMAF(图4),其地位很难撼动。 举个例子,我最近在Streaming Media West的演讲中,评估了四个per-title编码分析功能,包含15个测试文件和一个七级编码阶梯。 我必须将每个系统运行两次,一次找到基准线,另一次部署per-title编码程序。 这意味着我必须计算大约840次的PSNR和VMAF,并将结果复制到电子表格中。

     

    Figure 4. Hybrik媒体分析仪

     

    您也可以通过JSON API驱动操作,当然,用UI更简单。您一次加载七个编码文件,选择源文件和要运行的测试,云编码器便将从此处开始,自动执行所有必要的缩放。这变成一个输入、七个输出的任务。分析完成后,您可以将结果导出到CSV文件中,并将其导入到电子表格中,从而将复制和粘贴操作(分辨率、数据速率、PSNR、每个梯级的VMAF分数)从30次左右减少到3到4次,既节省了时间,同时也减少了发生错误的可能性。在运行VMAF时,Hybrik比MSU VQMT的CPU效率也高得多,因此可以更有效地利用所有的云实例。

     

    唯一的问题是,Hybrik不提供仅分析的定价,对于多达10个同时运行基于AWS系统的云实例,访问系统的最低收费为$ 1,000 /月。如果这个成本不是很高的话,或者Hybrik决定提供只分析服务定价的话,那么这项服务很可能会成为那些要在规定日期前完成压缩或者要进行大批量测试的人的大救星。

      

    专有工具

     

    大多数其他评价指标体系仅在专有工具中可用,例如上述的Aurora,它提供的视频质量评价指标远不止于此,并且有多个版本,售价从4,850美元到33,000美元不等。 对于所有这些版本,TekMOS的定价都是4000美元。 该软件运行于Windows Server 2012 R2或更高版本。

     

    您可以通过API或UI运行Aurora。 无论使用哪种方式,要分析一个文件,你需要选择文件和一个模板(模板中有选定的检查和验证选项)。TekMOS的结果以数字和图形格式给出,如图5所示,平铺、噪声和模糊可单独显示,以帮助解释分数。

     

    Figure 5. TekMOS的结果显示平均得分为2.894,模糊和平铺是最显著的问题。

     

    Tektronix 还销售一系列具有上述PQR和ADMOS评价指标体系的全参照图像质量分析仪以及其他产品。这些系统的价格从18,400美元左右起,不过你还需要花费9,180美元才能获得批量操作等基本功能。

     

    SSIMPLUS算法用于SSIMWave整个产品线,而SSIMPLUS分析仪提供最广泛的分析功能。分析仪是一个非常灵活的产品,可以测量具有不同分辨率和帧率的文件,而且可以同时计算多个设备上的评分。除了基于文本的输出文件之外,软件还可以输出质量图,您可以使用质量图来比较不同的文件。除了用于批处理文件操作和单文件操作的Windows GUI之外,分析器还可用作Linux,Mac和Windows SDK以及命令行接口。该公司没有回应我们对价格信息的询问。我们回顾了一个旧版本的分析仪。

     

    最后,尽管我从未亲自测试过Video Clarity的产品,但其销售一系列硬件、软件和基于云的分析工具,包含全参考视频质量评价和无参考视频质量评价。如果您正在考虑投资视频质量控制领域,请务必也关注下Video Clarity公司。

     

    总结

     

    根据我的经验,这个工具越昂贵,它的操作就越怪异。仅仅靠阅读规格表是不可能理解如何使用一个工具或评价指标的;您必须花费数小时的时间来使用,并反反复复主观验证其结果,直到您确信数值分数代表真实结果。这还有可能根据任务的性质而不断改变。一般如果没有试用版,我是绝不会在任何视频质量分析工具上投入大笔资金的。

     

    您也可能会发现使用不同的评价指标会对您的测试结果产生影响,并且您的偏好会随着时间的推移或项目的改变而变化。在我的客观评价指标的使用过程中,我开始对Video Quality Metric(VQM)很感兴趣。这是一个基本的度量标准,在用于识别我为一个咨询项目分析的编解码器之间的差异时,表现优于PSNR和SSIM。然而,原始分数并没有表明主观用户如何评价视频。另外,由于它对于大部分人相对比较陌生,所以一个VQM得分对客户或读者来说没有什么意义。

     

    对于更一般的工作,我使用PSNR,它的分数易于解释,并且众所周知。让我们面对现实,PSNR在某些应用中仍然很有用。Netflix在其per-title编码引擎中直到2016年年中前,还一直在使用PSNR,即使被VMAF替代以后还继续在大多数编解码器比较中引用PSNR结果(当然也有 VMAF的结果),就可以证明这一点了。

     

    后来的项目涉及选择移动设备的配置,使得SSIMPLUS成为一种自然选择,因为它具有非常易于使用的设备指定选项。最后,一旦我开始为客户分析编码阶梯,我开始越来越多地使用和喜欢VMAF;它可以获取和访问,并且是专门为编码阶梯而设计的。当然,由Netflix开发的这一事实也使VMAF获得了巨大的技术信誉。

     

    谈到质量评估,一方面还可以做得更好,另一方面也算聊胜于无。因此,如果您开始关注VMAF或某些更高质量,基于感知的评价指标,请使用这些评价指标。如果不行,那么PSNR、SSIM或MS SSIM对于评估编码参数(如编码预设、关键帧间隔、比特率控制技术等),或如在图3中用VMAF比较编码阶梯上类似分辨率梯级的质量,也有很好的表现。在比较编码工具时,我会对这些评价指标不那么信任。并且,在比较编解码器时,如果不能从另一个评价指标中验证分数,我也不会使用它们。


    短视频开发分享预告


    《短视频开发进阶》分享将于今晚20:00跟大家见面,全民快乐高级研发总监展晓凯将分享酷炫短视频开发的设计架构、实现思路以及研发过程中的经验。


    扫描下图中的二维码,就能参与进来。我们还将抽取10小伙伴赠送多媒体移动端开发书籍。


    扫描下方图中二维码,加入直播群。

    展开全文
  • 如何评价测试人员工作绩效[2] 软件测试 二、建议测试人员进行综合性的全面评价 评价方法如下: 三、总结 综上所述,必须本着以测试质量为重、测试负责的角度测试人员绩效进行客观评价,同时也提高测试...
  • 首先建立了包括有害气体、热环境、粉尘...然后基于多目标决策理想区间法某矿15513采煤工作面环境进行了综合评价。结果表明,能够全面客观评价煤矿工作面环境质量,且由于包含了二级指标,能够得到更为丰富的评价信息。
  • 面向图像失真的感知质量评价是图像处理领域中一项基础而富有挑战性的工作。可靠的图像质量评价标准可用于监控网络视频的服务状况、分配压缩算法中的比特率参数、校准图像采集和处理系统等。图像质量评价最准确的方式...
          面向图像失真的感知质量评价是图像处理领域中一项基础而富有挑战性的工作。可靠的图像质量评价标准可用于监控网络视频的服务状况、分配压缩算法中的比特率参数、校准图像采集和处理系统等。图像质量评价最准确的方式是通过人眼判读。然而主观评价的方法由于预算昂贵操作复杂,无法在实际中广泛开展;
          同时,传统的信号误差统计方法如PSNR和MSE等的评价结果并不能很好的符合人眼的主观感受。因此为了进一步推动图像处理技术的发展,需要研究基于人眼视觉感知的图像感知质量评价方法。 本文针对图像质量评价领域中近年来兴起的工程学客观评价框架,结合传统仿生学评价模型中使用的HVS感知特性,探讨研究了工程学框架中的局部失真度量和失真特征汇集的方法设计,并提出了一种基于内容信息提取的新的工程学评价算法;

          同时本文还探究了主客观一致的SAR图像压缩视觉质量的评价问题,主要工作包括: 
    (1)概括了生理学和心理物理学领域关于HVS的研究成果,总结了与生物视觉相对应的信号与信息处理技术,为设计高效的图像感知质量评价算法提供了依据。
     (2)基于HVS空间-频率的交互敏感性,设计了依照局部图像复杂度选择不同多通道评价模型的局部失真度量方法。首先,采用图像区域划分算法将图像划分为复杂区域和简单区域;然后对不同区域,分别使用空域和小波域SSIM算法度量局部失真;最后综合得到全图的质量评价结果。实验结果表明,综合使用HVS空域和频域感知特性的局部失真度量算法在评价准确性方面优于只单纯使用空间域或频率域HVS特性的改进SSIM算法。

     (3)针对工程学评价框架中的失真信息汇集问题,分别研究了局部质量特征在空域和频域的汇集模型。空域方面,首先提出一种考虑视觉侧抑制现象的结构熵权值算法;然后以结构熵为基础设计了模拟视觉信息非均匀采样特性的变尺度空间汇集模型。频域方面,本文通过引入机器学习思想,实现了基于人工神经网络的频谱多通道失真汇集模型。实验结果表明,在相同局部失真评价算法下,本文提出的汇集方法性能优于传统基于视觉注意机制和CSF加权的汇集方法。

     (4)根据图像的失真会造成图像内容的改变和丢失,提出了基于内容信息提取的普通图像质量评价方法。首先使用SIFT算子提取局部图像内容关键点,然后通过比较关键点的匹配与相似性评估图像整体和细节的内容失真,最后自适应加权图像内容失真度量和结构失真度量得到最终的评价结果。实验结果显示,提出的基于图像内容信息提取的评价方法在多个数据库上的评价准确性优于当前的最优工程学方法VIF。
     (5)针对将含噪图像有损压缩思想应用于SAR图像压缩的合理性问题,开展了主客观一致的SAR图像压缩视觉质量评价研究。首先通过设计组织主观评价实验获取了经4种压缩算法压缩后的300幅测试图像的主观质量;然后综合考虑SAR图像目视特性和HVS敏感性,提出了一种基于图像内容分解和支撑矢量回归的SAR图像压缩专用客观评价方法。实验结果表明,由于相干斑的存在,特定条件下有损压缩会导致SAR图像视觉质量出现一定的提高;同时提出的专用客观评价方法不仅在评价准确性上优于常见的保真度评价指标,而且能准确地预测压缩后SAR图像质量可能上升的特殊现象。

     综上所示,本文基于人眼视觉感知特性,结合图像信号表示、视觉注意机制、图像理解、机器学习理论和主观质量评价实验,提出了多种自然图像质量评价算法和专用的SAR图像压缩质量评价算法。实验结果表明。提出算法均具有较好的主观感受一致性,能够为图像处理算法的比较、改进和优化提供可靠的性能标准。
    展开全文
  • 在知乎上看到有关成像质量客观测试技术的文章,觉得讲的很精彩,作者以行车记录仪案例做分析,开展了各种影像技术客观评价标准。 因为我的工作的原因,我经常做的事情就是做成像质量测试,包括手机成像、行车记录...
    作者:右下角
    链接:https://www.zhihu.com/question/22499326/answer/100824096

    在知乎上看到有关成像质量客观测试技术的文章,觉得讲的很精彩,作者以行车记录仪案例做分析,开展了各种影像技术客观评价标准。

    因为我的工作的原因,我经常做的事情就是做成像质量测试,包括手机成像、行车记录仪成像、安防摄像头成像等等,都是我测试的目标。之前做了一个《用数据说话-主流行车记录仪图像质量剖析》报告,就测了12款行车记录仪。回归正题,我们该如何选购行车记录仪?
    现有的行车记录仪均标称是高清行车记录仪,标示了720P,1080P,1296P,这些参数代表了什么呢?大家且看下表:

    大家看到这个表格的数据可能觉得奇怪,在如今千万像素级相机、手机满天飞的年代,行车记录仪普遍不超过300万像素,能够拍清车牌吗?
    其实是可以的——只要你贴得够近。
    当然,这只是一个玩笑。所以,行车记录仪的像素还是大一点比较好。
    除了像素,行车记录仪商家还常常标出一个参数:超广角。
    这个广角和成像效果之间到底有没有关系呢?我们特意做了一个实验。

    下图为车牌标准字体和大小:

    车牌主要是由字母和数字构成,下面我们取6个高像素数字、字母,作为可分辨车牌的极限参考尺寸,根据国家标准规定的车牌大小计算,分别来看下720P,1080P和1296P的行车记录仪到底在多远距离可以拍清楚车牌:

    通过上图,我们可以看出视场角越大,拍摄到的范围越广,而要拍清楚车牌,则需要离车牌的距离更近。

    举个例子,水平视场角120度的行车记录仪,720P最远可拍清楚5.5米距离的车牌,大概一个车身的距离。而1080P则可拍清楚8.3米的车牌,大概1个半车身的距离。而1296P则可拍清楚10米远外的车牌,约为2个车身的距离。

    那么如何选择视场角呢?是不是视角越大越好呢?我看未必。只有最适合的才是最好的,过分追求更大的视角只是浪费。毕竟鱼和熊掌不可兼得,超广角和拍照效果确实是成反比的,同样像素级别的行车记录仪,视场角越大成像质量就会越差。

    根据以往交通事故的统计,前撞和侧撞占了所有事故的7成以上。如果去停车场转一圈,大家可以看到车头左右两侧有擦痕的车辆不在少数。

    笔者认为视场角以接近120度为佳,可覆盖整个车头,而且3米远外即可覆盖三车道,一旦发生事故,相邻车道的车况可一览无余。

    影响成像质量的其他因素:


    除了上述的像素和视广角,还有一些因素也会影响到成像质量。我们实验室挑取了京东,淘宝销量考前的10款行车记录仪,分别测试了一下项目:


    ==============================================================

    6月8日更新

    由于这个测试项目实在是太多了,我怕大多数人没有耐心看完这个测评报告,我就先把结果贴出来吧。有兴趣了解这个得分如何出来的,可以一个个测试项目地看。

    这个得分是综合各个测试项目得出来的分数,仅供参考~这个得分是综合各个测试项目得出来的分数,仅供参考~

    ==============================================================

    以下是漫长的测试过程!~~


    我们选择了电商平台京东、淘宝中销量靠前的12款行车记录,通过各种实验,深度测试其拍摄的图像质量。在这里,考量到部分土豪会拿Gopro当行车记录仪来用,同时也因为其响亮的名气和良好的性能,也常常被部分厂家拿来做对比,所以,我们这次也把Gopro加入了对比测试名单,看看Gopro是不是真的如传说当中那么神奇。

    (上述信息来源于京东,淘宝宣传资料)

    1、 曝光

    1.1 曝光范围:测试行车记录仪在不同亮度环境下的表现,极路客T1表现最好

    我们使用日本京立LB-8110与LLB-1300,模拟从LV0(照度0.4Lux,模拟夜晚环境)~LV20(45万Lux,模拟夏天晴天中午)的亮度环境,确认行车记录仪在这些环境中是否可以正确曝光。请看下图:

    由上图可以看出,各家的行车记录仪在各个灯照强度下测试的辉度值都是不一样的,任e行 D3、奔安达、盯盯拍 M6C在光照强度LV16——LV17之间的时候,就已经出现了过曝的现象。表现最好的是极路客T1,在LV20的时候都没有出现过曝的现象。但是这里不得不提一下飞利浦ADR800,其最高辉度值只到235(理论上应为255),不知道是黑科技还是无厘头,永远不会过曝,但也无法分辨亮部细节,硬生生的砍掉了一部分亮部细节。

    1.2场景切换响应时间

    据统计,有为数不少的车祸发生在高速路隧道进出口,主要是因为人眼在环境明暗突然变化时,需要一定的时间去适应环境,而在适应环境的过程中会有短暂的视觉失效或视力下降。那么行车记录能否快速响应明暗场景切换,忠实记录行车路况呢?

    我们使用日本京立LB-8110辉度箱 LV2档模拟隧道内昏暗环境,LV10档模拟隧道外的明亮环境,两档切换时间为0.2秒,测试行车记录仪的场景切换时的响应时间:

    由上图可以看到,各个型号的行车记录仪从昏暗切换到明亮环境的响应时间和从明亮切换到昏暗环境的时间都不尽相同。以从昏暗切换到明亮环境为例,360行车记录仪需要6秒才能响应过来,而盯盯拍只需要1秒。

    2、颜色: PAPAGO在低色温环境下会出现明显变色

    对于行车记录仪的用户来说,可能并不太关注颜色,但实际上,一旦发生事故逃逸,在没有排清车牌的情况下,交警可根据肇事逃逸车辆的车型和车身颜色快速锁定嫌疑车辆,行车记录仪能否忠实地还原色彩就显的非常重要了。

    我们通过测试颜色的均匀性和颜色还原度,给各个行车记录仪的色彩性能打分,结果如下。

    让人意外的是,行车记录仪的老牌劲旅PAPAGO颜色较为异常,其在低色温下明显偏红黄,请看以下视频截图:

    在这种情况下,深蓝色的车会被直接拍成黑车,势必会引起一些误导。

    3、帧率和快门时间:凌度HS900、飞利浦、任e行 D3、捷渡D610S、奔达安都出现了虚标帧率的现象,实测帧率与其标称的帧率不完全符合

    帧率(Frame Rate)表征的是视频1秒钟内记录的连续画面的张数,帧率越高,画面会更流畅,同时也说明主芯片的处理能力越强,全高清Full HD一般会要求帧率达到30帧。那么行车记录仪的帧率是否和厂商标示的一样高呢?是否有丢帧、算法插帧的情况出现呢?

    由上图可以看出,大部分行车记录仪实测的帧率和标称的帧率还是大致吻合的,但是也有个别行车记录仪测试出来的帧率和标称的帧率有一定的差距。可以看到在弱光环境下,为获得更好的曝光,部分厂商做了降帧处理。

    为什么降帧就能获得好的曝光呢?这里就要提到另外一个重要参数:快门时间,即真正在采样的曝光时间。

    帧率同为30帧/秒,每帧时长1/30秒,但其快门时间却各有千秋。明亮环境中快门时间甚至可短至1/4000秒,在弱光环境下快门时间则会大大增加。当快门时间超过1/30秒,只有降低帧率才能获得好的曝光。所以我们会发现,同样帧率都是30帧/秒,画面同样流畅,但白天在80km/小时的速度都能拍清楚车牌,到了晚上20Km/小时却拍不清楚车牌。

    为了让大家更好理解快门时间对成像的影响,我们在光线充足的环境下,帧率同为30帧/秒,但快门时间分别设定为1/100秒、1/500秒、1/1000秒、1/4000秒,拍摄以相同速度运动的小风扇。

    由上图我们可以看到,当快门时间为1/100秒的时候,风扇叶片全部糊成一片,完全看不清楚风扇扇叶和上面的文字,而当快门时间越来越小直至1/4000秒的时候,我们就可以逐渐看清楚扇叶的轮廓和上面的文字了。快门时间越短,视频中运动物体的拖影就越小。以下是我们实验视频的链接,有兴趣的朋友可以复制链接到地址栏,打开就能看到。快门时间对成像质量的影响

    同样的道理,行车记录仪需要拍摄相对运动的物体,那么快门时间必须要短。根据我们实测,在白天环境下,各个行车记录仪基本都可以在高速运动时拍摄清楚前车的车牌。但是在晚上光线不足的环境下,即使汽车的相对速度只有20Km/h,暂时也没有一款行车记录仪能拍摄清楚前车的车牌。但是我们相信,随着科技的进步,能够在夜间抓拍车牌的行车记录仪神器在不久之后也会出现。

    4、视场角:厂家标称的视场角往往不是水平视场角

    前面我们提到水平视场角以120°为佳,那么各行车记录仪的视场角表现如何?

    很多厂商宣称其视场角时,往往会说采用镜头视场角。但镜头视场角并不等于画面视场角,因为匹配对位及校正校准的原因,Sensor对角线必定会小于镜头的像场,所以画面视场角往往会小于镜头视场角。另外对于广角镜头来说,因为畸变,角落部分挤压了过多的景物,往往无法分辨。所以,我们选用水平视场角来对各个行车记录仪进行评测。

    5、清晰度

    5.1 MTF 调制解调函数(静态):MTF值达到0.5,说明行车记录仪的镜头分辨率超越Sensor(传感器),则相机像素数越高,成像分辨率越高。

    在影像质量测试领域,MTF(调制解调函数)用来测试相机的清晰度,您可以简单的认知为对比度,当黑白对比度低于10%时,人眼基本上就无法分辨。照片中的物体的对比度一般来说会低于实物本身的对比度,物体越细密,也就是专业术语说的空间频率会越高,比如说头发、睫毛等,照片中的对比度会越低。照片的清晰度主要由镜头分辨率和Sensor(传感器)决定。我们选用MTF 值10%作为极限对比度,空间频率用Cycle/pixel单位来表示。若MTF 10%对应的空间频率达到0.5 Cycle/pixel,则可认定镜头分辨率已超越Sensor,则相机像素数越高,成像分辨率越高。但当MTF 10%对应的空间频率低于0.5 Cycle/pixel时,则镜头的分辨率无法满足Sensor,则相机像素高不代表成像分辨率也高。

    行车记录仪的水平视场角基本在100度以上,属于广角范畴。我们采用法国DxOAnalyzer的MTF 鱼眼测试模块,对行车记录仪的MTF进行测试,分别测定画面中心,上下左右四边和四个角的MTF。(测试格式均为1080P)

    测试结果如上图所示,大部分行车记录仪成像还是比较清晰的,满足FULL HD1080P全高清的要求,但还是有一部分行车记录仪清晰度较差。一般来说,画面中心会比四角的清晰度更高,广角更是如此。

    5.2纹理质感: 纹理质感得分越高,细节保留越好

    很多行车记录仪为了提高清晰度,均使用了极强的锐化算法,相应的很多细节则保留较少。虽然轮廓清晰,但将人脸皮肤拍摄成胶皮,将树冠拍摄成一团绿,这样的成像缺少细部层次感和质感。

    Dead Leaves测试卡是专门测试成像纹理质感的工具,我们用它来对行车记录仪的成像质感保留程度进行测试、打分,结果如下。

    以下为盯盯拍和360,小蚁行车记录仪实拍落叶图时视频截图对比,可以看出小蚁相对360有更多明暗细节保留。

    5.3视觉分辨率:

    ISO12233视觉分辨率测试卡主要测试相机能够拍摄到的最细的黑白线对,单位为LW/PH(line Width per Height,线宽每像高)。视觉分辨率越高,就能够看清更细的黑白线对。当然,高清1080P高度方向只有1080线,所以,对于高清视频来说,理论上的最大值是1080LW/PH。

    但是由于畸变的原因,相同大小的物体出现在画面不同位置时,在画面中的大小是不一致的,对于广角来说,画面中心往往会比在画面四角大很多,所以,我们会看到画面中心的视觉分辨率会超过1080LW/PH,但相应的四角就会差更多。

    行车记录仪一般为超广角,其对焦距离一般设置在2米以外,所以如果要测试视觉分辨率,测试卡一定会非常大。英迈吉影像测评实验室为此特定制了一张等效大小为6米*3.4米的超大测试卡,用于测试其视觉分辨率。以下是各个行车记录仪的成像分辨率的测试结果。

    5.4动态清晰拍摄距离:白天大多能在10几米外看清车牌,晚上一旦相对速度超过20m/s没有一款行车记录仪能看清车牌

    2.1~2.3清晰度测试均是在静止状态下进行测试,而行车记录仪的主要用途是在行驶过程中记录路况。人眼在快速行驶状态下视力会有所下降,速度越快,下降越多,那么快速移动时行车记录仪是否也有相同的问题呢?

    我们分别在白天和晚上以不同速度通过路旁静止的车辆,测量记录各款行车记录仪的动态清晰度表现。

    白天 天气:多云 照度: 3万Lux

    夜晚: 城市道路,路灯开启,照度:19 Lux

    夜晚昏暗环境下,只有在相对近乎静止的状态才能拍清楚车牌。但是如果车辆运动起来,即使相对速度20Km/小时,也因为出现拖影无法辨识字体,所有的行车记录仪都全军覆没,无一例外。所以大家如果想在晚上抓拍非法占用应急车道车辆的车牌,除非你和目标车辆的相对速度接近0,否则肯定会出现拖影无法辨识车牌字体。

    6、噪声

    这里的噪声不是指我们平时常说的杂乱无章的声音。在图像测试里,噪声是在图像采集转化的过程中,随机加入的非线性的伪信号,如果噪声较大,就会覆盖正常的信号,从而无法正确的还原真实的场景信息。

    6.1信噪比:信噪比越高,画面会更加干净和稳定

    空间噪声我们使用信噪比(S/N)来衡量,信噪比越高,则画面会更加干净和稳定,信噪比(S/N)越低,则画面会看起来很嘈杂,视频中比较明显的就会有局部的闪动,更加极端的话,就是坏点、热点,导致其不会对场景变化做出响应。信噪比的单位为dB, 信噪比的典型值为36~45db,高于45dB,则画面干净,基本察觉不到噪声;若低于36dB,则就有明显可感知的噪声,画面看起来较为嘈杂。

    下为各个行车记录仪成像的信噪比测试结果:

    6.2动态范围:动态范围越大,能采集到的明暗范围会更宽广,其所能表现的层次越丰富

    动态范围是指行车记录仪能记录原稿的色调范围,即从最黑到最亮时,行车记录仪可以分辨的最高亮度与最低亮度的比值。动态范围越大,能采集到的明暗范围会更宽广,其所能表现的层次越丰富。具备高动态范围功能WDR或HDR的行车记录仪,暗部或亮部会有更多细节。下为各行车记录仪的动态范围值:

    一般来说,若不做特殊处理,动态范围一般在8个Ev,也就是256左右,而加了HDR算法等,则可容纳更多明暗对比。极路客T1很明显已经加入了WDR或HDR,其动态范围值遥遥领先,傲视群雄。

    7、漏秒:近三分之二的行车记录仪均有少量漏秒

    行车记录仪虽然持续在拍摄,但保存的文件会依一定的时间段切割保存,那么切割的时间点前后是否都有全部记录下来呢?在保存文件时,行车记录仪主芯片负荷会较重,一些低端的行车记录仪会漏掉前后1~2秒钟的路况,这样就很可能没有拍到发生事故的瞬间。从这个角度来说,英迈吉建议大家不要使用会漏秒的行车记录仪。

    英迈吉对各款行车记录仪进行了漏秒性能测试,测试结果如下。

    从上面的测试结果中我们可以看到,近三分之二的行车记录仪均有少量漏秒,丢掉了1~2帧的画面,虽然时间极短(请注意时间单位是毫秒),似乎不太影响使用,但这可不是一个什么好的讯号。事故也是一瞬间的事情,还是以不漏秒为好。

    8、伪像

    8.1畸变

    畸变是照片和视频中物体相对实物本身出现的扭曲和变形,可分为桶形畸变和枕形畸变。对于广角来说,一般都是桶形畸变。我们测试行车记录仪的TV Distortion来分析各个行车记录仪的形变量,一般来说,视场角越大,畸变越大。

    如下图,水平视场角同为118度,但惠普F520的畸变明显比GoPro Hero4大很多,其中心块所占的像素数更多,鼓出的效应也更明显。

    8.2暗角:视频画面四角相对于中心亮度下降的百分比越高,抗暗角能力越差,越多暗角的细节无法看清

    使用广角镜头拍出来的照片,往往画面的四角会较中心暗一些,英迈吉通过测试视频画面四角相对于中心亮度下降的百分比来衡量行车记录仪的抗暗角能力。

    PAPAGO水平视场角虽然只有80度,但其暗角却比水平视场角118°的GoPRO Hero4还要差很多,出现了明显的暗角,如下图:

    8.3锐化:锐化可以提升清晰度,但同时会造成许多细节丢失

    很多厂商会通过锐化来提升清晰度,其原理是在黑白边界由算法人工加入比实物本身更黑和更白的边,相当于重新描了一次边,适度的锐化可提升画面清晰度,而过度的锐化则会掩盖原有的边缘和层次,许多细节反而会丢失。各行车记录仪的锐化程度如何呢?


    对比360 J501和惠普F520,明显惠普F520锐化过度,如下图:


    =============================我是分割=================================
    这个答案竟然被收录为知乎的编辑推荐了,简直让我觉得有点受宠若惊。
    其实严格来讲,我不是专业的行车记录仪评测的,我只是一个影像质量评测工程师,只对行车记录仪的成像做评测,而不负责测试其他项目。
    行车记录仪的成像质量很重要,但不是全部,其他属性如防晒、死机等性能也是非常重要的,但是我并没有涉及,所以大家不要再问我推荐哪一款行车记录仪了,因为我也说不准。
    今天,为了感谢各位的点赞,我就拓展一下谈谈影像质量评测到底是怎么一回事吧,感兴趣的可以看一下,不感兴趣的关了吧。

    影像质量到底怎么算好,一直都没有一个定论。有人觉得美颜相机那种把人美化了的效果是好的,有人觉得在黑暗的环境下能像白天一样正常拍摄就是好的……
    而在我们影像质量评测领域,一切都是以人眼为标准,人眼看到是什么样,呈现出来的图像就应该是这样。

    目前,图像质量评价从方法上可分为主观评价方法和客观评价方法,前者凭借实验人员的主观感知来评价对象的质量;后者依据模型给出的量化指标,模拟人类视觉系统感知机制衡量图像质量。下面,就由我为大家详细讲解一下这两个图像质量评价方法的区别和特点。

    一、主观评价

    主观质量评分法是图像质量最具代表性的主观评价方法,它通过对观察者的评分归一化来判断图像质量。而主观质量评分法又可以分为绝对评价和相对评价两种类型。

    绝对评价是将图像直接按照视觉感受分级评分,表 1.1 列出了国际上规定的 5 级绝对尺度,包括质量尺度和妨碍尺度。对一般人来讲,多采用质量尺度;对专业人员来讲,则多采用妨碍尺度。

    相对评价是由观察者将一批图像从好到坏进行分类,将它们相互比较得出好坏,并给出相应的评分。相对尺度如表 1.2 所示。

    图像质量的主观评价方法的优点是能够真实的反映图像的直观质量,评价结果可靠,无技术障碍。但是主观评价方法也有很多缺点,如需要对图像进行多次重复实验,无法应用数学模型对其进行描述,从工程应用的角度看,耗时多、费用高,难以实现实时的质量评价。在实际应用中,主观评价结果还会受观察者的知识背景、观测动机、观测环境等因素的影响。此外,主观质量评价无法应用于所有场合,如需要进行实时图像质量评价的领域。

    二、客观评价

    图像质量的客观评测是根据人眼的主观视觉系统建立数学模型,并通过具体的公式计算图像的质量。相比主观评测,客观评价具有可批量处理、结果可重现的特点,不会因为人为的原因而出现偏差。

    一般来说,图像质量客观评价会分成九个评测项目,曝光、清晰度、颜色、质感、噪音、防手抖、闪光灯、对焦和伪像,每一个评测项目往往还会分成好几个评测小项目,如伪像就要测试锐化、畸变、暗角这些项目。通过测试这些项目,通过科学的计算,可以非常直观地看到图像的性能的各个方面的表现有何不足。


    测试这些项目我们通常用到的一个方式是: 测试卡+光源+测试仪器+测试软件=测试结果。
    测试卡
    种类非常繁多,每一种测试卡都可以测试一个或多个测试项目,比较出名的就是ISO12233分辨率测试卡,是一张专门测试分辨率的测试卡。
    光源也是一个非常重要的。我们都知道,拍照对光的要求是非常高的,巧妇难为无米之炊,摄影师也难为无光摄影。我们实验室通常会配置非常多的光源箱,可以在实验室里模拟各种光照环境。
    测试仪器也是多种多样,根据不同的测试项目,研发了特定的测试仪器。如镜头的MTF值,我们有专门的MTF测试仪,通过测试镜头的MTF值,我们就能判断这个镜头模组的质量,从而找到调试方向。除此之外,我们还有闪关灯测试仪、光面距离测试仪、快门时间测试仪等等。
    测试软件主要有三个,德国的IE,美国的Imatest和法国的DxO Analyzer,这三个测试系统都是符合国际IEEE标准的,而且在世界上知名度比较高。我们实验室用的是DxO,和那个相机、镜头、手机测评网站dxomark的那个网站用的测试系统是一样的——DxO Analyzer和dxomark都是法国DxO公司的产品。
    我们的测试的流程基本就是:在指定的环境下拍照——输入测试系统——系统自动分析得到结果——分析测试结果。

    以上就是影像质量测评的一个基本介绍。平时我们也是测一些电子产品,如手机、相机、安防摄像头、行车记录仪等等,这些产品的测试项目不尽相同。我们也会做一些收费测试,帮厂商未上市的产品做测试,比如华为、oppo、vivo等等这些都是我们的客户。之前华为P9就是在我们实验室测的,由于商业秘密原因,测试结果我就不在这里公开了。
    展开全文
  • 2019工程伦理慕课答案(2019秋)习题及期末答案

    万次阅读 多人点赞 2019-11-08 18:19:53
    下列哪些属于工程项目社会评价的社会公平指标?() 基尼系数 恩格尔系数 就业率 公众参与度 第四章习题(下) 单选题 提出保护资源的目的是为了自然本身的利益,而不是人类的利用,这是()...
  • 在2002在德克萨斯大学的创建、结构相似性(SSIM)的图像质量评价算法已经成为一个有价值的工具的静止图像和视频处理分析。提供了一个大的进步在SSIM MSE(均方误差)和PSNR(峰值信噪比)的技术,因为它更相符的结果...
  • 研究生工程伦理课程答案整理

    万次阅读 2019-12-17 09:55:12
    1.多选(1/1分) “什么是好的、正当的行为方式?”这一问题的思考和争议由来已久,从而形成了不同的伦理学思想和伦理立场。大体上,可以把这些伦理立场概括为() 口功利论 口契约论 口义务论 口德性论 正确答案:功利...
  • 目前,水利工程进行可行性论证时,包含如下哪些评价内容: 技术 经济 环境 伦理 在进行区域水资源配置时,为贯彻公平正义的原则,应该考虑哪些因素? 区域水资源总量的贡献 区域水资源的依赖程度 ...
  • 客观评价golang的优缺点

    千次阅读 2019-05-21 18:19:10
    我们通常会在参数名称中 id 的类型进行编码,但是当函数具有多个标识符作为参数并且某些调用不匹配参数顺序时,会造成细微的错误。 Go 新类型有一等支持,即类型为现有类型并赋予其独立身份,与原有类型不同。 ...
  • 测试开发需要学习的知识结构

    万次阅读 多人点赞 2018-04-12 10:40:58
    -具备快速的产品及业务学习能力,敏捷全面的逻辑思维能力 -有责任心、敢于担当,工作积极主动,具备良好的团队合作精神,能融入多功能团队并与其他部门同事进行良好的沟通及合作 -热爱互联网,互联网相关业务或...
  • 测试开发笔记

    万次阅读 多人点赞 2019-11-14 17:11:58
    内容:需求项(业务,主要功能)需求子项,子项的详细描述 测试的工作需求进行测试和评审A系统测试计划《系统测试计划书》B系统测试计划《系统测试方案书》C系统测试实现《系统测试用例》 ㈡设计阶段 开发经理...
  • 软件测试面试题汇总

    万次阅读 多人点赞 2018-09-27 12:31:09
    有些什么功能,如何软件测试过程进行管理? ............................................................... 7 15 、你所熟悉的软件测试类型都有哪些?请试着分别比较这些不同的测试类型的区别与联系(如...
  • 科技成果评价科研成果的工作质量、学术水平、实际应用和成熟程度等予以客观的、具体的、恰当的评价评价完成后,由专业机构出具权威成果评价报告,并在国家科技成果登记系统完成登记,颁发成果登记证书。 中国...
  • 并以神东榆家梁煤矿44305工作面支架的实际应用工况为实例进行了分析与评价,结果表明:支架有效支护能力能够定性反映现场生产操作管理液压支架适应性的影响,可作为客观评价液压支架适应性,指导支架设计选型与...
  • 面向单个评价对象的信息熵评价模型,陈玲丽,郭鹏,评价作为决策的直接依据和基础,是管理工作中一个非常重要的问题。目前常见到的客观评价方法是针对多个评价对象的相对评价,以择
  • 《数据库原理》— 数据库系统概论第五版习题解析

    万次阅读 多人点赞 2017-05-29 14:57:48
     ( 3 )关系模型的存取路径用户透明,从而具有更高的数据独立性、更好的安全保密性,也简化了程序员的工作和数据库开发建立的工作。当然,关系数据模型也有缺点,其中最主要的缺点是,由于存取路径用户透明,...
  • 客观评价C#的优点和缺点

    万次阅读 2018-06-15 16:28:12
    本文将以全面、客观的方式评价这门语言,特别是语法方面。 其实很多人评价一门语言是带着一种感情色彩的。有些人支持C#是因为他只会C#,或者因为他是微软的老用户。但更多的人支持C#,是因为他通过比较发现C#确实比...
  • 给ADAS泼冷水?不,是客观评价

    千次阅读 2016-05-09 13:45:53
    不,是客观评价 周纯粼 发表于: 2015/02/10 16:19:31 来源:盖世汽车网 23 0 这些驾驶辅助系统到底有多可靠?它们值得依赖吗?近日,有外媒指出,驾驶辅助系统也会出错,并将因此导致安全事故。 手机...
  • 针对属性权重完全未知且属性值以专家经验给出的采煤工作面风险评价问题,根据粗糙集理论利用属性重要度分配权重的计算方法,即将权重确定问题转化为粗糙集中属性重要性评价问题,通过计算所建知识系统中决策属性特定...
  • 指标赋权与评价类方法总结

    千次阅读 2021-08-18 22:23:47
    (4)算法优缺点 1、优点 此方法的优点在于思路明晰,可以在很大程度上减少由于信息不对称带来的损失,并且数据要求较低,工作量较少。 2、缺点 其主要缺点在于要求需要各项指标的最优值进行现行确定,主观性过...
  • [技术讨论]如何评价工作

    千次阅读 2010-05-31 20:38:00
    发着数量不明不白的工资,莫名其妙的看着别人的辞职,不知所以的看到自己好像少发了一些钱,玩命的工作却没有人赏识,领导不知道你在做什么。那么你就不要来看我的绩效管理模型!更不要尝试来用它。
  • 学校评价系统

    2013-05-21 16:03:17
    目前,在很多中小学特别是中学的教务工作中,有本学校的各个科任教师的素质行为,包括上课,师德,以及其他方面的行为要做个客观工作的调查评价,这样的调查评价者主要是来自于本校的学生和教职工,由他们自己的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 29,931
精华内容 11,972
关键字:

对工作的客观评价