精华内容
下载资源
问答
  • 超分辨率综述

    2021-08-19 13:08:56
    图像超分辨率(image super resolution, SR)是计算机视觉和图像处理中一类重要的图像处理技术,是指从低分辨率(low resolution, LR)图像中恢复高分辨率(high resolution, HR)图像的过程。它有广泛的现实世界的应用,...

    概念

     

    图像超分辨率(image super resolution, SR)是计算机视觉和图像处理中一类重要的图像处理技术,是指从低分辨率(low resolution, LR)图像中恢复高分辨率(high resolution, HR)图像的过程。它有广泛的现实世界的应用,如医学成像,安防等。除了提高图像感知质量外,它还有助于提高其他计算机视觉任务。总的来说,这个问题是非常具有挑战性的,而且是一个ill-posed问题,有多个HR图像对应到单个LR图像。

    引言:

    近年来,随着深度学习技术的迅速发展,基于深度学习的SR模型得到了积极的探索,并在各种SR基准上取得了最先进的性能。从早期的基于卷积神经网络(CNN)的深度学习方法开始,各种深度学习方法被应用于SR任务的处理方法(如SRCNN)到最近使用GAN(如SRGAN)。一般来说,使用深度学习技术的SR算法家族在以下几个主要方面有所不同:网络架构、损失函数、学习原则和策略等。

    本文综述了深度学习在图像超分辨率方面的新进展。虽然已有文献对SR算法进行了研究,但我们的工作不同之处在于,我们主要研究基于深度学习的SR技术,而早期的研究大多是针对传统的SR算法进行研究,或者一些研究主要集中在基于全参考度量或人类视觉感知的定量评价。与现有的调查不同,本次调查以一种独特的基于深度学习的视角,系统全面地回顾了SR技术的最新进展。

    本综述的贡献有3个方面:

    (1)我们对基于深度学习的图像超分辨率技术进行了全面的回顾,包括问题设置、基准数据集、性能指标、一系列具有深度学习的SR方法、特定领域的SR应用等。

    (2)我们以分层和结构化的方式系统地概述了基于深度学习的SR技术的最新进展,并总结了每个组件的优势和局限性,以实现有效的SR解决方案。

    (3)我们讨论挑战和未解决的问题,并确定新的趋势和未来的方向,为社区提供深刻的指导。

    SR总览:

    下图是基于深度学习的SR方法总览:

    图片1.jpg

    问题定义:

    图像超分辨率的目的是从LR图像中恢复相应的HR图像。设存在某一HR图像 Iy,则LR图像Ix可以建模为如下的退化过程:

    Ix = D(Iy;δ)

    其中D是退化映射函数,δ是退化过程的参数(比如缩放系数或噪声分布参数)。一般来说,退化过程是未知的,只知道LR图像。这种情况下也称为blind SR,研究者需要从LR图像中(近似地)恢复出HR图像Iy_,如下:

    Iy_ = F(Ix;θ)

    其中F是SR模型,θ是F的参数。

    尽管退化过程是未知的,并且可能受到各种因素的影响(例如,压缩伪影、各向异性退化、传感器噪声和散斑噪声),研究人员正试图对退化过程进行建模。大多数工作直接将退化过程建模为单次下采样操作,如下:

    D(Iy; δ) = (Iy) ↓s, {s} ⊂ δ,

    ↓s是系数为s的下采样操作。事实上,大多数通用SR的数据集都是基于这种模式构建的,最常用的下采样操作是抗混叠的双三次插值。然而还有其他一些工作将退化过程建模为几个操作的组合:

    D(Iy; δ) = (Iy ⊗κ) ↓s + nς , {κ, s, ς} ⊂ δ,

    Iy ⊗κ 表示使用模糊卷积核κ对HR图像Iy进行卷积, nς表示均值为0,协方差为ς的高斯噪声。这种建模更接近现实世界的情况,并且可以提高SR方法的性能。

    因此SR的目标是:

    图片2.jpg

    L(Iy_,Iy)表示生成的HR图像Iy_和groud truth图像Iy之间的损失函数。φ(θ)是正则化项,λ是权衡参数。虽然SR最常用的损失函数是像素均方误差(即像素损失),但更强大的模型往往使用多个损失函数的组合。

    SR的数据集

    目前有多种图像超分辨率数据集,这些数据集在图像数量、质量、分辨率和多样性等方面都存在很大差异。其中一些数据集提供LR-HR图像对,而有些只提供HR图像,这种情况下LR图像通常是通过MATLAB中默认的imresize()函数获得(即bicubic interpolation with anti-aliasing)。如下表所示:

    图片3.jpg

    除了这些数据集,一些广泛用于其他视觉任务的数据集也被用于SR, 比如ImageNet , MS-COCO, VOC2012, CelebA。还有些使用多个数据集一起训练。

    图像质量评估(IQA)

    图像质量是指图像的视觉属性,主要是观察者的感知评价。一般来说,IQA方法包括基于人类感知的主观方法(即图像看起来有多逼真)和客观计算方法。前者更符合我们的需要,但往往费时费力,因此后者是目前的主流。然而,这些方法之间并不一定一致,因为客观的方法往往无法非常准确地捕捉人类的视觉感知,这可能导致IQA结果的巨大差异。

    客观的IQA方法分为三类:使用参考图像进行评估的full-reference方法,基于提取特征比较的reduced-reference方法,以及没有参考图像的no-reference方法(即blind IQA)。

    1. PSNR

    峰值信噪比(PSNR)是测量有损变换(如图像压缩、图像修复)重构质量最常用的方法之一。对于图像的超分辨率,通过图像之间的最大像素值(L)和均方误差(MSE)来定义PSNR。

    给定ground truth图像I和重构的图像I_,则I和I_的PSNR定义如下:

    图片4.jpg

    在一般情况下使用8位表示时L等于255。由于PSNR只与像素级的MSE有关,只关心对应像素之间的差异,而不关心视觉感知,往往导致在真实场景中表征重构质量较差,在真实场景中我们通常更关心人的感知。然而,由于需要与文献中其他方法进行比较,且缺乏完全准确的感知指标,PSNR仍然是目前应用最广泛的SR模型评价标准。

    2. 结构相似度SSIM

    针对人类视觉系统(HVS)高度适应于图像结构的提取,提出了基于亮度、对比度和结构的独立比较的 结构相似度指数(SSIM)来度量图像之间的结构相似度。

    对于N个像素的图像I,亮度µI和对比度σI是图像灰度的均值和标准差,即:

    图片5.jpg

    图片6.jpg

    I(i)是第i个图像的强度。然后ground truth图像I和重构的图像I_的亮度和对比度的比较如下:

    图片7.jpg

    其中C1 = (k1L)2、C2 = (k2L)2是用于避免数值不稳定的常数。k1<<1,k2<<1。

    图像结构由归一化像素((I-µI )/σI)表示,其相关性(即内积)可以用来测量图像结构相似度,等价于I和I_之间的相关系数。因此图像结构相似度定义如下:

    图片8.jpg

    其中σI,I是I和I_之间的协方差,C3是用于稳定系的常数。

    最终SSIM定义为:

    图片9.jpg

    α,β,γ是调节相对重要性的控制参数。由于SSIM从HVS的角度来评价重构质量,较好地满足了感知评估的要求,也得到了广泛的应用。

    3.平均意见评分MOS

    平均意见评分(MOS)测试是一种常用的主观IQA方法,其中要求人类评分者为测试图像分配感知质量分数。通常,分数从1(差)到5(好)。最后的MOS值是所有评分的算术平均值。虽然MOS测试似乎是一种可靠的IQA方法,但它有一些固有的缺陷,如非线性感知量尺度、评分标准的偏差和方差。在现实中,有一些SR模型在常见的IQA指标(如PSNR)中表现较差,但在感知质量方面却远远超过其他模型,在这种情况下,MOS测试是准确测量感知质量的最可靠的IQA方法。

    4.基于学习的感知质量

    为了在减少人工干预的同时更好地评估图像的感知质量,研究者试图通过在大数据集上学习来评估感知质量。虽然这些方法在捕捉人类视觉感知方面表现出了更好的性能,但我们需要什么样的感知质量(如更真实的图像,或与原始图像一致)仍然是一个有待探索的问题,因此客观的IQA方法(如PSNR, SSIM)仍然是目前的主流。

    5. 基于任务的评估

    SR模型通常可以帮助其他视觉任务,通过其他任务评估重建性能是另一种有效的方法。研究人员将原始和重构后的HR图像输入训练好的模型,通过比较对预测性能的影响来评价重构质量。用于评价的视觉任务包括物体识别,人脸识别,人脸对齐和解析等。

    6.其它IQA方法

    除了以上的IQA方法之外,还有其他不那么流行的SR指标。多尺度结构相似性(MS-SSIM)在合并viewing conditions的变化方面比单尺度SSIM提供了更多的灵活性。特征相似度(feature similarity, FSIM)基于相位一致性和图像梯度大小提取人类感兴趣的特征点来评价图像质量。 Natural Image Quality Evaluator(NIQE)利用自然图像中观察到的统计规律的可测量偏差,而不暴露在扭曲的图像中。

    最近,Blau等人通过数学方法证明了失真质量(如PSNR、SSIM)和感知质量(如MOS)是不一致的,表明随着失真度的降低,感知质量一定会变差。因此,如何准确地测量SR质量仍然是一个迫切需要解决的问题。

    图像空间

    除了常用的RGB颜色空间外,YCbCr颜色空间也广泛用于SR。在该空间中,图像由Y、Cb、Cr通道表示,分别表示亮度、蓝差和红差色度分量。尽管目前不知道哪个空间的超分辨率最好,但早期的模型倾向于在YCbCr空间的Y通道上操作,而较新的模型倾向于在RGB通道上操作。值得注意的是,在不同的颜色空间或通道上操作(训练或评估)会使评估结果相差很大(高达4 dB)。

    SR竞赛

    NTIRE Challenge:The New Trends in Image Restoration and Enhancement (NTIRE)挑战赛与CVPR一起举办的,包括多个任务,如SR,去噪和着色。对于图像SR,该比赛是建立在DIV2K数据集上的,由双三次下采样比赛和带有真实未知退化的blind比赛组成。这些比赛在退化和比例因子上有所不同,旨在促进理想条件和现实不利情况下的SR研究。

    PIRM Challenge:The Perceptual Image Restoration and Manipulation (PIRM)挑战赛与ECCV联合举办的。 与NTIRE不同,PIRM的一个子挑战赛侧重于生成准确性和感知质量之间的权衡,而另一个子挑战赛侧重于智能手机上的SR。众所周知,以失真为目标的模型通常会产生令人不快的视觉效果,而以感知质量为目标的模型在信息保真度方面表现较差。具体来说,PIRM根据均方根误差(RMSE)的阈值将感知失真平面划分为三个区域。在每个区域中,获胜的算法是获得最佳感知质量的算法,由NIQE和Ma评估。而在另一个子挑战赛中,智能手机上的SR要求参与者使用有限的智能手机硬件(包括CPU、GPU、RAM等)执行SR,符合的评估包括PSNR、MS-SSIM和MOS测试。通过这种方式,PIRM鼓励对感知失真的权衡进行高级研究,并推动智能手机上的轻量级高效图像增强。

    基于监督学习的超分辨率

    目前,研究人员提出了多种具有深度学习的超分辨率模型。这些模型集中于监督SR,即用LR图像和相应的HR图像训练。虽然这些模型之间的差异非常大,但它们本质上是一系列组件的组合,如模型框架、上采样方法、网络设计和学习策略。从这个角度出发,研究人员将这些组件组合起来,建立一个集成的SR模型,以适应特定的目的。

    超分辨率的框架

    由于图像的超分辨率是一个病态问题,如何进行上采样(即从LR输入生成HR输出)是关键问题。尽管现有模型的架构差异很大,但根据所采用的上采样操作及其在模型中的位置,可以将其归结为四种模型框架(如图2所示)。 

    1. Pre-upsampling SR

    由于直接学习从低维空间到高维空间的映射很难,利用传统的上采样算法获得更高分辨率的图像,然后使用深度神经网络进行细化是一个简单的解决方案。

    图片10.jpg

    Dong等人[22],[23]首先采用Pre-upsampling SR框架,并提出SRCNN来学习从插值LR图像到HR图像的端到端映射。具体来说,使用传统方法(如双三次插值)将LR图像上采样为所需尺寸的粗糙HR图像,然后在这些图像上应用深度CNN来重建高质量的细节。由于最困难的上采样操作已经完成,CNNs只需要对粗糙图像进行细化,这大大降低了学习难度。

    此外,这些模型可以将任意大小和比例因子的插值图像作为输入,得到与单尺度SR模型性能相当的结果。因此,它逐渐成为最流行的框架,这些模型之间的主要区别是后验模型设计和学习策略。然而,预定义的上采样通常会引入副作用(例如,噪声放大和模糊),而且由于大多数操作都是在高维空间中执行的,时间和空间成本比其他框架要高得多。

    2. Post-upsampling SR

    为了提高计算效率,充分利用深度学习技术自动地提高分辨率,研究人员提出在低维空间中进行大部分的计算,将Pre-upsampling替换为模型末尾集成的端到端的可学习层。将LR输入图像送入深度CNNs,在网络末端采用端到端可学习的upsampling层。由于计算量大的特征提取过程只发生在低维空间中,最后才增加分辨率,大大降低了计算量和空间复杂度。因此,该框架也成为最主流的框架之一。

    图片11.jpg

    3.Progressive Upsampling SR

    后上采样SR框架虽然大大降低了计算成本,但仍存在一些不足。一方面,上采样只需一步完成,大大增加了对大尺度因子的学习难度。另一方面,每个比例因子都需要训练一个单独的SR模型,这不能满足多尺度SR的需要。为了解决这个问题,提出了Laplacian pyramid SR network(LapSRN),如上图2c所示。具体来说,该框架下的模型是基于CNN的级联,逐步重构高分辨率图像。在每个阶段,图像被上采样到更高的分辨率,并由CNNs细化。MS-LapSRN和progressive SR (ProSR)等工作也采用了该框架,并取得了较高的性能。与LapSRN和MS-LapSRN使用中间重建图像作为后续模块的“基础图像”不同,ProSR保留主要信息流并通过独立的网络头部重建中间分辨率图像。

    图片12.jpg

    该框架下的模型通过将困难的任务分解为简单的任务,极大地降低了学习难度,特别是在大的缩放系数的情况下,能在不引入过多的时间和空间代价的情况下处理多尺度SR。此外,一些具体的学习策略,如curriculum leaning和多监督学习,可以直接整合到该框架,进一步降低学习难度,提高最终性能。但是,这些模型也存在一些问题,如多阶段的模型设计复杂,训练稳定性差,需要更多的建模指导和更先进的训练策略。

    4. Iterative Up-and-down Sampling SR

    为了更好地捕捉LR-HR图像对的相互依赖性,一种高效的反向投影迭代方法被引入到SR中,称为迭代上下采样SR。尝试迭代地应用反向投影优化,即计算重构误差,然后将其融合回来调整HR图像的强度。具体来说,Haris等人利用迭代上下采样层,提出DBPN,将上采样层和下采样层交替连接,利用所有中间重构结果来重构最终的HR结果。类似地,SRFBN采用迭代上下采样反馈块,具有更密集的跳跃连接,并学习更好的表示。用于视频超分辨率的RBPN从连续视频帧中提取context,并通过反向投影模块将这些context组合起来生成周期性输出帧。

    图片13.jpg

    图2 基于深度学习的超分辨率模型框架。多维数据集大小表示输出大小。灰色层表示预定义的上采样层,绿色层、黄色层和蓝色层分别表示可学习的上采样层、下采样层和卷积层。用虚线框括起来的块代表可堆叠的模块。

    该框架下的模型能够更好地挖掘LR-HR图像对之间的深层关系,从而提供更高质量的重建结果。然而,反向投影模块的设计标准仍然不清楚。由于该机制刚刚被引入到基于深度学习的SR中,因此该框架具有很大的潜力,需要进一步的探索。

    上采样方法

    除了上采样在模型中的位置之外,如何进行上采样也非常重要。尽管有各种传统的上采样方法,利用CNN学习端到端上采样逐渐成为一种趋势。

    1.基于插值的上采样方法

    图像插值(Image interpolation),又称图像缩放(Image scaling),是指对数字图像进行大小调整,被图像相关应用程序广泛使用。传统的插值方法有最近邻插值、双线性插值和双三次插值,Sinc和Lanczos重采样等。由于这些方法具有可解释性和易于实现的特点,其中一些方法仍被广泛应用于基于CNN的SR模型中。

    最近邻插值:最近邻插值是一种简单直观的算法。它为每个要插值的位置选择最近的像素值,而不考虑其他像素。因此,这种方法非常快,但通常产生低质量的块状结果。

    双线性插值:双线性插值(BLI)首先在图像的一个轴上执行线性插值,然后在另一个轴上执行,如下图所示:

    图片14.jpg

    由于它的结果是一个2×2大小的接受域的二次插值,它表现出比最近邻居插值更好的性能,同时保持相对较快的速度。

    双三次插值:类似地,双三次插值(BCI)在两个轴上执行三次插值,如上图所示。与BLI相比,BCI考虑了4×4像素,结果更平滑,人工痕迹更少,但速度更慢。事实上,抗混叠BCI是构建SR数据集的主流方法(将HR图像降级为LR图像),也广泛应用于Pre-upsampling SR框架。

    事实上,基于插值的上采样方法只根据自身的图像信号来提高图像分辨率,而不带来更多的信息。相反,它们经常带来一些副作用,如计算复杂度、噪声放大、结果模糊。因此,目前的趋势是用可学习的上采样层取代基于插值的方法。

    2.基于学习的上采样方法

    为了克服基于插值的方法的缺点,学习端到端的上采样方法,将转置卷积层和亚像素层引入SR域。

    转置卷积:转置卷积层,又称反卷积层,执行与普通卷积相反的转换,即根据与卷积输出一样大小的特征图来预测可能的输入。具体来说,它通过插入零来扩大图像并进行卷积来提高图像的分辨率。

    图片15.jpg

    以3×3卷积的2×SR为例,首先将输入特征图扩展为原始大小的两倍,其中添加的像素值设置为0。然后应用大小为3×3、步长1和填充1的卷积。这样,输入的上采样系数为2,在这种情况下,感受野最多为2×2。由于转置卷积以端到端的方式放大图像大小,同时保持与普通卷积兼容的连接性模式,因此它被广泛用作SR模型中的上采样层。然而,这一层很容易导致每个轴上的“不均匀重叠”,两个轴上相乘的结果进一步创建一个大小不一的棋盘状模式,从而损害SR性能。

    亚像素层:亚像素层是另一个端到端可学习上采样层,它通过卷积生成多个通道,然后对通道进行整形来进行上采样,如图5所示。

    图片16.jpg

    在这一层中,首先应用卷积来产生s2个通道的输出,其中s是比例因子。设输入大小是h*w*c,输出的大小是h*w*s2c,然后执行reshaping操作生成sh*sw*c。在这种情况下,感受野可以达到3×3。由于端到端的上采样方式,这一层也被SR模型广泛使用。与转置卷积层相比,亚像素层具有更大的接受域,提供更多的上下文信息,有助于生成更真实的细节。然而,由于感受野的分布不均匀,而块状区域实际上共享同一个感受野,这可能会导致在不同块的边界附近出现一些伪影。另一方面,在块状区域中独立预测相邻像素可能会导致输出不平滑。因此Gao等人提出了PixelTCL,用独立预测代替相互依赖的顺序预测,产生更平滑、更一致的结果。

    Meta Upscale Module:之前的方法需要预先定义缩放比例因子,针对不同的因子训练不同的上采样模块,这种方法效率低下,不符合实际需要。因此,Hu等提出了meta upscale模块,基于元学习解决任意比例因子的SR问题。

    图片17.jpg

    具体来说,对于HR图像上的每个目标位置,该模块将其投影到LR特征图(即k×k×cin)上的一个小面片上,根据投影偏移量和稠密层的比例因子预测卷积权重(即k×k×cin×cout),并进行卷积。这样,meta upscale模块可以连续放大任意因子的单个模型。并且由于训练数据量大(同时训练多个缩放系数),该模块在固定缩放系数上可以表现出相当甚至更好的性能。虽然该模块在推理过程中需要预测权重,但执行时间仅占特征提取时间的1%左右。然而,该方法基于多个独立于图像内容的值对每个目标像素进行大量的卷积权值预测,因此在面对较大的放大倍数时,预测结果可能不稳定,效率较低。

    目前,这些基于学习的层已经成为最广泛使用的上采样方法。特别是在post-upsampling框架中,通常在最后的上采样阶段使用这些层来基于低维空间提取的高层表示来重建HR图像,从而实现端到端SR,同时避免了高维空间的过度操作。

    网络设计

    目前,网络设计已经成为深度学习的重要内容之一。

    1.残差学习

    在He等人提出ResNet来学习残差而不是彻底的映射之前,残差学习已经被SR模型广泛使用。残差学习策略大致可以分为全局残差学习和局部残差学习。

    图片18.jpg

    全局残差学习:由于图像SR是一种图像到图像的转换任务,输入图像与目标图像高度相关,研究者试图只学习它们之间的残差,即全局残差学习。在这种情况下,它避免了学习从一个完整的图像到另一个复杂的转换,而只需要学习一个残差映射来恢复缺失的高频细节。由于大部分区域的残差都接近于零,大大降低了模型的复杂度和学习难度。因此它在SR模型中得到了广泛的应用。

    局部残差学习:局部残差学习类似于ResNet中的残差学习[96],用于缓解由于网络深度不断增加而导致的退化问题,降低训练难度,提高学习能力。它也广泛用于SR。

    在实际操作中,上述两种方法都是通过shortcut连接(通常通过一个小常数进行缩放)和逐像素加法来实现的,不同之处是前者直接连接输入输出图像,而后者通常在网络中不同深度的层之间添加多个shortcut。

    2.递归学习

    为了在不引入过多参数的情况下学习更高层次的特征,SR领域引入了递归学习,即以递归的方式多次应用相同的模块。

    图片19.jpg

    在各种递归SR方法中,16递归的DRCN采用单个卷积层作为递归单元,其感受野为41×41,远大于SRCNN的13×13,且参数不多。DRRN使用ResBlock作为25次递归的递归单元,获得了比17个ResBlock基线更好的性能。后来Tai等人提出了基于内存块的MemNet,内存块由一个6递归的ResBlock组成,每个递归的输出都连接在一起,并经过额外的1×1卷积用于记忆和遗忘。级联残差网络(CARN)也采用了类似的递推单元,包含了几个ResBlock。最近,Li等人采用迭代上下采样SR框架,提出了一种基于递归学习的反馈网络,在所有递归中共享整个网络的权值。

    此外,研究人员还在不同的部分使用了不同的递归模块。具体而言,Han等提出了双态循环网络(dual-state recurrent network, DSRN),用于LR和HR状态之间交换信号。在每个时间步骤(即递归),每个分支的表示都会更新和交换,以便更好地探索LR-HR关系。同样,Lai等采用嵌入和上采样模块作为递归单元,在性能损失很小的情况下大大减小了模型的尺寸。因此,一些技术,如残差学习和多监督经常被集成到递归学习中以缓解这些问题。

    3.Multi-path Learning

    Multi-path learning是指通过执行不同操作的多条路径传递特征,并将它们融合回来,以提供更好的建模能力。具体来说,它可以分为全局、局部和Scale-specific的多路径学习,如下所示。

    全局多路径学习:全局多路径学习是指利用多条路径提取图像不同方面的特征。这些路径在传播过程中可以相互交叉,从而大大提高了学习能力。具体地说,LapSRN包括以coarse-to-fine的方式预测sub-hand残差的特征提取路径和基于来自两条路径的信号重建HR图像的另一条路径。类似地,DSRN利用两条路径分别在低维和高维空间中提取信息,并不断交换信息以进一步提高学习能力。像素递归超分辨率[64]采用调节路径来捕获图像的全局结构,并采用先验路径来捕获所生成像素的序列相关性。相比之下,Ren等人采用具有不平衡结构的多条路径来执行上采样,并在模型末尾对其进行融合。

    局部多路径学习:受inception模块的启发,MSRN采用了一个新的块进行多尺度特征提取:

    图片20.jpg

    在这个block中,我们同时使用两个核大小为3×3和5×5的卷积层来提取特征,然后将输出串接起来,再次进行相同的操作,最后再额外使用1×1的卷积。有一个Shortcut通过逐像素加法连接输入和输出。通过这种局部多路径学习,SR模型可以更好地从多个尺度提取图像特征,进一步提高性能。

    Scale-specific多路径学习:考虑到不同尺度的SR模型需要进行相似的特征提取,Lim等提出了scale-specific多路径学习来处理单网络下的多尺度SR。具体来说,它们共享模型的主成分(即特征提取的中间层),并分别在网络的起始和末端附加特定尺度的预处理路径和上采样路径:

    图片21.jpg

    在训练过程中,只启用和更新所选尺度对应的路径。这样,所提出的MDSR通过共享不同尺度的大部分参数,大大减小了模型的尺寸,表现出与单尺度模型相当的性能。CARN[28]和ProSR也采用了类似的scale-specific多路径学习。

    4.Dense Connections

    自从Huang等人提出基于dense blocks的DenseNet,密集连接在视觉任务中越来越受欢迎。对于dense blocks中的每一层,将前面各层的特征图作为输入,将其自身的特征图作为输入到后续各层,从而导致l层dense block(l≥2)中的l*(l - 1)/2个连接。密集连接不仅有助于缓解梯度消失、增强信号传播和鼓励特征重用,而且通过使用小增长率(即密集块中的通道数量)和在连接所有输入特征映射后压缩通道,大幅减小模型大小。

    为了融合低层和高层特征,为重建高质量的细节提供更丰富的信息,在SR域中引入了密集连接:

    图片22.jpg

    Tong等人不仅采用dense block构造69层SRDenseNet,而且在不同的dense block之间插入密集连接,即对于每个dense block,将前面所有块的特征映射作为输入,将其自身的特征映射作为后续所有块的输入。MemNet、CARN、RDN和ESRGAN也采用了这种层级和块级的密集连接。DBPN也广泛采用密集连接,但它们的密集连接是在所有上采样单元之间,下采样单元也是如此。

    5.注意力机制

    通道注意力:考虑到不同通道之间特征表示的相互依赖性和相互作用,Hu等人提出了一个“squeeze-and-excitation”模块,通过显式建模通道相互依赖性来提高学习能力,如图7c所示。

    图片23.jpg

    在该块中,使用GAP将每个输入通道压缩到一个通道描述符(即系数),然后将这些描述符输入到两个密集层中以产生输入通道的通道尺度因子。最近,Zhang等人将通道注意机制与SR结合起来,提出了RCAN,显著提高了模型的表征能力和SR性能。为了更好地了解特征相关性,Dai等人进一步提出了一种二阶通道注意力(SOCA)模块。SOCA采用二阶特征统计量代替GAP自适应地对通道特征进行重缩放,从而提取出更具信息性和区分性的表示。

    No-local注意力:大多数现有的SR模型都有非常有限的局部感受野。然而,一些远处的物体或纹理可能对局部块生成非常重要。因此,Zhang等人提出了局部和非局部注意块来提取捕捉像素之间长期依赖关系的特征。具体地说,他们提出了一个用于提取特征的主干分支和一个(非)局部掩码分支用于自适应地重新缩放主干分支的特征。其中,局部分支采用编解码器结构来学习局部注意,非局部分支采用嵌入高斯函数来估计特征映射中每两个位置指标之间的成对关系来预测缩放权重。通过这种机制,该方法较好地捕获了空间注意,进一步提高了表达能力。类似地,Dai等人也结合了非局部注意机制来捕获长距离的空间上下文信息。

    6.先进的卷积

    由于卷积运算是深度神经网络的基础,研究者也试图改进卷积运算以获得更好的性能或更高的效率。

    膨胀卷积:众所周知,context信息有助于为SR生成真实的细节。因此,Zhang等在SR模型中用膨胀卷积代替普通卷积,将感受野增加了两倍以上,获得了更好的性能。

    分组卷积:受最近轻量级CNNs的启发,Hui等人和Ahn等人提出了IDN和CARN-M,将标准卷积替换为分组卷积。正如之前的一些工作所证明的那样,分组卷积可以大大减少参数和操作的数量,但会损失一些性能。

    图片24.jpg

    深度可分离卷积:自从霍华德等人提出深度可分离卷积用于高效的执行卷积操作,它已经扩展到各个领域。具体地说,它由一个分解的深度卷积和一个逐点卷积(即1×1卷积)组成,从而减少了大量的参数和运算,而精度只降低了一点点。最近,Nie等人采用了深度可分离卷积,大大加快了SR结构的发展。

    7.区域回归学习

    大多数SR模型将SR视为独立于像素的任务,因此不能正确地确定生成像素之间的依赖关系。受PixelCNN的启发,Dahl等人首先提出了像素递归学习,通过使用两个网络分别捕获全局上下文信息和序列生成依赖性来执行逐像素生成。这样,所提出的方法在超分辨率非常低分辨率的人脸图像(如8×8)上合成真实的头发和皮肤细节,远远超过了以往的MOS测试方法。

    受人类注意力转移机制的启发,Attention-FH也采用了这种策略,借助于一个循环策略网络,依次发现attended patches并执行局部增强。这样,它能够根据图像自身的特点自适应地对每个图像的最优搜索路径进行个性化设置,从而充分利用图像的全局内相关性。

    虽然这些方法在一定程度上表现出了较好的性能,但是递归过程需要较长的传播路径,这大大增加了计算量和训练难度,特别是对于超分辨率的HR图像。

    8.金字塔池化

    受空间金字塔池层的启发,Zhao等人提出了金字塔池模块,以更好地利用全局和局部上下文信息。具体来说,对于大小为h×w×c的特征图,每个特征图被划分为M×M个单元,并经过GAP,得到M×M×c的输出。然后执行1×1卷积,将输出压缩到单个通道。然后,通过双线性插值将低维特征图上采样到与原始特征图相同的大小。通过使用不同的M,该模块有效地集成了全局和局部上下文信息。通过合并该模块,提出的EDSR-PP模型进一步提高了基线性能。

    图片25.jpg

    9.小波变换

    众所周知,小波变换(WT)是一种高效的图像表示方法,它将图像信号分解为表示纹理细节的高频子带和包含全局拓扑信息的低频子带。Bae等人首先将小波变换与基于深度学习的SR模型相结合,以插值LR小波的子带作为输入,预测相应的HR子带的残差。小波变换和逆小波变换分别用于分解LR输入和重构HR输出。类似地,DWSR和小波SRNet也在小波域中执行SR,但是具有更复杂的结构。与上述独立处理每个子带的工作不同,MWCNN采用多级WT,并将级联的子带作为单个CNN的输入,以便更好地捕捉它们之间的依赖关系。由于小波变换的有效表示,使用这种策略的模型往往大大减小了模型的大小和计算量,同时保持了具有竞争力的性能。

    10.Desubpixel

    为了加快推理速度,Vu等人提出在低维空间中进行耗时的特征提取,并提出去亚像素(desubpixel),这是亚像素层shuffle操作的逆运算。 具体地说,去亚像素操作在空间上分割图像,将它们堆叠为额外通道,从而避免信息丢失。通过这种方式,他们在模型开始时对输入图像进行亚像素减采样,在低维空间中学习表示,并在模型结束时对目标大小进行上采样。该模型在智能手机上的PIRM挑战中取得了最好的成绩,具有非常高的推理速度和良好的性能。

    11.xUnit

    为了将空间特征处理和非线性激活结合起来,更有效地学习复杂的特征,Kligvasser等人提出了xUnit来学习空间激活函数。具体地说,ReLU被视为确定一个权重映射来与输入进行元素相乘,而xUnit通过卷积和高斯选通直接学习权重映射。尽管xUnit的计算要求更高,但由于其对性能的显著影响,它允许在将性能与ReLU匹配的同时大大减小模型大小。通过这种方式,作者将模型大小减少了近50%,而没有任何性能下降。

    学习策略

    1.损失函数

    在超分辨率领域,利用损失函数测量重建误差,指导模型优化。在早期,研究人员通常采用逐像素L2损失,但后来发现它不能很准确地测量重建质量。因此,为了更好地测量重建误差并产生更真实和更高质量的结果,采用了各种损失函数(例如,content loss、adversarial)。如今,这些损失函数已经发挥了重要作用。

    Pixel Loss:Pixel Loss测量两幅图像的像素差异,主要包括L1损失(即MAE)和L2损耗(即MSE):

    图片26.jpg

    其中h,w,c是图像的高、宽、通道数。此外,pixel L1 loss的一个变体,称为Charbonnier loss如下:

    图片27.jpg

    其中根号里有一个小常数用于数值稳定性。

    Pixel loss使得生成的HR图像在像素值上足够接近ground truth。与L1损失相比,L2损失惩罚较大的误差,但更能容忍较小的误差,因此往往导致过于平滑的结果。在实践中,L1损失显示出比L2损失更好的性能和收敛性。因为PSNR的定义与像素级差异高度相关,pixel loss最小化直接导致PSNR最大化,pixel loss逐渐成为应用最广泛的损失函数。然而,由于像素丢失实际上没有考虑图像质量(例如,感知质量,纹理),因此结果通常缺乏高频细节,并且对于过平滑纹理在感知上不满意。

    Content Loss:为了评估图像的感知质量,content loss被引入SR中。具体来说,它使用预训练的图像分类网络来衡量图像之间的语义差异。记该网络为φ,第l层抽取的高层次表示记为φ(l)(I),则content loss是两个图像的高层次表示的欧式距离:

    图片28.jpg

    其中hl, wl ,cl分别是l层的高、宽、通道数。本质上讲,content loss将层次图像特征的知识从分类网络φ转移到SR网络。与pixel loss相比,content loss鼓励输出图像ˆI在感知上与目标图像I相似,而不是强迫它们精确地匹配像素。因此,它产生了更直观的结果,也被广泛应用于这个领域,其中VGG和ResNet是最常用的预训练CNNs。

    Texture Loss:由于重建后的图像应该与目标图像具有相同的风格(如颜色、纹理、对比度),受到Gatys等人的风格化表示的启发,将texture loss(即风格重建损失)引入到SR中。 图像纹理被看作是不同特征通道之间的相关,定义为Gram矩阵G(l)∈Rclxcl,其中G(l)ij是层l中不同特征图i,j向量化后内积的结果:

    图片29.jpg

    其中vec()表示向量化操作,φ(l)i表示层l第i个通道。则texture loss定义为:

    图片30.jpg

    Sajjadi等人提出的EnhanceNet通过使用texture loss,创建了更逼真的纹理,产生更令人满意的视觉效果。尽管如此,确定patch大小以匹配纹理仍然是经验性的。太小的patch会导致纹理区域中的artifacts,而太大的patch会导致整个图像中的artifacts,因为纹理统计是在不同纹理的区域上平均的。

    Adversarial Loss:近年来,由于强大的学习能力,GANs受到越来越多的关注,并被引入到各种视觉任务中。具体地说,GAN包括用于生成(例如,文本生成、图像变换)的生成器和一个判别器,判别器接收生成结果和从目标分布中采样的实例作为输入,并判别他们是否来自目标分布。在训练过程中,两个步骤交替进行:(a)固定生成器并训练判别器以更好地辨别,(b)固定判别器并训练生成器以欺骗判别器。通过充分的迭代对抗训练,得到的生成器可以产生与真实数据分布一致的输出,而判别器不能区分生成的数据和真实数据。

    在超分辨率方面,采用对抗式学习是很简单的,在这种情况下,我们只需要将SR模型作为一个生成器,并定义一个额外的判别器来判断输入图像是否生成。因此,Ledig等人首先提出了基于交叉熵的对抗损失SRGAN,如下所示:

    图片31.jpg

    其中Lgan_ce_g和Lgan_ce_d分别表示生成器和判别器的对抗损失。Is表示从ground truths分布中随机采样的图片。此外,Enhancenet也采用类似的对抗损失函数。

    此外,Wang等人和Yuan等人使用基于最小二乘误差的对抗损失来获得更稳定的训练过程和更高质量的结果:

    图片32.jpg

    与上述专注于对抗性损失的具体形式的工作不同,Park等人认为像素级判别器导致产生无意义的高频噪声,并附加另一个特征级判别器对预训练的CNN提取的高层表示进行操作,该CNN捕获真实HR图像的更有意义的属性。Xu等人整合了一个multi-class GAN,由一个生成器和多个class-specific判别器组成。ESRGAN使用relativistic GAN来预测真实图像比假图像更真实的概率,而不是输入图像是真的或假的概率,从而指导恢复更详细的纹理。

    广泛的MOS试验结果表明,尽管与pixel loss训练的SR模型相比,adversarial loss和content loss训练的SR模型获得较低的PSNR,但它们在感知质量方面带来了显著的提高。事实上,判别器从真实的HR图像中提取出一些难以学习的潜在模式,并将生成的HR图像更加令人信服,从而有助于生成更真实的图像。然而,目前GAN的训练过程仍然是困难和不稳定的。虽然已经有一些关于如何稳定GAN训练的研究,但是如何保证融入SR模型的GAN得到正确训练并发挥积极作用仍然是一个问题。

    Cycle Consistency Loss:受CycleGAN的启发,Yuan等人提出了用于SR的cycle-in-cycle方法。具体地说,他们不仅将LR图像I超分辨率到HR图像I_,而且通过另一个CNN将I_进行下采样得到I’。重新生成的I’被要求与输入I相等,因此cycle consistency loss可以限制它们的像素级一致性:

    图片33.jpg

    Total Variation Loss:为了抑制生成的图像的噪声,total variation(TV) loss被引入到SR中。它定义为相邻像素之间的绝对差之和,用来衡量图像中有多少噪声,如下所示:

    图片34.jpg

    Lai等[25]和Yuan等[131]也采用TV损失来增强空间平滑度。

    Prior-Based Loss:除了上述损失函数外,还引入了外部先验知识来约束生成图像。具体而言,Bulat等人关注人脸图像SR,并引入人脸对齐网络(FAN)来约束人脸标志的一致性。FAN经过预训练和集成,提供人脸对齐的先验信息,然后与SR联合训练。这样,该Super-FAN在LR人脸对齐和人脸图像SR两方面都提高了性能。

    事实上,content loss和texture loss都引入了一个分类网络,本质上是为SR提供层次图像特征的先验知识。通过引入更多的先验知识,可以进一步提高SR的性能。

    在实践中,研究人员通常通过加权平均来组合多个损失函数,以约束生成过程的不同方面,特别是在失真-感知的权衡方面。然而,不同损失函数的权重需要大量的实证探索,如何合理有效地组合仍然是一个问题。

    2.Batch Normalization

    为了加速和稳定深层CNN的训练,Sergey等人提出了batch normalization (BN)来减少网络的内部协变量移动( internal covariate shift)。具体地说,它们为每个mini-batch执行归一化,并为每个通道训练两个额外的变换参数以保持表示能力。由于BN校准了中间特征分布并减轻了消失梯度,因此它允许使用更高的学习率并且可以更加随意的进行参数初始化。因此,这一技术在SR模型中得到了广泛的应用。

    然而,Lim等人认为BN丢失了每幅图像的尺度信息,并从网络中消除了距离灵活性。因此,他们删除了BN,并使用节省的内存成本(高达40%)来开发更大的模型,从而大大提高了性能。

    3. Curriculum Learning

    Curriculum learning是指从一项更容易的任务开始,逐渐增加难度。由于超分辨率问题是一个病态问题,并且经常遇到诸如大缩放因子、噪声和模糊等不利条件,因此为了降低学习难度,将curriculum training纳入其中。

    为了降低具有大缩放因子的SR的难度,Wang等人、Bei等人和Ahn等人分别提出了ProSR、ADRSR和渐进式CARN,它们不仅在架构上是渐进的而且训练过程也是。训练从2×上采样开始,训练结束后,将比例因子为4×或更大的部分逐渐加入并与之前的部分混合。具体地说,ProSR通过线性组合这个级别的输出和前面级别的上采样输出来进行混合,ADRSR将它们连接起来并附加另一个卷积层,而渐进CARN将前面的重建块替换为产生双分辨率图像的块。

    此外,Park等人将8×SR问题分为三个子问题(即1× to 2×, 2× to 4×, 4× to 8×)并为每个问题训练独立的网络。然后将其中两个连接起来并进行微调,然后再连接第三个。除此之外,他们还将困难条件下的4×SR分解为1×到2×,2×到4×和去噪或去模糊子问题。相反,SRFBN在不利条件下对SR使用这种策略,即从简单退化情况开始,逐渐增加退化复杂性。

    与一般的训练过程相比,Curriculum learning大大降低了训练难度,缩短了总的训练时间,尤其是对大缩放系数的训练。

    4.多监督

    Multi-supervision是指在模型中加入多个监督信号,以增强梯度传播,避免梯度消失和爆炸。为了防止递归学习带来的梯度问题,DRCN采用了递归单元的多重监督。具体地说,它们将递归单元的每个输出馈送到重建模块中以生成HR图像,并且通过合并所有中间重建来构建最终预测。MemNet和DSRN也采用了类似的策略,它们同样基于递归学习。

    此外,由于渐进上采样框架下的LapSRN在传播过程中会产生不同尺度的中间结果,因此采用多监督策略是非常简单的。具体地说,中间结果被强制与从ground truth HR图像下采样的中间图像相同。

    在实际应用中,这种多监督技术往往通过在损失函数中加入一些项来实现,这样可以更有效地对监督信号进行反向传播,从而降低训练难度,增强模型训练效果。

    Context-wise Network Fusion

    基于上下文的网络融合(CNF)是指将多个SR网络的预测进行融合的叠加技术(即multi-path learning学习的特例)。具体地说,它们分别训练具有不同结构的SR模型,将每个模型的预测结果反馈到各个卷积层,最后将输出结果相加,得到最终的预测结果。在这个CNF框架内,由三个轻量级SRCNNs构造的最终模型以可接受的效率达到了与最先进模型相当的性能。

     Data Augmentation

    数据增强是使用深度学习提高性能的最广泛的技术之一。对于图像的超分辨率,一些有用的增强选项包括裁剪、翻转、缩放、旋转、颜色抖动(color jittering)等。此外,Bei等人还随机打乱RGB通道,既增强了数据,又缓解了由于数据集颜色不平衡而导致的颜色偏置。

    Multi-task Learning

    多任务学习是指利用相关任务(如目标检测,语义分割,头部姿势估计,面部属性推理)的训练信号中包含的特定领域信息来提高泛化能力。在SR领域,Wang等人整合了一个语义分割网络,用于提供语义知识和生成特定于语义的细节。具体来说,他们提出了空间特征变换,以语义特征图为输入,并预测在中间特征图上进行仿射变换的空间参数。提出的SFT-GAN算法可以在具有丰富语义区域的图像上生成更真实、更美观的纹理。此外,考虑到直接超分辨率噪声图像可能导致噪声放大,DNSR提出将去噪网络和SR网络分别训练,然后将二者串联起来进行微调。同样地,cycle-in-cycle GAN(CinCGAN)结合了cycle-in-cycle去噪框架和cycle-in-cycle SR模型来联合进行降噪和超分辨率处理。由于不同的任务往往侧重于数据的不同方面,因此将相关任务与SR模型相结合通常可以通过提供额外的信息和知识来提高SR性能。

    Network Interpolation

    基于PSNR的模型产生的图像更接近ground truths,但会产生模糊问题,而基于GAN的模型带来更好的感知质量,但会产生令人不快的伪影(例如,无意义的噪声使图像更“逼真”)。为了更好地平衡失真和感知,Wang等人提出了一种网络插值策略( network interpolation strategy)。具体地说,他们通过微调来训练基于PSNR的模型和基于GAN的模型,然后内插两个网络的所有相应参数来得到中间模型。通过调整插值权重而无需重新训练网络,它们可以产生有意义的结果,同时产生更少的伪影。

    Self-Ensemble

    Self-ensemble,又称增强预测(enhanced prediction),是SR模型常用的一种推理技术。具体地,对LR图像应用具有不同角度(0°、90°、180°、270°)的旋转和水平翻转以获得一组8个图像。然后将这些图像输入到SR模型中,对重构后的HR图像进行相应的逆变换得到输出。最终的预测结果是通过这些输出的平均值或中位数来进行的。这样,这些模型进一步提高了性能。

    SOTA的SR模型

    近年来,基于深度学习的图像超分辨率模型得到了越来越多的关注,并取得了最先进的性能。事实上,今天大多数最先进的SR模型基本上都可以归因于我们上面总结的多种策略的组合。我们总结了一些有代表性的模型及其关键策略,如表2所示。

    图片35.jpg

    除了SR精度,效率是另一个非常重要的方面,不同的策略或多或少地影响效率。所以在前面的章节中,我们不仅分析了所提出的策略的准确性,还指出了对效率影响较大的策略对效率的具体影响,如post-upsampling,递归学习,密集连接,xUnit。我们还对一些具有代表性的SR模型进行了精度基准测试(即PSNR)、模型尺寸(即参数个数)、计算代价(即多相加个数)如图8所示。

    图片36.jpg

    精度由四个基准数据集(Set5 Set14 B100 Urban100)的平均PSNR得到,模型大小和计算量由Pytorch-OpCounter计算得到,其中输出分辨率是720P。所有统计数据均来自原始论文或根据官方模型计算,比例系数为2。

    无监督SR

    现有的超分辨率算法主要集中在有监督学习上,即使用匹配的LR-HR图像对进行学习。然而,由于难以采集同一场景不同分辨率的图像,SR数据集中的LR图像通常是通过对HR图像进行预定义的退化过程来获得的。因此,经过训练的SR模型实际上学习了预定义退化的反向过程。为了在不引入手工退化先验的情况下学习真实世界的LR-HR映射,研究人员越来越关注无监督SR,在这种情况下,只提供未配对的LR-HR图像进行训练,这样得到的模型更容易处理真实场景中的SR问题。接下来我们将简要介绍几种现有的无监督深度学习SR模型,还有更多的方法有待探索。

    1.Zero-shot SR

    考虑到单个图像中的内部图像统计为SR提供了足够的信息,Shocher等人提出了zero-shot super-resolution(ZSSR),通过在测试时训练image-specific的SR网络来应对无监督SR,而不是在大型外部数据集上训练通用模型。具体来说,他们使用[158]从单个图像中估计退化核,并使用退化核通过对该图像执行具有不同缩放因子的退化和增强来构建一个小数据集。然后在这个数据集上训练一个小的神经网络来用于SR,并用于最终的预测。

    通过这种方式,ZSSR利用了每幅图像内部的跨尺度内循环( cross-scale internal recurrence),从而在非理想条件下(即通过非双三次退化获的图像,并受到模糊、噪声、压缩伪影等影响)的图像上比以前的方法有很大的优势(1dB或2dB),更接近真实场景,同时在理想条件下(即通过双三次退化获得的图像)提供竞争性结果。然而,由于测试过程中需要针对不同的图像训练不同的网络,因此推理时间要比其他方法长得多。

    2. Weakly-supervised Super-resolution

    为了在不引入预定义退化的情况下处理超分辨率问题,研究人员尝试用弱监督学习方法学习SR模型,即使用未配对的LR-HR图像。其中,一些研究者首先学习了HR-LR的退化,并用它来构造训练SR模型的数据集,而另一些研究者则设计了cycle-in-cycle网络来同时学习LR-HR和HR-LR的映射。

    Learned Degradation:由于预定义的退化是次优的,从未配对的LR-HR数据集中学习退化是一个可行的方向。Bulat等人[159]提出了一个两阶段的过程,首先使用未配对的LR-HR图像训练一个HR-to-LR GAN学习退化过程,然后使用基于第一个GAN的配对的LR-HR图像训练一个LR-to-HR GAN进行SR。具体地,对于HR-to-LR GAN,HR图像被喂入生成器以产生LR输出,其不仅需要匹配通过从HR下采样(通过平均池化)获得的LR图像,而且还需要匹配真实LR图像的分布。在完成训练后,利用生成器作为退化模型生成LR-HR图像对。然后,对于LR-to-HR GAN,生成器(即SR模型)将生成的LR图像作为输入并预测HR输出,这不仅需要匹配相应的HR图像,而且需要匹配HR图像的分布。

    通过应用这两阶段的过程,所提出的无监督模型有效地提高了真实世界LR图像的超分辨率质量,比以往的研究有了很大的改进。

    Cycle-in-cycle Super-resolution:无监督超分辨的另一种方法是将LR空间和HR空间看作两个域,利用cycle-in-cyle结构来学习它们之间的映射关系。在这种情况下,训练目标包括推送映射结果以匹配目标域分布,并通过round-trip映射使图像可恢复。

    受CycleGAN的启发,Yuan等人提出了一种由4个生成器和2个判别器组成的cycle-in-cycle SR网络(CinCGAN),分别构成了noisy LR - clean LR和clean LR - clean HR映射的两个CycleGAN。具体地说,在第一个CycleGAN中,noisy LR图像被喂入生成器,且输出被要求与真实的clean LR图像的分布一致。然后它被送入另一个生成器中,需要恢复原始输入。为了保证循环一致性、分布一致性和映射有效性,采用了多种损失函数(如 adversarial loss, cycle consistency loss, identity loss)。另一个CycleGAN的设计类似,只是映射域不同。

     由于避免了预先定义的退化,非监督CinCGAN不仅达到了与监督方法相当的性能,而且适用于各种情况,即使在非常恶劣的条件下。然而,由于SR问题的病态本质和CinCGAN的复杂结构,需要一些先进的策略来降低训练的难度和不稳定性。

    3.Deep Image Prior

       考虑到CNN结构足以对逆问题捕获大量的低级图像统计先验,Ulyanov等人应用随机初始化CNN作为人工先验来执行SR。具体而言,他们定义了一个生成器网络,该网络以随机向量z为输入,并尝试生成目标HR图像Iy。目标是训练网络找到一个Iy_,其下采样的图像与LR图像Ix相同。由于网络是随机初始化的,从未训练过,唯一先验的是CNN结构本身。虽然这种方法的性能仍然比有监督的方法差(2db),但是它比传统的双三次上采样有很大的优势(1db)。此外,它还显示了CNN结构本身的合理性,并提示我们将深度学习方法与手工构建的先验知识(如CNN结构或自相似性)相结合来改进SR。

    特定领域的应用

    1.深度图超分辨率

    深度图记录了场景中视点和物体之间的深度(即距离),在姿态估计和语义分割等任务中发挥着重要作用。然而,由于经济和生产的限制,深度传感器生成的深度图往往分辨率较低,并且会受到噪声、量化和缺失值等退化影响。为了提高深度图的空间分辨率,引入了超分辨率技术。

    目前最流行的深度图SR方法之一是使用另一种经济的RGB相机获取同一场景的HR图像,以指导超分辨率的LR深度图。具体而言,Song等人利用深度图和RGB图像之间的深度场统计和局部相关性来约束全局统计和局部结构。Hui等人利用两个CNN同时向上采样LR深度图和向下采样HR RGB图像,然后使用RGB特征作为相同分辨率向上采样深度图的指导。Haefner等人进一步利用了颜色信息,并借助于阴影技术中的形状来引导SR。相比之下,Riegler等人将CNN与能量最小化模型以强大的变分模型的形式结合起来,在没有其他参考图像的情况下恢复HR深度图。

    2.人脸图像超分辨率

    人脸图像的超分辨率,又称为 face hallucination(FH),通常可以帮助其他与人脸相关的任务。与一般图像相比,人脸图像具有更多的与人脸相关的结构化信息,因此将人脸的先验知识(如 landmarks, parsing maps, identities等)融合到FH中是一种非常流行和有前途的方法。

    最直接的方法之一是约束生成的图像具有与ground-truth相同的人脸相关属性。具体而言,CBN通过交替优化FH和密集对应场估计来利用面部先验。Super-FAN和MTUN都引入了FAN,通过端到端的多任务学习来保证人脸标志的一致性。FSRNet不仅使用facial landmark heatmaps,还使用 face parsing maps作为优先约束。SICNN以恢复真实身份为目标,采用 super-identity损失函数和域集成训练方法来稳定联合训练。

    除了显式使用人脸先验知识外,隐式方法也得到了广泛的研究。TDN结合了用于自动空间变换的spatial transformer networks,从而解决了面部不对齐问题。基于TDN,TDAE[174]采用decoder-encoder-decoder框架,第一个解码器学习上采样和去噪,编码器将其投影回对齐且无噪声的LR面部,最后一个解码器生成hallucinated HR图像。相比之下,LCGE使用component-specific CNN对五个面部组件执行SR,对HR面部组件数据集使用k-NN搜索来找到相应的补丁,合成更细粒度的组件,最后将它们融合到FH结果中。类似地,Yang等人将解块的人脸图像分解为人脸组件和背景,使用组件标记在外部数据集中检索足够的HR样本,在背景上执行一般SR,最后将它们融合成完整的HR人脸。

    此外,研究人员还从其他角度改进了FH。在人类注意力转移机制的激励下,注意力FH借助于一个循环策略网络,依次发现有人参与的人脸斑块并进行局部增强,从而充分利用了人脸图像的全局相关性。UR-DGN采用了一种类似于SRGAN的具有对抗性学习的网络。Xu等人提出了一种基于GAN的多类FH模型,该模型由泛型生成器和类特定鉴别器组成。Lee等人[178]和Yu等人都基于条件GAN,利用额外的面部属性信息来执行具有指定属性的FH。

    3.超光谱图像超分辨率

    与全色图像(panchromatic images,PANs,即具有3个波段的RGB图像)相比,包含数百个波段的高光谱图像(HSI)提供了丰富的光谱特征,有助于完成各种视觉任务。然而,由于硬件的限制,采集高质量的hsi要比PANs困难得多,分辨率也很低。这样超分辨率被引入到这一领域,研究者们倾向于结合HR-PANs和LR-hsi来预测HR-hsi。其中,Masi等人[184]采用了SRCNN[22],并结合了一些非线性辐射指标图来提高性能。Qu等人[185]联合训练两个编码器-解码器网络,分别对pan和HSI执行SR,并通过共享解码器和应用角度相似性损失和重构损失等约束从PANto-HSI传输SR知识。最近,Fuet al.[186]评估了相机光谱响应(CSR)函数对HSI-SR的影响,并提出了一种CSR优化层,它可以自动选择或设计最优CSR,并且优于现有技术。

    4.真实世界图像超分辨率

    通常,用于训练SR模型的LR图像是通过手动下采样RGB图像(例如,通过双三次下采样)来生成的。然而,现实世界中的相机实际捕获12位或14位原始图像,并通过相机ISP(图像信号处理器)执行一系列操作(例如,去噪、去噪和压缩),最后生成8位RGB图像。在这个过程中,RGB图像丢失了大量的原始信号,与相机拍摄的原始图像非常不同。因此,直接使用人工下采样的RGB图像进行SR是次优的。

    为了解决这一问题,研究者们研究了如何利用现实世界的图像进行SR。Chen等人分析了图像分辨率和感受野的关系,提出数据采集策略来进行一个真实的数据集City100,并通过实验证明所提出的图像合成模型的优越性。Zhang等人通过摄像机的光学变焦建立了另一个真实世界的图像数据集SR-RAW(即成对的HR RAW图像和LR RGB图像),并提出了 contextual bilateral loss来解决错位问题。相比之下,Xu等人提出了一种通过模拟成像过程生成真实训练数据的管道,并开发了一种双CNN来利用原始图像中最初捕获的辐射信息。他们还建议学习一种空间变化的颜色变换,以便对其他传感器进行有效的颜色校正和推广。

    5.视频超分辨率

    对于视频超分辨率,多帧提供了更多的场景信息,不仅有帧内的空间依赖,还有帧间的时间依赖(如运动、亮度和颜色变化)。因此,现有的工作主要集中在更好地利用时空相关性,包括显式运动补偿(如基于光流的、基于学习的)和循环方法等。

    在基于光流的方法中,Liao等人利用光流方法生成HR候选对象,并通过CNN进行集成。VSRnet[191]和CVSRnet[192]采用Druleas算法[193]进行运动补偿,并利用CNNs将连续帧作为输入,预测HR帧。而Liu等人对光流对准进行了优化,提出了一种时间自适应网络来生成不同时间尺度的HR帧并进行聚合适应的。另外也有人尝试直接学习运动补偿。VESPCN[156]利用可训练的空间变换器[173]来学习基于相邻帧的运动补偿,并将多个帧输入到时空ESPCN[84]中以进行端到端预测。tao等人[196]从精确的LR成像模型出发,提出了一种亚像素级的模块来同时实现情感补偿和超分辨率,从而更有效地融合对齐的帧。

    另一个趋势是使用递归方法来捕获时空相关性,而无需显式的运动补偿。具体而言,BRCN采用双向框架,并分别使用CNN、RNN和条件CNN来建模空间、时间和时空依赖。类似地,STCN[199]使用深度CNN和双向LSTM来提取空间和时间信息。FRVSR使用先前推断的HR估计,以循环的方式重建两个深cnn的后续HR帧。最近,FSTRN[202]使用了两个更小的3D卷积滤波器来代替原来的大滤波器,从而通过更深的cnn来提高性能,同时保持较低的计算成本。而RBPN[87]则通过循环编码器-解码器提取空间和时间上下文,并将其与基于反投影机制的迭代细化框架相结合。

    此外,FAST[203]利用压缩算法提取的结构和像素关联的紧凑描述,将SR结果从一帧传输到相邻帧,大大加快了最先进的SR算法的速度,几乎没有性能损失。Jo等[204]基于每个像素的局部时空邻域生成动态上采样滤波器和HR残差图像,同时避免显式运动补偿。

    6.其他应用

    基于深度学习的超分辨率算法也被应用于其他领域,表现出很好的性能。具体地说,Perceptual GAN通过超分辨小对象的表示来解决小对象检测问题,使其具有与大对象相似的特征,并且对检测更具辨别性。类似地,FSR-GAN在特征空间而不是像素空间中对小尺寸图像进行超分辨,从而将原始差分特征转换为高分辨特征,这大大有利于其图像检索。此外,Jeon等人利用立体图像中的视差先验来重建配准中具有亚像素精度的HR图像。Wang等人[208]提出了一种视差注意模型来解决立体图像的超分辨率问题。Li等人结合了3D几何信息和超分辨率3D对象纹理图。Zhang等人将一个光场中的图像分成若干组,学习每个组的固有映射,最后将每个组中的残差进行组合,重建出更高分辨率的光场。总之,超分辨率技术可以在各种应用中发挥重要的作用,特别是当我们可以很好地处理大对象,但不能处理小对象时。

    总结和未来方向

    本文对基于深度学习的图像超分辨率研究进展进行了综述。重点讨论了有监督和无监督SR的改进,并介绍了一些特定领域的应用。尽管取得了巨大的成功,但仍然有许多问题没有解决。因此,在本节中,我们将明确指出这些问题,并介绍未来发展的一些有希望的趋势。我们希望藉此调查,让研究人员对SR有更深入的了解,并促进未来的研究及应用发展。

    1.网络设计

    良好的网络设计不仅确定了一个具有良好性能上界的假设空间,而且有助于有效地学习没有过多空间和计算冗余的表示。下面我们将介绍一些有前景的网络改进方向。

    Combining Local and Global Information:大的感受野提供了更多的背景信息,有助于产生更真实的结果。因此,将局部信息和全局信息结合起来,为图像SR提供不同尺度的context信息是很有前景的。

    Combining Low- and High-level Information:CNN中的浅层倾向于提取低级特征,如颜色和边缘,而深层则学习更高级的表示,如对象标识。因此,将低层细节与高层语义相结合,有助于HR重构。

    Context-specific Attention:在不同的背景下,人们往往会关注图像的不同方面。例如,对于草地区域,人们可能更关注局部的颜色和纹理,而在动物身体区域,人们可能更关注物种和相应的毛发细节。因此,引入注意机制来增强对关键特征的注意,有利于产生真实的细节。

    More Efficient Architectures:现有的SR模式倾向于追求最终的性能,而忽略了模型的大小和推理速度。例如,对于使用Titan GTX GPU,对于DIV2K上的4×SR,EDSR每幅图像需要20秒,对于8×SR,DBPN每幅图像需要35秒。如此长的预测时间在实际应用中是不可接受的,因此更高效的体系结构势在必行。如何在保持性能的同时减小模型尺寸和加快预测速度仍然是一个问题。

    Upsampling Methods:现有的上采样方法或多或少有一些缺点:插值方法计算量大,不能进行端到端学习,转置卷积产生棋盘效应,亚像素层带来感受野分布不均匀,而meta upscale模块可能会导致不稳定或无效,并有进一步的改进空间。如何进行有效和高效的上采样仍然需要研究,特别是在高缩放因子下。

    近年来,用于深度学习的神经结构搜索(NAS)技术越来越流行,它在不需要人工干预的情况下大大提高了学习的性能和效率。对于SR来说,将上述方向的探索与NAS相结合具有很大的潜力。

    2.学习策略

    除了良好的假设空间,稳健的学习策略也需要达到令人满意的结果。接下来我们将介绍一些有前途的学习策略方向。

    损失函数:现有的损失函数可以看作是在LR/HR/SR图像之间建立约束,并根据这些约束是否满足来指导优化。在实践中,这些损失函数往往是加权组合和最佳损失函数的SR仍然不清楚。因此,最有希望的方向之一是探索这些图像之间的潜在相关性,并寻求更准确的损失函数。

    归一化:虽然BN被广泛应用于视觉任务中,大大加快了训练速度,提高了性能,但对于超分辨率来说,BN是次优的。因此,需要研究其它有效的SR归一化技术。

    3.评估指标

    评价指标是机器学习最基本的组成部分之一。如果不能准确测量性能,研究人员将很难验证改进。超分辨率的度量标准面临着这样的挑战,需要更多的探索。

    更准确的指标:目前,PSNR和SSIM是SR中应用最为广泛的度量指标,然而,PSNR往往会导致过度平滑,并且在几乎不可分辨的图像之间,结果会有很大的差异。SSIM在亮度、对比度和结构方面进行评估,但仍然无法准确测量感知质量。此外,MOS是最接近人类视觉反应的,但需要付出很大的精力,而且是不可复制的。虽然研究者们提出了各种评价指标,但目前还没有一个统一的、公认的SR质量评价指标。因此,迫切需要更精确的重建质量评价指标。

    Blind IQA Methods:今天大多数用于SR的度量都是参考方法,即,假设我们有一对质量完美的LR-HR图像。但由于这些数据集的获取比较困难,常用的评价数据集往往采用人工退化的方法。在这种情况下,我们执行评估的任务实际上是预定义退化的逆过程。因此,开发blind IQA方法也有很大的需求。

    5.无监督SR

    如第4节所述,同一场景下不同分辨率的图像往往难以收集,因此双三次插值被广泛应用于SR数据集的构建。然而,在这些数据集上训练的SR模型可能只能学习预定义退化的逆过程。因此,无监督超分辨率(即在没有配对LR-HR图像的数据集上训练)是未来发展的一个有希望的方向。

    5.对真实世界的场景

    图像的超分辨率在现实场景中受到极大的限制,例如遭受未知的退化,缺少配对的LR-HR图像。下面我们将介绍一些现实场景的方向。

    Dealing with Various Degradation:真实世界的图像往往会出现模糊、附加噪声和压缩伪影等退化现象。因此,在手工操作的数据集上训练的模型在真实场景中往往表现不佳。已经有人提出了一些解决这个问题的方法,,但这些方法存在一些固有的缺陷,如训练难度大,假设过于完美等。这个问题迫切需要解决。

    Domain-specific Applications:超分辨率不仅可以直接用于特定领域的数据和场景,还可以极大地帮助其他视觉任务。因此,将SR应用于更具体的领域,如视频监控、目标跟踪、医学成像和场景渲染,也是一个很有前景的方向。

    展开全文
  • 图像超分辨率综述:Deep Learning for Image Super-resolution: A Survey 阅读笔记Deep Learning for Image Super-resolution: A Survey简介功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接...

    Deep Learning for Image Super-resolution: A Survey

    本文是2019年发表的一篇图像超分辨率综述文章。
    paper:Deep Learning for Image Super-resolution: A Survey

    简介

    本文的目标在于对近几年基于深度学习的图像超分辨率方法进行全面的介绍。
    现有的基于深度学习的图像超分方法可以大致分为以下三类:有监督的SR、无监督的SR和特定领域的SR。此外,本文还对一些重要的概念进行了说明,比如超分领域常用的公开数据集、重建质量评估方法等。
    在这里插入图片描述

    问题简介和术语

    问题定义

    Ix =D(Iy;δ) Ix是低分辨率图像,Iy是高分辨率图像,D是下采样过程,δ是参数(下采样因子/噪声)。
    超分辨率重建过程可以由下式表示:
    在这里插入图片描述

    Iˆy是重建图像,F是超分辨率模型,θ是F的参数。
    大多数模型的LR数据集都是通过对HR数据做简单下采样(其中最常用的是bicubic插值)得到的,然而,有的模型会采用更复杂的降质(Degradation)方法:
    在这里插入图片描述
    上式中k代表模糊核,nς代表高斯加性白噪声;经过此方法产生的图像会更加接近真实图像,对后续的重建操作更有益。

    数据集

    下表展示了图像超分辨率任务中常用的数据集,并分别列出了各数据集的图像数量、平均尺寸、图像格式等。在这里插入图片描述

    图像质量评估方法

    峰值信噪比PSNR(objective)
    结构相似性SSIM(objective)
    平均主观意见分MOS(subjective)

    操作通道

    常见的图像颜色模型包括RGBYCbCr,早期的一些模型会选择对YCbCr中的Y通道进行操作,最近的一些模型则倾向于对RGB通道进行超分处理。值得一提的是,颜色模型的选取会很大程度上影响最终的生成效果。


    有监督的超分方法

    超分网络框架

    有监督方法的基础是LR-HR图像对,网络模型的结构多种多样,下面介绍四种常见的结构。

    a.pre-upsampling SR

    因为直接学习低分辨率图像和高分辨率图像之间的映射过程会比较困难,Dong等人在SRCNN中首次使用了pre-upsampling SR结构,即先对低分辨率图像做上采样操作,使上采样后的图像尺寸与高分辨率相同,然后学习该上采样后的图像和高分辨率图像之间的映射关系,极大地降低了学习难度。但是,预先上采样通常会带来副作用(例如,噪声放大和模糊),并且由于大多数操作是在高维空间中执行的,因此时间和空间的成本比其他框架要高得多。
    在这里插入图片描述

    b.Post-upsampling SR

    为了提高计算效率并充分利用深度学习技术,研究人员提出在低维空间进行大多数的运算,在网络的末端再进行上采样操作。该做法的好处是,由于具有巨大计算成本的特征提取过程仅发生在低维空间中,大大降低了计算量和空间复杂度,该框架也已成为最主流的框架之一,在近年的模型中被广泛应用。
    在这里插入图片描述

    c. Progressive upsampling SR

    虽然Post-upsampling SR很大程度上降低了计算难度,但对于比例因子较大的情况(4倍、8倍超分),使用Post-upsampling SR方法有较大的学习难度。而且,对于不同比例因子,需要分别训练一个单独的SR网络模型,无法满足对多尺度SR的需求。Progressive upsampling SR 框架下的模型是基于级联的CNN结构,逐步重建高分辨率图像。在每一个阶段,图像被上采样到更高的分辨率,Laplacian金字塔SR网络(LapSRN)就采用了上述框架。通过将一个困难的任务分解为简单的任务,该框架下的模型大大降低了学习难度,特别是在大比例因子的情况下,能够达到较好的学习效果。然而,这类模型也存在着模型设计复杂、训练稳定性差等问题,需要更多的建模指导和更先进的训练策略。
    在这里插入图片描述

    d.Iterative up-and-down Sampling SR

    为了更好地捕捉LR-HR图像对之间的相互依赖关系,在SR中引入了一种高效的迭代过程,称为反投影。DBPN就是基于该结构的模型之一,它交替连接上采样层和下采样层,并使用所有中间过程来重建最终的HR。该框架下的模型可以更好地挖掘LR-HR图像对之间的深层关系,从而提供更高质量的重建结果。然而,反投影模块的设计标准仍然不清楚,由于该机制刚刚被引入到基于深度学习的SR中,具有很大的潜力,需要进一步探索。
    在这里插入图片描述

    上采样方法

    基于插值的上采样方法:最近邻插值法、双线性插值法、双三次插值法
    此类上采样方法只根据图像本身的信号来提高图像的分辨率,而没有带来更多的信息。

    基于学习的上采样方法:转置卷积、亚像素卷积

    转置卷积
    原理如图所示:
    在这里插入图片描述
    操作分为两步,首先对输入图像进行插值(零)使图像尺寸放大,然后对放大后的图像进行卷积操作。以上图为例,输入图像尺寸为3x3,对图像进行补零操作后,尺寸变为6x6,对该图像进行卷积处理,就能得到尺寸为6x6的目标图像,也就实现了二倍上采样。
    转置卷积的缺点是容易产生棋盘格现象。

    亚像素卷积
    亚像素卷积的原理如图所示,首先对输入图像做卷积处理,生成sxs个特征图(s为上采样因子),然后对sxs个特征图做reshape操作,得到目标图像。(reshape方法如图)

    在这里插入图片描述

    网络设计

    残差学习

    分为全局残差学习和局部残差学习两种。

    全局残差学习
    由于图像SR是一种图像到图像的转换任务,其中输入图像与目标图像高度相关,因此我们可以只学习它们之间的残差,这就是全局残差学习。在这种情况下,可以避免学习从一个完整图像到另一个图像的复杂变换,而只需要学习一个残差图来恢复丢失的高频细节。由于大部分区域的残差接近于零,模型的复杂度和学习难度大大降低。

    局部残差学习
    类似于ResNet中的残差学习,shortcut连接可以用于缓解网络深度不断增加所带来的模型退化问题,降低了训练难度,被广泛应用在超分任务中。
    在这里插入图片描述
    举例:
    SRGAN:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
    在这里插入图片描述

    RCAN: Image Super-Resolution Using Very Deep Residual Channel Attention Networks
    在这里插入图片描述

    递归学习

    为了在不引入过多参数的情况下学习到更高级的特征,递归学习(即以递归方式多次应用相同模块)被应用到超分任务中,如图所示。
    在这里插入图片描述
    一般来说,递归学习确实可以在不引入过多参数的情况下学习更精细的特征,但仍然无法避免较高的计算成本。它固有地带来了梯度问题的消失或爆炸问题,因此一些技术,如残差学习和多重监督经常与递归学习相结合,以缓解这些问题。
    e.g. DRCN、MemNet、CARN、DSRN

    MemNet: A Persistent Memory Network for Image Restoration

    在这里插入图片描述

    多路径学习

    多路径学习是指通过多条路径传递特征,每条路径执行不同的操作,将它们的操作结果融合以提供更好的建模能力。具体来说,它可以分为全局、局部和特定规模的多路径学习。

    全局多路径学习
    是指利用多条路径来提取图像不同方面的特征,这些路径在传播过程中可以相互交叉,从而大大提高学习能力。(e.g. LapSRN、DSRN)

    LapSRN:Deep Laplacian Pyramid Networks for Fast and Accurate Super-Resolution
    在这里插入图片描述


    局部多路径学习

    模块结构如下图所示,在该模块中,采用核尺寸为3×3和5×5的两个卷积层同时提取特征,然后将输出串接并再次进行相同的运算,最后再进行1×1的卷积运算。通过这种局部多路径学习,SR模型可以更好地从多尺度中提取图像特征,进一步提高性能。
    在这里插入图片描述
    CVPR2020中的CSNLN便是应用了局部多路径学习,将三个通道的信息整合。包括原始的输入(下)、尺度内非局部注意力(中)、跨尺度非局部注意力(上)。

    CSNLN: Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

    在这里插入图片描述


    特定尺度的多路径学习

    考虑到不同尺度的SR模型需要经过相似的特征提取,Lim等人提出了尺度特定的多路径学习方法来实现单网络的多尺度重建。具体地说,它们共享模型的主要组件(即用于特征提取的网络层),并分别在网络的开始和结束处附加特定比例的预处理结构和上采样结构(如图所示)。在训练期间,仅启用和更新与选定比例相对应的模块。这样,所提出的MDSR通过共享不同尺度下的大部分参数,大大减小了模型的规模,并表现出与单尺度模型相当的性能。CARN和ProSR也采用了类似的特定尺度的多路径学习。
    在这里插入图片描述

    稠密连接

    (Dense Connections 不知道是不是这样翻译)

    自从Huang等人提出基于稠密块的DenseNet以来,稠密连接在视觉任务中的应用越来越广泛。对于稠密块体中的每一层,将所有前一层的特征图作为输入,并将其自身的特征图作为输入传递到所有后续层。稠密连接不仅有助于减轻梯度消失、增强信号传播和鼓励特征重用,而且还通过采用小增长率(即密集块中的信道数)和在连接所有输入特征映射后压缩通道数来显著减小模型尺寸。

    在这里插入图片描述


    RDN: Residual Dense Network for Image Super-Resolution
    RDN中的Residual dense block


    SRDenseNet: Image Super-Resolution Using Dense Skip Connections

    在这里插入图片描述

    注意力机制

    考虑到不同通道之间特征的相互依赖关系,Hu等人提出了SENet,通过考虑通道之间的相互依赖关系来提高网络的学习能力。在该模块中,使用全局平均池化(GAP)将每个输入信道压缩成一个通道描述符(即常数),然后将这些描述符输入到两个密集层中,以产生各通道的权重因子。最近,Zhang等人将通道注意机制应用在超分中,提出了RCAN,显著提高了模型的表达能力。为了更好地探究特征之间的相关性,Dai等人进一步提出二阶通道注意力(SOCA)模块。SOCA通过使用二阶特征统计量代替了全局平均池化,以提取更加精细的特征。

    SENet: Squeeze-and-Excitation Networks

    在这里插入图片描述


    RCAN: Image Super-Resolution Using Very Deep Residual Channel Attention Networks
    在这里插入图片描述


    SAN: Second-order Attention Network for Single Image Super-Resolution
    在这里插入图片描述


    CSNLN: Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

    在这里插入图片描述

    高级卷积

    由于卷积运算是深层神经网络的基础,研究人员也试图改进卷积运算以获得更好的性能或更高的效率。包括使用扩张卷积(空洞卷积)、分组卷积、深度可分离卷积等。

    学习策略

    损失函数


    像素(级)损失 pixel loss
    分为L1损失和L2损失。
    在这里插入图片描述

    在早期,研究者们通常采用L2损失作为模型的损失函数,但后来发现它不能很准确地衡量重建的质量。与L1损失相比,L2损失惩罚较大的error,但对小error的容忍度更高,因此常常导致结果过于平滑。因为PSNR的定义与“对应像素之间的误差”高度相关,最小化像素损失直接使PSNR最大化,像素损失逐渐成为应用最广泛的损失函数。


    内容损失 content loss

    衡量不同图像通过预训练的模型后得到的特征图之间的差异,计算图像之间的感知相似性。
    在这里插入图片描述
    φ是预先训练好的图像分类网络,如VGG、ResNet;l指该网络的第l层。


    纹理损失texture loss
    考虑到重建图像应具有与目标图像相同的风格(如颜色、纹理、对比度),将图像纹理视为不同特征通道之间的相关性.


    对抗损失
    在生成对抗网络中,判别器被用来判断当前输入信号的真伪,生成器则尽可能产生“真”的信号,以骗过判别器。
    在这里插入图片描述


    循环一致性损失
    该损失被用在cycleGAN中,其目的是保证生成的图像必须保留有原始图像的特性。在超分任务中,低分辨率图像I经过超分重建后得到重建图像Iˆ,I’则是对该重建图像做下采样后的低分辨率图像,重新生成的I′应该尽可能与输入I相同。

    在这里插入图片描述


    总变化损失
    为了抑制生成图像中的噪声,引入了总变化损失,它被定义为相邻像素之间的绝对差异之和。
    在这里插入图片描述



    批量标准化/批量归一化

    为了加速和稳定深部神经网络的训练,Sergey等人提出批量标准化(BN)以减少网络的内部协变量偏移。具体来说,它们对每个小批量执行规范化,并为每个通道训练两个额外的转换参数,以保持表示能力。然而,Lim等人在EDSR中提出BN会丢失每个图像的比例信息,并从网络中去除范围灵活性。此外,由于BN层与前面的卷积层消耗的内存量相同,因此移除BN层后,GPU内存使用量也充分减少。与SRResNet相比,没有批量标准化层的baseline模型在训练期间节省了大约40%的内存使用量。因此,在有限的计算资源下,我们可以建立一个比传统ResNet结构有更好性能的更大的模型。
    在这里插入图片描述

    State-of-the-art 超分辨率模型

    下表总结了一些有代表性的模型及其关键策略。
    在这里插入图片描述

    无监督的超分方法

    现有的超分辨率研究主要集中在有监督学习上,即利用匹配的LR-HR图像对进行学习。然而,由于同一场景不同分辨率的图像难以采集,因此通常通过对HR图像进行预先降质处理来获得SR数据集中的LR图像。为了学习真实世界的LR-HR映射,研究者们越来越关注无监督SR,在这种情况下,只提供未配对的LR-HR图像进行训练,从而使生成的模型更有可能处理真实场景中的SR问题。

    考虑到单个图像内部的图像统计信息,Shocher等人提出了ZSSR,既不需要先验的图像样本也不需要先验的训练,它利用单张图片的内部重复信息在测试期间训练一个小型针对特定图片的CNN。具体地说,从单个图像估计退化内核,并使用该内核通过对该图像执行不同比例因子的降级和增强来构建一个小数据集,然后在这个数据集上训练一个小的用于SR的CNN并用于最终的预测。

    ZSSR: Zero-Shot Super-Resolution Using Deep Internal Learning

    ZSSR有以下几点贡献:

    (1)第一篇采用无监督方式搭建的CNN超分辨率算法;
    (2)能对非理想条件下的图像进行处理;
    (3)不需要进行预训练,并且计算量小;
    (4)没有任何的尺寸限制,可以应用到任何比例的SR任务;


    下面这篇是CVPR2020中的一篇无监督超分文章,数据集为非配对的LR、HR,同时加入了CycleGAN的思想。

    Unpaired Image Super-Resolution using Pseudo-Supervision

    在这里插入图片描述


    总结

    本文对图像超分辨率进行了全面整体的介绍,提出了以后可以重点探索的方向:

    1.网络设计

    Combining Local and Global Information. 结合局部和全局信息

    Combining Low-and High-level Information. 将浅层CNN提取的信息(如色彩等)与深层CNN提取的图像特征结合。

    Context-specific Attention.

    More Efficient Architectures. 在实际应用中,过于复杂的模型结构是不太能被接受的,因此需要更加高效的结构。

    Upsampling Methods上采样方法
    如何进行有效和高效的上采样仍然需要研究,特别是在高比例因子的情况下。

    2.学习策略

    损失函数
    现有的损失函数可以看作是在LR/HR/SR图像之间建立约束条件,并根据这些约束条件来指导优化过程。在实际应用中,这些损失函数往往是加权组合的,而SR的最佳损失函数仍不清楚。因此,探索这些图像之间潜在的相关性,寻求更精确的损失函数是最有前途的方向之一。

    BN
    尽管BN被广泛应用于视觉任务中,大大加快了训练速度并提高了性能,但对于超分辨率来说,它的效果并不好。因此,需要对SR的其它有效归一化技术进行研究。

    3.评价方法
    Blind IQA Methods 目前用于SR的大多数指标都是参考方法,即假设我们已将LR-HR图像与完美质量配对。但由于这类数据集的获取比较困难,常用的评价数据集往往采用人工降级的方式进行。在这种情况下,我们执行的评估任务实际上是预定义降级的逆过程。因此,发展Blind IQA 方法有很大的需求。

    4.无监督超分辨率




    在这里插入图片描述

    展开全文
  • EDSR以后的超分辨率综述(2018年)

    千次阅读 2019-05-09 15:16:39
    1. DBPN (Deep Back-Projection Networks For Super-Resolution, CVPR2018) 这篇文章提出了一种迭代地计算上采样和下采样...先将输入的低分辨率尺寸映射到高分辨率特征图,接着再将这个高分辨率的特征图映射回输入...

    1. DBPN

    (Deep Back-Projection Networks For Super-Resolution, CVPR2018)

    这篇文章提出了一种迭代地计算上采样和下采样投影误差的错误反馈机制,对重建过程进行引导以得到更好的结果。文章提出的上采样和下采样映射单元如下图所示。

    以上采样单元为例。先将输入的低分辨率尺寸映射到高分辨率特征图,接着再将这个高分辨率的特征图映射回输入尺寸大小的特征图,计算其与输入特征图的残差,再次将这个残差映射到高分辨率尺寸,与之前的高分辨率特征图相加得到最后的输出。这一具体过程让我想到了cycleGAN的思想,即需要同时考虑正向和反向的映射,对生成的高分辨率图像进行下采样也应能够与输入的低分辨率图像相近。在以上结构中,通过计算与输入数据的残差,实现了错误反馈的机制。下采样单元则是将上采样单元的放大尺寸和缩小尺寸的顺序颠倒一下。

    DBPN的网络结构如上所示。通过采用稠密连接的方式,将多个上采样单元和下采样单元堆叠起来,最终通过一个卷积层重建出超分辨率结果。此方法在NTIRE2018比赛中8倍的bicubic上采样任务上拿到了第一名,PIRM2018比赛中也拿到了Region 2的第一名。

    github(caffe): https://github.com/alterzero/DBPN-caffe

    github(pytorch): https://github.com/alterzero/DBPN-Pytorch

     

    2. IDN

    (Fast and Accurate Single Image Super-Resolution via Information Distillation Network, CVPR2018)

    这篇文章关注的问题是,大多数方法为了获得更好的结果,都趋向于将网络加深或者扩大,实际的应用性很低。于是文章从特征图的通道维度入手,提出了一种叫做信息蒸馏块的结构。网络结构如下图所示,由特征提取块,堆叠的信息蒸馏块和重建块组成。

    每个信息蒸馏块由增强单元压缩单元组成。增强单元结构如下。

    增强单元中,可以将上面的三个卷积层和下面的三个卷积层分别看成一个模块。其中上面的模块输出局部短路径信息,下面的模块输出局部长路径信息。每个模块中,第一个卷积层输出的通道数比第二个卷积层输出的通道数大,第三个卷积层输出的通道数比第一个卷积层输出的通道数大。上面的模块输出的局部短路径信息在通道维度上被划分为两部分,一部分与输入数据串联起来,另外一部分输入下面的模块。最后,将输入的数据,保留的局部短路径信息以及下面的模块输出的局部长路径信息相加,即得到增强单元的输出。

    增强单元的输出都会输入到压缩单元中。所谓的压缩单元,就是一个1×1的卷积层,将特征图的通道维度进行压缩,蒸馏掉冗余的信息。

    其实这篇文章方法的网络结构与VDSR或是LapSRN的网络结构很相似,都是学习高分辨率图像和低分辨率图像之间的残差,与bicubic上采样后的低分辨率图像相加得到输出。IDN通过压缩网络中特征图通道维度的方式,在减小网络参数,提高速度的情况下,还保证了重建的结果。

    github(caffe): https://github.com/Zheng222/IDN-Caffe

     

    3.RDN

    (Residual Dense Network for Image Super-Resolution, CVPR2018)

    这篇文章的方法从名字上也能看出来吧。用了dense的方法,堆叠多个残差稠密块,提出了一个残差稠密网络,充分利用网络中各个层级的特征。与ICCV2017的SRDenseNet很像,不过SRDenseNet只有dense连接,本章方法多了1×1卷积后在相加的步骤,所以这个方法叫做residual dense。作者为在残差稠密块中的1×1卷积起名叫局部特征融合,残差稠密网络最后的1×1卷积起名叫全局特征融合。残差稠密网络和残差稠密块的结构分别如下所示。

    github(torch): https://github.com/yulunzhang/RDN

    github(tensorflow): https://github.com/hengchuan/RDN-TensorFlow

     

    4.RCAN

    (Image Super-Resolution Using Very Deep Residual Channel Attention Networks, ECCV2018)

    这篇文章中提到,越来越深的卷积神经网络是使得超分辨率任务的精度越来越高了,然而之前的网络中的特征包含有多余的低频信息,但是网络对于所有信息是同等对待的,从而限制了网络的表达能力。于是,这篇文章将通道维度的注意力机制引入了超分辨率任务中。网络结构如下。

    网络结构由特征提取部分,堆叠的残差组用于提取深层特征,放大尺寸模块和重建部分组成。每个残差组包含多个残差通道注意力块。作者把这种结构起名叫残差中的残差,包含有长跳跃连接和短跳跃连接。作者指出,图像的低频信息可以通过这多个跳跃连接传递到网络深层,从而让网络关注于高频信息。我认为其实这本来就是残差网络的恒等映射的优点,并且可以让网络变得更深的原因吧。残差通道注意力块的结构如下图所示。

    残差通道注意力块中用一个全局平均池化操作来获得每个通道的全局空间信息的表达。然后使用sigmoid函数实现门控机制,从而赋予网络通道注意力机制。

    文章给出的视觉结果全是图像中高频信息十分丰富的部分,都是很密集的线或者很密集的网格,与其他结果相比确实好很多,说明文章中所说的让网络关注于重建图像的高频信息部分,确实有很好的效果。

    github(pytorch): https://github.com/yulunzhang/RCAN

     

    5.MSRN

    (Multi-scale Residual Network for Image Super-Resolution, ECCV2018)

    这篇文章的出发点也是为了充分利用低分辨率图像的特征,从而提出了一个多尺度残差块的结构。所谓的多尺度残差块,就是将残差块和inception块进行了结合,使用了不同尺寸的卷积核,从而可以在不同的尺寸上获取图像的特征。文章指出这是第一次在残差结构上使用多尺度的模式。在多尺度残差块中,会对提取的局部多尺度特征进行融合。多尺度残差网络则由多个多尺度残差块堆叠而成,在网络的最后部分,将每一个多尺度残差块的输出结合在一起进行全局特征融合,从而重建出超分辨率结果。多尺度残差网络和多尺度残差块的结构示意图分别如下所示。

     

    github(pytorch): https://github.com/MIVRC/MSRN-PyTorch

     

    6.CARN

    (Fast, Accurate, and Lightweight Super-Resolution with Cascading Residual Network, ECCV2018)

    这篇文章的出发点也是为了减轻网络的体量,增强实用性。作者采用了一种级联机制来实现目的,提出了级联残差网络。网络结构如下。

    在级联残差网络中,包含多个级联块。级联块内部也包含多个跳跃的连接,这样就使得级联残差网络在局部和全局都可以混合多级的特征。网络使用亚像素卷积层进行尺寸的放大。级联块的结构如下所示。

    为了提高网络的效率,作者提出了上图(b)的残差-E块,使用的是与MobileNet类似的方法,不过是使用分组卷积替换深度卷积。上图(c)则是级联块的结构。为了进一步减少参数,可以像递归网络一样,对级联块的参数进行共享,如上图中的(d)。

     

    7.ZSSR

    (“Zero-Shot” Super-Resolution using Deep Internal Learning, CVPR2018)

    主页:http://www.wisdom.weizmann.ac.il/~vision/zssr/

    这一篇文章叫做“零样本”超分辨率,我个人觉得也算是一个比较另辟蹊径(新颖)的想法吧。所谓的“零样本”超分辨率,作者采用的做法是利用图像的内部信息,用图像本身来训练网络。由于只有一个实例,因此先对这张图像进行不同倍率的下采样,得到这张图像本身以及多个不同的下采样版本,这些图片就被用来当作训练网络用的标签。再将这些图片进行目标倍率的下采样,即可得到训练的输入数据。对数据集再进行一些旋转、翻转等增强操作,然后用增强后的数据集训练一个相对轻量的卷积神经网络。由于训练数据都是由图像本身得到的,数据分布比较集中,因此网络能够很快得到收敛。再将图像本身输入到网络中,即可完成对原始图像的上采样操作。论文中的过程示意图如下。

    作为一个无监督的方法,ZSSR重建的图像的PSNR与一众用大量数据训练的监督方法相比还是会低一些,不过作者指出ZSSR更加适应真实场景中的图像超分辨率,除了对图像进行超分辨率外,还能够解决传感器噪声、图像压缩等问题,这都是只用bicubic下采样生成的数据集训练的方法完成不了的。我认为这篇文章真的是很有意思的一个想法,不过ZSSR应该不太适用于较大倍率的超分辨率任务。

    github(tensorflow): https://github.com/assafshocher/ZSSR

     

    8. SFTGAN

    (Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform, CVPR2018)

    这篇文章的主要目标是在超分辨率结果中恢复出自然真实的纹理。为了实现这一目标,文章将语义分割概率图作为语义类别先验条件,即确定图像中属于天空、水或者草地等的区域,从而有助于生成更加丰富真实的纹理。作者提出了一种空间特征调制层,将语义类别先验结合到网络中。网络结构示意图如下所示。

    空间特征调制层的过程是由先验条件中得到仿射变换和平移的参数,再对网络的中间特征进行仿射变换操作。训练网络时使用的感知损失和对抗损失。

    github(pytorch/torch): https://github.com/xinntao/SFTGAN

     

    9. SRFeat

    (SRFeat: Single Image Super-Resolution with Feature Discrimination, ECCV2018)

    这篇文章中说到,虽然已有的基于GAN的超分辨率方法能够被用来生成真实的纹理信息,但是它们都倾向于生成与输入图像无关的不太有意义的高频噪声。于是,作者增加了一个作用于特征域的判别网络,使得生成网络能够生成与图像结构相关的高频特征。生成网络的结构如下。

    生成网络中间部分由多个残差块以及远程跳跃连接组成,这样的结构可以更有效地传递远程层之间的信息。之后由亚像素卷积层完成尺寸放大的操作。判别网络结构如下。

    训练网络时,作者先用均方误差预训练生成网络,然而,此时得到的结果并不能得到视觉上让人满意的结果。接下来,再用感知损失两个对抗损失来训练网络。一个对抗损失对应的是图像判别网络,也就是和原有方法一样,对图像的像素值进行评判。另外一个对抗损失则对应的是特征判别网络,是对图像的特征图进行评判,即将感知损失中计算的对象交由判别网路进行判断。通过添加这个特征判别网络,生成网络被训练得能够合成更多有意义的高频细节。作者提到,他们尝试了多种特征判别网络的结构,但是得到的结果都很接近。

    从文章给出的视觉结果来看,添加了特征判别网络后,确实能够生成更加真实丰富的细节。

     

    10.ESRGAN

    (ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks, ECCV2018 PIRM Workshop)

    这一篇文章为了去除SRGAN的结果中的人工伪影,增强结果的视觉质量,从生成网络,判别网络和感知损失三个方面进行了提升。首先,生辰网络的结构图下。

    图中橙色表示的基础块,可以选择残差块(与SRGAN一样),稠密块,或者是本文提出的残差中的残差稠密块。残差中的残差稠密块结构如下。

    在EDSR中就指出了去掉BN层能够给超分辨率任务的结果带来提升。作者将BN层去掉,同时将原始残差块中的残差映射分支结构改为稠密连接的结构。一个残差中的残差稠密块中包含多个修改后残差块以及一个长跳跃连接的恒等映射,所以叫做残差中的残差。作者指出,由于这个结构使得网络更深并且更复杂,给结果的提升带来了好处。为了训练这么深的网络,同时使结果更好,还使用了残差缩放、更小的初始化等操作。

    判别网络的改进是将原先标准的判别网络改为了相对的判别网络,即原先的判别网络是判断输入图像是否是真实的,而现在判别网络是判断输入图像是否比假的图像更加真实,比较的对象是对一个mini-batch中所有假数据取平均值。使用相对的判别网络以后,反向传播给生成网络的梯度能来自生成数据和真实数据,而不像以前只能来自生成数据,因此生成网络能够生成更加锐利的边缘和更加丰富的纹理细节。

    对感知损失的改进是使用的是激活函数之前的数据,而不是使用激活函数输出的数据。由于激活函数是稀疏的,因此激活函数带了了非常弱的监督。同时,作者还发现使用激活函数输出的数据,会带来重建图像与GT亮度不一致的问题。在参加PIRM2018比赛中,作者尝试了不同的感知损失,还专门fine-tuned了VGG网络用于材料识别任务,因为这个任务更加注重于纹理而不是物体。

    文章中还提到了网络插值的操作。即先用均方误差训练好一个生成网络,再基于GAN训练一个生成网络,将两个训练好的网络中的所有参数赋予权重进行插值,即可得到一个插值的网络。通过调节权重,即可以平衡模型的视觉质量与逼真度。

    此方法在PIRM2018比赛中拿到了Region 3的第一名。

    github(pytorch): https://github.com/xinntao/ESRGAN

    展开全文
  • Hoi机器之心编译参与:王淑婷、张倩图像超分辨率(SR)研究已经利用深度学习技术取得了重大进展,本文旨在系统性地综述这些进展。作者将 SR 研究分为三大类:监督 SR、无监督 SR 以及特定领域的 SR。此外,本文还介绍...

    选自arXiv

    作者Zhihao Wang、Jian Chen、Steven C.H. Hoi

    机器之心编译

    参与:王淑婷、张倩

    图像超分辨率(SR)研究已经利用深度学习技术取得了重大进展,本文旨在系统性地综述这些进展。作者将 SR 研究分为三大类:监督 SR、无监督 SR 以及特定领域的 SR。此外,本文还介绍了这一领域常用的公共开源基准数据集和性能评估指标,并指出了未来的几个方向以及一些待解决的问题。

    图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中一种重要的图像处理技术。它在现实世界中有着广泛的应用,如医学成像、监控和安全等。除了改善图像的感知质量,它还有助于改善其它计算机视觉任务。总的来说,由于单个 LR 图像通常对应多个 HR 图像,因此这个问题比较具有挑战性。以往的文献中提到了多种经典的 SR 方法,包括基于预测的方法、基于边缘的方法、统计方法、基于 patch 的方法和稀疏表征方法等。

    随着近年来深度学习技术的快速发展,研究人员积极地探索基于深度学习的 SR 模型,且该模型经常在各种 SR 基准测试上达到当前最佳水平。各种深度学习方法被用来解决 SR 问题,包括早期基于卷积神经网络的方法和近期使用生成对抗网络的 SR 方法。一般来说,使用深度学习技术的 SR 算法在以下主要方面有所不同:不同的网络架构、不同的损失函数、不同的学习原则和策略等。

    本文全面综述了图像超分辨率使用深度学习所取得的最新进展。虽然目前已有的文献中有对超分辨率的概述,但本文的概括有所不同:本文的重点在于基于深度学习的 SR 技术,而早期的概述重点在于传统的 SR 算法,或者有些概述是基于完全参考指标或人类视觉感知来提供定量评估。与现有的概述不同,本文以系统和全面的方式采取了一种基于深度学习的独特视角来回顾 SR 技术的最新进展。

    本文主要贡献如下:

    1. 全面回顾了基于深度学习的图像超分辨率技术,包括问题设置、基准数据集、性能度量、一系列基于深度学习的 SR 方法、特定领域的 SR 应用等。

    2. 以分层和结构化的方式系统回顾了基于深度学习的 SR 技术的最新进展,总结了有效 SR 方案每个部分的优势和局限性。

    3. 讨论了当前的挑战和开放性问题,确认了新的发展趋势和未来方向,为该社区提供了见解和指导。

    接下来本文将描述基于深度学习的图像超分辨率最新进展的各个方面。图 1 以分级结构的方式列出了本文的概况。第二部分讨论了问题定义并回顾了主流的数据集和评估指标。第三部分模块化地分析了监督超分辨率的主要组成部分。第四部分简要介绍了无监督超分辨率方法。第五部分介绍了特定领域流行的一些 SR 应用,第六部分讨论了 SR 技术的未来发展方向和开放性问题。

    cee76a9fe81b5568cc09850bf6f9c051.png

    图 1:本综述的结构图

    论文:Deep Learning for Image Super-resolution: A Survey

    cc47cc1b2c6beb7f3f6cd986ee8375ea.png

    论文地址:https://arxiv.org/abs/1902.06068

    摘要:图像超分辨率(SR)是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术。近几年来,图像超分辨率研究已经利用深度学习技术取得了重大进展。文本旨在系统性综述图像超分辨率技术利用深度学习技术所取得的最新进展。总体来看,现有的 SR 技术研究大体可以分为三大类:监督 SR、无监督 SR 以及特定领域的 SR。除此之外,本文还介绍了其他一些重要内容,如公共开源基准数据集和性能评估指标。最后,本文还指出了未来的几个方向以及一些待解决的问题。

    超分辨率研究数据集

    目前有很多用于图像超分辨率研究的数据集,它们在图像数量、质量、分辨率、多样性等方面存在很大的差异。其中一些数据集提供 LR-HR 图像对,而有些仅提供 HR 图像,其中的 LR 图像通常由 MATLAB 中默认设置的 imresize 函数获得。表 1 列出了 SR 社区常用的一些图像数据集,详细地写明了其包含的 HR 图像数量、平均分辨率、像素平均数、图像格式和分类关键词等。

    700702f3e5295e0a32bec01781337ccf.png

    表 1:用于超分辨率基准的公共图像数据集

    监督超分辨率

    已有研究人员提出了很多利用深度学习的超分辨率模型。这些模型主要关注监督超分辨率,即同时利用 LR 图像和相对应的 ground truth HR 图像进行训练。尽管这些模型之间的差别非常大,但它们本质上是一套组件的组合,如模型框架、上采样方法、网络设计、学习策略等。从这个角度来看,研究人员组合了这些组件来构建一个整合的 SR 模型,以实现特定目的。本章将着重对基本组件进行模块化分析(见图 1),而不是单独介绍每个模型并总结它们的优缺点。

    3f7dffb81399d69165bc4738637c783a.png

    图 2:基于深度学习的超分辨率模型框架。这些四边形显示了上/下采样运算(取决于它们的方向)。灰色四边形表示预定义的上采样运算,绿色和黄色四边形分别表示可学习的上采样或下采样层。蓝色框表示卷积层,虚线框内的部分表示可以堆叠在框架内的模块。

    96856f20e391c84bcc83013f07af6f4e.png

    图 3:网络设计策略

    无监督超分辨率

    现有的超分辨率研究重点是监督学习,即利用 LR-HR 图像对学习 LR 到 HR 图像的映射。然而,由于获取同一个场景的不同分辨率图像难度较大,SR 数据集中的 LR 图像往往是通过对 HR 图像进行预定义的降级来获得的。因此,在这些数据集上训练的 SR 模型更有可能学习预定义降级的可逆流程。为了避免预定义降级带来的不良影响,研究人员越来越关注无监督超分辨率,用于训练的图像只有 HR 或 LR 的非配对图像,因此得到的模型更擅长解决实际应用中的 SR 问题。

    特定领域的应用

    1、深度图超分辨率

    深度图记录了场景中视点和目标之间的距离,深度信息在姿态估计 [150], [151], [152]、语义分割 [153], [154] 等许多任务中发挥着重要作用。然而,由于生产力和成本方面的限制,由深度传感器生成的深度图通常分辨率较低,并饱受噪声、量化、缺失值等方面的降级影响。为了提高深度图的空间分辨率,研究人员引入了超分辨率。

    2、人脸图像超分辨率

    人脸图像超分辨率(又名 face hallucination,FH)通常有助于完成其它与人脸相关的任务 [6], [72], [73], [162]。与一般图像相比,人脸图像拥有更多与人脸相关的结构化信息,因此将人脸先验知识整合到 FH 中是一种非常流行且颇有前景的方法。

    3、超光谱图像超分辨率

    与全色图像(panchromatic image,PAN)相比,超光谱图像(HSI)包含数百个波段的高光谱图像,能够提供丰富的光谱特征,帮助完成许多视觉任务 [174], [175], [176], [177]。然而,由于硬件限制,不仅是搜集高质量 HSI 比搜集 PAN 难度更大,搜集到的 HSI 分辨率也要更低。因此,该领域引入了超分辨率,研究人员往往将 HR PAN 与 LR HSI 相结合来预测 HR HSI。

    4、视频超分辨率

    在视频超分辨率中,多个帧可以提供更多的场景信息,该领域不仅有帧内空间依赖,还有帧间时间依赖(如运动、亮度和颜色变化)。因此,现有研究主要关注更好地利用时空依赖,包括明确的运动补偿(如光流算法、基于学习的方法)和循环方法等。

    5、其它应用

    基于深度学习的超分辨率也被应用到其它特定领域的应用中,而且表现出色。尤其是,RACNN[197] 利用 SR 模型增强了用于细粒度分类的 LR 图像细节的可辨性。类似地,感知 GAN[198] 通过超分辨小目标的表征解决了小目标检测问题,实现了与大目标相似的特征,检测更具可辨性。FSR-GAN[199] 超分辨化了特征空间而非像素空间中的小图像,将质量较差的原始特征转换成了可辨性更高的特征,这对图像检索非常有利。此外,Dai 等人 [7] 验证了 SR 技术在若干视觉应用中的有效性和有用性,包括边缘检测、语义分割、数字和场景识别。Huang 等人 [200] 开发了专门用于超分辨率遥感图像的 RS-DRL。Jeon 等人 [201] 利用立体图像中的视差先验来重建配准中具有亚像素准确率的 HR 图像。

    总结当下,放眼未来

    1、网络设计

    良好的网络设计不仅决定了具有很高性能上限的假设空间,还有助于在没有过多空间和计算冗余的情况下高效地学习数据表征。下面我们将介绍一些有前景的网络改进方向:

    • 结合局部信息和全局信息

    • 结合低级和高级信息

    • 针对特定上下文的注意力

    • 轻量级架构

    • 上采样层

    2、学习策略

    除了良好的假设空间,鲁棒的学习策略也是实现令人满意的结果所必需的。下面我们将介绍一些不错的学习策略。

    损失函数。现有的损失函数可视作在 LR/HR/SR 图像之间建立约束,并根据这些约束是否得到满足来指导优化。实际上,这些损失函数通常是加权组合的,对 SR 来说最佳的损失函数仍然未明。因此,最有前景的方向之一是探索这些图像之间的潜在关联并寻求更精确的损失函数。

    归一化。虽然 BN 被广泛用于视觉任务中,大大加快了训练并提高了模型性能,但它对于超分辨率技术来说仍是次优策略。因此需要研究其它有效的 SR 归一化技术。

    3、评估指标

    评估指标是机器学习最基本的组成部分之一。如果指标不能准确测量模型性能,研究者就很难验证其进步。超分辨率图像的评估指标同样面临这样的挑战,因此需要进行更多的探索。

    更精确的指标。超分辨率图像中使用最广泛的指标是 PSNR 和 SSIM。然而,PSNR 往往会导致过度平滑,且结果在几乎无法区分的图像之间差异很大。SSIM 在亮度、对比度和结构方面进行评估,但仍然无法准确测量图像的感知质量。此外,MOS 最接近人类视觉反应,但需要大量人力和精力,且不可复制。因此,迫切需要更精确的指标来评估重建图像的质量。

    盲 IQA 方法。如今,用于 SR 的大多数指标都是完全参考(all-reference)方法,即假设我们已将 LR-HR 图像以完美的质量配对。但此类数据集难以获取,因为用于评估的数据集通常是通过人工降级获得的。在这种情况下,我们对其执行评估的任务实际上是预定义降级的逆过程。因此,开发盲 IQA 方法也有很大的需求。

    4、无监督超分辨率

    如第四部分所述,在相同的场景中收集不同分辨率的图像比较难,因此双三插值被广泛用于创建 SR 数据集。但是,在这些数据集上训练的 SR 模型可能仅学习了预定义降级的可逆过程。因此,如何执行无监督超分辨率(即在没有配对 LR-HR 图像的数据集上训练)是未来发展的一个可行方向。

    5、实际应用方向

    图像超分辨率在实际应用中受到很大限制,如遭遇未知的降级因子,丢失配对 LR-HR 图像等。以下是 SR 在实际应用中的一些发展方向:

    处理多种降级问题。实际应用中的图像往往会遭遇未知的降级问题,如噪声增多、压缩人为问题和模糊等。因此,在人为降级的数据集上训练的模型在现实应用中往往表现不佳。研究人员已经提出了一些方法来解决这一问题,但这些方法有一些先天缺陷,如训练难度大、过于完美的假设。这一问题亟待解决。

    特定领域的应用。超分辨率不仅可以直接应用于特定领域的数据和场景,还对其它视觉任务有很大帮助。因此,将 SR 应用于更多的特定领域也是一个有前景的方向,如视频监控、人脸识别、目标跟踪、医学成像、场景渲染等。

    多尺度超分辨率。多数现有 SR 模型以固定的比例因子来执行 SR。但在实际应用中我们经常要以任意比例因子来执行官 SR,因此,开发多尺度超分辨率的单个模型也是一个潜在的发展方向。fba26e3b2a89a6a7beb457db55b24e75.png

    本文为机器之心编译,转载请联系本公众号获得授权

    ✄------------------------------------------------

    加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

    投稿或寻求报道:content@jiqizhixin.com

    广告 & 商务合作:bd@jiqizhixin.com

    展开全文
  • 图像超分辨率算法综述 摘要介绍了图像超分辨率算法的概念和来源通过回顾插值重建和学习这3个层面的超分辨率算法对图像超分辨率的方法进行了分类对比着重讨论了各算法在还原质量通用能力等方面所存在的问题并对未来...
  • 超分辨率算法综述.doc

    2021-10-08 18:10:24
    超分辨率算法综述.doc
  • 点击上方“AI算法修炼营”,选择“星标”公众号精选作品,第一时间送达今天给大家介绍一篇图像超分辨率邻域的综述,这篇综述总结了图像超分辨率领域的几方面:problem settings、数...
  • 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上...
  • 超分辨率——综述文章

    千次阅读 2019-07-24 20:05:04
    超分辨率研究的意义 超分辨率研究的问题是 将低分辨率的图像重建为高分辨率的图像。这种操作主要有这么几种应用场景: 图像压缩方面,在传输过程中可以只传输低分辨率的图片,然后通过重建操作得到高分辨率图像。低...
  • 综述类的论文,对于超分辨率研究入门很有帮助,作者附录里有附带经典源码的链接,特别是几个深度学习的github链接,国内也有镜像
  • 基于深度学习的单幅图像超分辨率重建综述.pdf
  • 很好 pdf格式 详细介绍了超级分辨率图像的恢复算法
  • 视频帧超分辨率重建综述

    千次阅读 2018-09-30 13:49:24
    **摘要:**序列图像的超分辨率复原是指采用信号处理的方法通过对序列低分辨率退化图像的处理来获得一幅或者多幅SR复原图像,该技术可以弥补硬件实现的局限并且成本低,在视频、遥感等领域有着重要的应用前景。...
  • 图像超分辨率重建( super - resolution,SR) 是指从观测到的低分辨率图像重建出相应的高.分辨率图像,在目标检测、医学成像和卫星遥感等领域都有着重要的应用价值. 近年来,随着深度.学习的迅速发展,基于深度...
  • 为深入了解基于深度学习的单图像超分辨率重建(SISR)的发展,把握当前研究的热点和方向,针对现有基于深度学习的单图像超分辨率重建模型进行了梳理。介绍了相关深度学习算法和基于深度学习的模型以及评价指标,并...
  • 序列图像超分辨率复原综述

    千次阅读 2014-10-09 11:35:25
    摘要:序列图像的超分辨率复原是指采用信号处理的方法通过对序列低分辨率退化图像的处理来获得一幅或者多幅SR复原图像,该技术可以弥补硬件实现的局限并且成本低,在视频、遥感等领域有着重要的应用前景。...
  • 图像超分辨率是指利用一幅或多幅低分辨率图像,运用相应的算法来获得一幅清晰的高分辨率图像.然而,传统的基于插值和重建的方法已很难获得进一步的突破.近年来出现的基于学习的方法为超分辨率的发展重新注入了活力...
  • 视频超分辨率增强的目的在于从时间上弥补视频采样设备采样帧率的不足, 描述高速运动变化对象的细节...从视频超分辨率的含义、发展现状、主要技术方法和未来研究展望等方面, 对视频超分辨率增强领域的研究进行了综述
  • 超分辨率重建技术综述,唐庭阁,唐巧玲,超分辨率重建技术是指利用一幅或者一序列的位于同一场景且有相互位移的低分辨率图像中的信息重建出一幅高分辨率图像的技术。该技
  • 基于深度学习的图像超分辨率重建方法综述.pdf
  • 基于深度学习的图像超分辨率重建技术综述.pdf
  • 深度学习单帧图像超分辨率重建研究综述.pdf
  • 超分辨率的经典综述论文,可对此方向有个大概了解,值得学习
  • 超分辨率图像重构-综述Image Super-ResolutionSuper-Resolution Methods and TechniquesPre-Upsampling Super ResolutionSRCNNVDSR​Post-Upsampling Super-ResolutionFSRCNNESPCNResidual ...Stage Residual ...
  • 图像超分辨率重建技术综述 ,叶富泽,包立君,图像超分辨率重建(Image super-resolution restoration, SR)技术是计算机视觉与图像处理的研究热点,并在视频监控,遥感成像,医学图像等领�
  • 基于深度学习的单图像超分辨率重建研究综述.pdf
  • 图像超分辨率是指由一幅低分辨率图像或图像序列恢复出高分辨率图像。图像超分辨率技术分为超分辨率复原和超分辨率重建。   超分辨率复原和超分辨率重建有一个共同点,就是把在获取图像时丢失或降低的高频信息恢复...
  • 基于深度学习的超分辨率图像重建研究综述.pdf

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 3,018
精华内容 1,207
关键字:

超分辨率综述