精华内容
下载资源
问答
  • 前言 图像和视频通常包含着大量的视觉信息,且视觉信息本身具有直观高效的描述能力,所以随着信息技术的高速...本文试着讲述超分辨率技术的正确打开方式,浅谈视频图像超分辨率技术的基本概念和应用场景等问题。 ...

    前言

    图像和视频通常包含着大量的视觉信息,且视觉信息本身具有直观高效的描述能力,所以随着信息技术的高速发展,图像和视频的应用逐渐遍布人类社会的各个领域。近些年来,在计算机 图像处理、计算机视觉和机器学习等 领域中,来自工业界和学术界的许多学者和专家都持续关注着视频图像的超分辨率技术这个基础热点问题。

    本文试着讲述超分辨率技术的正确打开方式,浅谈视频图像的超分辨率技术的基本概念和应用场景等问题。

    在这里插入图片描述

    什么是超分辨率

    2.1 超分辨率初体验
    简单来讲,图像超分辨率就是提高图像的空间分辨率,例如将一 幅图片的分辨率由352x288扩大到704x576.方便用户在大尺寸的显示设备上观看。图像的超分辨率,是图像处理相关问题中的基础问题之一,并具有广泛的实际需求和应用场景,在数字成像技术,视频编码通信技术,深空卫星遥感技术,目标识别分析技术和医学影像分析技术等方面,视频图像超分辨率技术都能够应对显示设备分辨率大于图像源分辨率的问题。

    简单来说超分辨率技术可以分为以下两种:

    1. 只参考当前低分辨率图像,不依赖其他相关图像的超分辨率技术,称之为单幅图像的超分辨率(single image super resolution),也可以称之为图像插值(image interpolation)
    2. 参考多幅图像或多个视频帧的超分辨率技术,称之为多帧视频/多图的超分辨率(multi-frame super resolution)
      在这里插入图片描述
      2.2超分辨率理论描述
      这个很直观的超分辨率问题,它的理论描述如下图所示,超分辨率就是讲坐图中的像素点之间的空间位置用像素点进行填充,是的整个图像具有更多的像素点,更丰富的细节,从信号的角度将就是补充出更多的高频成分。

    在这里插入图片描述

    通常在处理这个超分辨率问题的时候,我们常常探索这个退化信号是如何从我们希望的理想信号变化得到(即分辨率的退化过程),如果对退化过程进行精确的描述,往往对其逆问题求解有重要的意义。

    在本文的问题中,即超分辨率的退化模型,可以通过以下公式来描述:
    Y=HDX+nY=HDX+n
    其中Y为低分辨率的视频帧/图像,X为我们理想高分辨率的视频帧/图像,而H和D分别为模糊算子和分辨率下采样算子,n为退化过程中产生的噪声。
    由上述公式可知该退化问题存在着病构特性,即多个不同的高分辨率图像X,经过相同的退化过程处理,可以得到同样的低分辨率图像Y。这就导致我们无法直接通过Y求解出一个精确的X,也是视频图像超分辨率问题一直是一个开放性的问题的原因(逐渐逼近符合人眼视觉认识的解)。

    根据图像超分辨率的技术路线进行分类,图像超分辨率技术大致可以分为以下几类:

    • 基于定参数的线性滤波器技术
    • 基于图像边缘结构的技术
    • 基于图像重构约束的技术
    • 基于机器学习的技术

    什么时候用超分辨率

    先举一个小李子,一张悠久经典的低分辨率老照片,怎么在一个先进的高清显示器上播放?这就是低分辨率图片和高分辨率显示设备之间的不匹配。很明显,这个场景下我们可以使用超分辨率技术,如下图所示。

    在这里插入图片描述
    单从图像的后处理显示的角度来讲,目前在PC和手机的屏幕显示功能上都配有相应的实时的超分辨率技术。

    通过观察可知,PC机的超分辨率技术相对比较简单(比如,临近像素赋值、双线性插值),而手机端屏幕的超分辨率技术比PC机显示的超分辨率技术的性能要更好一点,能够提高较好的主观视觉质量,且IOS系统的手机的超分辨率技术相比于一些Andriod系统手机的超分辨率技术性格更高一些。不同的超分辨率算法带来的增强视觉感受的效果不同,一些软件的超分辨率方法在带来更好的视觉质量的同时,也引入了很大的计算代价,不断挑战着显示设备的计算能力。

    超分辨率能节省带宽吗

    在传输图像的时候,超分辨率和带宽有什么关系呢?

    一般来讲,现在的通信类应用中,图片都是需要经过压缩、传输,再解压缩这样的一系列过程:

    • 最直接的方案A是按照原分辨率和现有带宽来进行压缩和传输,最终直接显示;
    • 另一种方案B是先通过下采样的方法将原视频图像的分辨率下采样为原分辨率的1/K,然后在低分辨率和现有带宽下进行压缩和传输,接收端在解码后通过超分辨率技术将该视频图像的分辨率以K倍重建后显示。
      如下图所示:
      在这里插入图片描述
      这里,超分辨率技术就不单单是一个视频图像的后处理技术,而是基于上下采样的编码传输框架中的一个重要环节。这种下采样-超分辨率的图片传输方案B能够节省带宽吗?(最终的图片视觉质量一致的前提下),或者说是在相同的带宽限制下,直接压缩传输大图片和压缩小图片再超分辨率显示,哪一种方案对显示的主观质量更好?

    由于在这个场景下两个方案之间不能直观的从理论上比较,所以我们通过实验来进行说明,设计了以下实验:

    原图压缩方案A,即原始高分辨率图像直接通过编码器进行压缩和传输,在解码端直接得到原始分辨率的重构图像。基于上下采样的图像压缩方案B,即图像首先经过一个分辨率下采样(宽高均为1/2倍)的预处理方法,再将得到的低分辨率图像利用相同的第三方的编解码器WebP进行压缩和传输,最后将在解码端得到的低分辨率图像利用超分辨率技术重建出其高分辨率的图片(这里超分辨率技术选用Google在G+上的方案和一种经典的深度网络SCN方法)。

    下面我们给出两个不同策略下的图像压缩(图片质量和文件大小)性能比较,如下图所示:
    在这里插入图片描述

    在这里插入图片描述
    如图(a)和(b)两幅图像的性能比较所示,图像纵坐标为图像全参考的视觉质量评价方法SSIM指标(用来比较相同分辨率下的原图和在对端最终显示的图像的差异),横坐标为图像经过第三方编码器WebP的压缩码流所占用的存储空间(KB),上下采样压缩曲线的四个数据点对应WebP质量因子分别为40,60,80,100,而原图 压缩的四个数据点对应WebP的质量因子分别是2,5,15,60

    实验中首先验证得到两个认识:

    • 一个是随着码率(带宽)增加,直接压缩传输的方案A能快速达到近无损压缩或无损压缩;
    • 另一个是随着码率(带宽)增加,超分辨率的方案B具有性能上限的限制,接近上限时,增加码率就只会带来非常微弱的视觉性能的提升;

    再通过实验曲线可以得出,在低码率范围内,采用原图压缩方案的压缩效率要低于基于采样的图像编码策略(即同等质量下,基于采样的图像编码策略图片文件更小,节省带宽),而在中高码率范围内,采用原图压缩方案的压缩效率要优于基于采样的图像压缩方案(即同等质量下,超分辨率的图像编码策略的图片文件更大,浪费带宽)。

    进而我们结合应用环境得出以下结论:

    • 在带宽严重受限的情况下,使用超分辨率技术能够改善其原本较差的视觉质量(即超分辨率技术在同等质量下节省传输带宽);
    • 在带宽良好的情况下,原图分辨率直接压缩传输的方案能够提供更好的视觉质量(即超分辨率技术在同等质量下浪费传输带宽和后处理计算资源);

    目前,在常见的一些视频图像的应用中,我们给定的码率均为中高码率以满足图像视频的视觉质量,大部分移动终端上的视频图像应用的方案均为在目标分辨率上直接压缩,质量控制在高于WebP质量因子为60的水平,如实验中验证的一样,在这个码率范围下,采用现有的直接压缩原图方案A要优于下采样压缩低分辨率图像再做解压做超分辨率的方案B。

    本文小结

    视频 图像超分辨率技术,是图像处理相关问题中的基础问题之一,也是近年来学术界研究的热点问题。

    视频图像超分辨率技术作为图像的后处理技术能为了匹配更大分辨率的显示设备提升图像的主观视觉效果。在压缩传输的应用场景中,为了在同等带宽下获得更高的图像质量,超分辨率算法适用于低带宽时低质量图像上的增强,在带宽充足时仍然应该传输高分辨率图像,即下采样-超分辨率的技术,受限于其性能上限,仅仅在低码率传输条件下,采用超分辨率增强的图像质量明显优于在大图像上直接编码(即同等质量节省带宽)。

    综上所述,视频图像超分辨率技术在应用中要考虑计算复杂性限制,传输带宽的限制和视觉性能上限(主观视觉效果)等因素,来选择恰当的应用场景。

    展开全文
  • 毕设日志-单幅图像图片超分辨率算法-遇到问题记录一览

    1.RuntimeError: CUDA error: no kernel image is available for execution on the device

    意思:cuda不能被正确运行

    出现场景:使用同学的服务器跑毕设项目,刚开始训练时就报以上错误

    解决情况:

    linux查看服务器显卡

     lshw -C display

    出现结果一共两张显卡,分别为NVIDIA GK180GL(Tesla K40c)和Matrox G200eR2,程序调用了CUDA,它是NVIDIA专用的显卡驱动,即后者迈创显卡不能用CUDA,而查看该显卡的算力只有3.5,

    1

    pytorch 1.7以后要求跑神经网络的算力最低要求为5.0,因此要么把CUDA版本从现有的11.2降到9.0,且大概率降pytorch版本,这会带来代码的版本修改问题

    要么,这里本人选择放弃内存12G的香喷喷服务器,改用本地的4G 5.0算力的搬砖机跑

    展开全文
  • 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上...

    Deep Learning for Image Super-resolution: A Survey

    论文链接

    超分辨简介

    图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上,取得了目前最优的性能和效果。本篇综述给出了一个统一的深度学习视角,来回顾最近的超分技术进展,主要包括三个方面:

    1. 给出了综合性的基于深度学习的图像超分技术综述,包括问题设置、数据集、性能度量、一组基于深度学习的图像超分方法集合,特定领域的图像超分方法应用等等。

    2. 为最近基于深度学习的图像超分算法提供了系统性、结构化的视角,并总结了高效图像超分解决方案中的优势与劣势。

    3. 讨论了这个领域的挑战与开放问题,并总结了最近的新趋势与未来的发展方向。
      在这里插入图片描述

    最新进展

    1. 超分网络的升采样结构

    根据升采样(upsampling)在网络结构中的位置和使用方式,可以把超分网络结构设计分为四大类:前端升采样(pre-upsampling)超分网络、后端(post-upsampling)升采样超分网络、渐进式升采样(progressive upsampling)超分网络、升降采样迭代式(iterativeup-and-down sampling)超分网络。
    在这里插入图片描述
    在这里插入图片描述

    • 前端升采样网络,一般使用双三次(bicubic)插值直接将低分辨率图像插值到目标分辨率,然后深度卷积网络等模型重建高质量细节信息,这类方法显著降低了学习的难度,但是预先设定的升采样方法会引入模糊(noise)、噪声放大(noise amplification)等问题,同时因为网络在前端即进行插值到高分辨率空间,所需的存储空间和耗时都远高于其他类型超分网络。

    • 后端升采样网络,一般在网络结构的最后一层或几层,使用端到端可学习的升采样层,绝大部分映射变换都在低分辨率空间进行,计算复杂度和空间复杂度都明显降低,同时训练和测试速度也都明显提高,被多前主流超分网络框架所使用。

    • 渐进式升采样网络,主要是解决多个超分倍增系数(scaling factor)和大的超分倍增系数,升采样不是一步完成的,而是采用拉普拉斯金字塔或者级联CNN等方式,产生一些中间(intermediate)的重建图像作为后续模块的输入图像(“base images”),另外诸如课程学习(curriculum learning)和多级监督(multi-supervision)等学习策略也可以被引入进来,这类方法可以降低学习难度,特别是在大的超分倍增系数时。另外,在多尺度超分问题上也可以减少参数量和耗时。

    • 升降采样迭代式超分网络,借鉴了反向投影(back-projection)的思想,通常会交替地使用升采样和降采样层,最终重建的高分辨率结果会用到之前全部中间层得到高分辨率特征图,这类方法的思想刚被引入图像超分问题不久,已经取得了非常好的性能和效果,有很大的潜力,值得关注和探索。

    2. 可学习的升采样方法

    • 转置卷积(transposed convolution),也就是所谓的反卷积(deconvolution),相当于正常卷积的反向操作,可以嵌入到端到端的网络结构中,但是容易产生棋盘格效应。

    • 亚像素(sub-pixel)卷积,同样可以嵌入到端到端的网络结构中,使用正常的卷积结构,但是输出的通道数(channel)与目标分辨率有关,随后对这些通道进行“洗牌”(shuffle)操作,类似于像素重排,得到与目标分辨率相同的输出。亚像素卷积与转置卷积相比,最大的优势在于神经元的感受野较大,可以为超分辨率重建提供更多上下文信息,但是这些神经元感受野的分布是不均匀的,像素“洗牌”操作中同一个小块状区域(blocky region)的感受野相同,容易在一些边缘区域产生伪影现象。
      在这里插入图片描述

    3. 全局和局部网络结构设计

    • 残差学习(residual learning),在ResNet被提出之前,在超分领域对残差进行学习的思想已经在很多研究工作中出现。其中,全局残差学习(global residual learning)只是学习插值后得到的图像和高分辨率图像之间的残差,通过学习一张残差图来恢复高频细节;而局部残差学习(local residual learning)则类似于ResNet中的短连接(shortcut connection)。

    • 递归学习(recursive learning)可以不引入额外参数的同时,大大增加网络的感受野,做法就是递归地多次使用同个模块,例如对同一卷积层递归使用多次,还有将大的超分倍增系数的问题,分解成多个子问题,使用递归的网络子结构来解决等等。但是,递归学习容易出现梯度消失和爆炸的问题,需要将残差学习和多级监督等策略融入进来以减轻这些问题。

    • 多支路学习(multi-path learning)主要思路是为网络设计多条支路来提升模型的容量和表达能力,分为全局多支路学习(global multi-path learning)、局部多支路学习(localmulti-path learning)、尺度相关的多支路学习(scale-specificmulti-path learning)等

    • 稠密连接(dense connections),是与DenseNet紧密联系的,稠密连接被引入图像超分问题,不仅可以减轻梯度消失的问题,还可以对特征进行重用,提升效果,在使用小的增长率(growth rate)时,可以很好地控制参数量,目前越来越受到关注和使用。

    • 通道重缩放(channel attention)是考虑特征表达中不同通道之间的关系,通常是引入一些额外的小结构来按通道(channel-wise)进行重缩放(rescale)。

    • 高级卷积结构(advanced convolution),近来受到关注的主要是空洞卷积(dilated convolution)和成组卷积(group convolution)两种。

    • 像素递归学习(pixel recursive learning),这类方法是逐像素生成(pixel-by-pixel generation)高分辨率图像的,可以更好地捕获全局上下文信息和像素序列生成时的相关性,但是计算代价很高,同时训练也比较复杂。

    • 金字塔池化(pyramid pooling)通常使用多个不同的尺度参数,来聚合全局和局部上下文信息。

    • 小波域变换(wavelet transformation)分别对高分辨图像和低分辨率图像进行小波变换,在不同的子频带(sub-bands)进行映射学习。

    4. 损失函数设计

    • 像素级(pixel loss),主要比较两幅图像像素级的差别,包括L1和L2损失,近来研究表明L1损失可以取得更好的性能和收敛速度。这类损失没有对图像内容和语义进行评价,通常会产生过于平滑的超分结果。

    • 内容损失(content loss),主要是从图像内容理解和感知层面对图像质量进行评价,通常使用预训练好的图像识别(如VGG和ResNet等)网络,比较中间某些层的特征图之间的欧式空间距离。

    • 纹理损失(texture loss),想法来源于风格迁移工作中,重建图像应该与原始图像有相同的风格(颜色、纹理、对比度等)。因此,纹理损失又称为风格重建损失(style reconstruction loss),一般使用不同特征通道的相关性来度量。

    • 竞争生成损失(adversial loss),随着GAN的兴起,竞争生成网络中生成器和判别器的思路被引入超分问题,超分网络即是生成器(generator),另外定义一个判别器来判断输入的图像是否为生成的。在这种损失函数中,也可以借鉴内容损失的想法,判别器使用图像的高层表达来进行判断。

    • 往复一致性保持损失(cycle consistency loss),受CycleGAN的启发,通常是在两阶段生成时,保持再次生成的图像和原始输入相同。

    • 全变分损失(total variation loss),主要是为了抑制生成图像中的噪声,一般定义是相邻像素之间差的绝对值,引入全变分损失可以使图像变得平滑。

    • 基于先验知识的损失(prior-based loss),通过一些外部已知的先验,作为一些约束放入损失函数,例如人脸超分对关键点的约束等。

    5. 批归一化

    批归一化(BatchNormalization,BN)层在很多视觉任务中被验证有效,但是在最近关于超分中使用BN层存在一些争议,部分研究者指出使用BN层会丢失图像的尺度信息和网络参数的自由范围变化,导致超分效果下降。

    6. 课程学习

    课程学习(curriculumlearning)从简单的子任务开始逐渐增加难度,因为图像超分问题存在很多困难情形,如大的超分倍增系数,噪声,模糊等,这种从易到难的策略可以起到很大帮助。例如,可以将8x的超分问题分解成三个子问题,1x到2x,2x到4x,4x到8x,为每个子问题单独学习一个网络。

    7. 多级监督

    多级监督(multi-supervision)为网络的学习增加多个额外的监督信号,可以有效减轻梯度消失和爆炸问题,例如在递归式结构中就可以使用多级监督策略,对每一级递归产生的结果进行监督,通常多级监督的表现形式是在损失函数里添加了若干相关项。

    8. 其他网络设计和学习策略

    • 上下文融合网络(context-wise network fusion,CNF),将多个超分网络模型的结果使用stacking的策略融合起来。

    • 数据增强(data augmentation),常见的随机裁剪、翻转、缩放、旋转、颜色微小抖动等,最近也出现了随机打乱RGB三个通道的方法。

    • 多任务学习(multi-task learning),通过训练数据中和超分相关联的任务蕴含的专有领域的信息来提升模型的泛化性能。例如可以分别训练一个去噪网络和一个超分网络,或者嵌入预训练好的语义分割网络来提供语义信息等。

    • 网络插值(network interpolation),为了平衡视觉质量和图像保真度,可以对两个网络相应参数进行插值,来生成中间模型,不需要重训练就可以得到折中的超分结果。

    • 图像自融合(self ensemble),又称预测增强(enhanced prediction),将一张图像多种旋转角度后,得到一组图像,分别得到超分辨图像,然后逆旋转回到原始角度,将所有这组超分辨率图像进行加权平均或者取中值,得到最终的超分结果。

    9. 无监督图像超分辨率

    监督学习的图像超分辨率,基本上是学习了人为设计的图像降质过程的逆过程,需要LR-HR的图像对(image pairs),与实际场景中的图像超分问题不太符合。实际中的超分问题,只有不成对(unpaired)的低分辨率和高分辨图像可以用来进行训练。无监督的图像超分辨率也受到越来越多关注。

    • 零样本学习的图像超分

    考虑到图像自身内容就可以为超分提供统计信息,因此,可以不用在大数据集上训练一个普适超分模型,而是在测试阶段训练一个专有图像的超分网络,比如可以使用核估计(kernel estimation)的方法在单张测试图像中估计降质过程,但是这类方法每张图像测试时都需要学习一个网络,非常耗时。

    • 弱监督学习的图像超分

    近来弱监督学习的图像超分主要有两类方法,一类是学习HR到LR的降质过程,一类是同时学习LR到HR,HR到LR这种往复的映射(cycle-in-cycle)关系。

    • 深度图像先验

    深度图像先验(DeepImage Prior)目前主要是使用随机初始化的CNN作为手工设计的先验去进行超分。

    10. 超分在专有领域的应用

    目前图像在专有领域的超分,主要有深度图像超分、人脸图像超分、高光谱图像超分、视频图像超分、检测分割中的小物体超分等。

    发展趋势

    下面从超分网络结构设计、学习策略、评价指标、无监督学习、实际场景等几个方面,来阐述一下图像超分领域的发展趋势。

    1. 网络结构设计

    • 融合局部和全局信息

    • 融合底层和高层信息

    • 不同上下文信息区别对待的注意力机制

    • 轻量化网络结构

    • 升采样层的改进

    2. 学习策略

    • 精确表达图像差异的损失函数设计

    • 适合图像超分的归一化方法

    3. 评价指标

    • 全面评价超分图像质量的主客观统一指标

    • 无参考图像的图像质量评价

    4. 无监督的图像超分

    • 不成对的低分辨率和高分辨图像之间的降质过程进行学习,而不再使用人工设计好的降质过程去生成低分辨率和高分辨率图像对。

    5. 实际场景中的图像超分

    • 适应多种多样的降质过程

    • 专有领域图像超分的应用

    • 任意尺寸缩放的图像超分

    展开全文
  • 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上...

     1、简介

    图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。随着深度学习技术的发展,基于深度学习的图像超分方法在多个测试任务上,取得了目前最优的性能和效果。本文介绍的一篇综述(Deep Learning for Image Super-resolution:A Survey)给出了一个统一的深度学习视角,来回顾最近的超分技术进展,主要包括三个方面:

    1. 给出了综合性的基于深度学习的图像超分技术综述,包括问题设置、数据集、性能度量、一组基于深度学习的图像超分方法集合,特定领域的图像超分方法应用等等。
    2. 为最近基于深度学习的图像超分算法提供了系统性、结构化的视角,并总结了高效图像超分解决方案中的优势与劣势。
    3. 讨论了这个领域的挑战与开放问题,并总结了最近的新趋势与未来的发展方向。

     

    2、最新进展

    2.1 超分网络的升采样结构

    根据升采样(upsampling)在网络结构中的位置和使用方式,可以把超分网络结构设计分为四大类:前端升采样(pre-upsampling)超分网络、后端(post-upsampling)升采样超分网络、渐进式升采样(progressive upsampling)超分网络、升降采样迭代式(iterativeup-and-down sampling)超分网络。

    • 前端升采样网络,一般使用双三次(bicubic)插值直接将低分辨率图像插值到目标分辨率,然后深度卷积网络等模型重建高质量细节信息,这类方法显著降低了学习的难度,但是预先设定的升采样方法会引入模糊(noise)、噪声放大(noise amplification)等问题,同时因为网络在前端即进行插值到高分辨率空间,所需的存储空间和耗时都远高于其他类型超分网络。
    • 后端升采样网络,一般在网络结构的最后一层或几层,使用端到端可学习的升采样层,绝大部分映射变换都在低分辨率空间进行,计算复杂度和空间复杂度都明显降低,同时训练和测试速度也都明显提高,被多前主流超分网络框架所使用。
    • 渐进式升采样网络,主要是解决多个超分倍增系数(scaling factor)和大的超分倍增系数,升采样不是一步完成的,而是采用拉普拉斯金字塔或者级联CNN等方式,产生一些中间(intermediate)的重建图像作为后续模块的输入图像(“base images”),另外诸如课程学习(curriculum learning)和多级监督(multi-supervision)等学习策略也可以被引入进来,这类方法可以降低学习难度,特别是在大的超分倍增系数时。另外,在多尺度超分问题上也可以减少参数量和耗时。
    • 升降采样迭代式超分网络,借鉴了反向投影(back-projection)的思想,通常会交替地使用升采样和降采样层,最终重建的高分辨率结果会用到之前全部中间层得到高分辨率特征图,这类方法的思想刚被引入图像超分问题不久,已经取得了非常好的性能和效果,有很大的潜力,值得关注和探索。

    2.2 可学习的升采样方法

    • 转置卷积(transposed convolution),也就是所谓的反卷积(deconvolution),相当于正常卷积的反向操作,可以嵌入到端到端的网络结构中,但是容易产生棋盘格效应。
    • 亚像素(sub-pixel)卷积,同样可以嵌入到端到端的网络结构中,使用正常的卷积结构,但是输出的通道数(channel)与目标分辨率有关,随后对这些通道进行“洗牌”(shuffle)操作,类似于像素重排,得到与目标分辨率相同的输出。亚像素卷积与转置卷积相比,最大的优势在于神经元的感受野较大,可以为超分辨率重建提供更多上下文信息,但是这些神经元感受野的分布是不均匀的,像素“洗牌”操作中同一个小块状区域(blocky region)的感受野相同,容易在一些边缘区域产生伪影现象。

    2.3 全局和局部网络结构设计

    • 残差学习(residual learning),在ResNet被提出之前,在超分领域对残差进行学习的思想已经在很多研究工作中出现。其中,全局残差学习(global residual learning)只是学习插值后得到的图像和高分辨率图像之间的残差,通过学习一张残差图来恢复高频细节;而局部残差学习(local residual learning)则类似于ResNet中的短连接(shortcut connection)。
    • 递归学习(recursive learning)可以不引入额外参数的同时,大大增加网络的感受野,做法就是递归地多次使用同个模块,例如对同一卷积层递归使用多次,还有将大的超分倍增系数的问题,分解成多个子问题,使用递归的网络子结构来解决等等。但是,递归学习容易出现梯度消失和爆炸的问题,需要将残差学习和多级监督等策略融入进来以减轻这些问题。
    • 多支路学习(multi-path learning)主要思路是为网络设计多条支路来提升模型的容量和表达能力,分为全局多支路学习(global multi-path learning)、局部多支路学习(localmulti-path learning)、尺度相关的多支路学习(scale-specificmulti-path learning)等
    • 稠密连接(dense connections),是与DenseNet紧密联系的,稠密连接被引入图像超分问题,不仅可以减轻梯度消失的问题,还可以对特征进行重用,提升效果,在使用小的增长率(growth rate)时,可以很好地控制参数量,目前越来越受到关注和使用。
    • 通道重缩放(channel attention)是考虑特征表达中不同通道之间的关系,通常是引入一些额外的小结构来按通道(channel-wise)进行重缩放(rescale)。
    • 高级卷积结构(advanced convolution),近来受到关注的主要是空洞卷积(dilated convolution)和成组卷积(group convolution)两种。
    • 像素递归学习(pixel recursive learning),这类方法是逐像素生成(pixel-by-pixel generation)高分辨率图像的,可以更好地捕获全局上下文信息和像素序列生成时的相关性,但是计算代价很高,同时训练也比较复杂。
    • 金字塔池化(pyramid pooling)通常使用多个不同的尺度参数,来聚合全局和局部上下文信息。
    • 小波域变换(wavelet transformation)分别对高分辨图像和低分辨率图像进行小波变换,在不同的子频带(sub-bands)进行映射学习。

    2.4 损失函数设计

    • 像素级(pixel loss),主要比较两幅图像像素级的差别,包括L1损失(i.e., mean absolute error)和L2损失(i.e., mean square error),不过与L1损失相比,L2损失可以惩罚较大的误差,但对较小的误差具有较强的容忍度。近来研究表明L1损失可以取得更好的性能和收敛速度。这类损失没有对图像内容和语义进行评价,通常会产生过于平滑的超分结果。
    • 内容损失(content loss),主要是从图像内容理解和感知层面对图像质量进行评价,通常使用预训练好的图像识别(如VGG和ResNet等)网络,比较中间某些层的特征图之间的欧式空间距离。
    • 纹理损失(texture loss),想法来源于风格迁移工作中,重建图像应该与原始图像有相同的风格(颜色、纹理、对比度等)。因此,纹理损失又称为风格重建损失(style reconstruction loss),一般使用不同特征通道的相关性来度量。通过使用纹理损失,SR模型可以创建真实的纹理,并产生更令人满意的视觉效果。尽管如此,确定补丁的大小(patch size)以匹配纹理仍然是经验之谈。太小的patch会导致纹理区域中的人工制品,而太大的补丁会导致整个图像中的人工制品(artefacts),因为纹理统计数据是不同纹理区域的平均值。
    • 对抗生成损失(adversial loss),随着GAN的兴起,对抗生成网络中生成器和判别器的思路被引入超分问题,超分网络即是生成器(generator),另外定义一个判别器来判断输入的图像是否为生成的。在这种损失函数中,也可以借鉴内容损失的想法,判别器使用图像的高层表达来进行判断。
    • 往复一致性保持损失(cycle consistency loss),受CycleGAN的启发,通常是在两阶段生成时,保持再次生成的图像和原始输入相同。
    • 全变分损失(total variation loss),主要是为了抑制生成图像中的噪声,一般定义是相邻像素之间差的绝对值,引入全变分损失可以使图像变得平滑。
    • 基于先验知识的损失(prior-based loss),通过一些外部已知的先验,作为一些约束放入损失函数,例如人脸超分对关键点的约束等。

    2.5 批归一化

    批归一化(BatchNormalization,BN)层在很多视觉任务中被验证有效,但是在最近关于超分中使用BN层存在一些争议,部分研究者指出使用BN层会丢失图像的尺度信息和网络参数的自由范围变化,导致超分效果下降。

    2.6 课程学习

    课程学习(curriculumlearning)从简单的子任务开始逐渐增加难度,因为图像超分问题存在很多困难情形,如大的超分倍增系数,噪声,模糊等,这种从易到难的策略可以起到很大帮助。例如,可以将8x的超分问题分解成三个子问题,1x到2x,2x到4x,4x到8x,为每个子问题单独学习一个网络。

    2.7 多级监督

    多级监督(multi-supervision)为网络的学习增加多个额外的监督信号,可以有效减轻梯度消失和爆炸问题,例如在递归式结构中就可以使用多级监督策略,对每一级递归产生的结果进行监督,通常多级监督的表现形式是在损失函数里添加了若干相关项。

    2.8 其他网络设计和学习策略

    • 上下文融合网络(context-wise network fusion,CNF),将多个超分网络模型的结果使用stacking的策略融合起来。
    • 数据增强(data augmentation),常见的随机裁剪、翻转、缩放、旋转、颜色微小抖动等,最近也出现了随机打乱RGB三个通道的方法。
    • 多任务学习(multi-task learning),通过训练数据中和超分相关联的任务蕴含的专有领域的信息来提升模型的泛化性能。例如可以分别训练一个去噪网络和一个超分网络,或者嵌入预训练好的语义分割网络来提供语义信息等。
    • 网络插值(network interpolation),为了平衡视觉质量和图像保真度,可以对两个网络相应参数进行插值,来生成中间模型,不需要重训练就可以得到折中的超分结果。
    • 图像自融合(self ensemble),又称预测增强(enhanced prediction),将一张图像多种旋转角度后,得到一组图像,分别得到超分辨图像,然后逆旋转回到原始角度,将所有这组超分辨率图像进行加权平均或者取中值,得到最终的超分结果。

    2.9 无监督图像超分辨率

    监督学习的图像超分辨率,基本上是学习了人为设计的图像降质过程的逆过程,需要LR-HR的图像对(image pairs),与实际场景中的图像超分问题不太符合。实际中的超分问题,只有不成对(unpaired)的低分辨率和高分辨图像可以用来进行训练。无监督的图像超分辨率也受到越来越多关注。

    • 零样本学习的图像超分

    考虑到图像自身内容就可以为超分提供统计信息,因此,可以不用在大数据集上训练一个普适超分模型,而是在测试阶段训练一个专有图像的超分网络,比如可以使用核估计(kernel estimation)的方法在单张测试图像中估计降质过程,但是这类方法每张图像测试时都需要学习一个网络,非常耗时。

    • 弱监督学习的图像超分

    近来弱监督学习的图像超分主要有两类方法,一类是学习HR到LR的降质过程,一类是同时学习LR到HR,HR到LR这种往复的映射(cycle-in-cycle)关系。

    • 深度图像先验

    深度图像先验(DeepImage Prior)目前主要是使用随机初始化的CNN作为手工设计的先验去进行超分。

    2.10 超分在专有领域的应用

    目前图像在专有领域的超分,主要有深度图像超分、人脸图像超分、高光谱图像超分、视频图像超分、检测分割中的小物体超分等。

     

    3、发展趋势

    下面从超分网络结构设计、学习策略、评价指标、无监督学习、实际场景等几个方面,来阐述一下图像超分领域的发展趋势。

    3.1 网络结构设计

    • 融合局部和全局信息
    • 融合底层和高层信息
    • 不同上下文信息区别对待的注意力机制
    • 轻量化网络结构
    • 升采样层的改进

    3.2 学习策略

    • 精确表达图像差异的损失函数设计
    • 适合图像超分的归一化方法

    3.3 评价指标

    • 全面评价超分图像质量的主客观统一指标
    • 无参考图像的图像质量评价

    3.4 无监督的图像超分

    • 不成对的低分辨率和高分辨图像之间的降质过程进行学习,而不再使用人工设计好的降质过程去生成低分辨率和高分辨率图像对。

    3.5 实际场景中的图像超分

     -------------------------------------------------------------------------

    注:由于论文的实效性,每时每刻都有新的思路出现,在本篇论文中,相应补充了一些更新的研究成果!

    --------------------------------------------------------------------------

    另外总结一些对当前顶会SR等图像复原文章的一些看法:

    (1)灌水的很多,因为很好灌水。问题很难,有价值的研究少但是一直有。

    • 用深度方法或者说是用基于学习的方法做图像复原本身就比较好理解。深度方法天生就是搭积木的工具,你搭建一个 工作的模型并不困难,而且可以非常直观地看到成果。此外,不像大规模的图像理解和视频理解那样费算力,图像复原需要多卡训练的都少。低门槛就导致做的人多,新进来的人要发文章想要发不是灌水的也少。
    • 该领域的idea相对廉价。很容易在别的视觉任务中找一个 网络结构或者训练策略用在图像复原里。就算超分辨和去噪这种刷榜的任务得不到好的 performance,去反射,去摩尔纹,图像 defect 这么多,随便找一个别人没做过的都能写出一篇文章来。然后根据讲故事的水平不同,这些文章就被发在各类会议上(从 A 会到 C 会)。
    • 最重要的一点是,大多数做图像复原的人都没有什么图像需要复原。大多数的 idea 都在实验室里,用几张图搭一个 实验应用场景,改一下网络结构,讲一个好听的故事,写一篇没什么用的论文。真正做图像复原的内行,他们是清楚用户需要什么的。图像复原是复原给人看的不是为了刷榜,各种 metric 只是为了推动领域更好的发展。但是在实验室里,大多数人没接触过用户,写论文的意义就在于刷榜,刷引用,导致外行看这个领域就是一堆灌水的。
    (2)灌水虽然容易,但是解决问题很难。
    • 图像复原领域灌水多,但是这个不意味着这个领域水。另一个侧面就是,图像复原领域遇到的问题也是真的难。大多数人只看到刷榜这一个问题而看不到真正的用户需求。总所周知,超分辨 SRCNN 出来之后,涌出一大批在网络结构上做文章的工作,例如 ESPCN,FSRCNN,VDSR,SRResNet,这些文章都有可取之处,在刷榜的同时带给了领域新的认识。比如说 ESPCN 之后大家都开始用 Pixel Shuffle 上采样,FSRCNN 之后大家都开始在最后再做上采样,VDSR 开始残差被引入,到 SRResNet 引入残差 Block。这些工作虽然是在刷榜,但并觉得他们是在灌水,只是当时的领域的认知停留在刷 PSNR 而已。然后 SRGAN 提出,学术界尤其是工业界开始发现刷 PSNR 其实没什么用,因为 PSNR 高的超分图像看起来非常的不真实,根本没法用在产品上,有一部分人开始宣传做基于感知的超分辨,到去年 ECCV PIRM SR 比赛,一批做感知的论文出来,继续在这个方向持续的做努力。
      超分辨再发展,工业界和学术界都发现做基于感知的也不解决产品的问题。现有的模型用在现实生活中的效果都很差。一部分学者先知先觉,开始思考现实场景中的盲超分问题。从 CVPR2018 的 SRMD,到 CVPR2019 的 IKC,还有基于真实图像对的超分辨 (NTIRE 2019 超分辨比赛)。有一批学者开始转移到更现实的问题里,这些文章虽然有瑕疵,比如说 SRMD 的故事有些生硬,PSNR 的测试也有争议;IKC 论文里有笔误,但是笔者同样不认为这些论文是在灌水。相反,这些论文都对整个领域做出了巨大的 contribution。而 CVPR2019 中已经很少见继续做网络结构的超分文章了。
      就当前来看,所有的文章都未能解决工业界的问题。在现实场景中应用这些算法,还是没能达到工业界的预期,算法真正落地确实是需要一个或长或短的过程吧。
      (PS:手机端的超分应用还算比较多(典型的如华为P30 pro的数码变焦拍月亮),出发点在于省流量,但需要解决这样的问题:1.算力有限,网络大小一裁再裁;2.应用场景的数据分布和开源数据集相差甚远。如何针对现实场景构建有效的训练数据集也是一个问题。)
       

    参考:如何评价近几年顶会的超分,去噪,去模糊等图像复原文章?

    转载于:https://www.cnblogs.com/carsonzhu/p/11122244.html

    展开全文
  • 图像超分辨率重建和插值算法研究 超分辨率重建的背景和意义 图像的高分辨率是指着图像含有的像素密度高, 能提供丰富的细节信息,对客观场景的描述吏准 确细致 高分辨率图像在信息时代的需求非常广泛,诸 如卫星遥感...
  • 综上所述,视频图像超分辨率技术在应用中要考虑计算复杂性限制,传输带宽的限制和视觉性能上限(主观视觉效果)等因素,来选择恰当的应用场景。 附录:QQ、微信团队相关文章汇总 [1] 有关QQ、微信的技术...
  • 我们来扒一扒这个“黑科技”,其实它是通过超分辨率算法,将低分辨率、不清晰的人脸超分成高清晰度的画面,再用人脸识别技术匹配相应人物。毫无疑问,这项技术有着非常广泛的应用前景和实际价值。 网宿科技在业内...
  • 在多光谱图像融合场景中,深度学习已得到广泛应用。 但是,融合性能和图像质量仍然受到不灵活的体系结构和监督学习模式的限制。 我们提出了使用基于条件cGAN的超分辨率条件生成对抗网络(MS-cGAN)进行多光谱图像...
  • “看得更清楚”是人类基本需求之一,致力于“看清”的超分辨率算法应用场景广泛。比如,将低清的珍贵老纪录片或受损的经典影片修复,让老游戏告别马赛克迎来“第二春”,帮助警察看清监控影像上的人脸和车牌,使医生...
  • 超分辨率——综述文章

    千次阅读 2019-07-24 20:05:04
    这种操作主要有这么几种应用场景图像压缩方面,在传输过程中可以只传输低分辨率的图片,然后通过重建操作得到高分辨率图像。低分辨率图像相比高分辨率图像来说,减少网络负载。 医学图像方面,可以通过设备得到...
  • “看得更清楚”是人类基本需求之一,致力于“看清”的超分辨率算法应用场景广泛。比如,将低清的珍贵老纪录片或受损的经典影片修复,让老游戏告别马赛克迎来“第二春”,帮助警察看清监控影像上的人脸...
  • 微信团队分享:视频图像超分辨率技术原理和应用场景 - 云+社区 - 腾讯云 https://cloud.tencent.com/developer/article/1198407 没太看懂:说超分辨率 在中高码率范围内,采用原图压缩方案的压缩效率要优于基于...
  • CVPR 2019 论文大盘点-超分辨率

    千次阅读 2020-01-10 16:34:47
    <ul><li>作者:CV君</li> 来源:微信公众号 @我爱计算机视觉 ...今天盘点了 CVPR 2019 所有超分辨率相关论文,总计16...有多篇将SR应用于新场景的,比如3D对象表面SR、光场SR、高光谱图像SR(硬拼...
  • 大多数传统的监督超分辨率(SR)算法都假设低分辨率(LR)数据是通过使用固定的已知核函数对高分辨率(HR)数据进行降尺度得到的,但这种假设在实际场景中往往不成立。最近有人提出了一些盲SR算法来估计每个输入LR...
  • 摘要: 连续波飞行时间(ToF)相机作为一种低成本的深度图像传感器在移动应用中显示出了巨大的潜力。然而,它们也有一些不足之处,包括有限的照明强度,这导致使用大数值孔径镜头,从而导致景深较浅,使得很难用大的...
  • 尽管深度学习方法提高了SR图像的质量,但速度慢,并不适用于真实场景。从这个角度来看,设计适合实际应用的轻量级深度学习模型非常重要。 一种方法是减少参数的数量,实现这一目标的方法有很多,但最简单和有效的...
  • 在 RTC 2019实时互联网大会上,声网Agora AI 算法工程师周世付,分享了超分辨率应用于移动端实时音视频场景下,遇到的难点、通用解决方法,以及解决思路。 近年来,超分辨率(简称超分)在图像增强、去噪、...
  • 华为HMS ML Kit提供了文字超分技术,可以突破图像中文本分辨率的物理限制,对包含文字内容的图像进行9倍放大(长宽各放大3倍),同时显著增强图像中文字的清晰度和可辨识度,轻松解决图片中文字分辨率低的问题。...
  • 图像分类、目标检测、超分辨率、分割网络四大典型应用场景中,其深度学习处理能力表现超强。此外,在两大类评测指标上,指标包含速度(fps)和算法性能,如top1 、top5、mAP、mIoU、PSNR等。瑞芯微RK3399开发板的...
  • 同样不需数据标注的应用场景还有:图像旋转、图像去噪、黑白图像着色等。 为定义合适的Dataset,我们去fastai.dataset.py中找到一个和需求相接近的。其中有一个FilesDataset,其接受文件名,数据集的输入x为图像。...
  • 技术原理和应用场景 背景概念性知识总结 应用&网络总结 基于深度学习的图像超分论文推荐 看10个神经网络模型,如何解决超分辨率 超分辨课题的方方面面 超分辨问题总结思维导图 几大经典网络的总结 参考一 参考二...
  • 编辑|DebraAI 前线导读:生成对抗网络(Generative Adversarial Nets ,GAN)目前已广泛应用图像生成、超分辨率图片生成、图像压缩、图像风格转换、数据增强、文本生成等场景。越来越多的研发人员从事 GAN 网络的...
  • 近年来,随着深度学习技术的快速发展,基于AI的分辨技术在图像恢复和图像...分辨这一概念最早是在20世纪60年代由Harris和Goodman提出的,是指从低分辨率图像,通过某种算法或模型生成高分辨图像的技术,并且尽可能
  • 百度顶会论文复现营,使用百度飞浆平台复现感兴趣的论文,方向有两个,GAN和视频分类... 图像到图像转换可以应用在很多计算机视觉任务,图像分割、图像修复、图像着色、图像超分辨率、图像风格(场景)变换等都是图像..
  • 鱼眼摄像机弊端及应用

    千次阅读 2017-02-04 09:51:39
    全景摄像机分为多镜头拼接摄像机和单镜头鱼眼摄像机。鱼眼摄像机的弊端鱼眼摄像...分辨率高的鱼眼摄像机,能够用更多的像素点去展现相同的场景,能有效提高画面中的细节呈现,配合E-PTZ(电子云台技术)功能提高画面的
  • 由于可提供高于竞争产品两倍的像素水平,DLP 微镜技术的先进图像处理和高速开关功能可在屏幕上实现 830 万像素的分辨率,为任何场景呈现清晰而细腻的图像。无论是独立显示系统还是嵌入到现有设计中,完整的参考设计...
  • 近年来,由于深度卷积神经网络的部署,单图像超分辨率(SISR)取得了巨大的进展。 对于大多数现有的方法,每个SISR模型的计算成本与局部图像内容、硬件平台和应用场景无关。 尽管如此,内容和资源自适应模型更受欢迎,...
  • 计算机视觉包括下面几个方向:图像识别,对象检测,图像生成,图像超分辨率等。由于有大量实际应用场景,对象检测可能是计算机视觉研究最深入的领域。在本教程中,我将简要介绍现代对象检测的概念,软件开发人员面临...

空空如也

空空如也

1 2 3
收藏数 50
精华内容 20
关键字:

图像超分辨率应用场景