精华内容
下载资源
问答
  • 2022-04-06 16:06:43

    提示:吴恩达深度学习视频中关于风格损失函数的笔记

    风格损失函数

    图片的风格到底是什么?在这里插入图片描述

    上述图片中的计算过程,选择某一层 l l l去为图片的风格定义一个深度测量。
    将图片的风格定义为 l l l层中各个通道之间激活项的相关系数。


    在这里插入图片描述
    现在将 l l l层的激活项取出,这是个 n H × n W × n C n_H×n_W×n_C nH×nW×nC的激活项,它是一个三维的数据块。问题来了,如何知道这些不同通道之间激活项的相关系数呢?现在把这个激活块的不同通道渲染成不同的颜色,并假设有5个通道。

    在这里插入图片描述

    捕捉图片风格需要进行下面操作:
    首先,先看前两个通道图中红色和黄色部分,计算两个通道间激活项的相关系数。举个例子,在第一个通道中含有某个激活项,第二个通道中也含有某个激活项,于是它们组成了一对数字,然后看看这个激活项块中其他位置的激活项,它们也分别组成了很多对数字,分别来自第一个红色通道和是第二黄色通道。当我们取得这两个 n H × n W n_H×n_W nH×nW的通道中的所有数字对后,如何计算它们的相关系数呢?又如何决定图片风格呢?


    在这里插入图片描述

    现在看上图,左下角是一个可视化例子,第一个红色通道对应的神经元,能找出图片中的特定位置是否含有垂直的纹理。而第二个黄色通道,对应的这个神经元它可以粗略地找出橙色的区域。什么时候这两个通道拥有高度相关性呢?如果它们有高度的相关性,那么这副图片中出现垂直纹理的地方这块地方很大概率是橙色的。如果说它们不相关,又是什么意思呢?显然,图片中有垂直纹理的地方很大概率不是橙色的。而相关系数描述的就是当图片某处出现这种垂直纹理时,该处又同时是橙色的可能性。
    相关系数这个概念提供了一种去测量这些不同特征的方法,比如这些垂直纹理、这些橙色或是其他的特征,去测量它们在图片中的各个位置同时出现或不同时出现的概率。
    如果我们在通道之间使用相关系数来描述通道的风格,能做的就是测量我的生成图像中第一个通道是否与第二个通道相关。通过测量,能得知在生成的图像中垂直纹理和橙色同时出现或不同时出现的频率,这样将能够测量生成图像的风格与输入的风格图像的相似程度。

    计算图像风格的方法

    对于这两个图像,也就是风格图像与生成图像,需要计算一个风格矩阵(gram矩阵)。具体来说,就是用 l l l层来测量图像风格。设 α ( i , j , k ) [ l ] \alpha_{(i,j,k)}^{[l]} α(i,j,k)[l]来记录相应位置的激活项,也就是 l l l层中 i , j , k i,j,k i,j,k位置, i i i代表高度、 j j j代表宽度、 k k k代表 l l l中的不同通道(之前说过我们有5个通道)。[在通道中激活项的值代表什么?在特征图中,每个数字都来自于一个特定滤波器在特定位置的卷积,因此每个数字代表一个特征的强度。]
    现在要计算关于 l l l层的风格矩阵 G [ l ] G^{[l]} G[l](用G表示,因为这种矩阵有时也叫Gram矩阵),这是一个 n c [ l ] × n c [ l ] n_c^{[l]}×n_c^{[l]} nc[l]×nc[l]的矩阵,也就是一个方阵,因为有 n c n_c nc个通道,所以矩阵大小是 n c [ l ] × n c [ l ] n_c^{[l]}×n_c^{[l]} nc[l]×nc[l],以便计算每一对激活项的相关系数,所以 G k k ′ [ l ] G_{kk'}^{[l]} Gkk[l]可以用来测量 k k k通道和 k ′ k' k通道中的激活项之间的相关系数, k k k k ′ k' k会在1到 n c n_c nc之间取值( k = 1 , . . . , n c [ l ] k=1,...,n_c^{[l]} k=1,...,nc[l]), n c n_c nc就是 l l l层中的通道总数量。
    具体地,符号 i , j i,j i,j是激活块中对应位置的坐标,也就是该激活块所在的高和宽,所以 i i i会从1加到 n H [ l ] n_H^{[l]} nH[l] j j j会从1加到 n W [ l ] n_W^{[l]} nW[l] k k k k ′ k' k则表示对应的通道,所以 k k k k ′ k' k值的范围是从1到 n c [ l ] n_c^{[l]} nc[l]。这个式子就是把图中各个高度和宽度的激活项都遍历一遍,并将 k k k k ′ k' k通道中对应位置的激活项都进行相乘,这就是 G k k ′ [ l ] G_{kk'}^{[l]} Gkk[l]的定义,即得到G矩阵(风格矩阵)。
    注意:如果两个通道中的激活项数值都很大,那么 G k k ′ [ l ] G_{kk'}^{[l]} Gkk[l]也会变得很大,对应地,如果它们不相关,那么 G k k ′ [ l ] G_{kk'}^{[l]} Gkk[l]就会很小。对风格图像S和生成图像G都进行这个运算,为了区分在右上角加一个(S)或(G)。
    这个公式严格来说,是一种非标准的互相关函数,因为我们没有减去平均数,而是将它们直接相乘。

    G k k ′ [ l ] [ S ] = ∑ i = 1 n H [ l ] ∑ j = 1 n W [ l ] α i , j , k [ l ] ( S ) α i , j , k ′ [ l ] ( S ) G_{kk'}^{[l][S]} = \sum_{i=1}^{n_H^{[l]}} \sum_{j=1}^{n_W^{[l]}} α_{i,j,k}^{[l](S)} α_{i,j,k'}^{[l](S)} Gkk[l][S]=i=1nH[l]j=1nW[l]αi,j,k[l](S)αi,j,k[l](S)
    这就是风格图像所构成的风格矩阵。

    G k k ′ [ l ] [ G ] = ∑ i = 1 n H [ l ] ∑ j = 1 n W [ l ] α i , j , k [ l ] ( G ) α i , j , k ′ [ l ] ( G ) G_{kk'}^{[l][G]} = \sum_{i=1}^{n_H^{[l]}} \sum_{j=1}^{n_W^{[l]}} α_{i,j,k}^{[l](G)} α_{i,j,k'}^{[l](G)} Gkk[l][G]=i=1nH[l]j=1nW[l]αi,j,k[l](G)αi,j,k[l](G)
    这就是生成图像所构成的风格矩阵。

    现在我们分别从风格图像S和生成图像G得到了两个矩阵,最后这两个矩阵之间的误差:
    J s t y l e [ l ] ( S , G ) = 1 ( 2 n H [ l ] n W [ l ] n C [ l ] ) 2 ∣ ∣ G [ l ] [ S ] − G [ l ] [ G ] ∣ ∣ F 2 J_{style}^{[l]} (S,G)=\frac{1}{ (2n_H^{[l]} n_W^{[l]} n_C^{[l]})^2 } ||G^{[l][S]} - G^{[l][G]}||_F^2 Jstyle[l](S,G)=(2nH[l]nW[l]nC[l])21G[l][S]G[l][G]F2
    = 1 ( 2 n H [ l ] n W [ l ] n C [ l ] ) 2 ∑ k ∑ k ′ ( G k k ′ [ l ] [ S ] − G k k ′ [ l ] [ G ] ) = \frac{1}{ (2n_H^{[l]} n_W^{[l]} n_C^{[l]})^2 } \sum_k \sum_{k'} (G_{kk'}^{[l][S]} - G_{kk'}^{[l][G]}) =(2nH[l]nW[l]nC[l])21kk(Gkk[l][S]Gkk[l][G])
    这是对 l l l层定义的风格损失函数,前面是一个归一化常数。

    如果各层都这么定义损失函数,效果会更好,把各个层的结果都加起来,就能定义它们全体了,还需对每个层定义权重,也就是一些额外的超参数,用 λ [ l ] \lambda^{[l]} λ[l]表示。
    J s t y l e ( S , G ) = ∑ l λ [ l ] J s t y l e [ l ] ( S , G ) J_{style}(S,G)=\sum_{l} \lambda^{[l]} J_{style}^{[l]} (S,G) Jstyle(S,G)=lλ[l]Jstyle[l](S,G)

    相关博客地址:风格迁移-风格损失函数(Gram矩阵)理解

    更多相关内容
  • 浅谈风格迁移(二)任意风格迁移

    千次阅读 2021-01-13 22:54:03
    AdaIN的思路不同于之前的想法,它致力于从一张图片由VGG16输出的特征图中分别提取内容风格信息,并且将这两个信息分离开来(这个想法和StyleBank [11]有些类似)。作者根据前人的工作和自己的实验研究发现,图片由...

    -- 本文来自于VIP Lab的黄宇杰同学撰稿

    (接上篇)AdaIN

    在17年ICCV中,AdaIN [10]横空出世,完成了任意风格迁移。AdaIN的思路不同于之前的想法,它致力于从一张图片由VGG16输出的特征图中分别提取内容和风格信息,并且将这两个信息分离开来(这个想法和StyleBank [11]有些类似)。作者根据前人的工作和自己的实验研究发现,图片由卷积神经网络提取的特征图的每个通道中数据的均值和标准差可以代表这张图片的风格,而且,特征图利用对应通道的均值和标准差进行normalization后可以将风格特征去除,只保留内容特征,操作如下:

    x是特征图一个通道中的值, 和 分别是这个通道中所有值的均值和标准差。因此作者采用将内容图经过VGG16提取的特征图用对应通道的均值和标准差进行normalization,然后根据风格图经过VGG16提取的特征图对应通道的均值和标准差,对内容图的特征图进行反normalization,操作如下(作者称其为adaptive instance normalization):

    其中x是内容图的特征图的某一通道中的值,y是风格图的特征图的相同通道中的值。损失函数中内容损失作者采用的是[4]中的,在风格损失中,作者用特征图对应通道的均值和方差来代替Gram矩阵来表示风格,风格损失如下:

    其中

    表示VGG16输出的特征图,g表示生成图,s表示风格图,

    分别是按通道计算均值和方差。这里为了局部全局风格的获得,同样用VGG16多个卷积层的输出组合构成完整的风格损失。AdaIN的整体结构如下:图 9

    Ls和Lc分别是风格和内容损失,左边的VGG19(到Relu4_1)被用作Encoder来提取特征图,Decoder是将特征图变回到正常图片空间,其结构和VGG19(到Relu4_1)对称。AdaIN就是公式(9)表示的操作。右边的VGG16是用来计算损失函数用的,Decoder的输出就是完成迁移后的图片。其视觉效果如下:图 10

    AdaIN直接输入两张图片,无需经过任何训练就可以获得风格迁移后的图片。对于512x512像素的图片,在Pascal Titan X GPU上其只需0.098s就可以完成风格迁移。

    为了进一步提升任意风格迁移的效果,还有三个重要的风格迁移算法被提出[12-14]。图 11SANet

    SANet [12]是在19年的CVPR会议上被提出的,它旨在改进AdaIN在风格上的迁移充分性。作者认为,简单的adaptive instance normalization [10]对于风格的迁移是不充分,所以,如图11所示,作者提出了style attention network来代替adaptive instance normalization完成风格迁移。Style Attention Network的具体操作如下:图 12

    其中Fc和Fs分别表示内容和风格图片对应的特征图,i,j是特征图中的值的索引, 表示对特征图F做通道独立的均值和标准差的normalization(如公式8),这个操作有助于去除风格[10]。公式(11)的含义是,输出的特征图中的一个点是风格特征图中所有点的值的加权求和,权重就是内容图中和输出特征图中相同位置的点和风格特征图中当前点的相似程度。Style Attention Network具备了局部匹配能力。如图11所示,除了和[10]相同的内容和风格损失,作者还引入了identity loss,即输入两张相同的图片分别作为风格图片和内容图片,那么生成的图片应该仍旧是这张图片,这个损失的具体形式如下:

    其中Iss是输入两张Is生成的图片,Icc是输入两张Ic生成的图片。

    是VGG16输出的特征图,选用了和风格损失一样的多层输出的组合。当然作者还用了Encoder(VGG16)Relu4_1和Relu5_1层输出的组合来获得更好的效果。SANet效果图如下,可以发现确实风格得到了更充分的迁移:图 13

    [13]这篇文章则采用了另一种思路来完成任意风格迁移。根据[6]和[7],一个Imge Transformation Net可以完成一种特定风格的迁移,要迁移其它风格,则需要重新训练,也就是说,不同风格对应于Imge Transformation Net的不同权重参数。于是[13]的作者通过meta learning方法中的hyper network来代替Image Transformation Net的训练过程。Hyper network的思想是用一个网络去生成另一个网络的参数。如图14所示,[13]中的算法利用由hidden和filters构成的hyper network来根据输入风格图的特征图的通道独立的均值和标准差(可以表示一张图的风格[10])动态地生成Image Transformation Network的参数,然后将内容图片送入到Image Transformation Network中去完成风格迁移。因为hyper network是全连接网络,为了使得参数量不会过大,所以filters是由多个全连接神经网络构成,每一个的输出对应Image Transformation Network的某一卷积层的权重,其输入是hidden全连接神经网络的输出根据filters中网络个数均分后的其中一份。损失函数和[4]中一样,Image Transformation Network的结构和[6]中一样。训练的时候内容图片改变20次,风格图才改变一次。图 14

    其效果如下图所示,作者还提出了一个Fast版本(将Image Transformation Network每一个卷积层的输出通道数变为原来的四分之一),可以在移动设备上运行。图 15

    MetaStyle [14]的作者通过实验发现[13]中的算法对于风格的迁移不够充分,于是他们提出了把meta learning中的bilevel optimization用在风格迁移中。这里先介绍一下bilevel optimization,其公式如下:

    E是外部目标函数,L是内部目标函数,

    是用于初始化的,T是最大优化步数,

    是优化步长。

    然后作者将风格迁移化为bilevel optimization问题,让Image Transformation Network [6]学会中性风格表示,然后对于不同的风格,可以通过200次参数更新快速地适应于这种风格,从而完成这种风格的迁移。根据公式(13),作者让 作为Image Transformation Network的初始参数,让WT作为风格调整后的参数记为WS,T,因为要快速调整,所以T被限制到1到5之间,内外目标函数都使用[4]中的损失函数,内部目标就使用 来进行初始化(所以 就是一个identity函数)并且只使用内容图片训练集来进行优化(快速调整到特定风格),而外部目标尝试通用化到内容图的验证集上,获得如下公式:

    其中M就是Image Transformation Network的结构,c代表内容,s代表风格。MetaStyle的训练过程如下图所示:图 16

    训练完成后,对于任意风格图片,再用coco数据集作为内容图片进行200次的跟新之后,Image Transformation Network就被快速调整到当前风格(在Titan Xp GPU上大概耗时24s)。

    MetaStyle的整体架构图如下图所示:图 17

    其效果如图18所示,左上角是内容图,右下加是训练完成后的初始化参数的Image Transformation Network输出的中性风格图,其余的是快速调整到各种风格后输出的风格迁移后的图片。图 18

    参考论文:

    [2] Huiwen Chang, Jingwan Lu, Fisher Yu, Adam Finkelstein, “PairedCycleGAN: Asymmetric Style Transfer for Applying and Removing Makeup”, CVPR2018.

    [3] Zhedong Zheng, Xiaodong Yang, Zhiding Yu, Liang Zheng, Yi Yang, Jan Kautz, “Joint Discriminative and Generative Learning for Person Re-identification”, CVPR2019.

    [4] L. A. Gatys, A. S. Ecker, and M. Bethge. “Image style transfer using convolutional neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2414-2423.

    [5] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.

    [6] J. Johnson, A. Alahi, and L. Fei-Fei. “Perceptual losses for real-time style transfer and super-resolution,” in European Conference on Computer Vision (ECCV), 2016.

    [7] D. Ulyanov, V. Lebedev, A. Vedaldi, and V. Lempitsky. “Texture networks: Feed-forward synthesis of textures and stylized images.” in International Conference on Machine Learning (ICML), 2016.

    [8] V. Dumoulin, J. Shlens, and M. Kudlur. “A learned representation for artistic style”, in International Conference on Learning Representations (ICLR), 2017.

    [9] Y. Li, C. Fang, J. Yang, Z. Wang, X. Lu, and M.-H. Yang, “Diversified texture synthesis with feed-forward networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017

    [10] X. Huang and S. J. Belongie, “Arbitrary style transfer in real time with adaptive instance normalization,” in International Conference on Computer Vision (ICCV), 2017.

    [11] Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, Gang Hua, “StyleBank: An Explicit Representation for Neural Image Style Transfer”, CVPR2017.

    [12] D. Y. Park and K. H. Lee, “Arbitrary Style Transfer with Style-Attentional Networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

    [13] F. Shen, S. Yan, G. Zeng, “Neural Style Transfer via Meta Networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

    [14] C. Zhang, Y. Zhu, and S. Zhu, “Metastyle: Three-way trade-off among speed, flexibility, and quality in neural style transfer,” AAAI Conference on Artificial Intelligence, 20

    展开全文
  • 不同风格图像语义内容的绘制是图像处理的难点。可以说,以前方法的一个主要限制因素是缺乏显式表示语义信息的图像表示,因此不能将图像内容与样式分离。本文利用卷积神经网络优化后的图像表示方法进行目标识别,使...

    前半部分自己翻译,

    后半部分参考:https://blog.csdn.net/stdcoutzyx/article/details/53771471

    摘要

           不同风格图像语义内容的绘制是图像处理的难点。可以说,以前方法的一个主要限制因素是缺乏显式表示语义信息的图像表示,因此不能将图像内容与样式分离。本文利用卷积神经网络优化后的图像表示方法进行目标识别,使高层次的图像信息更加清晰。介绍了一种艺术风格的神经算法,该算法可以对自然图像的图像内容和风格进行分离和重组。该算法允许我们生成高感知质量的新图像,将任意一张照片的内容与众多知名艺术品的外观结合起来。我们的研究结果为卷积神经网络学习的深度图像表示提供了新的见解,并证明了它们在高级图像合成和操作方面的潜力

    1.介绍

        将样式从一个图像转移到另一个图像可以看作是纹理转移的问题。在纹理传输中,目标是从源图像中合成纹理,同时对纹理合成进行约束,以保持目标图像的语义内容。

            对纹理合成现有大量强大的非参数算法可以通过对给定源纹理的像素重新采样来合成逼真的自然纹理[7,30,8,20]。以往的纹理传输算法大多依赖于这些非参数方法来进行纹理合成,同时使用不同的方法来保存目标图像的结构。例如,Efros和Freeman引入了一个对应映射,其中包含目标图像的特征,如图像强度,以约束纹理合成过程[8]。Hertzman等人使用图像类比将纹理从已经风格化的图像转移到目标图像[13]上。Ashikhmin专注于传输高频纹理信息,同时保留目标图像[1]的粗尺度。Lee等人通过添加边缘方向信息[22]来通知纹理传输,从而改进了该算法。

           虽然这些算法取得了显著的效果,但都存在着相同的基本限制:它们只使用目标图像的低层图像特征来通知纹理传输。然而,理想情况下,样式转换算法应该能够从目标图像(例如对象和一般场景)中提取语义图像内容,然后通知纹理转换过程以源图像的样式呈现目标图像的语义内容。

            因此,一个基本的先决条件是找到图像表示方法,独立地对语义图像内容及其呈现方式的变化进行建模。在此之前,这种分解表示只能用于自然图像的受控子集,如不同光照条件下的人脸、不同字体风格的字符[29]或手写数字和门牌号[17]。

    fg:重建内容。我们可以通过只知道网络在特定层的响应来重构输入图像,从而在CNN中可视化不同处理阶段的信息。从原始vgg网络的“conv1 2”(a)、“conv2 2”(b)、“conv3 2”(c)、“conv4 2”(d)和“conv5 2”(e)层重建输入图像。我们发现下层的重建几乎是完美的(a-c)。在较高的网络层中,细节像素信息丢失,而图像的高级内容被保留(d,e)。风格重建。在原始CNN激活的基础上,我们使用一个特征空间来捕获输入图像的纹理信息。样式表示计算CNN不同层中不同特性之间的相关性。我们重建输入图像的风格样式表示建立在不同子集的CNN层(conv1 1 (a),“conv1 1”和“conv2 1”(b),“conv1 1”、“conv2 1”和“conv3 1”(c),“conv1 1”、“conv2 1”,“conv3 1”和“conv4 1”(d),“conv1 1”、“conv2 1”,“conv3 1”,“conv4 1”和“conv5 1”(e)。这将创建给定图像的图像匹配的样式越来越规模而丢弃信息的全球场景的安排。

            在自然图像中,如何将内容与风格区分开来仍然是一个极其困难的问题。然而,最近深度卷积神经网络[18]的发展已经产生了强大的计算机视觉系统,学习从自然图像中提取高级语义信息。结果表明:卷积神经网络在训练时有足够的标签数据对具体任务,那么cnn的对象识别会提取高层图像内容来概括整个数据集的通用特性表征[6],甚至其他视觉信息处理任务(19日4、2、9日23),包括纹理识别[5]和艺术风格分类[15]。

            在这项工作中,我们展示了如何使用高性能卷积神经网络学习的一般特征表示来独立处理和操纵自然图像的内容和样式。介绍了一种艺术风格的神经算法,一种实现图像风格转换的新算法。从概念上讲,它是一种纹理传输算法,通过卷积神经网络的特征表示来约束纹理合成方法。由于纹理模型也基于深度图像表示,因此风格传递方法优雅地简化为单个神经网络中的优化问题。通过执行预图像搜索来匹配示例图像的特征表示,可以生成新的图像。这种通用的方法以前曾在纹理合成的上下文中使用过[12,25,10],并用于提高对深度图像表示的理解[27,24]。实际上,我们的风格传递算法结合了基于卷积神经网络[10]的参数纹理模型和一种反演图像表示[24]的方法。

    2.深度图像表达

            下面的结果是在VGG网络[28]的基础上生成的,该网络经过训练可以进行对象识别和定位[26],在原始工作[28]中有详细描述。我们使用了19层VGG网络的16个卷积层和5个池化层的标准化版本提供的特征空间。我们通过缩放权重来标准化网络,使得每个卷积滤波器在图像和位置上的平均激活量等于1。这样的重新缩放可以在不改变输出的情况下对VGG网络进行,因为它只包含校正的线性激活函数,而没有对特征图进行标准化或池化。我们不使用任何完全连接的层。该模型是公开可用的,可以在caffe-framework[14]中探索。对于图像合成,我们发现用平均池替换最大池操作会产生更有吸引力的结果,这就是为什么显示的图像是用平均池生成的

    2.1 内容表达

            通常,网络中的每一层都定义了一个非线性滤波器组,其复杂度随层在网络中的位置而增加。因此,一个给定的输入图像~x通过对该图像的滤波响应编码到卷积神经网络的每一层。带有Nl不同过滤器的层具有大小为Ml的Nl特征映射,其中Ml是特征映射的高度乘以宽度。因此,层l中的响应可以存储在矩阵Fl∈RNl×Ml中,其中Fl ij为层l中位置j处的第i个滤波器的激活。

    为了可视化不同层次结构中编码的图像信息,可以对白噪声图像进行梯度下降,以找到与原始图像的特征响应匹配的另一幅图像(图1,内容重构)[24]。设p~和~x为原始图像和生成的图像,Pl和Fl分别在层l中表示各自的特征。

    然后定义两个特性表示之间的平方误差损失,利用标准误差反向传播(图2,右)可以计算出关于图像~x的梯度。因此,我们可以改变原始随机图像~x,直到它在卷积神经网络的某一层产生与原始图像p~相同的响应。

    当卷积神经网络被训练用于目标识别时,它们开发了一种图像表示,使目标信息沿着处理层次[10]变得越来越清晰。因此,沿着网络的处理层次结构,输入图像被转换成对图像的实际内容越来越敏感的表示形式,但对其精确的外观却变得相对不变。因此,网络中较高的层捕获对象及其在输入图像中的排列方面的高级内容,但对重构的精确像素值没有太多约束(图1,内容重构d,e)。相比之下,较低层次的重构只是复制原始图像的精确像素值(图1,内容重构a-c)。因此,我们将网络上层的特性响应称为“内容表示”。

    2.2 风格表达

    为了获得输入图像样式的表示,我们使用一个特征空间来捕获纹理信息[10]。这个特性空间可以构建在网络任何层的过滤器响应之上。它由不同滤波器响应之间的相关性组成,其中期望包含了特征映射的空间延申。这些特征关联由Gram 矩阵 GL∈RNL×NL给出,其中GL ij为第L层向量化特征映射i与j的内积:

    通过包含多层的特征关联,我们得到了输入图像的一个平稳的多尺度表示,它捕获了图像的纹理信息,但没有捕获全局排列。同样,通过构建与给定输入图像的样式表示相匹配的图像(图1,样式重构),我们可以可视化这些构建在网络不同层上的样式特征空间捕获的信息。这是通过使用来自白噪声图像的梯度下降来实现的,以最小化原始图像与生成图像的Gram矩阵项之间的平均平方距离[10,25]。

    图2: 风格转换算法。首先内容和风格特征提取完并存储。风格图片a经过整个网络,在所有包含的层上风格表达Al被计算和存储(图左)。内容图片p经过整个网络,在一个层上的内容表达Pl被存储(图右)。一张随机的白噪声图片x流经整个网络,它的风格特征Gl,和内容特征Fl被计算出来。在风格表达中包含的每个层上,在Gl和Al的元素级的均方误差计算出来作为风格损失Lstyle(左)。同时在Fl和Pl间计算出均方误差作为内容的损失Lcontent(右)。全局损失Ltotal是一个内容和风格损失的线性连接。它对像素值的导数可以用误差BP计算出来。梯度用来反复更新图片x,直到它同时匹配风格图片a的风格特征与,内容图片p的内容特征。

    设~a和~x为原始图像和生成的图像,Al和Gl分别在层l中表示各自的样式,则层l对总损失的贡献为:

    全局风格损失是:

    其中wl为各层对总损失贡献的权重因子(我们的结果中wl的具体值见下文)。El对l层活跃性的导数可以解析地计算出来:

    El相对于像素值~x的梯度很容易用标准误差反向传播计算(图2,左)。

    2.3 风格转换

    为了将艺术品a的风格转移到照片p~上,我们合成了一个新的图像,此图像同时匹配p~的内容表示和~a的风格表示(图2)。

    因此,我们同时缩小 白噪声图像的特征表示与 图片在某一层的内容表达和在CNN的多个层上定义的风格表达 之间的距离。我们最小化的损失函数是

    α和β分别是内容和风格重建的权重因素。对像素值的梯度∂Ltotal/∂~x的梯度值可以作为一些数值优化策略的输入。这里我们使用L-BFGS[32],我们发现它最适合图像合成。为了在可比较的尺度上提取图像信息,在计算其特征表示之前,我们总是将样式图像的大小调整为与内容图像相同的大小。最后,请注意,与[24]不同的是,我们没有使用图像先验来规范我们的合成结果。不过,可以认为,网络中较低层次的纹理特征作为样式图像的特定优先级。此外,由于我们使用的网络结构和优化算法的不同,预计在图像合成方面会有一些差异。

    实验

    实验使用的是训练好的19层VGG,并通过调整权重使得每一层的激活值得均值为0。权重的调整并不会影响VGG的输出。在试验中没有使用全连接层。

    实验调整了一些参数,相对其他论文而言,本论文的参数其实并不多,有:

    loss加权的权重之比
    层级的选择
    初始化的方法。


    loss权重之比

    比例越大,内容就越强势。

    层级的选择

    固定住风格的层级,变动内容的层级,可以看到,内容层级越低,结果图片中的内容就越明显。

    初始化方法的选择

    A: 从内容图片初始化
    B: 从风格图片初始化
    C: 随机初始化
    可以看到,初始化的不同似乎对最后结果影响不大。

     

    效果

    一张图片对应到各种风格:

     

    照片风格转换:

    讨论

    速度,因为每张图片的生成都要求导很多遍,因而高清图片的生成非常慢。
    会引入噪声,在风格转换上不明显,但风格和内容都是照片的情况下,就变得非常明显了。但这个问题估计可以很容易解决。
    风格转换的边界非常不明显,人类也无法量化一张图片中哪一些属于风格,哪一些属于内容。
    风格转换的成功为生物学中人类视觉原理的研究提供了一条可以切入的点。

    展开全文
  • 用不同的风格渲染图像的语义内容是一种比较难的图像处理任务。可以说,之前方法的一个主要局限因素是缺乏明确表示语义信息的图像表示,用于将图像内容风格中分离。这里用卷积神经网络的图像表示用于物体识别的优化...


    卷积神经网络图像风格转移

    Image StyleTransfer Using Convolutional Neural Networks

    Taylor Guo, 2017年4月24日 星期一

     

    摘要

    用不同的风格渲染图像的语义内容是一种比较难的图像处理任务。可以说,之前方法的一个主要局限因素是缺乏明确表示语义信息的图像表示,用于将图像内容从风格中分离。这里用卷积神经网络的图像表示用于物体识别的优化,可以使图像信息更明显。我们介绍了一种艺术风格的神经网络算法可以将图像的内容和图像的自然风格分离和再合并。算法可以提供给人们可以感知到的高质量的新图像,可以将大量众所周知的艺术作品和任意图像结合起来。实验结果提供了卷积神经网络学习的深度学习图像表示,展示了高层图像语义合成和操作的能力。

     

    1  简介

    将一幅图像的风格转移到另外一幅图像上被认为是一个图像纹理转移问题。在图像纹理转移中,目标是从一幅源图像中合成纹理,源图像提供了要合成的问题但需要保留目标图像的语义内容。对于纹理合成,有大量强有力的非参数方法,可以通过重新采样给定源纹理图像的像素来合成图像写实自然纹理。之前的大多数纹理转移算法都是采用非参数方法用于纹理合成,没有用其他不同方法保留目标图像的结构。例如,Efros和Freeman引入了一个对应地图,包括了目标图像的特征,比如图像亮度,来约束纹理合成过程。Hertzman用图像模拟从风格图像中将纹理转移到目标图像中。Ashikhmin专注转移高频纹理信息,只保留目标图像的粗糙尺度。Lee在纹理转移过程中添加边缘方向信息来增强算法。

    尽管这些算法取得了显著的效果,但都受限于同一个基本问题:它们只使用了目标图像的低层图像特征在纹理转移中。理想情况下,一个风格转移算法应该能够从目标图像中提取图像语义内容(比如,目标和一般场景),通知纹理转移流程根据源图像风格渲染目标图像的语义内容。因此,一个先决条件是要找到图像表示,可以独立对图像语义内容和风格构建模型变量。这样处理的表示方法之前只能是采用自然图像的控制子集来达到,比如不同光照条件的人脸,和不同字体的特征,或者手写数字和门牌号。

    但一个通用性的方法将图像的内容从风格中分离开仍然是一个非常困难的问题。然而,最近出现的深度卷积神经网络可以产生强大的计算机视觉系统,可以从图像中学习提取高层语义信息。采用充足标注的数据训练的卷积神经网络在特定任务中,比如物体识别,在一般的特征表示中学习提取高层图像内容,可以在数据集上泛化,甚至也可以应用于其他视觉信息处理任务,包括纹理识别和艺术风格分类。

    在这个工作中,我们展示了高性能卷积神经网络如何学习一般的特征表示,用于独立处理和操作图像的内容和风格。我们介绍了艺术风格神经网络算法,一种执行图像风格转移的新算法。思路上,它就是最新的卷积神经网络的特征表示的纹理合成约束下的纹理转移算法。纹理模型基于深度学习图像表示,风格转移方法巧妙地将优化问题减少到一个神经网络中。通过执行图像搜索匹配样本图像的特征表示来生成新图像。再纹理合成之前执行这个方法,增强对深度学习图像表示的理解。事实上,风格转移算法合并了基于图像表示翻转的卷积神经网络的参数纹理模型。

     

    2  深度学习图像表示

    以下展示的结果是基于论文28的VGG网络生成的,用于训练执行物体识别和定位,更多细节如论文所示。使用标准的19层VGG网络包含16个卷积层和5个池化层提供的特征空间。按比例改变权重规范化网络,这样每层卷积滤波器在图像和位置上平均激活值就等于1。这种针对VGG网络的按比例缩放不会改变它的输出,因为它只包含修正线性激活函数,在特征地图上没有归一化层和池化层。我们也不使用任何全连接层。模型是公开的,可以在caffe架构中找到。对于图像合成,我们发现用平均池化取代最大池化操作,生成的结果更好,这就是图像使用平均池化层来生成。

    2.1  内容表示

    通常网络中每层定义了一个非线性滤波,它的复杂度随着每层在网络中的位置而增加。给定一个图像 ,卷积神经网络每层使用滤波对图像进行编码。Nl宽的滤波器的一个层大小为Ml的每个有Nl个特征地图,其中Ml是特征地图的高乘以宽。所以,l层的响应可以存储在一个矩阵中 ,其中 是l层的位置j上的第i个滤波器的激活值。
    为了将图像信息可视化在层级结构的不同层上进行编码,可以在一个带有白噪声的图像上执行梯度下降算法寻找可以匹配原始图像特征响应的另外一个图像(参考图1的内容重建),如论文24所述。令 分别为原始图像和生成的图像, 分别是l层的特征表示。那么,就可以定义两类特征表示之间的误差平方损失函数为:

    损失函数的偏导数对应的l层的激活函数为:

    图像的梯度可以用标准误差反馈传播计算(如图2右侧)。因此,我们可以改变初始随机图像直到卷积神经网络的某一层可以生成与原始图像相同的响应。


    图1. 卷积神经网络中的图像表示。在卷积神经网络的每个处理阶段,一个给定的输入图像表示为滤波过的图像。滤波器的数量沿着处理的层级增加,滤波后的图像用某种降采样机制减少(比如,最大池化),可以减少网络中每层的总数量。内容表示:可以从特定的一个网络层上,在只知道网络响应的情况下重建输入图像,就能够在卷积神经网络的不同处理阶段将信息可视化。在原来的VGG网络中的‘conv1 2’ (a), ‘conv2 2’ (b), ‘conv32’ (c), ‘conv4 2’ (d) ‘conv5 2’ (e) 重建输入图像。可以发现从网络中的低层重建接近完美(a-c)。在网络的高层,细节像素信息会丢失,但高层的图像内容会被保留下来(d,e)。风格表示:在卷积神经网络顶层激活时,使用一个特征空间获取输入图像的纹理信息。风格表示计算了卷积神经网络不同层不同特征间的关系。从卷积神经网络层(‘conv1 1’ (a), ‘conv1 1’ 和‘conv2 1’(b),‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (c), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and‘conv4 1’ (d), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’and ‘conv5 1’ (e))的不同子集上构建的风格表示重建输入图像的风格。这样创建的图像在一个逐步增加的规模上会匹配给定图像的风格,同时会丢掉场景全局结构信息。




    卷积神经网络在物体识别上训练,它们可以生成一个对图像的表示,在网络层级的处理过程中使得物体信息越来越明显,如论文10所示。因此,沿着网络层级处理过程,输入图像会发生转变,对图像的真正内容越来越敏感,但会对精细的外观变得相对不变。网络的高层会捕捉输入图像的高阶内容,比如物体和结构,但不会限制重构过程中的确切像素值(如图1中,内容重建 d,e)。相反,低层重建只是简单地复制原始图像中的确定的像素值(如图1,内容重建 a-c)。我们将网络中高层的特征响应结果作为内容表示

    2.2  风格表示

    为了获得输入图像的风格表示,用特征空间获得纹理信息,如论文10所示。这个特征空间可以从网络的任意层中的滤波器响应结果上构建。它由不同滤波器响应结果的相关关系组成,其中期望值从特征地图空间上取值。特征关系用克莱姆矩阵表示,其中是l层的向量化特征地图i和j之间的內积:


    包含了多个网络层的特征相关关系,可以得到一个确定的,多尺度的输入图像的表示,可以获得纹理信息,但没有全局结构信息。同样的,可以匹配给定输入图像的风格表示构建一个图像,可视化在网络不同层构建风格的特征空间上捕捉的信息,(如图1,风格重建)。在白噪声图像上使用梯度下降算法最小化原始图像的克莱姆矩阵和生成图像的克莱姆矩阵的平均平方距离来实现。

    分别表示原始图像和生成图像,分别表示l层的风格表示。l层相对于总损失的贡献是: 

    总的风格损失函数:


    其中wl是每层对总损失函数的贡献权重因子(如下面结果中特定wl的值)。l层的激活函数对应的El的偏导数计算如下:



    El对像素值的梯度可以用标准误差反向传播快速计算出来,(如图2 左边所示)。

    2.3  风格转移

    为了将艺术照的风格转移到照片上,我们同步匹配的内容表示和的风格表示,合成一个新图像,如图2所示。 因此,可以联立从卷积神经网络的一层的图像内容表示和大量层上定义的绘画风格表示的白噪声图像的特征表示求解最小化距离。需要最小化的损失函数是:

    其中α和β分别是内容和风格重建的权重因子。对像素值的梯度可以作为某些优化策略的输入值。这里使用论文32中的L-BFGS,可以非常好的应用于图像合成中。为了提取图像信息,在计算特征表示之前,需要经常改变风格图像大小与内容图像大小一样。最后,注意与论文24不同,我们并不用图像信息来规范化合成结果。可以讨论一下,从网络中低层提取的纹理特征可以作为风格图像的特定图像先验信息。另外,使用不同的网络架构和优化算法,在图像合成上也会有不同结果。


    3  结果

    本文主要的发现是卷积神经网络中的内容表示和风格表示可以很好地分离。也就是说,可以独立地操作两种表示生产有意义的新图像。为了演示这个发现,我们从两个不同的源图像中生成混合内容表示和风格表示的图像。具体来说,我们匹配了德国图宾根内卡河的照片的内容表示和几种出名的不同时期的艺术画的风格表示,如图3所示。图3所示的图像通过匹配网络层‘conv42’的内容表示和网络层 ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’and ‘conv5 1’(这些层中wl = 1/5, 其他层中 wl = 0 )的风格表示合成图像。α/β的比值分别是1 × 10−3 (Fig 3 B), 8 × 10−4 (Fig 3 C), 5 × 10−3(Fig 3 D), 或者 5 × 10−4 (Fig 3 E, F)。


    图3:合并照片内容和几种出名的艺术照生成的照片。同时匹配照片内容表示和艺术绘画的风格表示生成图像。A图是德国图宾根内卡河照片。左下角面板里面提供了生成图像的风格的绘画。B是1805年英国画家约瑟夫·玛罗德·威廉·特纳的《运输船遇难》。C是1889年文森特·梵高《星月夜The Starry Night》。D是1893年爱德华·蒙克《尖叫》。E是1910年巴勃罗·毕加索Femme nue assise 。F是1913年瓦西里·康定斯基CompositionVII。


    3.1  内容和风格之间的取舍

    当然,图像内容和风格不可能完全解绑。用另外一个图像风格合并一个图像的内容生成新图像时,通常不存在一个图像可以同时完全匹配两种约束。然而,既然在合成图像中,最小化的损失函数是内容和风格损失函数的线性组合,可以平滑地规范化强调内容重建或风格重建,如图4所示。强烈强调风格会导致图像匹配艺术品的外观,有效地提供了一个纹理版本的图像,但几乎没有图像的内容(α/β = 1 × 10−4,如图4,左上)。当强调内容时,可以清晰地识别照片,但绘画的风格无法很好地匹配(α/β = 1 × 10−1,如图4,右下)。对特定的内容图像和风格图像,可以调整内容和风格之间的取舍来创造令人满意的视觉效果的图像。


    图4:匹配源图像的内容和风格的相对权重。内容和风格比值α/β从左上到右下依次增加。特别强调风格会生成风格图像的纹理版本(左上)。特别强调内容会生成有很少风格的图像(右下)。实际上,可以在两个极值间平滑插值。

    3.2  卷积神经网络不同层的效果

    图像合成过程中另外一个重要的因素是选择匹配内容和风格表示的网络层。如上所示,风格表示是一个多尺度表示,包含了神经网络中的多层。这些层的数量和位置决定了风格匹配的局部尺度,产生不同视觉体验(如图1中的风格重建)。我们发现将风格表示匹配到网络的高层在一个增大的尺度上可以保留局部图像结构,生成更平滑、更连续的视觉体验。因此,大部分视觉上令人满意的图像通常是将风格表示匹配到网络高层创建的,这就是为什么我们生成的图像会在网络层‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 和‘conv5 1’匹配风格特征。

    为了分析不同层匹配内容特征的效果,我们在相同艺术图片和参数配置(α/β = 1 × 10−3)情况下对照片风格化,展示了风格转移的结果,但是一个是在conv2_2层上匹配内容特征,在另外一个的conv4_2层上,如图5所示。当在网络的低层上匹配内容,算法会匹配照片上的大部分像素细节信息,生成的图像似乎艺术图的纹理几乎不融合进照片中(如图5中间部分)。相反,在网络高层上匹配内容特征,照片的像素细节信息没有很强的约束,艺术画的纹理和照片的内容恰当地融合在一起(如图5下面)。也就是说,图像中明确的结构,比如边缘和颜色地图会被改变,使用艺术画的风格和照片的内容,如图5下面所示。


    图5:网络不同层匹配内容表示的效果。匹配conv2_2的内容保留了原始照片更多的清楚的结构,生成的图像看上去绘画的纹理简单和融合到照片中(图中间所示)。匹配conv4_2层的内容时,绘画的纹理和照片的内容就合并起来,照片的内容就显示出绘画的风格(图中下面所示)。两幅图是用相同的参数(α/β = 1 × 10−3)生成的。绘画作为风格图像,如左下角所示,1915年莱昂内尔·法宁格的Jesuiten III。

     

    3.3  梯度下降初始化

    这些图像初始化都带有白噪声。然而,初始化图像时也可以将内容图像和风格图像合成起来。我们也探索了这两种方案(图6A,B):尽管他们对最终图像与初始化时图像在空间结构上有偏向,不同的初始化方法看起来对最后的合成图像的结果并没有很大影响。可以注意到的是带噪声的初始化可以生成任意数量的新图像(图6 C)。带固定图像的初始化完全生产相同的结果(取决于梯度下降过程的随机性)。

    图6:梯度下降的初始化。A从内容图像初始化。B从风格图像初始化。C 4个样本从不同的白噪声图像初始哈。对所有图像α/β = 1 × 10−3

     

    3.4  写实风格转移

    到目前为止,本文主要关注艺术风格转移。通常,算法可以在任意两张图像上转移风格。比如,我们可以转移纽约夜晚的风格到伦敦白天的图像上去(图7)。尽管照片的真实度无法弯曲保留,合成的图像非常像风格图像的颜色和光照,显示出伦敦夜晚的照片。

    图7. 真实性图像风格转移。从纽约夜晚的照片风格转移到伦敦白天的照片上。图像合成用内容图像初始化,α/β = 1 × 10−2

     

    4  讨论

    本文演示了如何在高性能的卷积神经网络上用特征表示在任意两个图像上转移图像风格。我们可以显示出高感知质量,算法上仍然有一些技术限制。

    可能最大的限制是合成的图像的分辨率。优化问题的维度和卷积神经网络中的单元数量都是随着像素数量线性增长的。合成过程的速度严重依赖于图像分辨率。本文中展示的合成照片的分辨率是512×512像素,合成过程在nvidiaK40 GPU上大概1个小时(取决于确切图像大小和梯度下降的停止标准)。这样的性能目前可以在线演示,也可以交互应用,未来深度学习算法的增强都将增加这个方法的性能。

    另外一个问题是合成的图像有时会有一些低层噪音。这个问题在艺术风格转移中比较少,当内容图像和风格图像是照片或者生成写实图像受到影响的时候,更加明显。然而,噪声非常有特点,比较像网络中的单元的滤波器。因此,可以构建有效的去噪方法在优化过程结束后对图像进行后处理。

    图像的艺术风格处理是计算机图形学的非写实渲染的传统研究问题。与纹理转移工作不同,传统的方法是用特别的算法在一个给定的风格上渲染源图像。最近的综述可以参考论文21。

    从风格中分离图像内容在一个定义好的问题上不是必要的。这主要是因为究竟图像风格是什么无法清晰定义。它可能是绘画上笔刷的粗细,色彩地图,某种形式和形状,但也有可能是场景的组成,图像的主题,甚至可能是他们的混合,或许更多。因此,通常图像内容和风格不可能完全清晰地分离,如果可以,又怎么分离呢?比如,如果没有像星星一样的图像结构,就不可能将一副图像渲染成梵高的星月夜。在实际工作中,如果图像看起来像某种风格但图像内容中的物体和场景不同,我们认为风格转移也是成功的。我们完全认识到这种评判标准,在数学上不精确,也不具有通用型。

    然而,我们发现一个令人激动的现象,神经系统训练执行生物视觉的一个核心计算任务,可以自动地学习图像表示,至少在某种程度上可以将图像内容从风格上分离。一个可能的解释是当学习物体识别时,网络变得对图像变化具有不变性,保留了物体辨别力。图像内容和外观变化这一任务具有非常强的实践性。优化的人工神经网络和生物视觉有非常惊人的相似之处,因此可以观察人类从风格中提取内容的能力,创造和享受艺术,可能对我们的视觉系统的推理能力非常重要。 

    Taylor Guo @Shanghai - 2017年4月29日-15:30

    参考文献

    [1] N. Ashikhmin. Fast texture transfer. IEEE Computer Graphics and Applications,23(4):38–43, July 2003. 1

    [2] M. Berning, K. M. Boergens, and M. Helmstaedter.SegEM: Efficient Image Analysis for High-Resolution Connectomics. Neuron,87(6):1193–1206, Sept. 2015. 2

    [3] C. F. Cadieu, H. Hong, D. L. K. Yamins, N. Pinto,D. Ardila, E. A. Solomon, N. J. Majaj, and J. J. DiCarlo. Deep Neural NetworksRival the Representation of Primate IT Cortex for Core Visual ObjectRecognition. PLoS Comput Biol, 10(12):e1003963, Dec. 2014. 8

    [4] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy,and A. L. Yuille.SemanticImage Segmentation with Deep Convolutional Nets and Fully Connected CRFs. arXiv:1412.7062 [cs], Dec. 2014. arXiv: 1412.7062. 2

    [5] M. Cimpoi, S. Maji, and A. Vedaldi. Deep filter banks for texture recognition andsegmentation.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 3828–3836, 2015. 2

    [6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N.Zhang, E. Tzeng, and T. Darrell.DeCAF:A Deep Convolutional Activation Feature for Generic Visual Recognition. arXiv:1310.1531 [cs], Oct. 2013. arXiv: 1310.1531. 2

    [7] A. Efros and T. K. Leung. Texture synthesis by nonparametric sampling. In Computer Vision, 1999. The Proceedings of theSeventh IEEE International Conference on, volume 2, pages 1033–1038. IEEE,1999. 1

    [8] A. A. Efros and W. T. Freeman. Image quilting for texture synthesis and transfer. In Proceedings of the 28th annual conference onComputer graphics and interactive techniques, pages 341–346. ACM, 2001. 1

    [9] D. Eigen and R. Fergus. Predicting Depth, SurfaceNormals and Semantic Labels With a Common Multi-Scale Convolutional Architecture.pages 2650–2658, 2015. 2

    [10] L. A. Gatys, A. S. Ecker, and M. Bethge. Texture Synthesis Using Convolutional Neural Networks. In Advances in Neural Information Processing Systems28, 2015. 3, 4

    [11] U. G¨uc¸l ¨u and M. A. J. v. Gerven. Deep NeuralNetworks Reveal a Gradient in the Complexity of Neural Representations acrossthe Ventral Stream. The Journal of Neuro-science, 35(27):10005–10014, July2015. 8

    [12] D. J. Heeger and J. R. Bergen. Pyramid-based Texture Analysis/Synthesis. In Proceedings of the 22Nd Annual Conference onComputer Graphics and Interactive Techniques, SIGGRAPH ’95, pages 229–238, New York,NY, USA, 1995. ACM. 3

    [13] A. Hertzmann, C. E. Jacobs, N. Oliver, B.Curless, and D. H. Salesin.Image analogies. In Proceedings of the 28th annual conference onComputer graphics and interactive techniques, pages 327–340. ACM, 2001. 1

    [14] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J.Long, R. Girshick, S. Guadarrama, and T. Darrell.Caffe:Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conferenceon Multimedia, pages 675–678. ACM, 2014. 3

    [15] S. Karayev, M. Trentacoste, H. Han, A. Agarwala,T. Darrell, A. Hertzmann, and H. Winnemoeller.Recognizing image style. arXiv preprint arXiv:1311.3715, 2013. 2

    [16] S.-M. Khaligh-Razavi and N. Kriegeskorte. DeepSupervised, but Not Unsupervised, Models May Explain IT Cortical Representation.PLoS Comput Biol, 10(11):e1003915, Nov. 2014. 8

    [17] D. P. Kingma, S. Mohamed, D. Jimenez Rezende, andM. Welling. Semi-supervised Learning with Deep Generative Models. In Z.Ghahramani, M.Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger,editors, Advances in Neural Information Processing Systems 27, pages 3581–3589.Curran Associates, Inc., 2014. 2

    [18] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neuralnetworks. In Advancesin neural information processing systems, pages 1097–1105, 2012. 2

    [19] M. K¨ummerer, L. Theis, and M. Bethge. Deep GazeI: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLRWorkshop, 2015. 2, 8

    [20] V. Kwatra, A. Sch¨odl, I. Essa, G. Turk, and A.Bobick. Graphcut textures: image and video synthesis usinggraph cuts.In ACM Transactions on Graphics (ToG), volume 22, pages 277–286. ACM, 2003. 1

    [21] J. E. Kyprianidis, J. Collomosse, T. Wang, and T.Isenberg. Stateof the ”Art”: A Taxonomy of Artistic Stylization Techniques for Images andVideo. Visualizationand Computer Graphics, IEEE Transactions on, 19(5):866–885, 2013. 8

    [22] H. Lee, S. Seo, S. Ryoo, and K. Yoon. DirectionalTexture Transfer. In Proceedings of the 8th International Symposium onNon-Photorealistic Animation and Rendering, NPAR ’10, pages 43–48, New York,NY, USA, 2010. ACM. 1

    [23] J. Long, E. Shelhamer, and T. Darrell. Fully Convolutional Networks for SemanticSegmentation. pages3431–3440, 2015. 2

    [24] A. Mahendran and A. Vedaldi. Understanding Deep Image Representations by Inverting Them. arXiv:1412.0035 [cs], Nov. 2014. arXiv: 1412.0035.3, 6

    [25] J. Portilla and E. P. Simoncelli. A Parametric Texture Model Based on Joint Statisticsof Complex Wavelet Coefficients. International Journal of Computer Vision,40(1):49–70, Oct. 2000. 3, 4

    [26] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh,S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L.Fei-Fei.ImageNet Large Scale Visual Recognition Challenge. arXiv:1409.0575 [cs], Sept. 2014. arXiv: 1409.0575.3

    [27] K. Simonyan, A. Vedaldi, and A. Zisserman. DeepInside Convolutional Networks: Visualising Image Classification Models andSaliency Maps. arXiv:1312.6034 [cs], Dec. 2013. 3

    [28] K. Simonyan and A. Zisserman. Very DeepConvolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 [cs],Sept. 2014. arXiv: 1409.1556. 3

    [29] J. B. Tenenbaum and W. T. Freeman. Separatingstyle and content with bilinear models. Neural computation, 12(6):1247–1283,2000. 2

    [30] L. Wei and M. Levoy. Fast texture synthesis using tree structured vectorquantization.In Proceedings of the 27th annual conference on Computer graphicsand interactive techniques, pages 479–488. ACM Press/Addison-Wesley PublishingCo., 2000. 1

    [31] D. L. K. Yamins, H. Hong, C. F. Cadieu, E. A.Solomon, D. Seibert, and J. J. DiCarlo. Performance-optimized hierarchical modelspredict neural responses in higher visual cortex. Proceedings of the NationalAcademy of Sciences, page 201403112, May 2014. 8

    [32] C. Zhu, R. H. Byrd, P. Lu, and J. Nocedal.Algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound constrained optimization. ACM Transactions on Mathematical Software (TOMS),23(4):550–560, 1997. 6




    展开全文
  • 实现代码:https://github.com/yjc567/StyleBank本文是对文章 StyleBank: An Explicit Representation for Neural Image ...大纲本文的大体内容分为以下几点: StyleBank的网络结构 StyleBank的训练策略 StyleBank的
  • 风格迁移综述

    千次阅读 2020-11-14 19:24:46
    风格迁移综述0 引言1 基于图像迭代的风格迁移方法1.1 基于最大均值差异的风格迁移1.2 基于马尔科夫随机场的风格迁移(限制条件较多,有时视觉效果不是很好)1.3 基于深度图像类比的风格迁移2 基于模型迭代的风格迁移...
  • 图像风格迁移

    千次阅读 多人点赞 2021-09-24 13:35:20
    风格迁移指的是两个不同域中图像的转换,具体来说就是提供一张风格图像,将任意一张图像转化为这个风格,并尽可能保留原图像的内容
  • 风格迁移简介

    万次阅读 2018-08-22 19:53:32
    1. 神经风格迁移之前的风格迁移方法 1) 基于笔划的渲染(Stroke-based rendering SBR) 基于笔划的渲染是指在数字画布上增加虚拟笔划以渲染具有特定样式的图片的方法。应用场景大多限定在油画、水彩、草图等,不够...
  • 风格迁移

    千次阅读 2018-02-22 17:20:54
     既要保留原本图片的基本内容,又想将其他喜欢的绘画风格叠加上来,就像下面的例子: 那么对喜欢的绘画风格,怎么将其风格,搬到另外一张图片上呢? what is texture of a image?  texture of imag...
  • 图1中的内容图像为本书作者在西雅图郊区的雷尼尔山国家公园拍摄的风景照,而风格图像则是一幅主题为秋天橡树的油画。最终输出的合成图像应用了风格图像的油画笔触让整体颜色更加鲜艳,同时保留了内容图像中物体主体...
  • 基于Tensorflow 2.0实现的图片风格迁移

    千次阅读 2021-12-29 05:02:49
    摘 要 神经风格迁移是一种优化技术,用于将两个图像(一个内容图像和一个风格参考图像)混合在一起,使输出的噪声图像看起来像内容图像, 但是使用了风格参考图像的风格。 这是通过优化输出图像以匹配内容图像的内容...
  • 1. 风格迁移入门 2. pytorch实战 3. 小结
  • 深度学习之艺术风格迁移

    千次阅读 热门讨论 2018-05-24 20:12:58
    深度学习之艺术风格迁移 近年来,由深度学习所引领的人工智能技术浪潮,开始越来越广泛地应用到社会各个领域。这其中,人工智能与艺术的交叉碰撞,不仅在相关的技术领域和艺术领域引起了高度关注。以相关技术为...
  • Image Style Transfer Using Convolutional ...本文介绍了一种艺术风格的神经算法,可以分离和重组自然图像的图像内容风格。该算法允许产生高感知质量的新图像,该图像将任意照片的内容与众多知名艺术品的外观相结合
  • 深度学习实战(一)快速理解实现风格迁移

    万次阅读 多人点赞 2018-01-27 20:17:05
    前言 Gatys大神之前发表了一篇利用风格迁移进行作画的文章,让普通的照片具有名人的画风,效果如下: ...难点在于很多国画背景与内容色差并没西方画作那么明显,有的仅用淡墨,黑白两色就可以完成
  • 图像风格化是近几十年来研究的一种图像处理技术,本文旨在展示一种高效新颖的风格注意力网络(SANet)方法,在平衡全局和局部风格模式的同时,保留内容结构,合成高质量的风格化图像。 风格迁移机制概述 有没有想象...
  • (一)图像风格迁移

    千次阅读 热门讨论 2019-01-12 15:44:58
    图像风格迁移即把图像A的风格和图像B的内容按照一定比例结合,输出具备图像A风格和图像B内容的图像C. 1 迁移原理 图像风格迁移包括: 图像内容获取; 图像风格提取; 内容风格融合; 迁移框架: 图1.0 迁移...
  • 改进神经风格迁移

    千次阅读 多人点赞 2021-06-26 13:11:16
    但神经风格迁移存在两个缺陷,首先是神经风格迁移基于神经网络训练反向传播,因此速度较慢,同时风格迁移会获取风格图像所有风格信息,包括颜色和笔触等,不能进行更好的控制。因此许多论文和应用针对原始的神经风格...
  • 图像风格迁移与快速风格迁移的对比(感知损失)

    千次阅读 多人点赞 2018-12-25 00:36:32
    最近一段时间要写数字图像处理的文献综述,《深度学习在图像风格迁移中的原理与应用综述》。只能感慨自己一时选题不审,导致期末火葬场啊…… 这个问题我纠结了一天,看了N多篇文献(全是英文的…),结果还是没想...
  • 图像风格迁移实战

    千次阅读 2022-03-31 15:42:18
    所谓风格迁移,其实就是提供一幅画(Reference style image),将任意一张照片转化成这个风格,并尽量保留原照的内容(Content)。之前比较火的修图软件Prisma就提供了这个功能 一、图像风格迁移(Neural Style)简史 ...
  • 实战二:手把手教你图像风格迁移

    千次阅读 多人点赞 2019-04-06 19:46:56
    图像风格迁移是指,将一幅内容图的内容,和一幅或多幅风格图融合在一起,从而生成一些有意思的图片。 有兴趣的可以看一下外文文献Leon A. Gatys' paper, A Neural Algorithm of Artistic Style ...
  • 软件体系结构风格介绍

    千次阅读 2020-02-18 12:46:38
    文章目录软件体系结构风格介绍(一)管道和过滤器风格(二)数据抽象与面向对象风格(三)基于事件的隐式调用风格(四)层次系统风格(五)仓库风格(六)C2风格(七)基于层次消息总线的架构风格 软件体系结构风格...
  • Pytorch:图像风格快速迁移

    千次阅读 2022-02-17 01:45:45
    使用残差网络ResNet和VGG实现了固定风格任意内容的图像风格快速迁移,保存并复用网络模型
  • 图像风格迁移,使用了卷积神经网络提取内容图像的内容特征和风格图像的风格特征,使得生成的图像同时具备内容图像的内容风格图像的风格。通俗的来说,图像风格迁移就是把一张图片的内容和另一个图片的风格合成的一...
  • 快速风格迁移

    千次阅读 2018-09-05 23:18:35
    风格迁移是CV的一个应用,通过融合风格图片和内容图片,实现图片的风格变换,“人人都是艺术家” 最早在论文《A Neural Algorithm of Artistic Style》中提出,但是这种方法是用“训练”的思想来做风格迁移,每次...
  • 风格表示和风格损失 风格迁移 实验结果 对实验结果的讨论 风格内容的一些权衡 当然,很好地分离并不意味着我们可以完全将图像风格内容进行分离。当合成一张图像其中带有一张图像的内容和另一张图像的风格时,...
  • 有时内容只是复制,有些则提供了一种新颖的实现。它们的共同之处在于对细节的快速钻研。在我看来太具体了。不仅如此,通常还有一些实现细节,这使得将重点放在整体的主要概念上变得更加困难。 这篇文章可以看作是对...
  • 学习笔记:图像风格迁移

    万次阅读 多人点赞 2019-04-27 16:17:22
    所谓图像风格迁移,是指利用算法学习著名画作的风格,然后再把这种风格应用到另外一张图片上的技术。著名的国像处理应用Prisma是利用风格迁移技术,将普通用户的照片自动变换为具有艺术家的风格的图片。这篇文章会...
  • CV之NS之ME/LF:图像风格迁移中常用的模型评估指标/损失函数(内容损失、风格损失)简介、使用方法之详细攻略 目录 图像风格迁移中常用的几种损失函数 1、内容损失 2、风格损失 3、定义总损失 图像风格迁移中...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 473,079
精华内容 189,231
关键字:

内容风格