精华内容
下载资源
问答
  • 对抗样本
    千次阅读
    2020-07-14 12:19:40

    一、什么是对抗样本

      对抗样本是一类被恶意设计来攻击机器学习模型的样本。它们与真实样本的区别几乎无法用肉眼分辨,但是却会导致模型进行错误的判断。对抗样本的存在会使得深度学习在安全敏感性领域的应用收到威胁。
      如下图所示,通过在自然图片上加入一些人工噪声来“欺骗”神经网络,使得神经网络输出错误的预测结果。
    在这里插入图片描述
      以经典的二分类问题为例,机器学习模型通过在样本上训练,学习出一个分割平面,在分割平面的一侧的点都被识别为类别一,在分割平面的另外一侧的点都被识别为类别二。生成攻击样本时,我们通过某种算法,针对指定的样本计算出一个变化量,该样本经过修改后,从人类的感觉无法辨识,但是却可以让该样本跨越分割平面,导致机器学习模型的判定结果改变。
    在这里插入图片描述

    二、对抗样本攻击方法

    1. Fast gradient sign method (FGSM)
      Goodfellow等人认为高维空间下深度神经网络的线性行为是导致该问题(存在对抗样本)的根本原因。提出了一种一步生成法来快速生成对抗样本,可以有效计算对抗扰动。
    x^’=x + εsgn(∇_x L(θ,x,y)) non-target
    x^’=x - εsgn(∇_x L(θ,x,y)) target on t
    η = εsgn(∇_x L(θ,x,y))
    x:原始图像
    η:扰动
    ε:表示控制扰动大小的自定义参数
    L:损失函数
    sgn:符号函数
    FGSM的核心思想:通过让扰动方向与梯度方向一致,使损失函数值变化最大,进而使分类器分类结果变化最大。sign函数保证了扰动方向与梯度方向一致;对损失函数求偏导。
    FGSM优缺点:优点是只需一步迭代就能生成对抗样本,并且可以通过控制参数ε生成任意L∞ 范数距离的对抗样本;缺点是扰动自身抗干扰能力不强,容易受到其他噪声的影响; 另外,模型损失函数与模型输入并不是完全线性的,这说明该算法生成的对抗样本扰动不是最优扰动。

    2. DeepFool
      Moosavi-Dezfooli 等人通过迭代计算的方法生成能够使分类器模型产生误识别的最小规范对抗扰动,将位于分类边界内的图像逐步推到边界外,直到出现错误分类。
    Deepfool的核心思想:Deepfool 算法生成对抗样本过程与使用 L-BFGS 生成对抗样本过程类似,主要区别是: Deepfool 算法每次迭代都计算当前样本和各决策边界的距离,然后选择向最近的决策边界迭代生成扰动。
    Deepfool优缺点:优点是生成的扰动比 FGSM 更小,同时有相似的欺骗率。缺点是需要重复计算距离,多维数据计算量很大。

    3. Carlini & Wagner′s attack(C&W)
      Carlini 和 Wagne提出了三种对抗攻击方法,通过限制 L∞、L2 和 L0 范数使得扰动无法被察觉。实验证明 defensive distillation (防御性蒸馏)完全无法防御这三种攻击。该算法生成的对抗扰动可以从 unsecured 的网络迁移到 secured 的网络上,从而实现黑盒攻击。
    C&W的核心思想:C&W是一种基于目标函数优化的对抗样本攻击算法,算法假设对抗样本是一个变量,那么要使其成功攻击分类器模型,必须满足两个条件,一是其与原始样本的距离要尽可能的小,二是其能够误导分类器模型对其进行错误分类。

    4. Jacobian-based saliency map attack(JSMA)
      基于雅可比矩阵的显着性图攻击(JSMA)介绍了一种基于计分函数F的雅可比矩阵的方法。 通过迭代操纵对模型输出影响最大的像素,可以将其视为贪婪攻击算法。
    JSMA的核心思想:对抗攻击文献中通常使用的方法是限制扰动的 L∞或 L2 范数的值以使对抗样本中的扰动无法被人察觉。但 JSMA提出了限制 L0 范数的方法,即仅改变几个像素的值,而不是扰动整张图像。

    5. Basic iterative method (BIM)/Projected gradient descent (PGD) attack
      针对 FGSM 算法存在的问题, Kurakin 等人[15,31]在 FGSM 算法基础上提出了一种以多步迭代的方式生成对抗样本的方法 BIM。
    核心思想:one-step 方法通过一大步运算增大分类器的损失函数而进行图像扰动,因而可以直接将其扩展为通过多个小步增大损失函数的变体,从而我们得到 Basic Iterative Methods(BIM)

    三、防御方法

    目前,在对抗攻击防御上存在三个主要方向:
    1.在学习过程中修改训练过程或者修改的输入样本
    ①蛮力对抗训练
      通过不断输入新类型的对抗样本并执行对抗训练,从而不断提升网络的鲁棒性。为了保证有效性,该方法需要使用高强度的对抗样本,并且网络架构要有充足的表达能力。这种方法需要大量的训练数据,因而被称为蛮力对抗训练。很多文献中提到这种蛮力的对抗训练可以正则化网络以减少过拟合。然而,Moosavi-Dezfooli指出,无论添加多少对抗样本,都存在新的对抗攻击样本可以再次欺骗网络。
    ②数据压缩
      注意到大多数训练图像都是 JPG 格式,Dziugaite等人使用 JPG 图像压缩的方法,减少对抗扰动对准确率的影响。实验证明该方法对部分对抗攻击算法有效,但通常仅采用压缩方法是远远不够的,并且压缩图像时同时也会降低正常分类的准确率,后来提出的 PCA 压缩方法也有同样的缺点。

    2.修改网络,比如:添加更多层/子网络、改变损失/激活函数等
    ①深度压缩网络
      人们观察到简单地将去噪自编码器(Denoising Auto Encoders)堆叠到原来的网络上只会使其变得更加脆弱,因而 Gu 和 Rigazio[24] 引入了深度压缩网络(Deep Contractive Networks),其中使用了和压缩自编码器(Contractive Auto Encoders)类似的平滑度惩罚项。
    ②梯度正则化/ masking
      使用输入梯度正则化以提高对抗攻击鲁棒性 [52],该方法和蛮力对抗训练结合有很好的效果,但计算复杂度太高。

    3.当分类未见过的样本时,用外部模型作为附加网络
    ①防御通用扰动
      利用一个单独训练的网络加在原来的模型上,从而达到不需要调整系数而且免疫对抗样本的方法。
    ②基于 GAN 的防御
      用 GAN 为基础的网络可以抵抗对抗攻击,而且作者提出在所有模型上用相同的办法来做都可以抵抗对抗样本。

    四、参考

    [1]如何看待机器视觉的“对抗样本”问题,其原理是什么?
    [2]对抗样本的基本原理
    [3]生成对抗样本的方法|攻击方法
    [4]学界 | 综述论文:对抗攻击的12种攻击方法和15种防御方法

    更多相关内容
  • 深度神经网络容易受到对抗样本的攻击。为了解决这个问题,一些工作通过向图像中添加高斯噪声来训练网络,从而提高网络防御对抗样本的能力,但是该方法在添加噪声时并没有考虑到神经网络对图像中不同区域的敏感性是...
  • 利用GAN的思想,进行数字对抗样本生成,以LeNet作为图像分类模型,LeNet是一个小型的神经网络结构,仅包含两层卷积层、两个池化层以及三层全连接。该轻量级网络能快速、占内存小、高精确度的解决复杂度比较低的问题...
  • 对抗样本:进攻与防守最近,关于对抗性样本的研究是机器学习中的一个热门话题。 在此存储库中,我只想介绍一些生成对抗性样本的方法以及如何防御它们。注意:还有许多其他有趣的方法,我将在以后的晚些时候进行更新...
  • 深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击,但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然语言处理模型的安全问题.
  • AEGuard是一种基于边缘噪声特征的对抗样本检测模型,通常会出现在对抗样本中。 使用的技术/框架 张量流 OpenCV 要求 的Python 3 IPython 7.18.1或更高版本 Tensorflow 2.3.0或更高版本 Keras 2.4.3或更高版本 ...
  • AI安全——对抗样本技术综述与应用 安全生态
  • 【机器学习】什么是对抗样本对抗样本原理及分析,原作者Arxiv Insights。对抗样本由Christian Szegedy等人提出,是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。...
  • 对抗样本和对抗生成网络demo,包括一个简单的tensorflow编写的gan网络
  • 原始图片(matlab自带),FGSM生成的对抗样本两组,各10000张,测试数据200张
  • 深度学习中对抗样本的构造及防御研究.pdf
  • 为了应对流量分类攻击,从防御者的角度出发,提出了一种基于对抗样本的网络欺骗流量生成方法。通过在正常的网络流量中增加扰动,形成欺骗流量的对抗样本,使攻击者在实施以深度学习模型为基础的流量分类攻击时出现...
  • 基于生成对抗网络的对抗样本攻击方法,田宇,刘建毅,随着深度学习技术的广泛应用,深度学习安全问题也逐渐引起人们关注,其中,对抗样本攻击是深度学习在安全领域中的热点。如何对深
  • 然而,深度神经网络近来被发现,对于精心设计好的输入样本,其是脆弱的,这种样本就被称为对抗样本对抗样本对人类是很容易分辨的,但却能在测试或部署阶段,很容易的糊弄深度神经网络。当应用深度神经网络到对安
  • 对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。
  • 如今,深度学习已被广泛应用于图像分类和图像识别的问题中,取得了令人满意的实际效果,成为许多人工智能应用的关键所在.在对于模型准确率的不断探究中,研究人员在近期提出了“对抗样本”这一概念。
  • 对抗样本工具箱,tensorflow框架可使用,效果很好
  • 本文通过对抗样本生成技术的回顾,从信号层、内容层以及语义层三个层面,白盒攻击与黑盒攻击两个角度,简要介绍了对抗样本生成技术,目的是希望读者能够更好地发现对抗样本的本质,对机器学习模型的健壮性、安全性...
  • 对抗样本工具箱,由百度公司开发,各种框架均可使用,非常方便
  • 对抗样本三元组约束的度量学习算法.pdf
  • Adversarial Examples 对抗样本-附件资源
  • 基于RAdam和颜色不变性的对抗样本可迁移性攻击.pdf
  • 目标检测是一种广泛应用于工业控制、航空航天等安全攸关场景的重要技术。近年来,随着深度学习在目标检 测领域的应用,检测的精度得到了较大提升,但由于深度学习固有的脆弱性,使得基于深度学习的目标检测技术的...
  • 论文:《深度学习对抗样本的防御方法综述》 问题 2013年 ,Szegedy 等 人 [1]首先通过添加轻微扰动来干扰输入样本,使基于深度神经网络(Deep neural network, DNN)的图片识别系统输出攻击者想要的任意错误结果,...

    作者: 19届 lz

    论文:《深度学习对抗样本的防御方法综述》



    问题

    2013年 ,Szegedy 等 人 [1]首先通过添加轻微扰动来干扰输入样本,使基于深度神经网络(Deep neural network, DNN)的图片识别系统输出攻击者想要的任意错误结果,此过程称为对抗攻击.
    研究人员表明,现代深度神经网络模型极易受到人类视觉系统几乎无法察觉的微小扰动的对抗攻击。这种攻击可以造成神经网络分类器对原始图像进行错误预测。如果将其应用于现实世界,如恶意代码检测、无人驾驶系统、生物医学领域,将会带来极为严重的后果

    贡献:

    本文根据对抗攻击的分类,从模型和数据两个层面对防御策略进行了分类和介绍。通过对相关研究工作的调研和分析,未来针对对抗深度学习的研究可以从两个角度展开。



    相关工作

    对抗样本指的是攻击者在数据集原始输入样本通过添加人类无法察觉的细微扰动来形成新的输入样本,导致模型以高置信度给出一个错误的输出,以欺骗机器学习模型。

    深度神经网络( DNN )是典型的深度学习模型,其他深度学习模型在其基础上进行扩展 。 DNN 本质是一个函数链,是由多个神经网络层累加起来的结构,神经网络层由多个人工神经元构成,每个神经元都是一个感知器,可以将一组输入映射到具有激活功能的输出值上 。 DNN 每个函数是由每一层上的神经元组成,其目标是使训练的模型与真实的数据生成过程相匹配。函数表达如下所示:
    在这里插入图片描述
    深度神经网络的强表达能力使其在许多领域取得了巨大的成功。CNN被广泛应用于计算机视觉领域,RNN在处理具有可变长度的顺序输入数据上,具有很好的处理效果。深度学习解决某些复杂问题的能力已经超出了人类水平,但研究表明,深度学习技术也面临多种安全性威胁。



    对抗攻击方法分类

    根据敌手知识可分为白盒攻击和黑盒攻击 :
    白盒攻击指攻击者完全了解神经网络模型和参数;
    黑盒攻击指攻击者无法获取模型全部信息,只能通过对模型的使用来观察输入输出并展开攻击。

    根据对抗特异性可以分为针对目标攻击和非针对目标攻击 :
    针对目标攻击中对抗样本的分类结果会错分到指定分类;
    非针对目标攻击的对抗类输出是任意的。
    在这里插入图片描述



    对抗防御方法分类

    对对抗样本的典型防御方法从模型数据两个方向从模型入手的防御方法主要分为两种。

    模型层面的防御策略可分类为修改网络使用附加网络,通过在训练阶段修改原始DNN模型的结构,或者不改变原始模型用外部模型作为附加网络,使得防御后的DNN分类器能够检测出对抗样本或将其识别为正确标签;

    数据层面的防御策略主要通过在训练阶段将对抗样本注入训练数据集后重新训练模型,或预测阶段对样本进行修改,进行重建并将转换后的对抗样本输入到原模型来进行预测。

    模型层面防御方法

    从模型入手的防御方法主要分为两种。
    (1)修改网络:仅修改原始模型的结构。
    (2)使用附加网络:在保持原始模型所有
    信息的情况下,用外部模型作为附加网络。

    修改网络

    1)防御蒸馏
    Distillation(蒸馏)最早由Hinton提出,是指将复杂网络的知识迁移到简单网络上。该知识以训练数据的类概率向量形式提取,并反馈给原始模型。Papernot提出了防御蒸馏,是蒸馏算法的扩展。如图 1 所示,利用蒸馏算法为原始模型训练一个蒸馏模型。训练蒸馏模型时,输入是训练原始模型所需的样本集合。
    在这里插入图片描述
    可以理解为softmax层的输出,除了正例之外,负标签也带有大量的信息,比如某些负标签对应的概率远远大于其他负标签。而在传统的训练过程(hard target)中,所有负标签都被统一对待。也就是说,KD的训练方式使得每个样本给Net-S带来的信息量大于传统的训练方式。

    2)正则化
    正则化方法是指在训练过程中在目标函数上惩罚输出对于输入的变化程度,可以在一定程度上使小的对抗扰动不会对输出有显著影响。Moosavi-Dezfooli [10]指出对抗训练的主要作用之一是使损失函数的曲率和分类器的决策边界显著减小,所以提出了一种新的正则化策略,即曲率正则化,可以直接最小化损失面的曲率。这种正则化方法被证明可以显著提高神经网络的鲁棒性,甚至达到与对抗训练相当的性能,但可能在一定程度上会使模型的效果(如准确度)变差。此外,正则化方法与对抗训练结合会有很好的效果,但计算复杂度太高。

    3)深度压缩网络
    深度压缩网络 Deep contrac-tive network, DCN),在训练过程中采用正则化方法使用压缩自编码器的平滑惩罚项,使得模型的输出更加平滑。
    高阶表征引导去噪器(High-level representation guided denoiser, HGD),训练一个基于神经网络的去噪器来消除对抗扰动。该方法使用U-Net作为去噪网络,相较于编码器和解码器结构,U-Net在同分辨率的编码层和解码层之间直接相连,网络只需学习如何去除噪音,而无需重建整张图。

    使用附加网络

    1)防御通用扰动
    Akhtar等人提出了一种防御框架,该框架将额外的神经网络层附加到目标网络中,并重新训练网络来完成对对抗样本的校正,使目标网络对图像的原始版本与相应对抗样本的预测相同。通过这种方式不需要调整系数,而且能有效防御对抗样本。

    2)基于GAN的防御
    Lee等 人[15]利用生成对抗网络(GAN)来训练一个可以抵抗FGSM攻击的网络。直接在生成的网络上训练,在训练过程中,生成网络不断尝试对原始和对抗图像进行正确分类。
    Shen等人使用网络的生成器部分来修正一个受干扰的图像。
    Samangouei等人提出一种新的防御策略Defense-GAN,利用GAN来增强分类模型对白盒和黑盒对抗攻击的鲁棒性。实验表明,Defense-GAN可以有效抵抗对抗攻击,但如果GAN没有得到适当的训练和调整,Defense-GAN会受到原始输入样本和对抗样本的影响。

    3)对抗样本检测
    上述使用附加网络的防御方法可以使得防御后的DNN分类器能够将对抗样本识别为正确的标签,而对抗样本检测只需判断输入样本是否为对抗样本,而无须将对抗样本识别为正确标签。

    Feature Squeezing方法通过对输入样本压缩简化来检测输入样本是否为对抗样本,该方法在 DNN 分类器中添加了两个外部模型,分别用来减少每个像素的颜色位深度和进行像素值的空间平滑。将原始输入图片和用两种Squeezing方法压缩后的图片经过分类器预测后的两个结果进行比较,如果距离很大,则输入样本会被认为是对抗样本。

    且有研究表明Feature Squeezing方法与对抗训练结合,分类结果会有更高的准确性。
    Feature Squeezing

    数据层面防御方法

    1)训练阶段修改模型参数(对抗训练)
    自从发现深度神经网络的对抗样本以来,相关文献中普遍认为,防御对抗样本的神经网络的鲁棒性会随着对抗训练而提高。对抗训练方法从训练数据集入手,在每个训练步骤中产生对抗样本,并将它们注入训练集,构建鲁棒性更好的模型。Goodfellow等 人[21]和Huang等人[22]使用对抗训练防御方法MNIST数据集上进行评估,实验表明这种混合了合法样本和对抗样本训练出的模型有更强的鲁棒性。

    对抗训练在训练过程中只能加入由已知攻击产生的特定类别的对抗样本,因此对抗训练防御通常不具备对其他攻击产生对抗样本的泛化能力。此外,对抗训练防御方法在训练阶段需要大量的正常样本和对抗样本,训练的成本较高,使得该方法很难在大规模数据集上使用,这是对抗训练防御方法亟待解决的难题。

    2)测试阶段修改输入样本

    (1)输入转换
    输入转换方法不需要改变训练数据集和模型结构,而是对预测样本进行各种转换方法来减少可能存在的扰动,之后将转换后的样本输入到原模型中预测,使对抗样本重新被正确分类 。输入转换防御方法需要对预测样本进行转换处理,实验表明,目前这种方法在对抗样本预测上的误报率和漏报率较大。

    (2)数据压缩
    Dziugaite 等人发现在图像领域应用中最广泛的图像压缩技术是 JPG 图像压缩技术。受此启发,他们研究了JPG 压缩技术对由 于FGSM 攻击扰动带来的网络模型识别率的影响。Das 等人使 用 JPEG 压缩方法,提出一种针对 FGSM 和 DeepFool 攻击方法的集成防御手段,但这种图像压缩技术无法面对更加强力的攻击,如 C&W 等。
    L i和Wang提出了一种新的深度去噪神经网络,用于消除对抗样本上的噪声。Liu等人运用数据压缩技术来防御对抗图像的攻击,实验结果表明所提出的防御策略只有在添加的扰动较小时才有一定的效果。
    在这里插入图片描述


    其他对抗深度学习防御方法

    M a 等人利用对抗样本的局部本征维数(Local intrinsic di-mensionality, LID) 值大于正常样本的特性来识别对抗样本和正常样本,提出基于 LID 的检测方法。

    Buckman
    等人提出使用温度计编码( Thermometer encoding)将连续的输入样本进行离散化。

    Prakash等人将像素偏转和小波去噪技术结合提出了新的集成防御方法,利用小波域中的自适应软阈值使模型的输出平滑,该防御方法可以有效抵御最新的对抗攻击。


    当前防御方法面临的问题

    (1)对抗攻击的防御存在对目标模型参数的依赖问题,模型使用的白盒防御策略为改变目标模型梯度传递过程,而黑盒攻击使用替代模型构造对抗样本,其本身的可迁移性属性使其在黑盒攻击中具有很好的泛化性,使模型使用的白盒防御策略失效。

    ( 2 )几乎所有的防御方法只能对有限的对抗攻击有效,不能够解决来自未知攻击带来的风险,并且很容易被不断演化的对抗样本绕过。

    ( 3 )大多数防御都是针对计算机视觉任务中的对抗样本,随着其他领域对抗样本的发展,迫切需要研究这些领域存在的问题。例如在网络空间安全领域,一些深度学习的网络空间安全应用存在的最大问题是健壮性差,容易受到对抗攻击。

    (4)正如本文介绍,对抗攻击在物理世界也十分有效,所以研究其在物理世界的防御方法也是非常必要的。

    展开全文
  • 基于深度学习的对抗样本生成技术研究综述.pdf
  • 对抗样本入门_Note1

    2022-04-11 10:06:39
    然而如果我们想要对ML模型进行攻击的话,可以通过一定的手段生成对抗样本(adversarial examples),以图像为例,对抗样本在每个像素点只有微小的扰动(pertubations),因此对于人类的眼睛是无法分辨的,即生成前后...

    简介

    • 机器学习方法,如SVM,神经网络等,虽然在如图像分类等问题上已经outperform人类对同类问题的处理能力,但是也有其固有的缺陷,即我们的训练集喂的都是natural input,因此在正常情况下处理的比较好。然而如果我们想要对ML模型进行攻击的话,可以通过一定的手段生成对抗样本(adversarial examples),以图像为例,对抗样本在每个像素点只有微小的扰动(pertubations),因此对于人类的眼睛是无法分辨的,即生成前后我们人类还会将其归为同一类别。然而ML模型在面对这些对抗样本时会出现不鲁棒的特点,对它们会产生错分。对抗样本生成的基本思路是:在训练模型的过程中,我们把输入固定去调整参数,使得最后的结果能对应到相应的输入;而生成对抗样本时,我们将模型固定,通过调整输入,观察在哪个特征方向上只需要微小的扰动即可使得我们的模型给出我们想要的错分的分类结果。研究对抗样本机器学习的目的就是,希望我们的模型对于对抗样本更加robust。
      在这里插入图片描述

    • 上图可以说明对抗样本是如何工作的。Model decision boundary 是我们训练的模型的分类边界,这个边界可以较好的将两类样本分开,但是如果我们对标出来的两个Test point 做一个微小的扰动,即可使其越过边界产生misclassification,因此我们的Task decision boundary就应当将这些对抗样本也分到其原本的类别。

    • 对于这个问题,与普遍的安全问题类似,我们一般考虑两种角度,即attack和defense。其中attack试图更好的生成对抗样本以便使得分类结果符合attacker自己的预期;defense希望通过提高模型的鲁棒性,从而对这些adversarial examples 不敏感,从而抵御攻击。常见的attack方法,即生成对抗样本的方法有 fast gradient sign method (FGSM)和 Jacobian-based saliency map approach(JSMA)。如下图,生成的对抗样本中的扰动对人类视觉来说不敏感,但是对于ML模型来说,原本以57.7percent的概率被判成熊猫的图片在修改后以99.3的概率被判成了长臂猿。
      在这里插入图片描述
      对于defense,常见的方法有:
      1)Adversarial training:该方法思路非常平凡,即在训练网络的过程中,对每个图片都生成一些对抗样本,然后给他们与原图相同的标签喂给网络训练,从而使得网络相对来说对于对抗样本更鲁棒一些。开源的cleverhans即为用FGSM或JSMA生成对抗样本进行对抗训练的一个library。

      (2)Defensive distillation:该方法用来smooth对抗样本进行扰动的方向的decision surface,Distillation(勉强译为 蒸馏。) 是Hinton大神提出来的一种用来使得小模型可以模仿大模型的方法,基本思路为,我们在训练分类模型的时候,输出来的时one-hot的向量,这种叫做hard label,用hard label对一个模型进行训练后,我们不仅仅保留softmax之后最大的概率的那一个维度,而是将整个概率向量作为label(感觉和label smoothing的思路有点像),这叫做soft label, 这样来说,每个输入样本不仅仅只有一个信息量较小的(因为对于分类结果太过确定,即该图片确定为该类别,其他类别完全无关)one-hot的向量,而是一个对每个类别都有一定概率的vector。这样由于训练网络,就会得到一些附加信息,如有一张图片可能在某两类之间比较难以分别,这样它们就会有较高的概率,这样的label实际上附带了大模型训练得到的信息,因此可以提高小模型的效果。(flag:以上为个人理解,之后阅读Hinton的参考论文)所谓的Defensive distillation即先训练用硬标签一个网络,然后得到软标签,并训练另一个网络(蒸馏网络),用蒸馏过的网络去分类就会对adversarial更加鲁棒。

    一个失败的defense案例是 gradient masking,即直接输出类别而不是概率,使得没法通过gradient微小扰动图像,但是通过训练一个有gradient 的网络,在此基础上扰动,也可以attack经过该方法defense过的网络。在这里插入图片描述
    上图说明,即使defense使得gradient被掩盖,但是我们可以训练替代模型用来生成对抗样本。

    相对于attack,机器学习的defense更难一些。因为缺少较好的theoratical model 来说明某种方法可以将某类对抗样本排除出去。

    对于设计一个稳定可靠的系统来说,需要有testing和verification,所谓testing是指,在若干不同的条件下评估该系统,观察其在这些条件下的表现;而verification是指,给出一个有说服里的理由证明该系统在broad range of circumstances下都不会misbehave。仅仅testing是不够的,因为testing只给出了系统的失败率的一个下界,但是为了安全防护的目的,我们需要知道失败率的上界。但是对于机器学习的verification没法对对抗样本有一个guarantee,因此还很不完善。

    reference:
    cleverhans-blog : http://www.cleverhans.io/

    展开全文
  • 深度学习对抗样本的防御方法综述.pdf
  • 相较于其他领域,图像领域的对抗样本生成有以下优势:1)真实图像与虚假图像于观察者是直观的;2)图像数据与图像分类器的结构相对简单。本文以全连接网络和卷积神经网络为例,以MNIST、CIFAR10,以及ImageNet为基础...

    1 引入

      相较于其他领域,图像领域的对抗样本生成有以下优势
      1)真实图像与虚假图像于观察者是直观的;
      2)图像数据与图像分类器的结构相对简单。
      主要内容:以全连接网络和卷积神经网络为例,以MNIST、CIFAR10,以及ImageNet为基础样本,研究基于逃避对抗,包括白盒、黑盒、灰盒,以及物理攻击的图像对抗样本生成。

    2 白盒攻击

      攻击者接收到分类器 C C C与受害样本 (victim sample) ( x , y ) (x,y) (x,y) 后,其目标是合成一张在感知上与原始图像相似,但可能误导分类器给出错误预测结果的虚假图像:
    找到 x ′ 满足 ∥ x ′ − x ∥ ≤ ϵ ,   例 如 C ( x ′ ) = t ≠ y , (1) \tag{1} \text{找到}x'\text{满足}\|x'-x\|\leq\epsilon,\ 例如C(x')=t\neq y, 找到x满足xxϵ, C(x)=t=y,(1)其中 ∥ ⋅ ∥ \|\cdot\| 用于度量 x ′ x' x x x x的不相似性,通常为 l p l_p lp范数。接下来介绍该攻击手段下的主要方法。

    2.1 Biggio

      在MNIST数据集上生成对抗样本,攻击目标是传统的机器学习分类器,如SVM和3层全连接神经网络,且通过优化判别函数来误导分类器。
      例如图1中,对于线性SVM,其判别函数 g ( x ) = < w , x > + b g(x)=<w,x>+b g(x)=<w,x>+b。假设有一个样本 x x x被正确分类到3。则对于该模型,biggio首先生成一个新样本 x ′ x' x,其在最小化 g ( x ′ ) g(x') g(x)的同时保持 ∥ x ′ − x ∥ 1 \|x'-x\|_1 xx1最小。如果 g ( x ′ ) < 0 g(x')<0 g(x)<0 x ′ x' x将被误分类。

    图1:Biggio攻击在SVM分类器上的示意

    2.2 Szegedy’s limited-memory BFGS (L-BFGS)

      首次应用在用于图像分类的神经网络上,其通过优化以下目标来寻找对抗样本:
    min ⁡ ∥ x − x ′ ∥ 2 2 s.t. C ( x ′ ) = t  and  x ′ ∈ [ 0 , 1 ] m . (2) \tag{2} \begin{array}{l} & \min &\|x-x'\|_2^2\qquad \text{s.t.} C(x') = t\ \text{and }x'\in[0,1]^m. \end{array} minxx22s.t.C(x)=t and x[0,1]m.(2)  通过引入损失函数来近似求解该问题:
    min ⁡   λ ∥ x − x ′ ∥ 2 2 + L ( θ . x ′ , t ) , s.t.  x ′ ∈ [ 0 , 1 ] m , (3) \tag{3} \min\ \lambda\|x-x'\|_2^2+\mathcal{L}(\theta.x',t), \qquad\text{s.t. }x'\in[0,1]^m, min λxx22+L(θ.x,t),s.t. x[0,1]m,(3)其中 λ \lambda λ是一个规模参数。通过调整 λ \lambda λ,可以找到一个与 x x x足够相似的 x ′ x' x,且同时误导分类器 C C C

    2.3 Fast gradient sign method (FGSM)

      Goodfellow等人设计了一个一步到位的快速对抗样本生成方法:
    x ′ = x + ϵ  sign ( ∇ x L ( θ , x , y ) ) , 非目标 x ′ = x − ϵ  sign ( ∇ x L ( θ , x , t ) ) , 目标 t (4) \tag{4} \begin{aligned} &x'=x+\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,y)),\qquad\text{非目标}\\ &x'=x-\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,t)),\qquad\text{目标}t \end{aligned} x=x+ϵ sign(xL(θ,x,y)),非目标x=xϵ sign(xL(θ,x,t)),目标t(4)  在目标攻击设计下,该问题可以通过一步梯度下降求解:
    min ⁡ L ( θ , x ′ , t ) s.t.  ∥ x ′ − x ∥ ∞  and  x ′ ∈ [ 0 , 1 ] m . (5) \tag{5} \min\mathcal{L}(\theta,x',t)\qquad\text{s.t. }\|x'-x\|_\infty\text{ and }x'\in[0,1]^m. minL(θ,x,t)s.t. xx and x[0,1]m.(5)  FGSM快速的一个原因是其仅需一次反向传播,因此适应于生成大量对抗样本的情况,其在ImageNet上的应用如图2

    图2:只需一些扰动,熊猫图便会被误判

    2.4 DeepFool

      研究分类器 F F F围绕数据点的决策边界,试图找到一条可以超越决策边界的路径,如图3,从而误分类样本点 x x x。例如,为误判类别为4的样本 x 0 x_0 x0到类别3,决策边界可以被描述为 F 3 = { z : F ( x ) 4 − F ( x ) 3 = 0 } \mathcal{F}_3=\{ z:F(x)_4 - F(x)_3 = 0 \} F3={z:F(x)4F(x)3=0}。令 f ( x ) = F ( x ) 4 − F ( x ) 3 f(x)=F(x)_4 - F(x)_3 f(x)=F(x)4F(x)3,在每次攻击中,它将使用泰勒展开 F 3 ′ = { x : f ( x ) ≈ f ( x 0 ) + < ∇ x f ( x 0 ) − ( x − x 0 ) > = 0 } \mathcal{F}_3'=\{ x:f(x)\approx f(x_0) + < \nabla_xf(x_0)-(x-x_0)>=0 \} F3={x:f(x)f(x0)+<xf(x0)(xx0)>=0}来线性化决策超平面,并计算 ω 0 \omega_0 ω0到超平面 F 3 ′ \mathcal{F}_3' F3的正交向量 ω \omega ω。向量 ω \omega ω可以作为扰动使得 x 0 x_0 x0游离于超平面。通过移动 ω \omega ω,算法将找到可以被分类为3的对抗样本 x 0 ′ x_0' x0

    图3:决策边界

      DeepFool的实验结果展示,对于一般性的DNN图像分类器,所有的测试样本都非常接近决策边界。例如LeNet在MNIST数据集上训练好后,只需些许扰动,超过90%的样本都将被误分类,这表面DNN分类器对扰动是不健壮的。

    2.5 Jacobian-based saliency map attack (JSMA)

      JSMA介绍了一种基于计算评分函数 F F F雅可比矩阵的方法,其迭代地操作对模型输出影响最大的像素,可被视为一种贪心攻击算法。
      具体地,作者使用雅可比矩阵 J F ( x ) = ∂ F ( x ) ∂ x = { ∂ F j ( x ) ∂ x i } i × j \mathcal{J}_F(x)=\frac{\partial F(x)}{\partial x}=\left\{ \frac{\partial F_j(x)}{\partial x_i} \right\}_{i\times j} JF(x)=xF(x)={xiFj(x)}i×j来对 F ( x ) F(x) F(x)响应 x x x变化时的改变建模。在目标攻击设置下,攻击者试图将样本误分类为 t t t。因此,JSMA反复地搜索和操作这样的像素,其增加/减少将导致 F t ( x ) F_t(x) Ft(x)增加/减少 ∑ j ≠ t F j ( x ) \sum_{j\neq t} F_j(x) j=tFj(x)。最终分类器将在类别 t t t上给 x x x更大的分数。

    2.6 Basic iterative method (BIM) / Projected gradient descent (PGD) attack

      该方法是FGSM的迭代版本,在非目标攻击下,将迭代性地生成 x ′ x' x
    x 0 = x ; x t + 1 = C l i p x , ϵ ( x t + α  sign ( ∇ x L ( θ , x t , y ) ) ) (6) \tag{6} x_0=x; x^{t+1}=Clip_{x,\epsilon}(x^t+\alpha\text{ sign}(\nabla_x\mathcal{L}(\theta,x^t,y))) x0=x;xt+1=Clipx,ϵ(xt+α sign(xL(θ,xt,y)))(6)  这里的 C l i p Clip Clip表示将接收内容投影到 x x x ϵ \epsilon ϵ邻域超球 B ϵ ( x ) : { x ′ : ∥ x ′ − x ∥ ∞ ≤ ϵ } B_\epsilon(x):\{ x':\|x'-x\|_\infty\leq \epsilon \} Bϵ(x):{x:xxϵ}的函数。步长 α \alpha α通常被设置为一个相当小的值,例如使得每个像素每次只改变一个单位,步数用于保证扰动可以到达边界,例如 s t e p = ϵ a l p h a + 10 step=\frac{\epsilon}{alpha}+10 step=alphaϵ+10。如果 x x x是随机初始化的,该算法也可被叫做PGD。
      BIM启发性地于样本 x x x邻域 l ∞ l_\infty l内搜寻具有最大损失的样本 x ′ x' x,这样的样本也被称为“最具对抗性”样本:当扰动强度被限定后,这样的样本有最强的攻击性,其最可能愚弄分类器。找到这样的对抗样本将有助于探测深度学习模型的缺陷。

    2.7 Carlini & Wagner′s attack (C&W′s attack)

      C&W′s attack用于对抗在FGSM和L-BFGS上的防御策略,其目标是解决L-BFGS中定义的最小失真扰动。使用以下策略来近似公式2
    min ⁡ ∥ x − x ′ ∥ 2 2 + c ⋅ f ( x ′ , t ) , s.t.  x ′ ∈ [ 0 , 1 ] m , (7) \tag{7} \min \|x-x'\|_2^2+c\cdot f(x',t),\qquad\text{s.t. }x'\in[0,1]^m, minxx22+cf(x,t),s.t. x[0,1]m,(7)其中 f ( x ′ , t ) = ( max ⁡ i = t Z ( x ′ ) i − Z ( x ′ ) t ) + f(x',t)=(\max_{i=t}Z(x')_i-Z(x')_t)^+ f(x,t)=(maxi=tZ(x)iZ(x)t)+ Z ( ⋅ ) Z(\cdot) Z()用于获取softmax前的网络层输入。通过最小化 f ( x ′ , t ) f(x',t) f(x,t)可以找到一个在类别 t t t上得分远大于其他类的 x ′ x' x。接下来运用线性搜索,将找到一个离 x x x最近的 x ′ x' x
      函数 f ( x , y ) f(x,y) f(x,y)可以看作是关于数据 ( x , y ) (x,y) (x,y)的损失函数:可以惩罚一些标签 i i i的得分 Z ( x ) i > Z ( x ) y Z(x)_i>Z(x)_y Z(x)i>Z(x)y的情况。C&W’s attack与L-BFGS的唯一区别是前者使用 f ( x , t ) f(x,t) f(x,t)来代替后者的交叉熵 L ( x , t ) \mathcal{L}(x,t) L(x,t)。这样的好处在于,当分类器输出 C ( x ′ ) = t C(x')=t C(x)=t时,损失 f ( x ′ , t ) = 0 f(x',t)=0 f(x,t)=0,算法将直接最小化 x ′ x' x x x x的距离。
      作者宣称他们的方法是最强的攻击策略之一,其击败了很多被反击手段。因此,该方法可以作为DNN安全检测的基准点,或者用于评估对抗样本的质量。

    2.8 Ground truth attack

      攻击与防御针锋相对,为了打破这种僵局,Carlini等人试图找到一种最强攻击,其用于寻找理论上的最小失真对抗样本。该攻击方法基于一种用于验证神经网络特性的算法,其将模型参数 F F F和数据 ( x , y ) (x,y) (x,y)编码为类线性编程系统的主题,并通过检查样本 x x x的邻域 B ϵ ( x ) B_\epsilon(x) Bϵ(x)是否存在一个能够误导分类器的样本 x ′ x' x来处理该系统。通过缩小邻域直至不存在 x ′ x' x,那么由于最后一次搜寻到的 x ′ x' x x x x之间具有最小不相似性,此时的 x ′ x' x便被叫做基本事实对抗样本 (ground truth adversarial example)。
      Ground truth attack是首次严肃精确分类器健壮性的方法。然而,这种方法使用了可满足性模理论 (satisfiability modulo theories, SMT) 求解器 (一种检查一系列理论可满足性的复杂算法),这将使其速度缓慢且无法扩展到大型网络。后续则有工作着手提升其效率效率。

    2.9 其他 l p l_p lp攻击

      2.1–2.8的攻击方式主要关注 l 2 l_2 l2 l ∞ l_\infty l约束下的扰动,这里则介绍一些其他的:
      1)One-pixel attack:与L-BFGS区别在于约束种使用 l 0 l_0 l0,好处是可以限制允许改变的像素的数量。该工作展示,在CIFAR10数据集上,仅需改变一个像素就可以令训练良好的CNN分类器预判一半以上的样本;
      2)Elastic-net attack (ENA):与L-BFGS的区别在于同时使用 l 1 l_1 l1 l 2 l_2 l2范数来约束。

    2.10 全局攻击 (universal attack)

      2.1–2.9的方法仅对一个特定的样本 x x x进行攻击。而该攻击旨在误导分类器在所有测试集上的结果,其试图找到满足以下条件的扰动 δ \delta δ
      1) ∥ δ ∥ p ≤ ϵ \|\delta\|_p\leq\epsilon δpϵ
      2) R x ∼ D ( x ) ( C ( x + δ ) ≠ C ( x ) ) ≤ 1 − σ \mathbb{R}_{x\sim D(x)}(C(x+\delta)\neq C(x))\leq1-\sigma RxD(x)(C(x+δ)=C(x))1σ
      在相应实验中,成功找到了一个扰动 δ \delta δ,使得ResNet152网络在ILSVRC 2012数据集上的 85.4 % 85.4\% 85.4%的样本受到攻击。

    2.11 空间转换攻击 (spatially transformed attack)

      传统的对抗性攻击算法直接修改图像中的像素,这将改变图像的颜色强度。空间转换攻击通过在图像上添加一些空间扰动来进行攻击,包括局部图像特征的平移扭曲、旋转,以及扭曲。这样的扰动足以逃避人工检测,亦能欺骗分类器,如图4

    图4:空间转换攻击

    2.12 无约束对抗样本

      2.1–11的工作均在图像上添加不引入注意的扰动,该工作则生成了一些无约束的对抗样本:这些样本无需看起来和受害图像类似,而是能够愚弄分类器且在观察者眼中合法的图像。
      为了攻击分类器 C C C,增强类对抗生成网络 (AC-GAN) G \mathcal{G} G首先基于 c c c类噪声向量 z 0 z^0 z0生成一个合法样本 x x x。然后找到一个接近 z 0 z^0 z0的噪声向量 z z z,其使得 G ( z ) \mathcal{G}(z) G(z)可以误导 C C C。由于 z z z在潜在空间中与 z 0 z^0 z0相似,输出 G ( z ) \mathcal{G}(z) G(z)依然具备标签 y y y,从而达到攻击的目的。

    3 物理世界攻击

      章节2中的所有攻击方法都以数字形式应用,其被攻击方将输入图像直接提供给机器学习模型。然而,在某些情况下并非总是如此,例如使用摄像头、麦克风或其他传感器接收信号作为输入的情况。这种情况下依然通过生成物理世界对抗对象来攻击这些系统吗?这样的攻击方式是存在的,例如将贴纸贴在道路标志上,这会严重威胁自动驾驶汽车的标志识别器。这类对抗性对象对深度学习模型的破坏性更大,因为它们可以直接挑战DNN的许多实际应用,例如人脸识别、自动驾驶等。

    3.1 物理世界的对抗样本探索

      例如通过检查生成的对抗图像 (FGSM、BIM) 在自然变换 (如改变视点、光照等) 下是否“稳健”来探索制作物理对抗对象的可行性。在这里,“健壮”是指制作的图像在转换后仍然是对抗性的。为了应用这种转换,首先打印出精心制作的图像,并让测试对象使用手机为这些打印输出拍照。在这个过程中,拍摄角度或光照环境不受限制,因此获取的照片是从先前生成的对抗样本转换而来的样本。实验结果表明,在转换后,这些对抗样本中的很大一部分,尤其是FGSM生成的样本,仍然与分类器对抗。这些结果表明物理对抗对象的可能性可以在不同环境下欺骗传感器。

    3.2 道路标志的Eykholt攻击

      图5中,通过在信号标志的适当位置粘贴胶带以愚弄信号识别器。作者的攻击手段包括:
      1) 基 于 l 1 基于l_1 l1范数的攻击用于粗略定位扰动区域,这些区域后面将粘贴胶带;
      2)在粗略定位区域,使用基于 l 2 l_2 l2范数的攻击生成胶带的颜色;
      3)指定区域粘贴指定颜色胶带。这样的攻击方式从不同角度不同距离混淆自动驾驶系统。

    图5:交通信号标志上粘贴胶带

    3.3 Athaly的3D对抗对象

      一个成功制作物理3D对抗对象的工作如图 6 所示。作者使用3D打印来制造对抗性乌龟。为了实现目标,他们实施了3D渲染技术。给定一个带纹理的3D对象,首先优化对象的纹理,使渲染图像从任何角度来看都是对抗性的。在这个过程中,还确保扰动在不同环境下保持对抗性:相机距离、光照条件、旋转,以及背景。在找到3D渲染的扰动后,他们打印3D对象的一个实例。

    图6:3D对抗对象

    4 黑盒攻击

    4.1 替换模型

      攻击者仅能通过输入样本 x x x后获取的标签信息 y y y来执行攻击。此外,攻击者可以有以下可用信息:
      1)分类数据的领域;
      2)分类器的框架,例如CNN还是RNN。
      该工作探索了对抗样本的可迁移性:一个样本 x ′ x' x如果可以攻击分类器 F 1 F_1 F1,那么它同样可以攻击与 F 1 F_1 F1结构类似的分类器 F 2 F_2 F2。因此,作者训练了一个替换模型 F ′ F' F以对受害模型 F F F进行模拟,然后通过攻击 F ′ F' F来生成对抗样本,其主要步骤如下:
      1)合成替换训练数据集:例如手写识别任务中,攻击者可以复刻测试样本或者其他手写数据;
      2)训练替换模型:将合成数据集 X X X输入受害者模型以获取标签 Y Y Y,随后基于 ( X , Y ) (X,Y) (XY)训练DNN模型 F ′ F' F。攻击者将基于自身知识,从训练模型中选择一个与受害者模型结构最相似的 F ′ F' F
      3)数据增强:迭代增强 ( X , Y ) (X,Y) (X,Y)并重训练 F ′ F' F。这个过程将提升复刻数据的多样性并提升 F ′ F' F的精度;
      4)攻击替换模型:利用已有方法如FGSM来攻击 F ′ F' F,生成的对抗样本将用于戏耍 F F F😏
      应该选择如何的攻击方法攻击 F ′ F' F?一个成功的替换模型黑盒攻击应当具备可迁移性,因此我们选择具有高迁移性的攻击方法如FGSM、PGD,以及动量迭代攻击。

    4.2 ZOO:基于零阶优化的黑盒攻击

      该方法假设可以从分类器获取预测置信度,这种情况下便无需建立替换数据集和替换模型。Chen等人通过调整 x x x的像素来观测 F ( x ) F(x) F(x)的置信度变化,以获取 x x x相关的梯度信息。如公式8所示,通过引入足够小的扰动 h h h,我们能够通过输出信息来推着梯度信息:
    ∂ F ( x ) ∂ x i ≈ F ( x + h e i ) − F ( x − h e i ) 2 h . (8) \tag{8} \frac{\partial F(x)}{\partial x_i}\approx\frac{F(x+he_i)-F(x-he_i)}{2h}. xiF(x)2hF(x+hei)F(xhei).(8)  ZOO相较于替换模型更成功的地方在于可以利用更多的预测信息。

    4.3 高效查询黑盒攻击

      4.1-2中的方式需要多次查询模型的输出信息,这在某些应用中是禁止的。因此在有限次数内提高黑盒攻击对抗样本的生成效率是有必要的。例如引入自然进化策略来高效获取梯度信息,其基于 x x x的查询结果进行采样,然后评估 F F F的梯度在 x x x上的期望。此外,他们利用遗传算法来为对抗样本搜寻受害图像的邻域。

    5 灰盒攻击

      灰盒攻击的策略,例如,首先针对感兴趣模型训练一个GAN,然后直接基于对抗生成网络生成对抗样本。该作者认为基于GAN的攻击方式能够加速对抗样本的生成,且能获取更多自然且不易察觉的图像。随后这种策略也被用于人脸识别系统的入侵上。

    6 中毒攻击

      已有的讨论均是在分类器训练后进行,中毒攻击则在训练前生成对抗样本:生成一些对抗样本嵌入到训练集中,从而降低分类模型的总体精度或者影响特定类别的样本。通常,该设置下的攻击者拥有后续用于训练中毒数据的模型结构。中毒攻击通常用于图神经网络,这些因为它需要特定的图知识。

    6.1 Biggio在SVM上的中毒攻击

      找到这样的一个样本 x c x_c xc,其混入训练数据后,将导致习得的SVM模型 F x c F_{x_c} Fxc在验证集上有很大的损失。这样的攻击方法对SVM是奏效的,然而对于深度学习,找到这样的一个样本是困难的。

    6.2 Koh的模型解释

      Koh和Liang引入一种神经网络的解释方法:如果训练样本改变,模型的预测结果会有如何的变化?当只修改一个训练样本时,他们的模型可以明确量化最终损失的变化,而无需重新训练模型。 通过找到对模型预测有很大影响的训练样本,这项工作可以自然地用于中毒攻击。

    6.3 毒青蛙 (poison frogs)

      毒青蛙在训练集中混入一张带有真实标签的对抗图像,从而到达错误的预测测试集的目的。给定一个标签为 y t y_t yt的目标测试样本 x t x_t xt,攻击者首先使用标签为 y b y_b yb的基准样本 x b x_b xb,并通过以下优化找到 x ′ x' x
    x ′ = arg min ⁡ x ∥ Z ( x ) − Z ( x t ) ∥ 2 2 + β ∥ x − x b ∥ 2 2 (9) \tag{9} x'=\argmin_x\|Z(x)-Z(x_t)\|_2^2+\beta\|x-x_b\|_2^2 x=xargminZ(x)Z(xt)22+βxxb22(9)  由于 x ′ x' x x b x_b xb最近,基于训练集 X t r a i n + { x } ′ X_{train}+\{x\}' Xtrain+{x}训练的模型将会把 x ′ x' x预测为 y b y_b yb。使用新模型去预测 x t x_t xt,优化目标将会强制拉近 x t x_t xt x ′ x' x的预测得分,即将 x t x_t xt预测为 y b y_b yb

    参考文献

    【1】Adversarial Attacks and Defenses in Images, Graphs and Text: A Review

    展开全文
  • 生成对抗神经网络matlab代码表征签名验证的对抗性示例 该存储库包含用于评估对基于 CNN 和基于 LBP 的模型的攻击的代码 [1],以及用于评估 CNN 训练的两种防御机制(Madry 防御 [2] 和 Ensemble 对抗性训练 [3])的...
  • 针对对抗样本技术的研究,给验证码领域带来了新的契机,并已应用于验证码反识别当中,为这场旷日持久攻防对抗注入了新的活力。 分享内容包括三大方面: 对抗样本介绍 极验对抗样本技术探索与应用 后续的工作与思考 ...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 24,060
精华内容 9,624
关键字:

对抗样本