精华内容
下载资源
问答
  • 对抗攻击算法总结论文集合(白盒、黑盒、目标检测、对抗训练等)
    千次阅读
    2022-04-09 17:00:55

    前言

    只是一个自己看过的论文小汇总,还不能当综述,但也包含了很多经典的对抗攻击算法,方便回顾和查询,自己看的第一篇综述是:
    Advances in adversarial attacks and defenses in computer vision: A survey
    论文这件事,真的只能多看,上学期看的,现在忘差不多了(估计还得从头再看亿遍),代码也得操练起来。
    由于我没给论文链接(比较费时间),我就介绍几个搜索文献的网站

    代码就看论文中有没有给链接吧,然后就 paperswitchcode,基本上每一篇都有。后面有时间会编辑个论文和代码链接吧,然后简单介绍每种算法的idea和method,比较经典的应该会单出论文笔记。
    算法的分类没有那么严格,可能会有一些出入,新看的论文会再加入,持续更新。

    对抗攻击名词解释

    术语含义
    white-box attack白盒攻击:知道模型的全部信息
    black-box attack黑盒攻击:无法获知模型的训练过程和参数
    query-based attack基于查询的攻击:攻击者能够查询目标模型并利用其输出来优化对抗性图像
    score-based attack基于分数的攻击:需要知道模型的输出的置信度
    decision-based attack基于决策的攻击:只需要知道目标模型的预测标签(top-1 label)
    targeted attacks定向攻击,欺骗模型使模型预测为特定标签;相对于un-targeted attacks,没有特定标签,只求模型预测错误
    adversarial training对抗训练:在模型的训练数据中注入对抗性例子以使其具有对抗鲁棒性

    首先:对抗攻击的最先提出:Intriguing properties of neural networks

    一、白盒攻击

    1.FGSM

    (1)FGSM:EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
    (2)I-FGSM:ADVERSARIAL EXAMPLES IN THE PHYSICAL WORLD
    (3)MI-FGSM:Boosting Adversarial Attacks with Momentum(白盒黑盒均适用)
    (4)NI-FGSM,SIM:NESTEROV ACCELERATED GRADIENT AND SCALE INVARIANCE FOR ADVERSARIAL ATTACKS(增加迁移性)

    2.JSMA:

    The Limitations of Deep Learning in Adversarial Settings

    3.DeepFool:

    DeepFool: a simple and accurate method to fool deep neural networks

    4.CW:

    Towards Evaluating the Robustness of Neural Networks

    5.PGD:

    Towards Deep Learning Models Resistant to Adversarial Attacks

    二、黑盒攻击

    黑盒开篇:Practical Black-Box Attacks against Machine Learning

    1.单像素攻击

    (1)Simple Black-Box Adversarial Attacks on Deep Neural Networks
    (2)One Pixel Attack for Fooling Deep Neural Networks

    2.基于查询(query-based attack)

    基于查询的又可分为基于分数的和基于决策的
    socre-based attack
    (1)SimBA:Simple Black-box Adversarial Attacks
    (2)MetaSimulator:Simulating Unknown Target Models for Query-Efficient Black-box Attacks

    decision-based attack
    (1)开篇:Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine learning Models
    (2)HSJA:HopSkipJumpAttack: A Query-Efficient Decision-Based Attack
    (3)SurFree:SurFree: a fast surrogate-free black-box attack
    (4)f-attack:Decision-Based Adversarial Attack With Frequency Mixup

    3.基于迁移

    (1)开篇:Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples
    (2)Delving into Transferable Adversarial Examples and Black-box Attacks
    (3)Enhancing the Transferability of Adversarial Attacks through Variance Tuning
    (3)元学习:Meta Gradient Adversarial Attack

    4.基于替代

    (1)DaST:Data-free Substitute Training for Adversarial Attacks
    (2)Delving into Data: Effectively Substitute Training for Black-box Attack
    (3)Learning Transferable Adversarial Examples via Ghost Networks

    5.其他

    (1)通用黑盒攻击UAP:Universal adversarial perturbations
    (2)AdvDrop: Adversarial Attack to DNNs by Dropping Information
    (3)Practical No-box Adversarial Attacks against DNNs
    (4)ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models

    三、对抗攻击与目标检测

    1. Towards Adversarially Robust Object Detection
    2. DPATCH: An Adversarial Patch Attack on Object Detectors

    四、对抗训练&鲁棒性

    1. Towards Deep Learning Models Resistant to Adversarial Attacks
    2. A Closer Look at Accuracy vs. Robustness
    3. ENSEMBLE ADVERSARIAL TRAINING ATTACKS AND DEFENSES
    4. Towards Evaluating the Robustness of Neural Networks
    更多相关内容
  • 基于深度强化学习的黑盒对抗攻击算法.pdf
  • 对抗攻击算法总结,包括MIM、FGSM、PGD、C&W、L-BFGS、JSMA 、MalGAN、DeepFool等攻击算法
  • 本工作提出了一种高效的基于决策的黑盒对抗攻击算法,在业内第一次以完全黑盒的方式成功地实现对人脸识别系统的对抗攻击。本工作由腾讯 AI Lab 主导,与清华大学,香港科技大学联合完成,发表...

    本工作提出了一种高效的基于决策的黑盒对抗攻击算法,在业内第一次以完全黑盒的方式成功地实现对人脸识别系统的对抗攻击。本工作由腾讯 AI Lab 主导,与清华大学,香港科技大学联合完成,发表于 CVPR 2019。

    背景

    在图 1 示例中,我们用同样的一个人脸识别模型(Arcface [1])对两幅看起来一模一样的人脸图像进行识别,但是得到了完全不同的两个识别结果。这是为什么呢?原因是右图的人脸区域被加上了人眼无法察觉的恶意噪声,专门用于欺骗人脸识别模型。这种现象叫做对抗样本,即针对某种特定的模型(例如图像分类模型 ResNet [2]),在正常样本(例如 2D 图像,3D 点云等)上加入微小的噪声,使得模型原来的结果发生改变。

    ▲ 图1. 对抗样本示例:(左)正常人脸图像;(右)对抗人脸图像。

    以上图像来自于视频:https://www.youtube.com/watch?v=d7hZ1VhfygU&t=76s

    对抗样本现象揭示了机器学习模型尤其是深度学习模型的安全漏洞,近年来引起了学术界和工业界的广泛关注。研究人员已经开发了针对深度学习模型的诸多对抗攻击算法,最常见的例如 FGSM [3], PGD [4], C&W [5] 等。但是,这些方法都要求获取被攻击模型的全部结构和参数,这种攻击场景被称作白盒攻击。

    但是在现实场景下,攻击者是很难获取被攻击模型的参数甚至结构的,只能够获取被攻击模型的输入结果。这种攻击场景被称为黑盒攻击。根据所获取模型输出的类型,又可细分为1)基于分数的黑盒攻击,即能够获取模型输出的后验概率或者分数(例如人脸比对的相似度分数),2)基于决策的黑盒攻击,即只能获取模型输出的离散类别。很显然,离散类别提供的关于模型的信息更少,基于决策的黑盒攻击难度也最大。相对于白盒攻击算法,基于决策的黑盒攻击算法非常少,而且攻击效率不高。 

    针对这个难题,我们提出了一种新的搜索算法,充分利用了模型决策边界的几何结构和进化算法思想 [6],大大提高了攻击效率。

    针对人脸比对模型的攻击问题建模

    我们将人脸比对模型表示为,其中表示参考人脸图像,x 表示目标人脸图像;的作用是判断 x 和  是否为同一个人,如果相同,则返回 1,否则返回 0。

    我们的攻击任务是在目标人脸图像 x 的基础上构造一个对抗人脸图像 ,使得其与参考人脸图像  的比对结果发生改变(即),同时使得  与 x 的视觉差异尽量小。该任务可以建模为以下优化问题:

    其中,表示两个图像之间的距离度量,这里我们采用 L2 范数。 

    在人脸比对场景中,根据 x 和  是否为同一个人,上述攻击任务还可以细分为以下两种攻击: 

    1. Dodging 攻击:当 x 和  为同一个人的两张不同人脸图像时,即;攻击的目的是使得  被识别为不同于  的人,即。这种攻击可以用于隐私保护,防止自身人脸图像被第三方检索。示例如下方左子图。 

    2. Impersonation 攻击:当 x 和  为不同人的人脸图像时,即;攻击的目的是使得  被识别与  是相同的人,即。这种攻击可用于身份伪造,侵入他人账号。示例如下方右子图。

    ▲ 图2. 人脸比对攻击示例。人脸图像来源于LFW数据集 [7]

    优化算法

    在上述优化问题中,由于人脸比对模型 f(·,·) 是未知的,我们无法对其进行求导。因此常用的连续优化算法(比如梯度下降法)都不适用。

    我们提出了一种基于进化思想的高效搜索算法。我们以图3作为示意图来说明我们算法的主要思想。其中,黑色圆点表示目标图像 x;蓝色曲线表示决策边界(注意,这条曲线实际是不可见的),曲线的上方是不可行域(即),曲线下方是可行域(即);灰色的 × 点表示已经查询过的不可行解,灰色的 ○ 点表示已经查询过的可行解,绿色的圆点表示当前可行解。其基本步骤如下: 

    1. 以图 3 左子图为例,为了探索下一个可行解,我们需要进行采样。黑色椭圆表示采样概率分布,其服从高斯分布。该分布的中心点为当前可行解,协方差矩阵是则是根据历史可行解进行估计的,其基本思想是:根据历史探索点,我们可以计算出各个方向的探索成功率;沿着成功率大的方向继续探索,更容易找到下一个可行解。因此,我们根据该分布进行第一步采样,如从绿色圆点出发的第一个橙色箭头,到达初始候选解(第一个橙色圆点)。

    2. 经过第一步采样,我们可能找到下一个可行解,但是并不能保证的下降。因此,我们进行第二步探索,即以初始候选解为出发点,沿着目标图像 x 移动一小步(见第二个橙色箭头),到达第二个候选解(即第二个橙色圆点)。

    3. 随后,我们在对第二个候选解进行查询,判断其是否满足约束:如果满足,则将其作为最新可行解,如图 3 右子图所示,并对采样概率分布(即黑色椭圆)进行更新;如果不满足,则保持当前解不变,重新上述采样过程。 

    在上述搜索算法中,我们将图像的每个像素当作一个维度。整个搜索空间的维度非常高,这往往意味着搜索效率非常低。为此,我们在搜索中嵌入了两种加速策略:

    1. 随机坐标采样:即每次采样只在部分维度(即部分像素)进行,而不是所有维度。维度的选取以采样概率分布为依据,方差大的维度被选中的概率也更高。

    2. 维度降采样:我们假设对抗噪声在像素坐标系中也是空间平滑的,即相邻像素的对抗噪声相近。因此,我们均匀间隔地选取一部分像素作为我们搜索的子空间;但在子空间中找到一个候选解(即候选对抗噪声)时,我们根据像素的空间坐标进行双线性插值,得到一个全空间的候选解。 

    上述算法的全部流程总结在图 4 中。

    ▲ 图3. 算法示意图

    ▲ 图4. 基于进化思想的攻击搜索算法

    实验结果

    实验一:我们首先对 ArcFace 人脸识别模型进行了基于决策的黑盒攻击,其攻击效果如图 5 所示。无论是 Dodging 攻击还是 Impersonation 攻击,随机攻击次数的增加,对抗噪声越来越小,直至人眼无法察觉。每幅图下方的数字代表其包含的对抗噪声的 L2 范数。

    ▲ 图5. 对ArcFace模型的黑盒攻击结果

    实验二:对比攻击实验。我们选取了几种最新的基于决策的黑盒攻击算法,包括Boundary [8], Optimization [9] 和 NES-LO [10]。虽然这几种方法都是为攻击一般图像分类模型而设计的,但是也很容易改造为对人脸识别模型的攻击,即替换约束条件。我们对当前最流行的三种人脸识别模型上进行了攻击,包括 SphereFace [11], CosFace [12] 和 ArcFace [1]。

    实验结果如表 1 所示,在相同查询次数下,我们所提出的进化攻击算法所得到的对抗噪声明显小于其他对方方法的噪声。在图 6 中,我们还展示了噪声水平随着查询次数的下降曲线,我们方法的下降曲线明显快于其他对比方法。这些对比结果表明,我们的进化攻击算法的效率远远好于已有黑盒攻击算法。

    ▲ 图6. 对ArcFace模型的黑盒攻击的噪声下降曲线

    实验三:对人脸识别 API 的黑盒攻击实验。很多人工智能公司都提供了人脸识别接口,可以通过访问 API 的形式获取人脸识别结果。我们选择了腾讯 AI 开放平台上的人脸比对接口(https://ai.qq.com/product/face.shtml#compare)进行了测试。该接口可以返回人脸比对的相似度。但是,我们以 90% 为界限,超过则比对成功,即返回 1,否则返回 0。我们只根据查询返回的 0 或者 1 来优化对抗噪声。

    实验结果如图 7 和图 8 所示,我们的算法可以轻松欺骗该人脸比对系统;在同样查询次数下,我们算法得到的噪声图像,比对比方法得到的噪声图像,更加接近于目标图像,即噪声水平更小。

    ▲ 图7.(左)参考图像与正常目标图像的相似度为38%;(右)参考图像与对抗图像(我们的算法经过10000次查询所得)的相似度为89%(注意,在攻击过程中,相似度为90%,但是保存对抗图像后会有微小的精度损失)。

    ▲ 图8. 对人脸识别API进行黑盒攻击的不同方法对比效果。上述结果都是经过10000次查询得到的。

    总结与思考

    本工作的意义,不仅仅在于第一次成功地以完全黑盒地方式实现了对人脸识别系统的攻击,更是为当前十分火热的人脸识别敲响了警钟。考虑到人脸识别系统的广泛应用场景,比如门禁,海关,支付等,我们应该对人脸识别系统的安全漏洞更加重视。我们不仅要尽可能多地探测人脸识别系统的漏洞,更要及时找到弥补漏洞的方案,不断提高人脸识别系统的安全性,使得人脸识别的应用更加安全可靠。

    参考文献

    [1] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. "Arcface: Additive angular margin loss for deep face recognition." In CVPR, 2019. 

    [2] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition. In CVPR, 2016. 

    [3] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572. 

    [4] Madry, A., Makelov, A., Schmidt, L., Tsipras, D., & Vladu, A. (2017). Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083. 

    [5] Carlini, N., & Wagner, D. (2017, May). Towards evaluating the robustness of neural networks. In 2017 IEEE Symposium on Security and Privacy (SP) (pp. 39-57). 

    [6] C. Igel, T. Suttorp, and N. Hansen. A computational efficient covariance matrix update and a (1+ 1)-cma for evolution strategies. In Proceedings of the 8th annual conference on Genetic and evolutionary computation, pages 453–460. ACM, 2006. 

    [7] G. B. Huang, M. Mattar, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. In Workshop on faces in ’Real-Life’ Images: detection, alignment, and recognition, 2008. 

    [8] W. Brendel, J. Rauber, and M. Bethge. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. In ICLR, 2018 

    [9] M. Cheng, T. Le, P.-Y. Chen, J. Yi, H. Zhang, and C.-J. Hsieh. Query-efficient hard-label black-box attack: An optimization-based approach. arXiv preprint arXiv:1807.04457, 2018 

    [10] Ilyas, A., Engstrom, L., Athalye, A. and Lin, J., 2018. Black-box adversarial attacks with limited queries and information. In ICML, 2018 

    [11] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, 2017 

    [12] H. Wang, Y. Wang, Z. Zhou, X. Ji, Z. Li, D. Gong, J. Zhou, andW. Liu. Cosface: Large margin cosine loss for deep face recognition. In CVPR, 2018

    点击以下标题查看更多往期内容: 

    #投 稿 通 道#

     让你的论文被更多人看到 

    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

    ???? 来稿标准:

    • 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

    • 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

    • PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

    ???? 投稿邮箱:

    • 投稿邮箱:hr@paperweekly.site 

    • 所有文章配图,请单独在附件中发送 

    • 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

    ????

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    关于PaperWeekly

    PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

    ▽ 点击 | 阅读原文 | 下载论文

    展开全文
  • PyTorch顾问实例 对CIFAR-10和MNIST的对抗攻击。 这些笔记本使用生成对抗示例,以攻击PyTorch模型。 将来可能会针对更多数据集提供更多方法。
  • 通用对抗攻击算法通过使用所有良性样本对全局扰动进行迭代更新,从而生成对大多样本有效的统一扰动。在每次迭代中,对于附加了当前扰动无法欺骗模型的良性样本,将会为其求解一个类似于L-BFGS的优化问题,以找到该...

    关注:决策智能与机器学习,深耕AI脱水干货

    作者 |  任奎

    报道 |  中国人工智能学会

    随着计算机产业发展带来的计算性能与处理能力的大幅提高,人工智能在音视频识别、自然语言处理和博弈论等领域得到了广泛应用。在此背景下,确保人工智能的核心——深度学习算法具有可靠的安全性和鲁棒性至关重要。 

    然而,近年来研究者发现,深度学习模型存在着易受对抗样本攻击的安全隐患。攻击者可以通过向良性数据中添加特定的扰动,生成对抗样本。附加轻微扰动的对抗样本不会影响人类的判断,却会使深度学习模型产生错误结果。同时,对抗攻击在自动驾驶等场景中的成功实施更加表明了对抗攻击在现实世界中的可行性。因此 有关对抗攻击和对抗防御技术的研究,引起了机器学习和安全领域研究者越来越多的关注。

    本文将围绕深度学习对抗攻击和对抗防御领域中最前沿的研究成果,探讨对抗攻击和防御技术的理论基础、经典算法,以及在工业领域的实际部署等研究与应用前沿。 

    深度学习的对抗性攻击技术

    根据攻击者可获得的信息不同,可将威胁模型划分成白盒、灰盒和黑盒攻击三类(见图1)。白盒攻击下,攻击者可以获得目标模型的全部信息;灰盒攻击下,攻击者仅可获取模型的结构信息但无法获得模型参数,有模型的查询权限;黑盒攻击下,攻击者仅拥有模型的查询权限。多数攻击算法都是为白盒模型设计的,但是由于对抗样本在模型之间具有一定的传递性,它们同样适用于灰盒模型和黑盒模型。 

    图 1  对抗攻击的爆发

    上述提到的攻击算法中,攻击者要为每个样本分别生成其对应的对抗扰动,该对抗扰动不会在良性样本之间传递。那么是否存在一种通用的扰动,使附加该扰动的良性样本都可以欺骗某一特定神经网络?通用对抗攻击算法通过使用所有良性样本对全局扰动进行迭代更新,从而生成对大多样本有效的统一扰动。在每次迭代中,对于附加了当前扰动无法欺骗模型的良性样本,将会为其求解一个类似于L-BFGS的优化问题,以找到该样本得以欺骗模型所需的最小附加扰动。这一附加扰动将被添加到当前全局扰动中,对全局扰动进行一次更新。最终,附加该全局扰动的大多数良性样本均可欺骗神经网络。实验表明,这种简单的迭代算法可以有效地攻击深度神经网络,例如CaffeNet、GoogleNet、VGG和ResNet等。出乎意料的是,这种可在不同样本中传递的扰动同时可以应用到其他不同模型中,例如在VGG上 制作的通用扰动在其他模型上也可以达到53%以 上的攻击成功率。 

    尽管PGD和C&W等对抗攻击算法在数字领域非常有效,但将其扩展到物理世界仍然需要克服两个关键问题。第一个问题是,环境噪声和自然变化将破坏数字空间中计算出的对抗性扰动。例如模糊、噪声和JPEG编码等会对对抗性攻击的破坏率超过80%。第二个问题是,在现实世界中,攻击者仅能在特定物体上添加扰动,而无法对整个环境中的背景添加扰动。Athalye等提出了EoT算法来解决第一个问题。EoT算法不直接使用理想数字域中计算出的梯度用于生成对抗扰动,而 是在样本上添加了一组随机噪声,然后对加入这些噪声的样本计算梯度,用这些梯度的平均值生成对抗扰动。在基于梯度的攻击算法(如FGSM和PGD)中采用这种平均梯度,可以提高生成的对抗样本的鲁棒性。Eykholt等提出了一种掩模变换来分离背景和目标,从而可以将对抗性扰动限制在目标区域内,解决了第二个问题。该方法成功地在现实世界的交通标志上生成了可打印的对抗性扰动,其总体攻击成功率达到80%以上。

    除了图片分类任务,如图1所示图像分割、3D识别、音频识别和强化学习等工业领域也会受到对抗攻击的影响。

    在3D识别领域,PointNet、PointNet++和 DGCNN等基于点云的分类分割模型已被证明易收到对抗攻击的影响。Zheng等提出了基于丢弃点云中关键点的攻击方法。该方法通过将点移动到点云的质心,近似计算每个点对分类结果的贡献,然后通过丢弃具有较大贡献的点来欺骗神经网络。随着一定数量的高贡献点被丢弃,PointNet、PointNet++和DGCNN的分类精度显著降低。

    在音频识别领域,Carlini和Wagner通过对C&W损耗函数的优化,成功地构建了高质量的音频对抗性样本。对于任何音频信号,只要在DeepSpeech上对音频信号的1%进行对抗性干扰,即可在其对应的文本翻译中最多影响50个单词。

    在文本识别领域,Liang等提出了针对文本 分类任务的攻击策略。攻击者首先确定影响分类结果最重要的文本项,然后对这些重要文本项采用插入、删除、交换、字符替换和单词替换等扰动措施。实验表明,这种攻击可以成功地欺骗一 些基于DNN的文本分类器。

    深度学习的对抗性防御技术

    对抗防御可以分为启发式防御和可证明式防御两类。启发式防御算法由研究者通过实验获得,它们在实践中可以做到对一些特定的对抗攻击算 法具有良好的防御性能,但没有对防御性能给出理论性保障;可证明式防御通过理论证明,可以计算出在特定对抗攻击算法攻击下模型的最低准确度。

    对抗训练试图通过将对抗样本纳入训练阶段来提高模型的鲁棒性,是目前为止性能最好的启发式防御算法。Goodfellow等首先提出对抗训练,他们使用良性样本和通过FGSM算法生成的对抗样本一起训练神经网络,用于增强神经网络的鲁棒性;接着,提出了使用由PGD算法生成的对抗样本进行对抗训练的方法。根据实验结果,PGD对抗训练可在MNIST、CIFAR-10和ImageNet等多个数据集上,在各种L∞攻击下获得最高的准确 度。但是,由于生成PGD对抗样本需要大量计算成本,因此PGD对抗训练不是一种有效率的防御措施。FGSM算法可以和随机启动结合,这样能高效地生成更多对抗样本用于对抗训练,从而提高模型鲁棒性。为了解决模型易受到黑盒攻击问题,提出了集成对抗训练方法。该方法首先训练多个具有不同网络结构模型,然后同时针对这些不同的模型生成对抗样本,并将其用于对抗训练。这种方法增加了用于对抗训练的对抗样本的多样 性,从而增强了针对从其他模型转移过来的对抗样本的鲁棒性。Lee等提出使用生成对抗网络进行对抗训练,其中生成器用于生成对抗样本,这些生成器生成的对抗样本将与良性样本一起用于训练鲁棒分类器。虽然没有给出理论证明,但研究表明对抗训练在现阶段是对抗攻击最有效的防御手段之一。 

    随机化也是启发式防御的一种,它通过在模型训练或使用阶段加入随机操作,从而减轻对抗性扰动对模型性能的影响。Xie等在图像输入神经网络前先对图像进行随机变换,从而减轻对抗扰动的效果。这种方法在黑盒攻击下获得了卓越性能,但在白盒攻击中可被EoT算法成功攻击。

    去噪属于启发式防御,它的主要目的是减轻或去除对抗扰动,从而降低对抗扰动的功能。去噪防御根据降噪目标不同,可以分为输入降噪和特征降噪两类。输入降噪试图从输入中部分或完全消除对抗扰动。Xu等采用减少色彩深度和模糊图像的方法对图像进行压缩,降低图片自由度,从而消除对抗扰动。通过比较模型对于原始图片与压缩后的图片预测结果的差异,来判断原始输 入是否是对抗样本。Shen等使用生成对抗网络对输入数据进行去噪。该方法将训练一个用于去噪的生成器,其输入是良性样本或对抗样本,其输出是经去噪后的样本。Meng等使用自动编码器技术对输入数据进行去噪。

    以上所有介绍的防御都是启发式防御,这意味着这些防御的有效性只在实验上得到验证,而没有在理论上得到证明,如果无法计算理论上的错误率,这些启发式防御可能会被未来的新攻击所打破。因此许多研究者致力于探索可证明的防御方法,在一类定义明确的攻击下,这些方法始终能保持一定的准确性。目前有代表性的可证明式算法有基于半正定规划的可证明式防御、基于对偶方法的可证明式防御、分布稳健性证明、稀疏权重DNN、基于KNN的防御,以及基于贝叶斯模型的防御等。然而根据现有的实验结果,可证明式防御措施的实际性能仍然比对抗训练的性能差很多。 

    开放性问题与未来发展

    在对抗攻击与对抗防御的研究领域中,仍有许多尚未解决的挑战。 

    首先,对抗样本背后的因果关系这一问题并未得到回答。早期对这一问题的研究将对抗样本的出现归因于模型结构和学习方法,研究者认为适当的策略和网络结构将显著提高对抗样本的鲁棒性。研究者沿着这种思路尝试过一些探索,特别是与模糊梯度相关的研究,然而实际上这可能是一种不太合理的研究方向。相反,最近的研究发现,对抗样本的出现更可能是数据维度较高和 训练数据不足导致的。

    最后,是否存在稳健又高效率的对抗防御算法?我们仍然没有发现一种防御技术能够很好地平衡防御效果和运算效率。在有效性方面,对抗性训练表现出最好的性能,但计算成本很高。在效率方面,许多基于随机和去噪的防御系统的配置只需几秒钟。然而,最近的许多论文表明这些防御方法并没有他们声称的那样有效。可证明防御理论上为实现对抗防御指明了一条道路,但其 准确性和有效性都远远不能满足实际要求。

    对于该领域的未来发展,我们认为对抗攻击的研究趋势主要包括两个方向。第一个是设计更有效、更强大的攻击用来评估新兴的防御系统,这个方向的重要性很直观,我们希望在潜在攻击者之前评估所有的风险。第二个是实现物理世界中的对抗攻击。以前对该研究主题的主要疑问是那些对抗性攻击是否会对物理世界形成真正 威胁。一些研究人员怀疑由于某些环境因素的影响,最初在数字空间中设计的对抗性攻击将无效。Athalye等首先向良性样本中添加随机的噪音模拟物理世界的环境因素,并计算这些噪音样本上产 生的梯度期望,进而实现物理世界的对抗攻击。Eykholt等进一步考虑了掩膜和制造误差从而实现了交通标志的对抗性扰动,这些都验证了物理对抗样本的存在。

    在防御方面,由于大多数启发式防御都无法防御自适应白盒攻击,因此研究者开始关注可证明的防御,这种防御是指无论攻击者采用哪种攻击方式,可证明防御都可以在一定程度下保证防御性能。但是到目前为止,可扩展性是目前大多数可证明防御所普遍具有的问题。例如区间界分析是最近流行的证明式防御方法,但是它不能扩展到非常深的神经网络和大型数据集。这主要是因为,攻击算法只要针对某一类防御生效即可, 然而一个有效的防御算法则需要去防御所有可能的攻击手段。 

    结束语

    近两年来,针对深度学习算法的对抗攻击和防御技术迅速发展。然而,对于对抗样本的成因、一般鲁棒边界的存在等理论问题还没有找到答案,需要深入研究。不仅如此,在实际安全应用中,还没有一套有效且通用的对抗防御技术框架与方法,目前的对抗性训练防御技术,在实际部署中计算成本仍然太高。许多启发式防御仍缺乏进一步验证,还不能抵御自适应性白盒攻击者的攻击。简而言之,要达到有效防御目标,不仅需要深度 学习算法安全性理论的突破,还需要将系统框架、安全测试、环境适配等多个方面的安全技术相结合,才能推动深度学习对抗性安全的跨越式发展。(参考文献略)

    作者简介:任奎,浙江大学网络空间安全学院和计算机学院副院长、求是讲席教授,IEEE Fellow,ACM杰出科学家。主要研究领域为数据安全与隐私保护、人工智能安全、物联网安全和生物认证技术。

    历史精华好文

    交流合作

    请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

    展开全文
  • 光学对抗攻击算法

    2021-09-30 16:48:49
    今日分享一篇AI对抗攻击领域论文『Optical Adversarial Attack』,由普渡大学学者提出:OPAD,是对人为刻意制造的光照分布对目标分类器进行攻击的研究,想法奇特,性能有效。详细信息如下: 论文链接:...

           今日分享一篇AI对抗攻击领域论文『Optical Adversarial Attack』,由普渡大学学者提出:OPAD,是对人为刻意制造的光照分布对目标分类器进行攻击的研究,想法奇特,性能有效。详细信息如下:

     论文链接:https://arxiv.org/pdf/2108.06247

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    展开全文
  • 该存储库提供了用于评估各种对抗攻击的简单PyTorch实现。 该存储库显示每个数据集的最新攻击成功率。 该存储库利用了攻击库,例如 , 等。 如果您对此存储库有疑问,请给我发送电子邮件( )或提出问题。 影像网 ...
  • 按照攻击算法在图中添加扰动的不同阶段,可以将图对抗攻击分为两类,分别为逃逸攻击和投毒攻击。其中逃逸攻击是攻击者构造对抗样本在模型测试简短欺骗目标模型,而投毒攻击是攻击者在模型训练阶段向训练集中注入对抗...
  • 2020-05-19 19:52:46 任奎 随着计算机产业发展带来的计算性能与处理能力的大幅提高,人工智能在音视频识别、自然语言处理和博弈论等领域得到了广泛应用。...同时,对抗攻击在自动驾驶等场景中的成功实施更..
  • 对抗攻击常见方法汇总

    千次阅读 2021-12-03 11:17:20
    将常见的对抗样本攻击方法汇总,并给出学习链接。
  • 图像对抗算法-攻击篇(FGSM)

    万次阅读 多人点赞 2019-05-31 22:27:46
    论文:Explaining and ...在图像攻击算法中,FGSM(fast gradient sign method)是非常经典的一个算法。这篇发表于ICLR2015的文章通过梯度来生成攻击噪声,核心思想就是Figure1所示的内容。Figure1中左边图是常规的...
  • 深度神经网络容易受到对抗样本的攻击。为了解决这个问题,一些工作通过向图像中添加高斯噪声来训练网络,从而提高网络防御对抗样本的能力,但是该方法在添加噪声时并没有考虑到神经网络对图像中不同区域的敏感性是...
  • EWR-PGD:白盒对抗攻击

    2021-05-24 22:36:37
    我们提出了一种新的名为EWR-PGD的白盒对抗攻击方法,该方法超越了最新的攻击性能。 它比最新的方法更有效。 代码即将推出。 EWR-PGD和ODI-PGD的比较 当将模型降低到相同的精度时,EWR-PGD所需的重新启动次数明显...
  • 本资源是对抗样本领域中首次提出对抗样本概念并提出使用L-BFGS攻击算法的一篇文章的代码实现,使用的语言是Pytorch语言,文件为Jupyter notebook文件,在电脑环境配置无问题的情况下,可以直接运行此代码文件,内含...
  • 关注公众号,发现CV技术之美▊1引言是基于梯度迭代攻击中生成对抗样本的开创性工作。我第一次接触相关工作的时候,给我困惑最多的就是论文中为什么要给梯度加上这个符号函数,因为这会导致生成的...
  • 对抗攻击和防御

    千次阅读 2021-10-27 12:24:49
    目录对抗攻击防御References 对抗攻击 在计算机视觉任务中可能存在以下现象,对输入样本故意添加一些人类无法察觉的细微干扰,将会导致模型以高置信度输出一个错误的分类结果,这被称为对抗攻击对抗攻击的目标是使...
  • 作者:刘艾杉 编辑:鱼羊量子位 报道 | 公众号 QbitAI简单修改环境物体的纹理颜色,就能让机器人执行攻击者设计的错误行为!来自北航、悉尼大学、伯克利和伦敦大学的一项最新研究成果显示...
  • 背景 在图 1 示例中,我们用同样的一个人脸识别模型(Arcface ...这种现象叫做对抗样本,即针对某种特定的模型(例如图像分类模型 ResNet [2]),在正常样本(例如 2D 图像,3D 点云等)上加入微小的噪声,使得模型...
  • 本篇文章是伍冬睿教授及其领导的研究团队成员在生理计算中的对抗攻击与防御方面的综述。本文系统性综述了生理计算主要研究领域、不同类型的对抗攻击、其在生理计算上的应用以及相应的防御措施,从而填补...
  • 对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。
  • 对抗攻击3——BIM(Basic Iterative Method)

    千次阅读 2021-04-03 20:36:45
    BIM是FGSM多次迭代的版本,其中总的对抗扰动量为∥r∥∞≤ϵ\|r\|_{\infty} \leq \epsilon∥r∥∞​≤ϵ。由BIM生成对抗样本的具体形式如下所示:xi+1′=Clipϵ{xi′+α⋅sign(∇xL(xi′,y))}i=0,⋯nandx0′=xx^{\...
  • 目标检测 对抗攻击

    2021-01-07 23:53:59
    第二个性质就是对抗攻击的理论基础,后来Goodfellow 在 Explaining and Harnessing Adversarial Examples[13]中提出原因并非是深层神经网络的高度非线性和过拟合,即使是线性模型也存在对抗样本。在这篇论文中,我们...
  • 图像分类白盒对抗攻击技术总结

    千次阅读 2022-04-20 16:34:53
    对抗攻击背景知识2.白盒攻击技术2.1 基于直接优化得攻击方法2.1.1 基于 Box-constrained L-BFGS 的攻击2.1.2 C&W 攻击2.2 基于梯度优化的攻击方法2.2.1 FGSM 攻击(基于一步梯度计算的对抗样本生成算法)2.2.2 I...
  • L0对抗攻击JSMA的算法盘点

    千次阅读 2021-01-23 21:09:31
    ©PaperWeekly 原创 ·作者|孙裕道学校|北京邮电大学博士生研究方向|GAN图像生成、情绪对抗样本生成引言JSMA 是非常著名的对抗攻击,它第首次在对抗攻击中引入了 的度量...
  •  卡利尼和瓦格纳[44]引入了一系列攻击来寻找最小化不同相似性度量的对抗性扰动:L0、L2和L∞等。核心观点是将类似于BFGS攻击的一般约束优化策略31转化为无约束优化公式中经验选择的损失函数:LCW(x′,t)=max⁡(max⁡i...
  • 上一篇转载的博文《神经网络中的对抗攻击与对抗样本》帮助我理解了神经网络学习的本质,以及对抗攻击的来龙去脉。接下来在这篇文章:《忽悠神经网络指南:教你如何把深度学习模型骗得七荤八素》中进一步理解了神经...
  • 上一篇讲的几篇经典对抗攻击论文主要讲的是如何在梯度上扰动或者优化,即尽可能保证下的扰动,不被人类发现,却大大降低了模型的性能。这一篇我们将会有一些更有意思的对抗攻击样本生成,包括像素级别的扰动以及样本...
  • 指纹与人脸识别相关图像处理算法研究
  • 03-对抗样本攻击

    千次阅读 2020-04-08 17:50:57
    对抗样本攻击 Github:https://github.com/Gary11111/03-GAN 研究背景 尽管深度学习在很多计算机视觉领域的任务上表现出色,Szegedy第一次发现了深度神经网络在图像分类领域存在有意思的弱点。他们证明尽管有很高的...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 10,101
精华内容 4,040
关键字:

对抗攻击算法