精华内容
下载资源
问答
  • 本工作提出了一种高效的基于决策的黑盒对抗攻击算法,在业内第一次以完全黑盒的方式成功地实现对人脸识别系统的对抗攻击。本工作由腾讯 AI Lab 主导,与清华大学,香港科技大学联合完成,发表...

    本工作提出了一种高效的基于决策的黑盒对抗攻击算法,在业内第一次以完全黑盒的方式成功地实现对人脸识别系统的对抗攻击。本工作由腾讯 AI Lab 主导,与清华大学,香港科技大学联合完成,发表于 CVPR 2019。

    背景

    在图 1 示例中,我们用同样的一个人脸识别模型(Arcface [1])对两幅看起来一模一样的人脸图像进行识别,但是得到了完全不同的两个识别结果。这是为什么呢?原因是右图的人脸区域被加上了人眼无法察觉的恶意噪声,专门用于欺骗人脸识别模型。这种现象叫做对抗样本,即针对某种特定的模型(例如图像分类模型 ResNet [2]),在正常样本(例如 2D 图像,3D 点云等)上加入微小的噪声,使得模型原来的结果发生改变。

    ▲ 图1. 对抗样本示例:(左)正常人脸图像;(右)对抗人脸图像。

    以上图像来自于视频:https://www.youtube.com/watch?v=d7hZ1VhfygU&t=76s

    对抗样本现象揭示了机器学习模型尤其是深度学习模型的安全漏洞,近年来引起了学术界和工业界的广泛关注。研究人员已经开发了针对深度学习模型的诸多对抗攻击算法,最常见的例如 FGSM [3], PGD [4], C&W [5] 等。但是,这些方法都要求获取被攻击模型的全部结构和参数,这种攻击场景被称作白盒攻击。

    但是在现实场景下,攻击者是很难获取被攻击模型的参数甚至结构的,只能够获取被攻击模型的输入结果。这种攻击场景被称为黑盒攻击。根据所获取模型输出的类型,又可细分为1)基于分数的黑盒攻击,即能够获取模型输出的后验概率或者分数(例如人脸比对的相似度分数),2)基于决策的黑盒攻击,即只能获取模型输出的离散类别。很显然,离散类别提供的关于模型的信息更少,基于决策的黑盒攻击难度也最大。相对于白盒攻击算法,基于决策的黑盒攻击算法非常少,而且攻击效率不高。 

    针对这个难题,我们提出了一种新的搜索算法,充分利用了模型决策边界的几何结构和进化算法思想 [6],大大提高了攻击效率。

    针对人脸比对模型的攻击问题建模

    我们将人脸比对模型表示为,其中表示参考人脸图像,x 表示目标人脸图像;的作用是判断 x 和  是否为同一个人,如果相同,则返回 1,否则返回 0。

    我们的攻击任务是在目标人脸图像 x 的基础上构造一个对抗人脸图像 ,使得其与参考人脸图像  的比对结果发生改变(即),同时使得  与 x 的视觉差异尽量小。该任务可以建模为以下优化问题:

    其中,表示两个图像之间的距离度量,这里我们采用 L2 范数。 

    在人脸比对场景中,根据 x 和  是否为同一个人,上述攻击任务还可以细分为以下两种攻击: 

    1. Dodging 攻击: x 和  为同一个人的两张不同人脸图像时,即攻击的目的是使得  被识别为不同于  的人,即这种攻击可以用于隐私保护,防止自身人脸图像被第三方检索。示例如下方左子图。 

    2. Impersonation 攻击:当 x 和  为不同人的人脸图像时,即攻击的目的是使得  被识别与  是相同的人,即这种攻击可用于身份伪造,侵入他人账号。示例如下方右子图。

    ▲ 图2. 人脸比对攻击示例。人脸图像来源于LFW数据集 [7]

    优化算法

    在上述优化问题中,由于人脸比对模型 f(·,·) 是未知的,我们无法对其进行求导。因此常用的连续优化算法(比如梯度下降法)都不适用。

    我们提出了一种基于进化思想的高效搜索算法。我们以图3作为示意图来说明我们算法的主要思想。其中,黑色圆点表示目标图像 x;蓝色曲线表示决策边界(注意,这条曲线实际是不可见的),曲线的上方是不可行域(即),曲线下方是可行域(即);灰色的 × 点表示已经查询过的不可行解,灰色的 ○ 点表示已经查询过的可行解,绿色的圆点表示当前可行解。其基本步骤如下: 

    1. 以图 3 左子图为例,为了探索下一个可行解,我们需要进行采样。黑色椭圆表示采样概率分布,其服从高斯分布。该分布的中心点为当前可行解,协方差矩阵是则是根据历史可行解进行估计的,其基本思想是:根据历史探索点,我们可以计算出各个方向的探索成功率;沿着成功率大的方向继续探索,更容易找到下一个可行解。因此,我们根据该分布进行第一步采样,如从绿色圆点出发的第一个橙色箭头,到达初始候选解(第一个橙色圆点)。

    2. 经过第一步采样,我们可能找到下一个可行解,但是并不能保证的下降。因此,我们进行第二步探索,即以初始候选解为出发点,沿着目标图像 x 移动一小步(见第二个橙色箭头),到达第二个候选解(即第二个橙色圆点)。

    3. 随后,我们在对第二个候选解进行查询,判断其是否满足约束:如果满足,则将其作为最新可行解,如图 3 右子图所示,并对采样概率分布(即黑色椭圆)进行更新;如果不满足,则保持当前解不变,重新上述采样过程。 

    在上述搜索算法中,我们将图像的每个像素当作一个维度。整个搜索空间的维度非常高,这往往意味着搜索效率非常低。为此,我们在搜索中嵌入了两种加速策略:

    1. 随机坐标采样:即每次采样只在部分维度(即部分像素)进行,而不是所有维度。维度的选取以采样概率分布为依据,方差大的维度被选中的概率也更高。

    2. 维度降采样:我们假设对抗噪声在像素坐标系中也是空间平滑的,即相邻像素的对抗噪声相近。因此,我们均匀间隔地选取一部分像素作为我们搜索的子空间;但在子空间中找到一个候选解(即候选对抗噪声)时,我们根据像素的空间坐标进行双线性插值,得到一个全空间的候选解。 

    上述算法的全部流程总结在图 4 中。

    ▲ 图3. 算法示意图

    ▲ 图4. 基于进化思想的攻击搜索算法

    实验结果

    实验一:我们首先对 ArcFace 人脸识别模型进行了基于决策的黑盒攻击,其攻击效果如图 5 所示。无论是 Dodging 攻击还是 Impersonation 攻击,随机攻击次数的增加,对抗噪声越来越小,直至人眼无法察觉。每幅图下方的数字代表其包含的对抗噪声的 L2 范数。

    ▲ 图5. 对ArcFace模型的黑盒攻击结果

    实验二:对比攻击实验。我们选取了几种最新的基于决策的黑盒攻击算法,包括Boundary [8], Optimization [9] 和 NES-LO [10]。虽然这几种方法都是为攻击一般图像分类模型而设计的,但是也很容易改造为对人脸识别模型的攻击,即替换约束条件。我们对当前最流行的三种人脸识别模型上进行了攻击,包括 SphereFace [11], CosFace [12] 和 ArcFace [1]

    实验结果如表 1 所示,在相同查询次数下,我们所提出的进化攻击算法所得到的对抗噪声明显小于其他对方方法的噪声。在图 6 中,我们还展示了噪声水平随着查询次数的下降曲线,我们方法的下降曲线明显快于其他对比方法。这些对比结果表明,我们的进化攻击算法的效率远远好于已有黑盒攻击算法。

    ▲ 图6. 对ArcFace模型的黑盒攻击的噪声下降曲线

    实验三:对人脸识别 API 的黑盒攻击实验。很多人工智能公司都提供了人脸识别接口,可以通过访问 API 的形式获取人脸识别结果。我们选择了腾讯 AI 开放平台上的人脸比对接口(https://ai.qq.com/product/face.shtml#compare)进行了测试。该接口可以返回人脸比对的相似度。但是,我们以 90% 为界限,超过则比对成功,即返回 1,否则返回 0。我们只根据查询返回的 0 或者 1 来优化对抗噪声。

    实验结果如图 7 和图 8 所示,我们的算法可以轻松欺骗该人脸比对系统;在同样查询次数下,我们算法得到的噪声图像,比对比方法得到的噪声图像,更加接近于目标图像,即噪声水平更小。

    ▲ 图7.(左)参考图像与正常目标图像的相似度为38%;(右)参考图像与对抗图像(我们的算法经过10000次查询所得)的相似度为89%(注意,在攻击过程中,相似度为90%,但是保存对抗图像后会有微小的精度损失)。

    ▲ 图8. 对人脸识别API进行黑盒攻击的不同方法对比效果。上述结果都是经过10000次查询得到的。

    总结与思考

    本工作的意义,不仅仅在于第一次成功地以完全黑盒地方式实现了对人脸识别系统的攻击,更是为当前十分火热的人脸识别敲响了警钟。考虑到人脸识别系统的广泛应用场景,比如门禁,海关,支付等,我们应该对人脸识别系统的安全漏洞更加重视。我们不仅要尽可能多地探测人脸识别系统的漏洞,更要及时找到弥补漏洞的方案,不断提高人脸识别系统的安全性,使得人脸识别的应用更加安全可靠。

    参考文献

    [1] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. "Arcface: Additive angular margin loss for deep face recognition." In CVPR, 2019. 

    [2] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition. In CVPR, 2016. 

    [3] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572. 

    [4] Madry, A., Makelov, A., Schmidt, L., Tsipras, D., & Vladu, A. (2017). Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083. 

    [5] Carlini, N., & Wagner, D. (2017, May). Towards evaluating the robustness of neural networks. In 2017 IEEE Symposium on Security and Privacy (SP) (pp. 39-57). 

    [6] C. Igel, T. Suttorp, and N. Hansen. A computational efficient covariance matrix update and a (1+ 1)-cma for evolution strategies. In Proceedings of the 8th annual conference on Genetic and evolutionary computation, pages 453–460. ACM, 2006. 

    [7] G. B. Huang, M. Mattar, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. In Workshop on faces in ’Real-Life’ Images: detection, alignment, and recognition, 2008. 

    [8] W. Brendel, J. Rauber, and M. Bethge. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. In ICLR, 2018 

    [9] M. Cheng, T. Le, P.-Y. Chen, J. Yi, H. Zhang, and C.-J. Hsieh. Query-efficient hard-label black-box attack: An optimization-based approach. arXiv preprint arXiv:1807.04457, 2018 

    [10] Ilyas, A., Engstrom, L., Athalye, A. and Lin, J., 2018. Black-box adversarial attacks with limited queries and information. In ICML, 2018 

    [11] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, 2017 

    [12] H. Wang, Y. Wang, Z. Zhou, X. Ji, Z. Li, D. Gong, J. Zhou, andW. Liu. Cosface: Large margin cosine loss for deep face recognition. In CVPR, 2018

    点击以下标题查看更多往期内容: 

    #投 稿 通 道#

     让你的论文被更多人看到 

    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

    ???? 来稿标准:

    • 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

    • 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

    • PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

    ???? 投稿邮箱:

    • 投稿邮箱:hr@paperweekly.site 

    • 所有文章配图,请单独在附件中发送 

    • 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

    ????

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    关于PaperWeekly

    PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

    ▽ 点击 | 阅读原文 | 下载论文

    展开全文
  • 背景 在图 1 示例中,我们用同样的一个人脸识别模型(Arcface ...这种现象叫做对抗样本,即针对某种特定的模型(例如图像分类模型 ResNet [2]),在正常样本(例如 2D 图像,3D 点云等)上加入微小的噪声,使得模型...

    背景

    在图 1 示例中,我们用同样的一个人脸识别模型(Arcface [1])对两幅看起来一模一样的人脸图像进行识别,但是得到了完全不同的两个识别结果。这是为什么呢?原因是右图的人脸区域被加上了人眼无法察觉的恶意噪声,专门用于欺骗人脸识别模型。这种现象叫做对抗样本,即针对某种特定的模型(例如图像分类模型 ResNet [2]),在正常样本(例如 2D 图像,3D 点云等)上加入微小的噪声,使得模型原来的结果发生改变。

    在这里插入图片描述
    ▲ 图1. 对抗样本示例:(左)正常人脸图像;(右)对抗人脸图像。

    以上图像来自于视频:https://www.youtube.com/watch?v=d7hZ1VhfygU&t=76s

    对抗样本现象揭示了机器学习模型尤其是深度学习模型的安全漏洞,近年来引起了学术界和工业界的广泛关注。研究人员已经开发了针对深度学习模型的诸多对抗攻击算法,最常见的例如 FGSM [3], PGD [4], C&W [5] 等。但是,这些方法都要求获取被攻击模型的全部结构和参数,这种攻击场景被称作白盒攻击。

    但是在现实场景下,攻击者是很难获取被攻击模型的参数甚至结构的,只能够获取被攻击模型的输入结果。这种攻击场景被称为黑盒攻击。根据所获取模型输出的类型,又可细分为1)基于分数的黑盒攻击,即能够获取模型输出的后验概率或者分数(例如人脸比对的相似度分数),2)基于决策的黑盒攻击,即只能获取模型输出的离散类别。很显然,离散类别提供的关于模型的信息更少,基于决策的黑盒攻击难度也最大。相对于白盒攻击算法,基于决策的黑盒攻击算法非常少,而且攻击效率不高。

    针对这个难题,我们提出了一种新的搜索算法,充分利用了模型决策边界的几何结构和进化算法思想 [6],大大提高了攻击效率。

    针对人脸比对模型的攻击问题建模

    我们将人脸比对模型表示为,其中;表示参考人脸图像,x 表示目标人脸图像;的作用是判断 x 和 是否为同一个人,如果相同,则返回 1,否则返回 0。

    我们的攻击任务是在目标人脸图像 x 的基础上构造一个对抗人脸图像 ,使得其与参考人脸图像 的比对结果发生改变(即),同时使得 与 x 的视觉差异尽量小。该任务可以建模为以下优化问题:

    其中,表示两个图像之间的距离度量,这里我们采用 L2 范数。

    在人脸比对场景中,根据 x 和 是否为同一个人,上述攻击任务还可以细分为以下两种攻击:

    1. Dodging 攻击:当 x 和 为同一个人的两张不同人脸图像时,即;攻击的目的是使得 被识别为不同于 的人,即。这种攻击可以用于隐私保护,防止自身人脸图像被第三方检索。示例如下方左子图。

    2. Impersonation 攻击:当 x 和 为不同人的人脸图像时,即;攻击的目的是使得 被识别与 是相同的人,即。这种攻击可用于身份伪造,侵入他人账号。示例如下方右子图。
      在这里插入图片描述

    ▲ 图2. 人脸比对攻击示例。人脸图像来源于LFW数据集 [7]

    优化算法

    在上述优化问题中,由于人脸比对模型 f(·,·) 是未知的,我们无法对其进行求导。因此常用的连续优化算法(比如梯度下降法)都不适用。

    我们提出了一种基于进化思想的高效搜索算法。我们以图3作为示意图来说明我们算法的主要思想。其中,黑色圆点表示目标图像 x;蓝色曲线表示决策边界(注意,这条曲线实际是不可见的),曲线的上方是不可行域(即),曲线下方是可行域(即);灰色的 × 点表示已经查询过的不可行解,灰色的 ○ 点表示已经查询过的可行解,绿色的圆点表示当前可行解。其基本步骤如下:

    1. 以图 3 左子图为例,为了探索下一个可行解,我们需要进行采样。黑色椭圆表示采样概率分布,其服从高斯分布。该分布的中心点为当前可行解,协方差矩阵是则是根据历史可行解进行估计的,其基本思想是:根据历史探索点,我们可以计算出各个方向的探索成功率;沿着成功率大的方向继续探索,更容易找到下一个可行解。因此,我们根据该分布进行第一步采样,如从绿色圆点出发的第一个橙色箭头,到达初始候选解(第一个橙色圆点)。

    2. 经过第一步采样,我们可能找到下一个可行解,但是并不能保证的下降。因此,我们进行第二步探索,即以初始候选解为出发点,沿着目标图像 x 移动一小步(见第二个橙色箭头),到达第二个候选解(即第二个橙色圆点)。

    3. 随后,我们在对第二个候选解进行查询,判断其是否满足约束:如果满足,则将其作为最新可行解,如图 3 右子图所示,并对采样概率分布(即黑色椭圆)进行更新;如果不满足,则保持当前解不变,重新上述采样过程。

    在上述搜索算法中,我们将图像的每个像素当作一个维度。整个搜索空间的维度非常高,这往往意味着搜索效率非常低。为此,我们在搜索中嵌入了两种加速策略:

    1. 随机坐标采样:即每次采样只在部分维度(即部分像素)进行,而不是所有维度。维度的选取以采样概率分布为依据,方差大的维度被选中的概率也更高。

    2. 维度降采样:我们假设对抗噪声在像素坐标系中也是空间平滑的,即相邻像素的对抗噪声相近。因此,我们均匀间隔地选取一部分像素作为我们搜索的子空间;但在子空间中找到一个候选解(即候选对抗噪声)时,我们根据像素的空间坐标进行双线性插值,得到一个全空间的候选解。

    上述算法的全部流程总结在图 4 中。

    在这里插入图片描述
    ▲ 图3. 算法示意图

    在这里插入图片描述
    ▲ 图4. 基于进化思想的攻击搜索算法

    实验结果

    实验一:我们首先对 ArcFace 人脸识别模型进行了基于决策的黑盒攻击,其攻击效果如图 5 所示。无论是 Dodging 攻击还是 Impersonation 攻击,随机攻击次数的增加,对抗噪声越来越小,直至人眼无法察觉。每幅图下方的数字代表其包含的对抗噪声的 L2 范数。

    ▲ 图5. 对ArcFace模型的黑盒攻击结果

    实验二:对比攻击实验。我们选取了几种最新的基于决策的黑盒攻击算法,包括Boundary [8], Optimization [9] 和 NES-LO [10]。虽然这几种方法都是为攻击一般图像分类模型而设计的,但是也很容易改造为对人脸识别模型的攻击,即替换约束条件。我们对当前最流行的三种人脸识别模型上进行了攻击,包括 SphereFace [11], CosFace [12] 和 ArcFace [1]。

    实验结果如表 1 所示,在相同查询次数下,我们所提出的进化攻击算法所得到的对抗噪声明显小于其他对方方法的噪声。在图 6 中,我们还展示了噪声水平随着查询次数的下降曲线,我们方法的下降曲线明显快于其他对比方法。这些对比结果表明,我们的进化攻击算法的效率远远好于已有黑盒攻击算法。

    ▲ 图6. 对ArcFace模型的黑盒攻击的噪声下降曲线

    实验三:对人脸识别 API 的黑盒攻击实验。很多人工智能公司都提供了人脸识别接口,可以通过访问 API 的形式获取人脸识别结果。我们选择了腾讯 AI 开放平台上的人脸比对接口(https://ai.qq.com/product/face.shtml#compare)进行了测试。该接口可以返回人脸比对的相似度。但是,我们以 90% 为界限,超过则比对成功,即返回 1,否则返回 0。我们只根据查询返回的 0 或者 1 来优化对抗噪声。

    实验结果如图 7 和图 8 所示,我们的算法可以轻松欺骗该人脸比对系统;在同样查询次数下,我们算法得到的噪声图像,比对比方法得到的噪声图像,更加接近于目标图像,即噪声水平更小。

    ▲ 图7.(左)参考图像与正常目标图像的相似度为38%;(右)参考图像与对抗图像(我们的算法经过10000次查询所得)的相似度为89%(注意,在攻击过程中,相似度为90%,但是保存对抗图像后会有微小的精度损失)。

    ▲ 图8. 对人脸识别API进行黑盒攻击的不同方法对比效果。上述结果都是经过10000次查询得到的。

    总结与思考

    本工作的意义,不仅仅在于第一次成功地以完全黑盒地方式实现了对人脸识别系统的攻击,更是为当前十分火热的人脸识别敲响了警钟。考虑到人脸识别系统的广泛应用场景,比如门禁,海关,支付等,我们应该对人脸识别系统的安全漏洞更加重视。我们不仅要尽可能多地探测人脸识别系统的漏洞,更要及时找到弥补漏洞的方案,不断提高人脸识别系统的安全性,使得人脸识别的应用更加安全可靠。

    参考文献

    [1] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. “Arcface: Additive angular margin loss for deep face recognition.” In CVPR, 2019.
    [2] K. He, X. Zhang, S. Ren, and J. Sun, Deep residual learning for image recognition. In CVPR, 2016.
    [3] Goodfellow, I. J., Shlens, J., & Szegedy, C. (2014). Explaining and harnessing adversarial examples. arXiv preprint arXiv:1412.6572.
    [4] Madry, A., Makelov, A., Schmidt, L., Tsipras, D., & Vladu, A. (2017). Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083.
    [5] Carlini, N., & Wagner, D. (2017, May). Towards evaluating the robustness of neural networks. In 2017 IEEE Symposium on Security and Privacy (SP) (pp. 39-57).
    [6] C. Igel, T. Suttorp, and N. Hansen. A computational efficient covariance matrix update and a (1+ 1)-cma for evolution strategies. In Proceedings of the 8th annual conference on Genetic and evolutionary computation, pages 453–460. ACM, 2006.
    [7] G. B. Huang, M. Mattar, T. Berg, and E. Learned-Miller. Labeled faces in the wild: A database for studying face recognition in unconstrained environments. In Workshop on faces in ’Real-Life’ Images: detection, alignment, and recognition, 2008.
    [8] W. Brendel, J. Rauber, and M. Bethge. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models. In ICLR, 2018
    [9] M. Cheng, T. Le, P.-Y. Chen, J. Yi, H. Zhang, and C.-J. Hsieh. Query-efficient hard-label black-box attack: An optimization-based approach. arXiv preprint arXiv:1807.04457, 2018
    [10] Ilyas, A., Engstrom, L., Athalye, A. and Lin, J., 2018. Black-box adversarial attacks with limited queries and information. In ICML, 2018
    [11] W. Liu, Y. Wen, Z. Yu, M. Li, B. Raj, and L. Song. Sphereface: Deep hypersphere embedding for face recognition. In CVPR, 2017
    [12] H. Wang, Y. Wang, Z. Zhou, X. Ji, Z. Li, D. Gong, J. Zhou, andW. Liu. Cosface: Large margin cosine loss for deep face recognition. In CVPR, 2018

    展开全文
  • 来自北航、悉尼大学、伯克利和伦敦大学的一项最新研究成果显示:通过对抗攻击修改3D物体的外表纹理属性,就可以使得智能机器人在动态场景中,执行任何攻击者预先设计好的错误行为或错误地回答问题。在智能机器人逐渐...

    fa732000b87e2fb9d1e5cc6e3ac9df60.png
    作者:刘艾杉
    编辑:鱼羊
    量子位 报道 | 公众号 QbitAI

    简单修改环境物体的纹理颜色,就能让机器人执行攻击者设计的错误行为!

    来自北航、悉尼大学、伯克利和伦敦大学的一项最新研究成果显示:

    通过对抗攻击修改3D物体的外表纹理属性,就可以使得智能机器人在动态场景中,执行任何攻击者预先设计好的错误行为或错误地回答问题。

    在智能机器人逐渐被应用到智能家居、危险品检测和拆除等场景的当下,这么轻松就被“忽悠”了,实在让人有些瑟瑟发抖。

    究竟是怎么一回事?

    cf22e21904b28a1c3fbf1de146ffc5a4.png

    如上图所示,Embodied Question Answering任务是指:在动态三维环境中,随机放置智能机器人并给其一段用自然语言描述的环境相关的问题,智能机器人通过自主视觉导航和环境感知来回答问题。

    这篇题为Spatiotemporal Attacks for Embodied Agents的论文,提出使用时空融合的对抗攻击方法来生成3D对抗噪音,投影至特定物体的外表纹理上,当智能机器人感知到环境中带有攻击性的物体之后,就会错误回答问题或执行错误的行为。

    知乎视频www.zhihu.com

    如:“What room is the chessboard located in?”,智能机器人在感知到带攻击性的“笔记本电脑”和“沙发”等物体后回答为“Bathroom”(正确答案为“living room”)。

    目前论文已在全球计算机视觉顶级会议ECCV-2020上发表。

    af7a78b89171aa07ed52013e130f5aeb.png

    经实验证实,用该方法生成的3D对抗噪音(adversarial perturbations)具有稳定的攻击效果,将其投影在3D物体上后改变了其纹理和颜色。

    其不会影响人类对于物体语义信息的认知,但是该噪音对于基于深度学习的智能机器人则是毁灭性的。

    例如,这种攻击可能被恶意地用来攻击智能机器人,入侵者只需要修改场景内的某些物体的外观颜色和纹理,当智能机器人感知环境时就可能会造成系统的致命错误,导致机器人宕机或错误回答问题。

    基于时空融合的对抗攻击

    该论文提出了一种时空融合的对抗攻击算法,该算法分别利用时间维度和空间维度的信息来生成3D对抗噪音,有效的攻击智能机器人模型。通过将该3D对抗噪音投影至3D物体的表面,修改其3D颜色纹理,当智能机器人感知到相关物体时就会执行预设好的错误行为或对于问题给出错误的答案。算法的整体架构如下:

    b38535cd4f00f2e71cb2ba9449eebbd6.png

    为了达成效果,时空融合的对抗攻击算法主要包含以下几个部分:

    时间维度

    智能机器人在进行当前的决策时(如:执行动作或回答问题),一般不仅仅依赖于当前的观测和感知信息,还需要考虑其历史观测信息。因此,为了攻击在动态环境中的智能机器人,迫使其作出预设的错误行为,需要考虑其历史观测信息。

    因此,这里考虑智能机器人的前N个历史观测场景,并攻击出现在其中的物体的3D特征:

    e3a28d859eb7e4a6234e6afbb395ac9d.png

    但是,前N个历史场景中出现的3D物体数量过大,直接对于所有的物体进行对抗攻击会造成噪音过于分散、攻击能力不足等问题。为此,研究人员设计了路径注意力模块A,计算智能机器人历史路径中各个历史场景对于模型决策的重要程度,并选取其中最重要的考虑智能机器人的前N个历史观测场景,并攻击出现在最终要的K个历史观测场景中的物体:

    82baa09e60d8e93d25bfebabc6f6aa72.png

    809cff0634a223d6b34fa707ecc46156.png

    91716bfb7c03299e7600cec9eaa21460.png

    空间维度

    神经心理学研究表明,当人类在进行视觉感知时,其不仅仅关注目标物体,环境信息(contextual objects)充当着极其重要的作用。例如:当询问“What room is the chessboard located in?”时,我们不仅仅只会关注目标物体“chessboard”本身,还会关注该物体的周围环境信息来辅助确定最终答案。

    为了提升攻击性,研究人员进一步选择攻击出现在K个历史观测场景 S={S1, …, SK}中的M个环境物体 X={X1, …, XM}:

    6fa6bb7140ba6e1dd51a79d8f76e069b.png

    研究人员引入一个可导的渲染器,并通过梯度下降来修改待攻击物体的3D属性信息(如:纹理颜色):

    76357a2f97d0b3a902b34ebc2d6d37e7.png

    20b828ab999770ddd6335e4cafc6313b.png

    整体优化损失

    将时空信息融合,就得到了整体的优化损失函数:

    56f177e7ebea9158e89b12b734df5d12.png

    其中,为了增加攻击成功率,研究人员引入不同的环境信息c来进行噪音的优化(如:角度、光照)。进一步,控制产生的噪声大小范围来使得其人眼不可感知:

    d251e438afdf1a596a4466832a823c24.png

    实验结果:智能机器人很容易被欺骗

    通过实验结果评估该对抗攻击算法的有效性,主要针对EQA-v1数据集进行测试。

    可导渲染器的攻击效果

    首先,研究人员将渲染过程中的渲染器设置为可导的,并分别进行了白盒攻击和黑盒攻击实验。通过下表可示,该算法在多个指标上都取得了最高的攻击成功率(问答准确率和移动距离等):

    3a62df79e5dcdbd4f498a6821959b27d.png

    不可导渲染器的攻击效果

    在真实世界场景中更多使用不可导渲染器,因为其可以更好渲染出更加逼真和丰富的场景元素和环境条件。因此,在不可导渲染器上的对抗攻击效果可以有效的验证本方法在真实场景中的可行性。如下图所示,时空融合对抗攻击算法可以在未知参数的“黑盒”不可导渲染器下取得很好的攻击效果。

    6021b2184028818b065c07c33137e6ab.png

    可视化效果

    通过下图可以看出,时空融合的对抗攻击算法所生成的对抗噪音具有非常好的视觉效果,可以达到人眼不可分辨(黄色方框表示对抗攻击的物体)。

    fd1619ec08924ae2ee6671cf4e5b7918.png

    aa835f649a8b91dd578ccf10ccc71882.png

    3705c81e0c0bcecc456a4d74093b105e.png

    对抗攻击的作用

    除了攻击智能机器人使其执行错误的操作和行为,本文提出的时空融合的对抗攻击对于提升模型的鲁棒性和模型行为的理解都有重要作用和意义。

    通过对抗训练提升模型鲁棒性

    通过在智能机器人的训练过程中混入由时空融合产生的对抗3D场景,研究人员使用对抗训练来提升智能机器人对于噪音的鲁棒性。通过对抗训练,智能机器人在对抗场景下和高斯噪音场景下的表现能力都得到了很大的提升(问答准确率,对抗场景:5.67%->23.56%,高斯噪音场景:22.14%->38.87%)。

    fb5af99e788346e0d6c1823ae9949422.png

    模型决策行为理解

    通过对抗攻击,本文拟进一步探索智能机器人脆弱的原因以及它们在决策时所依赖的特征偏好。研究人员用同样大小的对抗噪音来分别修改物体的“纹理”和“形状”属性,并使用同一场景对于智能机器人进行对抗攻击。通过实验研究人员发现,对于智能机器人模型,纹理攻击(准确率4.26%)比形状攻击(27.14%)的效果要强非常多。这进一步证明了,目前深度神经网络的决策方式更多的是依赖于对于纹理颜色信息的感知而不是对于物体形状的感知。

    a5a815c0802c084d2c27334becc05205.png

    关于作者

    778121d97b27457427068d5829fc6408.png

    论文第一作者刘艾杉,目前在北京航空航天大学计算机学院攻读博士。

    主要研究方向为对抗样本、深度学习鲁棒性、人工智能安全性,已在ECCV、AAAI、IJCAI等国际顶级人工智能与计算机视觉会议发表多篇论文。

    传送门

    论文地址:https://arxiv.org/abs/2005.09161

    代码地址:https://github.com/liuaishan/SpatiotemporalAttack

    展开全文
  • 作者:刘艾杉 编辑:鱼羊量子位 报道 | 公众号 QbitAI简单修改环境物体的纹理颜色,就能让机器人执行攻击者设计的错误行为!来自北航、悉尼大学、伯克利和伦敦大学的一项最新研究成果显示...
    作者:刘艾杉
    编辑:鱼羊
    量子位 报道 | 公众号 QbitAI

    简单修改环境物体的纹理颜色,就能让机器人执行攻击者设计的错误行为!

    来自北航、悉尼大学、伯克利和伦敦大学的一项最新研究成果显示:

    通过对抗攻击修改3D物体的外表纹理属性,就可以使得智能机器人在动态场景中,执行任何攻击者预先设计好的错误行为或错误地回答问题。

    在智能机器人逐渐被应用到智能家居、危险品检测和拆除等场景的当下,这么轻松就被“忽悠”了,实在让人有些瑟瑟发抖。

    究竟是怎么一回事?

    如上图所示,Embodied Question Answering任务是指:在动态三维环境中,随机放置智能机器人并给其一段用自然语言描述的环境相关的问题,智能机器人通过自主视觉导航和环境感知来回答问题。

    这篇题为Spatiotemporal Attacks for Embodied Agents的论文,提出使用时空融合的对抗攻击方法来生成3D对抗噪音,投影至特定物体的外表纹理上,当智能机器人感知到环境中带有攻击性的物体之后,就会错误回答问题或执行错误的行为。

    如:“What room is the chessboard located in?”,智能机器人在感知到带攻击性的“笔记本电脑”和“沙发”等物体后回答为“Bathroom”(正确答案为“living room”)。

    目前论文已在全球计算机视觉顶级会议ECCV-2020上发表。


    经实验证实,用该方法生成的3D对抗噪音(adversarial perturbations)具有稳定的攻击效果,将其投影在3D物体上后改变了其纹理和颜色。

    其不会影响人类对于物体语义信息的认知,但是该噪音对于基于深度学习的智能机器人则是毁灭性的。

    例如,这种攻击可能被恶意地用来攻击智能机器人,入侵者只需要修改场景内的某些物体的外观颜色和纹理,当智能机器人感知环境时就可能会造成系统的致命错误,导致机器人宕机或错误回答问题。

    基于时空融合的对抗攻击

    该论文提出了一种时空融合的对抗攻击算法,该算法分别利用时间维度和空间维度的信息来生成3D对抗噪音,有效的攻击智能机器人模型。通过将该3D对抗噪音投影至3D物体的表面,修改其3D颜色纹理,当智能机器人感知到相关物体时就会执行预设好的错误行为或对于问题给出错误的答案。算法的整体架构如下:


    为了达成效果,时空融合的对抗攻击算法主要包含以下几个部分:

    时间维度

    智能机器人在进行当前的决策时(如:执行动作或回答问题),一般不仅仅依赖于当前的观测和感知信息,还需要考虑其历史观测信息。因此,为了攻击在动态环境中的智能机器人,迫使其作出预设的错误行为,需要考虑其历史观测信息。

    因此,这里考虑智能机器人的前N个历史观测场景,并攻击出现在其中的物体的3D特征:

    但是,前N个历史场景中出现的3D物体数量过大,直接对于所有的物体进行对抗攻击会造成噪音过于分散、攻击能力不足等问题。

    为此,研究人员设计了路径注意力模块A,计算智能机器人历史路径中各个历史场景对于模型决策的重要程度,选取其中最重要的考虑智能机器人的前N个历史观测场景,并攻击出现在最重要的K个历史观测场景中的物体:

    空间维度

    神经心理学研究表明,当人类在进行视觉感知时,其不仅仅关注目标物体,环境信息(contextual objects)充当着极其重要的作用。例如:当询问“What room is the chessboard located in?”时,我们不仅仅只会关注目标物体“chessboard”本身,还会关注该物体的周围环境信息来辅助确定最终答案。

    为了提升攻击性,研究人员进一步选择攻击出现在K个历史观测场景 S={S1, …, SK}中的M个环境物体 X={X1, …, XM}:

    研究人员引入一个可导的渲染器,并通过梯度下降来修改待攻击物体的3D属性信息(如:纹理颜色):

    体优化损失

    将时空信息融合,就得到了整体的优化损失函数:


    其中,为了增加攻击成功率,研究人员引入不同的环境信息c来进行噪音的优化(如:角度、光照)。进一步,控制产生的噪声大小范围来使得其人眼不可感知:

    实验结果:智能机器人很容易被欺骗

    通过实验结果评估该对抗攻击算法的有效性,主要针对EQA-v1数据集进行测试。

    可导渲染器的攻击效果

    首先,研究人员将渲染过程中的渲染器设置为可导的,并分别进行了白盒攻击和黑盒攻击实验。通过下表可示,该算法在多个指标上都取得了最高的攻击成功率(问答准确率和移动距离等):

    不可导渲染器的攻击效果

    在真实世界场景中更多使用不可导渲染器,因为其可以更好渲染出更加逼真和丰富的场景元素和环境条件。因此,在不可导渲染器上的对抗攻击效果可以有效的验证本方法在真实场景中的可行性。如下图所示,时空融合对抗攻击算法可以在未知参数的“黑盒”不可导渲染器下取得很好的攻击效果。

    可视化效果

    通过下图可以看出,时空融合的对抗攻击算法所生成的对抗噪音具有非常好的视觉效果,可以达到人眼不可分辨(黄色方框表示对抗攻击的物体)。

    对抗攻击的作用

    除了攻击智能机器人使其执行错误的操作和行为,本文提出的时空融合的对抗攻击对于提升模型的鲁棒性和模型行为的理解都有重要作用和意义。

    通过对抗训练提升模型鲁棒性

    通过在智能机器人的训练过程中混入由时空融合产生的对抗3D场景,研究人员使用对抗训练来提升智能机器人对于噪音的鲁棒性。通过对抗训练,智能机器人在对抗场景下和高斯噪音场景下的表现能力都得到了很大的提升(问答准确率,对抗场景:5.67%->23.56%,高斯噪音场景:22.14%->38.87%)。

    模型决策行为理解

    通过对抗攻击,本文拟进一步探索智能机器人脆弱的原因以及它们在决策时所依赖的特征偏好。研究人员用同样大小的对抗噪音来分别修改物体的“纹理”和“形状”属性,并使用同一场景对于智能机器人进行对抗攻击。通过实验研究人员发现,对于智能机器人模型,纹理攻击(准确率4.26%)比形状攻击(27.14%)的效果要强非常多。这进一步证明了,目前深度神经网络的决策方式更多的是依赖于对于纹理颜色信息的感知而不是对于物体形状的感知。

    关于作者


    论文第一作者刘艾杉,目前在北京航空航天大学计算机学院攻读博士。

    主要研究方向为对抗样本、深度学习鲁棒性、人工智能安全性,已在ECCV、AAAI、IJCAI等国际顶级人工智能与计算机视觉会议发表多篇论文。

    传送门

    论文地址:
    https://arxiv.org/abs/2005.09161

    代码地址:
    https://github.com/liuaishan/SpatiotemporalAttack

    本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

    了解AI发展现状,抓住行业发展机遇

    如何关注、学习、用好人工智能? 

    每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

    同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

    AI社群 | 与优秀的人交流

    量子位 QbitAI · 头条号签约作者

    վ'ᴗ' ի 追踪AI技术和产品新动态

    喜欢就点「在看」吧 !

    展开全文
  • ©PaperWeekly 原创 ·作者|孙裕道学校|北京邮电大学博士生研究方向|GAN图像生成、情绪对抗样本生成引言JSMA 是非常著名的对抗攻击,它第首次在对抗攻击中引入了 的度量...
  • 图像对抗算法-攻击篇(FGSM)

    万次阅读 多人点赞 2019-05-31 22:27:46
    论文:Explaining and ...在图像攻击算法中,FGSM(fast gradient sign method)是非常经典的一个算法。这篇发表于ICLR2015的文章通过梯度来生成攻击噪声,核心思想就是Figure1所示的内容。Figure1中左边图是常规的...
  • 图像对抗算法-攻击篇(I-FGSM)

    万次阅读 2019-05-31 22:33:02
    在上面一篇博客中,我介绍了FGSM算法,FGSM算法从梯度的角度做攻击,速度比较快,这是该算法比较创新的地方。但是FGSM算法只涉及单次梯度更新,有时候单次更新并不足以攻击成功,因此,在此基础上推出迭代式的FGSM,...
  • 2020-05-19 19:52:46 任奎 随着计算机产业发展带来的计算性能与处理能力的大幅提高,人工智能在音视频识别、自然语言处理和博弈论等领域得到了广泛应用。...同时,对抗攻击在自动驾驶等场景中的成功实施更..
  • 通用对抗攻击算法通过使用所有良性样本对全局扰动进行迭代更新,从而生成对大多样本有效的统一扰动。在每次迭代中,对于附加了当前扰动无法欺骗模型的良性样本,将会为其求解一个类似于L-BFGS的优化问题,以找到该...
  • Houdini 对抗攻击_学习笔记

    千次阅读 2018-09-03 15:07:02
    前言 本篇博客出于学习交流目的,主要是用来记录自己学习中遇到的问题和心路历程,方便之后回顾。...Houdini 对抗攻击算法 特点: 论文原文:Houdini: Fooling Deep Structured Prediction Models 正文...
  • One pixel 对抗攻击_学习笔记

    千次阅读 2018-08-29 18:23:17
    前言 本篇博客出于学习交流目的,主要是用来记录自己学习中...One pixel 对抗攻击算法 特点:黑盒攻击,只改变一个像素点即可实现攻击 论文原文:One pixel attack for fooling deep neural networks 正文...
  • 对抗攻击算法分类1.1.白盒攻击/黑盒攻击1.2.逃逸攻击/投毒攻击1.3.定向攻击/非定向攻击1.4.拓扑攻击/特征攻击/混合攻击2.攻击算法的应用3.图对抗攻击面临的挑战3.1.应用多样性3.2.攻击的可扩展性3.3.攻击的可转移性...
  • 我们的项目专注于创建在神经网络上产生对抗攻击算法,并测试在GTSRB数据集上训练的这些神经网络的强度。 在此项目的生命周期中,在三种不同的模型上创建并测试了四种技术。 在我们的第一种方法中,我们创建了一...
  • 图像对抗算法(先导篇)

    千次阅读 2019-05-31 22:21:38
    图像对抗算法主要包含攻击和防御2部分内容。 攻击表示通过一定的算法在原输入图像上加入攻击噪声得到攻击图像,这个攻击图像能够扰乱分类器的分类,使其分类结果出错。这里面涉及到的最重要内容是攻击图像从人类肉....
  • 论文原文:One pixel attack for fooling deep neural networks ...对抗攻击不过多阐述,如上图所示,在原图像x0上加上一些perturbations得到x`,可以误导识别网络的识别结果。 AdvGAN 论文链接:https://.
  • 对抗样本的概念、以及典型的对抗样本生成算法具体思想,可以参考下面几个博客 对抗样本攻击简介 https://blog.csdn.net/qq_16234613/article/details/79679393 https://www.cnblogs.com/tangweijqxx/p/10614071.html...
  •  L-BFGS是最早被设计攻击深度神经网络模型的对抗攻击算法。它的最终目标是在输入的约束空间中找到一个不可察觉的最小输入扰动arg⁡min⁡r∥r∥2\arg \min\limits_r \|r\|_2argrmin​∥r∥2​,即r=x′−xr=x^{\...
  • 1.对抗样本 所谓对抗样本就是指:在原始样本添加一些人眼无法察觉的扰动(这样的扰动不会影响人类的识别,但是...(也可以这样理解:将上面生成对抗样本的过程,理解为对抗攻击。) 和其他攻击不同,对抗性攻击主要.
  • 疫情期间在家精进技术却遭遇服务器短缺?想畅快体验算力自由,挑战高难度目标检测攻击场景吗?这里有一个完美实现上述目标,还能获得阿里校招绿通、万元奖金、权威证书和高定礼品,更可去顶会当演讲人...
  • 图像对抗算法FGSM

    2019-06-19 20:31:20
    论文:Explaining and ...在图像攻击算法中,FGSM(fast gradient sign method)是非常经典的一个算法。这篇发表于ICLR2015的文章通过梯度来生成攻击噪声,核心思想就是Figure1所示的内容。Figure1中左边图是常规...
  • 1.对抗攻击概念介绍

    2019-03-28 13:14:00
     通过对输入添加微小的扰动使得分类器分类错误,一般对用于深度学习的网络的攻击算法最为常见,应用场景包括目前大热的CV和NLP方向,例如,通过对图片添加精心准备的扰动噪声使得分类器分错,或者通过对一个句子中...
  • 对抗样本(对抗攻击)入门

    千次阅读 2019-12-03 19:03:56
    什么是对抗样本? 从2013年开始,深度...但是现在,深度学习算法的效果好了起来,去研究算法犯的那些不寻常的错误变得有价值起来。其中一种错误叫对抗样本(adversarial examples)。 对抗样本(Adversarial...
  • 目前在图像域中包含10多种攻击算法和8种防御算法,图域中的9种攻击算法和4种防御算法。DeepRobust​github.com深度学习已推进了许多机器学习任务,例如图像分类,语音识别和图形表示学习。由于深度学习已被越来越多...
  • 目前在图像域中包含10多种攻击算法和8种防御算法,图域中的9种攻击算法和4种防御算法。代码仓库:https://github.com/DSE-MSU/DeepRobust深度学习已推进了许多机器学习任务,例如图像分类,语音识别和图形表示学习。...
  • 深度神经网络易受到对抗攻击的伤害,目前仅有少量的工作以提升深度目标跟踪算法的鲁棒性从而克服对抗攻击为目标。目前在对抗攻防的研究集中在图像方面。本文不同于先前的关注方向,优先提出在视频序列中产生对抗...
  • Fisher信息度量下的对抗攻击

    千次阅读 2021-03-06 19:17:30
    通过将数据空间视为具有从神经网络诱导的Fisher信息度量的非线性空间,并提出另一种攻击算法单步谱攻击(OSSA),该方法由Fisher信息矩阵的约束二次型形式描述,其中最优的对抗扰动由第一特征向量给出,并且脆弱性由...
  • 实战文本分类对抗攻击

    千次阅读 2020-03-15 10:29:56
    “文本分类对抗攻击”是清华大学和阿里安全2020年2月举办的一场AI比赛,从开榜到比赛结束20天左右,内容是主办方在线提供1000条辱骂样本,参赛者用算法逐条扰动,使线上模型将其判别为非辱骂样本,尽量让扰动较小...
  • 对抗攻击6_Deepfool

    2021-04-04 19:28:58
    这个结果既可以用来衡量模型对对抗攻击的鲁棒性,也可以作为样本最小的对抗扰动方向。该论文作者指出,对于二元线性分类器,样本到决策边界(简单地说是一条线)的距离可以使用点到线的距离公式进行计算。这很容易推广...

空空如也

空空如也

1 2 3 4 5 ... 12
收藏数 228
精华内容 91
关键字:

对抗攻击算法