-
2021-10-24 09:51:35
一、 图对抗攻击
按照攻击算法在图中添加扰动的不同阶段,可以将图对抗攻击分为两类,分别为逃逸攻击和投毒攻击。其中逃逸攻击是攻击者构造对抗样本在模型测试简短欺骗目标模型,而投毒攻击是攻击者在模型训练阶段向训练集中注入对抗样本,使得训练后的模型具有误导性。
经典的图对抗攻击主要有如下几种:
Nettack:利用图卷积网络的梯度信息修改图数据,使得目标节点被错误分类为指定类别。这种攻击方法是对属性图进行攻击的算法。
Metattack:利用元学习将图作为优化目标产生用于攻击的图数据。
RL-S2V:将强化学习引入图对抗攻击,把攻击过程抽象成为马尔可夫决策过程。
Q-Attack:利用遗传算法攻击链路预测模型的攻击方法。二、 图对抗防御算法
根据现有模型采用的不同防御策略,可以分为四类,分别为:攻击检测、
对抗训练、可认证鲁棒性和免疫防御。2.1 攻击检测
通过检测并消除图数据中的恶意节点和边,从而恢复近似原始图的数据来提高GNN模型的鲁棒性。主要方法有如下几种:
GraphSAC:随机子图抽样共识机制;限制随机抽样的次数。优点:随机采样子图可以并行运行,同时通过限制采样字数保证性能,因此算法可扩展至大规模图。缺点:由于模型使用了半监督学习模块,因此需要保证抽样子图中有足够多的节点被正确分类。应用于异常检测。
CRIAGE:通过添加或删除知识图谱中改变目标预测的“扰动事实”,为了提高算法效率,构造解码器还原知识图谱嵌入的拓扑信息和特征信息,基于梯度算法识别“扰动事实”。优点:通过识别出对目标事实最具影响力的相关事实,为模型的预测提供了可解释性。缺点:模型引入额外的自编码器模型,用于将嵌入解码为相应的子图,导致训练较复杂。应用于链路预测。
GraphRFI:利用GCN和神经随机森林构建端到端的学习系统。其中GCN模块利用用户信息和评价信息来捕获用户的爱好信息,随机森林模块用于检测恶意用户。优点:欺诈者检测模块的结果可以用于确定用户评分数据在推荐组件中的权重,以统一的方式进行鲁棒性的推荐和恶意用户检测。缺点:模型包含较多全连接层,需要较高的计算资源;模型表现与嵌入的维度有关,维度增加引入的过多网络参数可能导致过拟合问题。应用于推荐系统。2.2 对抗训练
对抗训练则是通过在训练数据集中添加扰动样本进行训练以增强模型的泛化能力。主要有如下几种:
GraphAT:基于图动态正则化进行对抗训练。优点:通过减小被攻击的目标与邻居间的预测差异,使预测结果更为平滑,显著增强了模型的泛化能力。缺点:异构图的异构型导致模型在异构图数据集上性能不佳。可能会加剧模型欠拟合。应用于节点分类。
DWNS_AdvT:在嵌入空间中添加扰动进行对抗训练。优点:在离散空间中强制重构对抗样本,从而增加了对抗训练过程的可解释性。缺点:限制扰动的方向为图节点嵌入的子集。在一定程度上消弱了正则化的效果。应用于图嵌入。
GraphDefense:在对抗训练中使用部分预测标签作为训练标签。优点:利用邻近采样的思想,可扩展性好,可用于大规模图。缺点:在对抗训练时需要保证对抗样本和原始图在数据集中有合适的比例。应用于图分类。
LAT-GCN:对网络隐藏层输出注入扰动进行对抗训练。优点:不需要针对图结构进行对抗修改,通过修改网络中的潜在表示,降低扰动注入计算的复杂度。缺点:由于是在网络的隐藏层注入连续空间的扰动来获得对抗样本,因此此模型的解释性较差。应用于节点分类和链路预测。
GCNSVAT:对GCN损失函数运用VAT正则化。优点:利用半监督学习分类充分利用未标记数据,可用于含有较多未标记节点的图中。缺点:仅考虑特征攻击,而目前更多的攻击算法采用拓扑攻击,因此具有较大局限性。应用于节点分类。2.3 可认证鲁棒性
可认证鲁棒性是通过验证GNN或节点的鲁棒性来了解图数据的攻击容忍度。
PH-U:为节点提供证书确保节点属性受到扰动时不改变预测结果。优点:利用线性规划的对偶性,提高证书计算的效率,可以为大多数节点提供严格鲁棒性证书。缺点:仅考虑特征攻击,没有考虑更为常见的拓扑攻击,因此实用性较差。应用于节点分类。
LOU:通过随机扰动图结构提高社团探测算法的鲁棒性。优点:认证值计算严格,可以使社团探测模型对拓扑攻击具有鲁棒性,从而同时防御分裂攻击和合并攻击。缺点:准确率相比原社团探测模型较低,需要在精确性和健壮性之间进行折中。应用于社团检测。2.4 免疫防御
目前多数防御算法采用修改模型策略,部分算法利用进化数据的策略来提高模型性能,这几种策略由于可以防御针对模型训练阶段的攻击,因此可以统称为免疫防御。
更多相关内容 -
【论文阅读】一.图对抗攻击研究综述
2021-04-28 15:08:31文章目录一、文章信息概述1.文章概述2.论文来源3.作者/团队介绍二、论文笔记整理1.对抗攻击算法分类1.1....本文是一篇关于图对抗攻击的综述类的文章,且为中文,适合入门阅读。 2.论文来源 条目笔记目录
一、文章信息概述
1.文章概述
本文是一篇关于图对抗攻击的综述类的文章,且为中文,适合入门阅读。
2.论文来源
条目 内容 论文链接 来自知网 期刊/会议[影响因子/级别] 计算机工程与应用 Google scholar引用次数[日期] / 3.作者/团队介绍
条目 作者信息 第1作者[团队/机构] 翟正利/青岛理工大学 二、论文笔记整理
1.对抗攻击算法分类
1.1.白盒攻击/黑盒攻击
根据攻击者对目标模型的了解,分为:
白盒攻击:攻击者完全了解模型信息的情况下进行的攻击。(真实环境中,模型或者训练集可能是不公开的,所以白盒攻击较少)
黑盒攻击:攻击者部分了解甚至完全不了解目标模型情况下进行的攻击。1.2.逃逸攻击/投毒攻击
根据攻击发生的不同阶段,分为:
逃逸攻击:发生在模型测试阶段(在进行预测时,对模型进行攻击,导致模型预测时不准确)
投毒攻击:发生在模型训练阶段(在进行训练时,对训练数据进行污染投毒,导致模型训练的不好)1.3.定向攻击/非定向攻击
根据攻击的目标,分为:
定向攻击:攻击后模型输出指定攻击预设值。
非定向攻击:攻击后模型输出任意错误值。
【理解:猫、狗、鸡、鸭4个分类,原来实际是猫,我要求错误分类成鸡,这是定向攻击;只要分类不是猫,那这是非定向攻击】1.4.拓扑攻击/特征攻击/混合攻击
根据攻击方式,分为:
拓扑攻击(结构攻击):修改图结构进行攻击(如添加节点之间的连边,删除节点之间的连边)。
特征攻击:修改节点特征进行攻击(节点数不变,边数不变,保留了拓扑结构)。
混合攻击:拓扑攻击+特征攻击(综合利用拓扑攻击和特征攻击,如:伪造新节点注入图中,bong添加新节点与原始图中节点之间的边)。2.攻击算法的应用
节点分类、节点嵌入、链路预测、社团探测、推荐系统、图嵌入、图分类、恶意软件检测
3.图对抗攻击面临的挑战
3.1.应用多样性
目前对图对抗攻击研究比较多的集中在:节点分类和链路预测,而像社团探测、图分类、推荐系统,研究的较少。
3.2.攻击的可扩展性
目前大多数攻击都是针对静态图设计的,如何攻击大规模图、动态图、异构图是个挑战。
3.3.攻击的可转移性
因为训练代理模型时,需要拥有被攻击模型更多的训练集,而训练集有时候并不是公开的,所以如何在较少的样本或者零样本情况下获得对抗样本,是一个重要的研究方向。
3.4.攻击的通用性
能够设计出一种通用的扰动操作、降低扰动设计的代价。
【理解】设计一种同样的扰动,攻击A类图有效,攻击B类图也有效.3.5.攻击的可行性
现实系统中,攻击模型面临复杂的限制。
①训练数据集并不会公开,只能进行黑盒攻击;而频繁获取被攻击模型的输出,也会引起防御机制的察觉。
②社交网络中,并不能轻易获得与陌生人间连接的许可;在推荐系统中,插入过多虚假的节点,可能会破坏原始图属性引起检测系统的警觉。3.6.扰动的度量标准
图像的扰动,只要人的肉眼可能难以察觉就可以;但图的扰动,节点和边发生变化,人花费一定时间是会发现在哪儿进行了扰动的。所以如何确定一个度量的标准。
-
图神经网络对抗攻击与防御
2020-12-23 09:45:30图神经网络对抗攻击与防御PPT,分享了Nettack和GNNGUARD -
基于图的对抗式攻击和防御(Adversarial attacks and defenses on graphs).pdf
2020-03-05 12:42:48在这篇综述中,我们对目前的攻击和防御进行了分类,以及回顾了相关表现优异的模型。最后,我们开发了一个具有代表性算法的知识库,该知识库可以使我们进行相关的研究来加深我们对基于图的攻击和防御的理解。 -
对抗攻击与防御 (1):图像领域的对抗样本生成
2022-04-25 18:29:28相较于其他领域,图像领域的对抗样本生成有以下优势:...本文以全连接网络和卷积神经网络为例,以MNIST、CIFAR10,以及ImageNet为基础样本,研究基于逃避对抗,包括白盒、黑盒、灰盒,以及物理攻击的图像对抗样本生成。文章目录
- 1 引入
- 2 白盒攻击
- 2.1 Biggio
- 2.2 Szegedy's limited-memory BFGS (L-BFGS)
- 2.3 Fast gradient sign method (FGSM)
- 2.4 DeepFool
- 2.5 Jacobian-based saliency map attack (JSMA)
- 2.6 Basic iterative method (BIM) / Projected gradient descent (PGD) attack
- 2.7 Carlini & Wagner′s attack (C&W′s attack)
- 2.8 Ground truth attack
- 2.9 其他 l p l_p lp攻击
- 2.10 全局攻击 (universal attack)
- 2.11 空间转换攻击 (spatially transformed attack)
- 2.12 无约束对抗样本
- 3 物理世界攻击
- 4 黑盒攻击
- 5 灰盒攻击
- 6 中毒攻击
- 参考文献
1 引入
相较于其他领域,图像领域的对抗样本生成有以下优势:
1)真实图像与虚假图像于观察者是直观的;
2)图像数据与图像分类器的结构相对简单。
主要内容:以全连接网络和卷积神经网络为例,以MNIST、CIFAR10,以及ImageNet为基础样本,研究基于逃避对抗,包括白盒、黑盒、灰盒,以及物理攻击的图像对抗样本生成。2 白盒攻击
攻击者接收到分类器 C C C与受害样本 (victim sample) ( x , y ) (x,y) (x,y) 后,其目标是合成一张在感知上与原始图像相似,但可能误导分类器给出错误预测结果的虚假图像:
找到 x ′ 满足 ∥ x ′ − x ∥ ≤ ϵ , 例 如 C ( x ′ ) = t ≠ y , (1) \tag{1} \text{找到}x'\text{满足}\|x'-x\|\leq\epsilon,\ 例如C(x')=t\neq y, 找到x′满足∥x′−x∥≤ϵ, 例如C(x′)=t=y,(1)其中 ∥ ⋅ ∥ \|\cdot\| ∥⋅∥用于度量 x ′ x' x′与 x x x的不相似性,通常为 l p l_p lp范数。接下来介绍该攻击手段下的主要方法。2.1 Biggio
在MNIST数据集上生成对抗样本,攻击目标是传统的机器学习分类器,如SVM和3层全连接神经网络,且通过优化判别函数来误导分类器。
例如图1中,对于线性SVM,其判别函数 g ( x ) = < w , x > + b g(x)=<w,x>+b g(x)=<w,x>+b。假设有一个样本 x x x被正确分类到3。则对于该模型,biggio首先生成一个新样本 x ′ x' x′,其在最小化 g ( x ′ ) g(x') g(x′)的同时保持 ∥ x ′ − x ∥ 1 \|x'-x\|_1 ∥x′−x∥1最小。如果 g ( x ′ ) < 0 g(x')<0 g(x′)<0, x ′ x' x′将被误分类。图1:Biggio攻击在SVM分类器上的示意 2.2 Szegedy’s limited-memory BFGS (L-BFGS)
首次应用在用于图像分类的神经网络上,其通过优化以下目标来寻找对抗样本:
min ∥ x − x ′ ∥ 2 2 s.t. C ( x ′ ) = t and x ′ ∈ [ 0 , 1 ] m . (2) \tag{2} \begin{array}{l} & \min &\|x-x'\|_2^2\qquad \text{s.t.} C(x') = t\ \text{and }x'\in[0,1]^m. \end{array} min∥x−x′∥22s.t.C(x′)=t and x′∈[0,1]m.(2) 通过引入损失函数来近似求解该问题:
min λ ∥ x − x ′ ∥ 2 2 + L ( θ . x ′ , t ) , s.t. x ′ ∈ [ 0 , 1 ] m , (3) \tag{3} \min\ \lambda\|x-x'\|_2^2+\mathcal{L}(\theta.x',t), \qquad\text{s.t. }x'\in[0,1]^m, min λ∥x−x′∥22+L(θ.x′,t),s.t. x′∈[0,1]m,(3)其中 λ \lambda λ是一个规模参数。通过调整 λ \lambda λ,可以找到一个与 x x x足够相似的 x ′ x' x′,且同时误导分类器 C C C。2.3 Fast gradient sign method (FGSM)
Goodfellow等人设计了一个一步到位的快速对抗样本生成方法:
x ′ = x + ϵ sign ( ∇ x L ( θ , x , y ) ) , 非目标 x ′ = x − ϵ sign ( ∇ x L ( θ , x , t ) ) , 目标 t (4) \tag{4} \begin{aligned} &x'=x+\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,y)),\qquad\text{非目标}\\ &x'=x-\epsilon\text{ sign}(\nabla_x\mathcal{L}(\theta,x,t)),\qquad\text{目标}t \end{aligned} x′=x+ϵ sign(∇xL(θ,x,y)),非目标x′=x−ϵ sign(∇xL(θ,x,t)),目标t(4) 在目标攻击设计下,该问题可以通过一步梯度下降求解:
min L ( θ , x ′ , t ) s.t. ∥ x ′ − x ∥ ∞ and x ′ ∈ [ 0 , 1 ] m . (5) \tag{5} \min\mathcal{L}(\theta,x',t)\qquad\text{s.t. }\|x'-x\|_\infty\text{ and }x'\in[0,1]^m. minL(θ,x′,t)s.t. ∥x′−x∥∞ and x′∈[0,1]m.(5) FGSM快速的一个原因是其仅需一次反向传播,因此适应于生成大量对抗样本的情况,其在ImageNet上的应用如图2。
图2:只需一些扰动,熊猫图便会被误判 2.4 DeepFool
研究分类器 F F F围绕数据点的决策边界,试图找到一条可以超越决策边界的路径,如图3,从而误分类样本点 x x x。例如,为误判类别为4的样本 x 0 x_0 x0到类别3,决策边界可以被描述为 F 3 = { z : F ( x ) 4 − F ( x ) 3 = 0 } \mathcal{F}_3=\{ z:F(x)_4 - F(x)_3 = 0 \} F3={z:F(x)4−F(x)3=0}。令 f ( x ) = F ( x ) 4 − F ( x ) 3 f(x)=F(x)_4 - F(x)_3 f(x)=F(x)4−F(x)3,在每次攻击中,它将使用泰勒展开 F 3 ′ = { x : f ( x ) ≈ f ( x 0 ) + < ∇ x f ( x 0 ) − ( x − x 0 ) > = 0 } \mathcal{F}_3'=\{ x:f(x)\approx f(x_0) + < \nabla_xf(x_0)-(x-x_0)>=0 \} F3′={x:f(x)≈f(x0)+<∇xf(x0)−(x−x0)>=0}来线性化决策超平面,并计算 ω 0 \omega_0 ω0到超平面 F 3 ′ \mathcal{F}_3' F3′的正交向量 ω \omega ω。向量 ω \omega ω可以作为扰动使得 x 0 x_0 x0游离于超平面。通过移动 ω \omega ω,算法将找到可以被分类为3的对抗样本 x 0 ′ x_0' x0′。
图3:决策边界 DeepFool的实验结果展示,对于一般性的DNN图像分类器,所有的测试样本都非常接近决策边界。例如LeNet在MNIST数据集上训练好后,只需些许扰动,超过90%的样本都将被误分类,这表面DNN分类器对扰动是不健壮的。
2.5 Jacobian-based saliency map attack (JSMA)
JSMA介绍了一种基于计算评分函数 F F F雅可比矩阵的方法,其迭代地操作对模型输出影响最大的像素,可被视为一种贪心攻击算法。
具体地,作者使用雅可比矩阵 J F ( x ) = ∂ F ( x ) ∂ x = { ∂ F j ( x ) ∂ x i } i × j \mathcal{J}_F(x)=\frac{\partial F(x)}{\partial x}=\left\{ \frac{\partial F_j(x)}{\partial x_i} \right\}_{i\times j} JF(x)=∂x∂F(x)={∂xi∂Fj(x)}i×j来对 F ( x ) F(x) F(x)响应 x x x变化时的改变建模。在目标攻击设置下,攻击者试图将样本误分类为 t t t。因此,JSMA反复地搜索和操作这样的像素,其增加/减少将导致 F t ( x ) F_t(x) Ft(x)增加/减少 ∑ j ≠ t F j ( x ) \sum_{j\neq t} F_j(x) ∑j=tFj(x)。最终分类器将在类别 t t t上给 x x x更大的分数。2.6 Basic iterative method (BIM) / Projected gradient descent (PGD) attack
该方法是FGSM的迭代版本,在非目标攻击下,将迭代性地生成 x ′ x' x′:
x 0 = x ; x t + 1 = C l i p x , ϵ ( x t + α sign ( ∇ x L ( θ , x t , y ) ) ) (6) \tag{6} x_0=x; x^{t+1}=Clip_{x,\epsilon}(x^t+\alpha\text{ sign}(\nabla_x\mathcal{L}(\theta,x^t,y))) x0=x;xt+1=Clipx,ϵ(xt+α sign(∇xL(θ,xt,y)))(6) 这里的 C l i p Clip Clip表示将接收内容投影到 x x x的 ϵ \epsilon ϵ邻域超球 B ϵ ( x ) : { x ′ : ∥ x ′ − x ∥ ∞ ≤ ϵ } B_\epsilon(x):\{ x':\|x'-x\|_\infty\leq \epsilon \} Bϵ(x):{x′:∥x′−x∥∞≤ϵ}的函数。步长 α \alpha α通常被设置为一个相当小的值,例如使得每个像素每次只改变一个单位,步数用于保证扰动可以到达边界,例如 s t e p = ϵ a l p h a + 10 step=\frac{\epsilon}{alpha}+10 step=alphaϵ+10。如果 x x x是随机初始化的,该算法也可被叫做PGD。
BIM启发性地于样本 x x x邻域 l ∞ l_\infty l∞内搜寻具有最大损失的样本 x ′ x' x′,这样的样本也被称为“最具对抗性”样本:当扰动强度被限定后,这样的样本有最强的攻击性,其最可能愚弄分类器。找到这样的对抗样本将有助于探测深度学习模型的缺陷。2.7 Carlini & Wagner′s attack (C&W′s attack)
C&W′s attack用于对抗在FGSM和L-BFGS上的防御策略,其目标是解决L-BFGS中定义的最小失真扰动。使用以下策略来近似公式2:
min ∥ x − x ′ ∥ 2 2 + c ⋅ f ( x ′ , t ) , s.t. x ′ ∈ [ 0 , 1 ] m , (7) \tag{7} \min \|x-x'\|_2^2+c\cdot f(x',t),\qquad\text{s.t. }x'\in[0,1]^m, min∥x−x′∥22+c⋅f(x′,t),s.t. x′∈[0,1]m,(7)其中 f ( x ′ , t ) = ( max i = t Z ( x ′ ) i − Z ( x ′ ) t ) + f(x',t)=(\max_{i=t}Z(x')_i-Z(x')_t)^+ f(x′,t)=(maxi=tZ(x′)i−Z(x′)t)+, Z ( ⋅ ) Z(\cdot) Z(⋅)用于获取softmax前的网络层输入。通过最小化 f ( x ′ , t ) f(x',t) f(x′,t)可以找到一个在类别 t t t上得分远大于其他类的 x ′ x' x′。接下来运用线性搜索,将找到一个离 x x x最近的 x ′ x' x′。
函数 f ( x , y ) f(x,y) f(x,y)可以看作是关于数据 ( x , y ) (x,y) (x,y)的损失函数:可以惩罚一些标签 i i i的得分 Z ( x ) i > Z ( x ) y Z(x)_i>Z(x)_y Z(x)i>Z(x)y的情况。C&W’s attack与L-BFGS的唯一区别是前者使用 f ( x , t ) f(x,t) f(x,t)来代替后者的交叉熵 L ( x , t ) \mathcal{L}(x,t) L(x,t)。这样的好处在于,当分类器输出 C ( x ′ ) = t C(x')=t C(x′)=t时,损失 f ( x ′ , t ) = 0 f(x',t)=0 f(x′,t)=0,算法将直接最小化 x ′ x' x′到 x x x的距离。
作者宣称他们的方法是最强的攻击策略之一,其击败了很多被反击手段。因此,该方法可以作为DNN安全检测的基准点,或者用于评估对抗样本的质量。2.8 Ground truth attack
攻击与防御针锋相对,为了打破这种僵局,Carlini等人试图找到一种最强攻击,其用于寻找理论上的最小失真对抗样本。该攻击方法基于一种用于验证神经网络特性的算法,其将模型参数 F F F和数据 ( x , y ) (x,y) (x,y)编码为类线性编程系统的主题,并通过检查样本 x x x的邻域 B ϵ ( x ) B_\epsilon(x) Bϵ(x)是否存在一个能够误导分类器的样本 x ′ x' x′来处理该系统。通过缩小邻域直至不存在 x ′ x' x′,那么由于最后一次搜寻到的 x ′ x' x′与 x x x之间具有最小不相似性,此时的 x ′ x' x′便被叫做基本事实对抗样本 (ground truth adversarial example)。
Ground truth attack是首次严肃精确分类器健壮性的方法。然而,这种方法使用了可满足性模理论 (satisfiability modulo theories, SMT) 求解器 (一种检查一系列理论可满足性的复杂算法),这将使其速度缓慢且无法扩展到大型网络。后续则有工作着手提升其效率效率。2.9 其他 l p l_p lp攻击
2.1–2.8的攻击方式主要关注 l 2 l_2 l2或 l ∞ l_\infty l∞约束下的扰动,这里则介绍一些其他的:
1)One-pixel attack:与L-BFGS区别在于约束种使用 l 0 l_0 l0,好处是可以限制允许改变的像素的数量。该工作展示,在CIFAR10数据集上,仅需改变一个像素就可以令训练良好的CNN分类器预判一半以上的样本;
2)Elastic-net attack (ENA):与L-BFGS的区别在于同时使用 l 1 l_1 l1和 l 2 l_2 l2范数来约束。2.10 全局攻击 (universal attack)
2.1–2.9的方法仅对一个特定的样本 x x x进行攻击。而该攻击旨在误导分类器在所有测试集上的结果,其试图找到满足以下条件的扰动 δ \delta δ:
1) ∥ δ ∥ p ≤ ϵ \|\delta\|_p\leq\epsilon ∥δ∥p≤ϵ;
2) R x ∼ D ( x ) ( C ( x + δ ) ≠ C ( x ) ) ≤ 1 − σ \mathbb{R}_{x\sim D(x)}(C(x+\delta)\neq C(x))\leq1-\sigma Rx∼D(x)(C(x+δ)=C(x))≤1−σ。
在相应实验中,成功找到了一个扰动 δ \delta δ,使得ResNet152网络在ILSVRC 2012数据集上的 85.4 % 85.4\% 85.4%的样本受到攻击。2.11 空间转换攻击 (spatially transformed attack)
传统的对抗性攻击算法直接修改图像中的像素,这将改变图像的颜色强度。空间转换攻击通过在图像上添加一些空间扰动来进行攻击,包括局部图像特征的平移扭曲、旋转,以及扭曲。这样的扰动足以逃避人工检测,亦能欺骗分类器,如图4。
图4:空间转换攻击 2.12 无约束对抗样本
2.1–11的工作均在图像上添加不引入注意的扰动,该工作则生成了一些无约束的对抗样本:这些样本无需看起来和受害图像类似,而是能够愚弄分类器且在观察者眼中合法的图像。
为了攻击分类器 C C C,增强类对抗生成网络 (AC-GAN) G \mathcal{G} G首先基于 c c c类噪声向量 z 0 z^0 z0生成一个合法样本 x x x。然后找到一个接近 z 0 z^0 z0的噪声向量 z z z,其使得 G ( z ) \mathcal{G}(z) G(z)可以误导 C C C。由于 z z z在潜在空间中与 z 0 z^0 z0相似,输出 G ( z ) \mathcal{G}(z) G(z)依然具备标签 y y y,从而达到攻击的目的。3 物理世界攻击
章节2中的所有攻击方法都以数字形式应用,其被攻击方将输入图像直接提供给机器学习模型。然而,在某些情况下并非总是如此,例如使用摄像头、麦克风或其他传感器接收信号作为输入的情况。这种情况下依然通过生成物理世界对抗对象来攻击这些系统吗?这样的攻击方式是存在的,例如将贴纸贴在道路标志上,这会严重威胁自动驾驶汽车的标志识别器。这类对抗性对象对深度学习模型的破坏性更大,因为它们可以直接挑战DNN的许多实际应用,例如人脸识别、自动驾驶等。
3.1 物理世界的对抗样本探索
例如通过检查生成的对抗图像 (FGSM、BIM) 在自然变换 (如改变视点、光照等) 下是否“稳健”来探索制作物理对抗对象的可行性。在这里,“健壮”是指制作的图像在转换后仍然是对抗性的。为了应用这种转换,首先打印出精心制作的图像,并让测试对象使用手机为这些打印输出拍照。在这个过程中,拍摄角度或光照环境不受限制,因此获取的照片是从先前生成的对抗样本转换而来的样本。实验结果表明,在转换后,这些对抗样本中的很大一部分,尤其是FGSM生成的样本,仍然与分类器对抗。这些结果表明物理对抗对象的可能性可以在不同环境下欺骗传感器。
3.2 道路标志的Eykholt攻击
图5中,通过在信号标志的适当位置粘贴胶带以愚弄信号识别器。作者的攻击手段包括:
1) 基 于 l 1 基于l_1 基于l1范数的攻击用于粗略定位扰动区域,这些区域后面将粘贴胶带;
2)在粗略定位区域,使用基于 l 2 l_2 l2范数的攻击生成胶带的颜色;
3)指定区域粘贴指定颜色胶带。这样的攻击方式从不同角度不同距离混淆自动驾驶系统。
图5:交通信号标志上粘贴胶带 3.3 Athaly的3D对抗对象
一个成功制作物理3D对抗对象的工作如图 6 所示。作者使用3D打印来制造对抗性乌龟。为了实现目标,他们实施了3D渲染技术。给定一个带纹理的3D对象,首先优化对象的纹理,使渲染图像从任何角度来看都是对抗性的。在这个过程中,还确保扰动在不同环境下保持对抗性:相机距离、光照条件、旋转,以及背景。在找到3D渲染的扰动后,他们打印3D对象的一个实例。
图6:3D对抗对象 4 黑盒攻击
4.1 替换模型
攻击者仅能通过输入样本 x x x后获取的标签信息 y y y来执行攻击。此外,攻击者可以有以下可用信息:
1)分类数据的领域;
2)分类器的框架,例如CNN还是RNN。
该工作探索了对抗样本的可迁移性:一个样本 x ′ x' x′如果可以攻击分类器 F 1 F_1 F1,那么它同样可以攻击与 F 1 F_1 F1结构类似的分类器 F 2 F_2 F2。因此,作者训练了一个替换模型 F ′ F' F′以对受害模型 F F F进行模拟,然后通过攻击 F ′ F' F′来生成对抗样本,其主要步骤如下:
1)合成替换训练数据集:例如手写识别任务中,攻击者可以复刻测试样本或者其他手写数据;
2)训练替换模型:将合成数据集 X X X输入受害者模型以获取标签 Y Y Y,随后基于 ( X , Y ) (X,Y) (X,Y)训练DNN模型 F ′ F' F′。攻击者将基于自身知识,从训练模型中选择一个与受害者模型结构最相似的 F ′ F' F′;
3)数据增强:迭代增强 ( X , Y ) (X,Y) (X,Y)并重训练 F ′ F' F′。这个过程将提升复刻数据的多样性并提升 F ′ F' F′的精度;
4)攻击替换模型:利用已有方法如FGSM来攻击 F ′ F' F′,生成的对抗样本将用于戏耍 F F F😏
应该选择如何的攻击方法攻击 F ′ F' F′?一个成功的替换模型黑盒攻击应当具备可迁移性,因此我们选择具有高迁移性的攻击方法如FGSM、PGD,以及动量迭代攻击。4.2 ZOO:基于零阶优化的黑盒攻击
该方法假设可以从分类器获取预测置信度,这种情况下便无需建立替换数据集和替换模型。Chen等人通过调整 x x x的像素来观测 F ( x ) F(x) F(x)的置信度变化,以获取 x x x相关的梯度信息。如公式8所示,通过引入足够小的扰动 h h h,我们能够通过输出信息来推着梯度信息:
∂ F ( x ) ∂ x i ≈ F ( x + h e i ) − F ( x − h e i ) 2 h . (8) \tag{8} \frac{\partial F(x)}{\partial x_i}\approx\frac{F(x+he_i)-F(x-he_i)}{2h}. ∂xi∂F(x)≈2hF(x+hei)−F(x−hei).(8) ZOO相较于替换模型更成功的地方在于可以利用更多的预测信息。4.3 高效查询黑盒攻击
4.1-2中的方式需要多次查询模型的输出信息,这在某些应用中是禁止的。因此在有限次数内提高黑盒攻击对抗样本的生成效率是有必要的。例如引入自然进化策略来高效获取梯度信息,其基于 x x x的查询结果进行采样,然后评估 F F F的梯度在 x x x上的期望。此外,他们利用遗传算法来为对抗样本搜寻受害图像的邻域。
5 灰盒攻击
灰盒攻击的策略,例如,首先针对感兴趣模型训练一个GAN,然后直接基于对抗生成网络生成对抗样本。该作者认为基于GAN的攻击方式能够加速对抗样本的生成,且能获取更多自然且不易察觉的图像。随后这种策略也被用于人脸识别系统的入侵上。
6 中毒攻击
已有的讨论均是在分类器训练后进行,中毒攻击则在训练前生成对抗样本:生成一些对抗样本嵌入到训练集中,从而降低分类模型的总体精度或者影响特定类别的样本。通常,该设置下的攻击者拥有后续用于训练中毒数据的模型结构。中毒攻击通常用于图神经网络,这些因为它需要特定的图知识。
6.1 Biggio在SVM上的中毒攻击
找到这样的一个样本 x c x_c xc,其混入训练数据后,将导致习得的SVM模型 F x c F_{x_c} Fxc在验证集上有很大的损失。这样的攻击方法对SVM是奏效的,然而对于深度学习,找到这样的一个样本是困难的。
6.2 Koh的模型解释
Koh和Liang引入一种神经网络的解释方法:如果训练样本改变,模型的预测结果会有如何的变化?当只修改一个训练样本时,他们的模型可以明确量化最终损失的变化,而无需重新训练模型。 通过找到对模型预测有很大影响的训练样本,这项工作可以自然地用于中毒攻击。
6.3 毒青蛙 (poison frogs)
毒青蛙在训练集中混入一张带有真实标签的对抗图像,从而到达错误的预测测试集的目的。给定一个标签为 y t y_t yt的目标测试样本 x t x_t xt,攻击者首先使用标签为 y b y_b yb的基准样本 x b x_b xb,并通过以下优化找到 x ′ x' x′:
x ′ = arg min x ∥ Z ( x ) − Z ( x t ) ∥ 2 2 + β ∥ x − x b ∥ 2 2 (9) \tag{9} x'=\argmin_x\|Z(x)-Z(x_t)\|_2^2+\beta\|x-x_b\|_2^2 x′=xargmin∥Z(x)−Z(xt)∥22+β∥x−xb∥22(9) 由于 x ′ x' x′与 x b x_b xb最近,基于训练集 X t r a i n + { x } ′ X_{train}+\{x\}' Xtrain+{x}′训练的模型将会把 x ′ x' x′预测为 y b y_b yb。使用新模型去预测 x t x_t xt,优化目标将会强制拉近 x t x_t xt与 x ′ x' x′的预测得分,即将 x t x_t xt预测为 y b y_b yb。参考文献
【1】Adversarial Attacks and Defenses in Images, Graphs and Text: A Review
-
EWR-PGD:白盒对抗攻击
2021-05-24 22:36:37我们提出了一种新的名为EWR-PGD的白盒对抗攻击方法,该方法超越了最新的攻击性能。 它比最新的方法更有效。 代码即将推出。 EWR-PGD和ODI-PGD的比较 当将模型降低到相同的精度时,EWR-PGD所需的重新启动次数明显... -
面向图神经网络的对抗攻击与防御综述.docx
2022-05-28 07:21:16面向图神经网络的对抗攻击与防御综述.docx -
图神经网络对抗攻击的综述
2021-08-25 16:46:50摘要 最近的研究发现,图神经网络(GNN)容易受到对抗攻击。通过对原始图做修改,可以使得GNN最后得到错误的预测结果。GNN的这种脆弱性使得很多对于安全性要求很高的应用场景都开始产生担忧,很多人也开始在这个方面...摘要
最近的研究发现,图神经网络(GNN)容易受到对抗攻击。通过对原始图做修改,可以使得GNN最后得到错误的预测结果。GNN的这种脆弱性使得很多对于安全性要求很高的应用场景都开始产生担忧,很多人也开始在这个方面做研究。所以很有必要对已有的图对抗攻击做一个overview,并且采取一定的对抗手段。在本文中,作者对已有的攻击和防御做了分类,并且总结了相关的state-of-art方法。
Introduction
图在很多的领域都有应用,比如社会科学(社交网络),自然科学(物理系统和蛋白质网络)和知识图谱。随着图神经网络的兴起,需要对于相关的下游任务做研究,这些下游任务包括节点分类,图分类,链路预测和推荐。GNN是将深度学习应用于图领域,来学习图表示。GNN的魅力在于它可以同时学习图结构和结点特征,而不是单单的学习结点的表示。具体来说,GNN是使用了一种消息传递方案,那就是每一层的结点都会聚合该结点周围邻居的信息。GNN通过使用多层,可以使得信息在整个的图结构上进行传播,并且可以将结点嵌入表达成低维表示。结点的表示之后可以被输入到任何的预测层从而使得整个模型是一个end-to-end形式的。由于GNN具有极强的学习能力,所以它在数据挖掘,自然语言处理,计算机视觉,健康防护以及生物学上都有应用。
跟传统的DNN类似的是,GNN也可以很好的学习图的表示。传统的DNN就很容易受到对抗攻击。换句话说,对抗攻击可以在训练或者是测试阶段加入微小的扰动,然后DNN模型就会发生预测的失误。很明显的是,GNN也有这种脆弱性。而这种脆弱性会给一些金融系统或者是风险管理系统 带来很大的挑战。例如,在一个信用评估系统中,一些欺诈用户可以通过建立自己跟一些信用高的用户之间的联系从而躲避一些欺诈检测。垃圾广告者也可以通过创建一些假(fake)的关注者从而使得假新闻可以更好的在网络中被传播。因此,现在迫切需要来研究图对抗攻击和防御。定义
node-level的分类:图神经网络中的节点分类是,基于已有的带标签的训练集(例如 V L V_L VL)来学习一个图模型,再使用这个模型对测试集进行分类。训练的目标函数可以就是一个交叉熵损失函数。
很少有人讨论基于图分类的对抗攻击,这是因为,本来大家就更加关注于节点分类,而且图分类攻击存在很多挑战,一个是图结构是很抽象的,而且图中的结点之间并不独立,而且对于图的扰动很难判断这个扰动是可见还是不可见。白盒攻击
(1)有目标攻击
FGA方法就是直接从GCN中提取链路梯度信息,然后贪婪的选择有最大梯度的结点对,再对图进行修改。基于Q-Attack的遗传算法就是直接攻击社区检测算法。基于梯度信息的IGA方法是直接利用图编码器中的梯度信息来攻击链路预测的结果。基于GNN的推荐系统也容易受到对抗攻击。之前的对于图像的对抗攻击是直接计算模型的梯度来找到对抗样本,但是因为图数据的抽象属性,直接计算模型的梯度是会出错的。所以就有人提出来,通过使用整合梯度来更好的找到对抗边和特征扰动。在攻击阶段,攻击者会迭代的寻找最有效的边和特征来造成最强的攻击效果。在图中,有一部分结点叫做“bad actor”结点,会对GNN模型带来很大的威胁。比如,在维基百科中,有一部分假文章和真实的文章之间的连接很少,只要可以修改这部分假文章的连接就可以使得系统对真实的文章产生错误预测结果。
(2)无目标攻击
目前,在无目标的白盒攻击领域还没有太多的研究,topology attack(拓扑攻击)就是其中的一个代表。它会构造一个二元的对称扰动矩阵S,其中每个位置的元素可以是0也可以是1。如果是1的话就表示要对i,j这条边做翻转(有边则去边,无边则加边),如果是0就不需要做修改。在整个过程中,它使用了PGD算法来寻找最优的S。所以这个过程就可以转变成一个min-max的问题,内部就对攻击损失函数做最大化,外部就通过PGD做最大化。
灰盒攻击
(1)有目标攻击
早期的有目标灰盒攻击工作包括图聚类。通过对DNS系统加入噪声来降低模型的表现。后来就有人提出了Nettack攻击方法。这个方法是直接最大化一个损失函数。
直接就最大化目标节点v分类成为i标签的概率,并且一直重复这个优化过程,直到扰动达到了最大扰动限制。并且作者也发现,这种图攻击是可以从一个模型迁移到另一个模型的。(感觉黑盒攻击会比较注重迁移性) 作者也做了对比实验,发现直接修改目标节点比修改目标节点周围的结点要有效很多。
但是Nettack方法不能对大规模的图进行攻击,因为它的时间复杂性比较高。之后提出了Fasttack攻击方法可以对较大规模的图进行攻击。直接就是对所有的扰动进行排序,最终选择可以造成最大影响的扰动。之后提出的AFGSM方法有更低的时间成本,可以往图中线性的添加对抗结点。
有一部分人在研究对于图的后门攻击。在实施后门攻击的时候,攻击者会在训练样本中注入trigger从而实现对这部分样本的误分类,并且使得测试样本也能被误分类。(2)无目标攻击
Metattack是一种无目标的投毒攻击,它是使用meta-gradient元梯度。它是直接将图结构矩阵视作是一个超参数,直接就对图结构进行求导。之后就提出了一种NIPA方法,直接往图中注入假的结点。
黑盒攻击
(1)有目标攻击
RL-S2V是第一个使用强化学习来做黑盒攻击的。对于node-level的攻击而言,定义了状态state,行为action,奖励reward等。这篇工作不是攻击node-level的分类,而是直接攻击节点嵌入模型。通过直接最大化无监督的DeepWalk损失函数值。并且作者也指出,这种产生扰动的方法可以迁移到其他GCN以及标签传播模型。
(2)无目标攻击
只限制修改的边的数目并不能保证加的扰动是足够不可见的,所以ReWatt方法提出来了,是为了让扰动更加的不可见,实施的是无目标的graph-level的攻击。这种方法是直接对图上的边进行重新规划而不是直接删边或者减边,从而使得扰动更加的不可见。比如本来有三个结点v1,v2和v3,可以把v1和v2之间的连边去掉,把v1和v3之间加上连边。这样的话,图上的结点数目没有被修改,边的数目也没有被修改。
为了使得图对抗攻击可以更加的现实,之后有工作是基于一个前提,那就是攻击者只能修改一个很小的结点集合。而基于这个前提,就是先选择一个有限的集合,然后再对结点特征和边进行修改。思考
(1)攻击的时间复杂度不能太高,因为要应用于大规模的图就不能使用太复杂的方法。(攻击复杂度可以考虑)
(2)黑盒攻击要注重迁移性,一个图模型上训练得到的对抗样本可以迁移到其他图模型上。但是目前很少有研究去讨论图对抗样本的迁移性,也就是在一个图模型上产生的对抗样本怎么迁移到另一个图模型上。(迁移性可以考虑)
(3)添加的扰动不能太大,必须要在一定的范围内。但是对于一个图,很难有一个标准来评判它添加的扰动是否是微小的。
(4)要能实现物理攻击,也就是可以在实际中实施这个攻击,而不只是理论上的。
(5)现在已有的研究只考虑到了结点的特征属性,但是没有人研究边的特征属性。 -
针对图像修复的对抗攻击——Markpainting: Adversarial Machine Learning meets Inpainting
2021-10-22 15:16:10针对图像修复的对抗攻击——Markpainting: Adversarial Machine Learning meets Inpainting 这篇论文是arxiv收录的论文。 https://arxiv.org/abs/2106.00660 warning:最好看原文,本文我其实也没有看太明白 ... -
对抗攻击和防御
2021-10-27 12:24:49目录对抗攻击防御References 对抗攻击 在计算机视觉任务中可能存在以下现象,对输入样本故意添加一些人类无法察觉的细微干扰,将会导致模型以高置信度输出一个错误的分类结果,这被称为对抗攻击。对抗攻击的目标是使... -
awesome-graph-attack-papers:图神经网络的对抗性攻击和防御
2021-05-03 06:04:49对应的文章: DeepRobust:一个用于对抗攻击和防御的PyTorch库。 1.调查文件 图的对抗性攻击与防御:回顾与实证研究。 魏进,李亚新,韩寒,王一奇,姬水旺,夏茹·阿格瓦尔,唐继良。 SIGKDD Explorations2020。 ... -
深度学习中的对抗攻击与防御
2021-01-20 05:11:03为此,详细分析了当前经典的对抗攻击手段,主要包括白盒攻击和黑盒攻击。根据对抗攻击和防御的发展现状,阐述了近年来国内外的相关防御策略,包括输入预处理、提高模型鲁棒性、恶意检测。最后,给出了未来对抗攻击与... -
图的对抗性攻击与防御
2020-04-16 19:33:13Adversarial Attacks and Defenses on GraphsA ...(2020-03-03发表文章内容中文翻译)摘要1 介绍2 原则和定义2.1 Learning on Graph Data2.2 图对抗攻击的一般形式2.3 记号3 图形攻击的分类法3.1 攻击者的能力3.2 ... -
机器学习对抗性攻击
2021-02-25 20:57:41在GeekPwn2016硅谷分会场上,来自北美工业界和学术界的顶尖安全专家们针对当前流行的图形对象识别、语音识别的场景,为大家揭示了如何通过构造对抗性攻击数据,要么让其与源数据的差别细微到人类无法通过感官辨识到... -
adversarial-attacks-pytorch:PyTorch对抗攻击的实现
2021-05-12 10:22:53对抗攻击PyTorch 是一个PyTorch库,其中包含对抗性攻击以生成对抗性示例。 干净的图像 对抗形象 目录 推荐的地点和配套 用法 :clipboard: 依存关系 火炬== 1.4.0 Python== 3.6 :hammer: 安装 pip install ... -
AttackAndDefense:攻击和防御再次对抗样本
2021-04-10 13:21:13对抗样本:进攻与防守最近,关于对抗性样本的研究是机器学习中的一个热门话题。 在此存储库中,我只想介绍一些生成对抗性样本的方法以及如何防御它们。注意:还有许多其他有趣的方法,我将在以后的晚些时候进行更新... -
AAAI 2021上与【对抗攻击(Adversarial Attack)】相关的论文(六篇)
2021-02-28 15:35:39基于对抗攻击(Adversarial Attack)相关的接受paper不少,这几年比如 对抗攻击、基于图数据的对抗攻击、NLP、CV上的攻击防御等等一些列前沿的方法和应用受到了很多人的关注,也是当前比较火的topic。 -
对抗攻击与防御入门
2022-07-27 10:32:55对抗样本---深度学习 -
综述:图数据上的对抗攻击与防御
2019-04-27 05:21:35阅读更多,欢迎关注公众号:论文收割机(paper_reader)原文链接:综述:图数据上的对抗攻击与防御 Sun,Lichao,JiWang,PhilipS.Yu,andBoLi."AdversarialAttackandDefenseonGraphData:ASurvey.... -
FaceOff:对面部识别进行物理对抗攻击的步骤
2021-05-09 09:31:46对面部识别进行物理对抗攻击的步骤 在应用蒙版之后,将左侧的输入图像检测为右侧的目标图像。 安装 创建一个虚拟环境 conda create -n facial pip 克隆仓库 git clone https://github.com/392781/Face-Off.git ... -
对抗攻击相关术语
2020-10-10 19:19:41在阅读对抗攻击相关文献的时候,经常遇到一些专业术语,经过查找资料在这里整理下相关笔记。 1.对抗样本/图片(Adversarial Example/Image) 对抗样本/图片指的是在原始样本添加一些人眼无法察觉的噪声,这样的... -
对抗攻击方法一览
2022-04-08 12:47:58但是与此同时,也有人发现神经网络并不像我们预期的那么具有鲁棒性,仅仅在图片中添加一个微笑的扰动就可以改变神经网络最后的预测结果,这些技术被称为对抗攻击。对抗攻击是指在干净的图片中添 -
图像分类白盒对抗攻击技术总结
2022-04-20 16:34:53对抗攻击背景知识2.白盒攻击技术2.1 基于直接优化得攻击方法2.1.1 基于 Box-constrained L-BFGS 的攻击2.1.2 C&W 攻击2.2 基于梯度优化的攻击方法2.2.1 FGSM 攻击(基于一步梯度计算的对抗样本生成算法)2.2.2 I... -
adv-reid:公制对抗攻击与防御
2021-03-06 15:45:21人员重新识别模型对公制对抗攻击的脆弱性 该存储库包含(CVPRW'20)的参考源代码。 有关更多信息,请查阅我们的论文和演示文稿。 由于分类攻击不适用于重新识别,因此根据可用指南的数量和类型,我们建议对度量学习... -
transfer_adv:黑匣子攻击; 对imagenet的无限制对抗攻击
2021-04-06 12:22:03transfer_adv 黑匣子攻击; 对Imagenet的无限制对抗攻击CVPR-2021 AIC-VI:对ImageNet的无限制对抗攻击,请添加目录: 输入数据 - 图片 --dev.csv 结果 -
伪造图像的对抗攻击,从天池大赛说起
2020-09-10 17:30:52比赛名称:安全AI挑战者计划第五期:伪造图像的对抗攻击比赛链接:https://tianchi.aliyun.com/competition/entrance/531812/introd... -
基于生成对抗网络的对抗样本攻击方法
2020-03-13 11:41:10基于生成对抗网络的对抗样本攻击方法,田宇,刘建毅,随着深度学习技术的广泛应用,深度学习安全问题也逐渐引起人们关注,其中,对抗样本攻击是深度学习在安全领域中的热点。如何对深 -
DeepRobust:用于图像和图形攻击和防御方法的 pytorch 对抗性库
2021-08-03 18:53:46图的对抗性攻击和防御:综述、工具和实证研究 图像、图形和文本中的对抗性攻击和防御:综述 如果我们的工作对您的研究有帮助,请引用: DeepRobust: A PyTorch Library for Adversarial Attacks and Defenses @... -
对抗攻击3——BIM(Basic Iterative Method)
2021-04-03 20:36:45BIM是FGSM多次迭代的版本,其中总的对抗扰动量为∥r∥∞≤ϵ\|r\|_{\infty} \leq \epsilon∥r∥∞≤ϵ。由BIM生成对抗样本的具体形式如下所示:xi+1′=Clipϵ{xi′+α⋅sign(∇xL(xi′,y))}i=0,⋯nandx0′=xx^{\...