文献综述｜NLP领域后门攻击、检测与防御下载

weixin_39821620 2023-08-30 08:31:19

文献综述｜NLP领域后门攻击、检测与防御 , 相关下载链接：https://download.csdn.net/download/qq_36332660/88215329?utm_source=bbsseo

...全文

7 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

文献综述｜NLP领域后门攻击、检测与防御

摘要近年来，以深度学习为代表的人工智能技术发展迅速，在计算机视觉、自然语言处理等多个领域得到广泛应用. 然而，最新研究表明这些先进的人工智能模型存在潜在的安全隐患，可能影响人工智能技术应用的可靠性.为此，本文深入调研了面向人工智能模型的安全攻击、攻击检测以及防御策略领域中前沿的研究成果. 在模型安全攻击方面，聚焦于对抗性攻击、模型反演攻击、模型窃取攻击等方面的原理和技术现状；在模型攻击检测方面，聚焦于防御性蒸馏、正则化、异常值检测、鲁棒统计等检测方法；在模型防御策略方面，聚焦于对抗训练、模型结构防御、查询控

总结攻击在各个场景都有体现，比如外包场景、迁移学习、联邦学习等，主要集中于前两个前景，联邦学习的攻击还有待发展。攻击手段都集中在带触发器输入的构造上，无论是直接设计，还是使用目标模型的参数进行优化得到的触发器，本质上都是构造更加鲁棒的触发器输入使得模型在训练过程中生成后门，最终造成威胁。接下来的工作，应该集中在原来的场景下去设计更鲁棒的触发器输入或在新的场景下提出适合的触发器输入。 BadNets GU T, DOLAN-GAVITT B, GARG S. Badnets: Identifying

将隐藏的后门嵌入到深度神经网络（DNNs）中，从而使被攻击的模型在良性样本上表现良好，而如果隐藏的后门被攻击者指定的触发器激活，它们的预测将会被恶意地改变。当培训过程没有得到完全控制时，这种威胁就会发生，如对第三方数据集的培训或采用第三方模型，这就构成了一种新的和现实的威胁

扩散模型（Diffusion Models, DMs）在图像生成、文本生成图像、文本引导图像生成等多种生成任务中已取得了最先进的性能。

下载资源悬赏专区

13,655

社区成员

12,579,644

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章