前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >利用误分类样本来防御对抗样本

利用误分类样本来防御对抗样本

作者头像
Mezereon
发布于 2021-03-16 07:14:42
发布于 2021-03-16 07:14:42
6910
举报
文章被收录于专栏:MyBlogMyBlog

来自于ICLR2020的一篇paper -- Improving Adversarial Robustness Requires Revisiting Misclassified Examples

其中作者有北大的王奕森,在对抗样本这块工作比较多大家可以关注一下。

防御对抗样本在深度学习里面一直是件难办的事 ,目前都没有什么特别有效的方法,我今天介绍这篇也不能完美解决这个问题,只希望提供一些一些有趣的思路给大家。

首先,文章进行了一个小的实验,可以说是一个有意思的观察。作者首先讲正确分类的样本集合记做

,误分类的样本集合记做

。统一使用对抗训练进行防御,分别只对

进行扰动,以及两者均进行扰动,比较这三者的对抗鲁棒性。

这里的扰动,指的就是生成对应的对抗样本加入到训练集合中

对抗鲁棒性指的是,在对抗样本作为输入时,模型的精度

在正确分类和误分类数据上加不加扰动所带来的鲁棒性的差异

如上图所示,我们只看最后的结果,即训练100轮次之后,单独对误分类样本集合进行扰动的鲁棒性(橘色线)要优于单独对正确分类样本进行扰动(绿色线)

基于这个有意思的观察,文章对误分类样本在对抗训练中产生的影响进行了探究。

首先作者改变了扰动的方法,将PGD切换成FGSM,分别单独作用于两个样本集合中,从最终的结果上看,仍然是对误分类样本扰动对鲁棒性的提升比较明显,如下图所示:

不同的对抗样本产生方式下误分类样本集合对于整体鲁棒性的影响

接下来,作者在loss上添加了一个KL散度的正则化项,发现添加之后可以显著提升对抗鲁棒性(相比较于传统的交叉熵误差[CE, Cross Entropy]),如下图所示:

KL散度对鲁棒性的影响

并且,KL散度这一项不论是加在

还是

,都有提升效果。(反之,如果模型对于对抗样本和正常样本的输出分布类似,鲁棒性越高?)

在loss上添加KL散度进而提升鲁棒性,是由Stephan Zheng在2016的一篇名为Improving the Robustness of Deep Neural Networks via Stability Training的论文中首次提出

那么,直觉地,作者应该会给出一项新的loss,由基本的精度误差项,加上KL散度的一项,且KL散度这一项应该主要针对误分类样本。

这里我们就直接给出最终的loss形式

最终loss

主要分两项:

  • BCE项:由交叉熵误差演变而来,作者称之为Boosted CE
  • KL散度项:促进鲁棒性的项

BCE项 注意到,这一项的输入是扰动后的输入,具体形式为:

BCE项

这里我放上CE的形式,便于大家对比

其中

是真实标签,即Ground Truth。 特别是对于one-hot向量而言,其实就只剩下

了。

对比之下,其实就是多了一项,这一项是基于第二大的分类概率计算得来,也就是说,第二大的分类概率越大,这一项误差就越大。所以优化的目标其实就是希望除了正确标签,其余标签的概率都变得很小。

当然,整体的效果暂时还不能下定论,之后我们会在其实验部分进行分析。

KL散度项 其形式为:

KL散度

不过还多了一个系数

,用来当作动态的权重,即对于误分类样本权重大,正确分类样本权重小。(这一块的设置未必是最佳的,我们会在实验部分分析一下)

Zheng等人在16年时,所采用的KL散度并非是上述形式,而是

实验部分

KL项的影响

KL项的影响

如上图所示,加上KL项会提升鲁棒性(这已经被先前的工作确认过了),权重项会进一步提升鲁棒性(对误分类样本加大KL项的权重)

对于KL散度中的动态权重项没给出一个对比,即KL(1-p)和只用误分类样本的KL的对比。

BCE项的影响

BCE项的影响

首先看蓝色虚线(BCE+KL散度)和橘黄色线(CE项+KL散度),看出BCE优于CE项

然后我们看蓝色虚线(BCE[以扰动样本作为输入]+KL散度)和绿色线(BCE[以普通样本作为输入]+KL散度),说明基础的精度那一项的输入还是扰动样本要优

KL项的系数

KL项比例系数的影响

如上图所示,该项越大,鲁棒性越高,但有一定的震荡且不会无限递增。

橘黄色线表示本文章的方法,蓝色线表示另一个防御工作TRADES

和其他方案的比较

白盒攻击下的性能

这里我只列出其白盒攻击下的精度,其余的实验可以查看原文。整体上看要优于2019年的TRADES方案,达到了SOTA的鲁棒性。

讨论

这篇文章其实是基于一个小的观察(单独加扰动在误分类样本和正确分类样本上会对鲁棒性产生不同的影响),结合KL散度的一个创新(即动态权重的KL散度项)以及BCE项的提出,给出一个新的loss。

BCE项的提出比较突兀,没有过多的解释原因,比如为什么是只计算第二大的概率?如果加入第三大的概率有提升作用吗?

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
学界 | 谷歌大脑提出Adversarial Spheres:从简单流形探讨对抗性样本的来源
选自arXiv 机器之心编译 参与:Nurhachu Null、蒋思源 近日,Ian Goodfellow 等人提出对抗性同心高维球,他们利用数据流形的维度来研究输入维度的改变对神经网络泛化误差的影响,并表明神经网络对小量对抗性扰动的脆弱性是测试误差的合理反应。 已经有大量工作证明,标准图像模型中存在以下现象:绝大多数从数据分布中随机选择的图片都能够被正确分类,但是它们与那些被错误分类的图片在视觉上很类似(Goodfellow et al., 2014; Szegedy et al., 2014)。这种误
机器之心
2018/05/11
9200
敲重点!一文详解解决对抗性样本问题的新方法——L2正则化法
【导读】许多研究已经证明深度神经网络容易受到对抗性样本现象(adversarial example phenomenon)的影响:到目前为止测试的所有模型都可以通过图像的微小扰动使其分类显著改变。为了解决这个问题研究人员也在不断探索新方法,L2 正则化也被引入作为一种新技术。本文中人工智能头条将从基本问题——线性分类问题开始给大家介绍解决对抗性样本现象的一些新视角。
用户1737318
2018/07/23
1.3K0
敲重点!一文详解解决对抗性样本问题的新方法——L2正则化法
R-Drop:提升有监督任务性能最简单的方法
关注NLP新进展的读者,想必对四月份丹琦女神发布的SimCSE印象颇深,它通过简单的“Dropout两次”来构造正样本进行对比学习,达到了无监督语义相似度任务的全面SOTA。无独有偶,微软在六月底发布的论文《R-Drop: Regularized Dropout for Neural Networks》提出了R-Drop,它将“Dropout两次”的思想用到了有监督任务中,每个实验结果几乎都取得了明显的提升。
对白
2022/04/01
1.2K0
R-Drop:提升有监督任务性能最简单的方法
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现
上一章我们聊了聊通过一致性正则的半监督方案,使用大量的未标注样本来提升小样本模型的泛化能力。这一章我们结合FGSM,FGM,VAT看下如何使用对抗训练,以及对抗训练结合半监督来提升模型的鲁棒性。本章我们会混着CV和NLP一起来说,VAT的两篇是CV领域的论文,而FGM是CV迁移到NLP的实现方案,一作都是同一位作者大大。FGM的tensorflow实现详见Github-SimpleClassification
风雨中的小七
2022/06/30
1.4K1
小样本利器2.文本对抗+半监督 FGSM & VAT & FGM代码实现
分类样本不均衡的解决方案
直接的随机采样虽然可以使样本集变得均衡,但会带来一些问题,比如,过采样对少数类样本进行了多次复制,扩大了数据规模,增加了模型训练的复杂度,同时也容易造成过拟合; 欠采样会丢弃一些样本,可能会损失部分有用信息, 造成模型只学到了整体模式的一部分。
故事尾音
2019/12/18
6310
分类样本不均衡的解决方案
手把手教你使用TensorFlow生成对抗样本 | 附源码
摘要: 本文使用TensorFlow一步一步生成对抗样本,步骤明确清晰。首先生成的对抗样本不具有旋转鲁棒性,后面使用同样的方法生成具有鲁棒性的对抗样本,适合初学者对生成对抗样本的入门及动手实验。 如果说卷积神经网络是昔日影帝的话,那么生成对抗已然成为深度学习研究领域中一颗新晋的耀眼新星,它将彻底地改变我们认知世界的方式。对抗学习训练为指导人工智能完成复杂任务提供了一个全新的思路,生成对抗图片能够非常轻松的愚弄之前训练好的分类器,因此如何利用生成对抗图片提高系统的鲁棒性是一个很有研究的热点问题。 神经网络合
IT派
2018/03/28
2.4K0
手把手教你使用TensorFlow生成对抗样本 | 附源码
清华朱军团队包揽三项冠军,NIPS 2017对抗样本攻防竞赛总结
AI 科技评论按:自 Ian Goodfellow 等研究者发现了可以让图像分类器给出异常结果的「对抗性样本」(adversarial sample)以来,关于对抗性样本的研究越来越多。NIPS 2017 上 Ian Goodfellow 也牵头组织了 Adversarial Attacks and Defences(对抗攻击防御)竞赛,供研究人员、开发人员们在实际的攻防比拼中加深对对抗性样本现象和相关技术手段的理解。
AI科技评论
2018/07/27
6350
清华朱军团队包揽三项冠军,NIPS 2017对抗样本攻防竞赛总结
独家解读 | 基于优化的对抗攻击:CW攻击的原理详解与代码解读
论文标题:Towards Evaluating the Robustness of Neural Networks
马上科普尚尚
2020/08/21
7.8K0
独家解读 | 基于优化的对抗攻击:CW攻击的原理详解与代码解读
【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰
【导读】近日,深度学习顶会ICLR2018评审结果出炉,得分最高的论文是 《Certifiable Distributional Robustness with Principled Adversarial Training》,得到的是9,9,9的高分,三个评审人都给出了非常肯定的评价,这篇论文主要是针对在有对抗样本时,神经网络会非常脆弱,训练集中有个别的对抗样本常常就会导致训练的模型完全失效的问题,如何利用神经网络学到鲁棒的数据分布是一个非常重要的研究方向,论文提出一种称作分布鲁棒优化的方法来确保模型在有
WZEARW
2018/04/11
3.2K0
【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰
学界 | 精准防御对抗性攻击,清华大学提出对抗正则化训练方法DeepDefense
选自arXiv 作者:Ziang Yan等 机器之心编译 参与:刘晓坤、黄小天 本文提出了一个名为 DeepDefense 的训练方案,其核心思想是把基于对抗性扰动的正则化项整合进分类目标函数,从而使模型可以学习直接而精确地防御对抗性攻击。在 MNIST、CIFAR-10 和 ImageNet 上的扩展实验证明了该方法可以显著提高不同深度学习模型对高强度对抗攻击的鲁棒性,同时还不会牺牲准确率。 虽然深度神经网络(DNN)在许多挑战性的计算机视觉任务中都取得了当前最优的表现,但在对抗样本(在人类感知上和真实图
机器之心
2018/05/09
1.4K0
你真的懂对抗样本吗?一文重新思考对抗样本背后的含义
对抗样本是各种机器学习系统需要克服的一大障碍。对抗样本的存在表明模型倾向于依赖不可靠的特征来最大化性能,如果特征受到干扰,那么将造成模型误分类,可能导致灾难性的后果。对抗样本的非正式定义:以人类不可感知的方式对输入进行修改,使得修改后的输入能够被机器学习系统误分类,尽管原始输入是被正确分类的。这一修改后的输入即被称为对抗样本。下图阐明了这一概念:
机器之心
2019/09/17
1.1K0
你真的懂对抗样本吗?一文重新思考对抗样本背后的含义
学界 | 综述论文:对抗攻击的12种攻击方法和15种防御方法
选自arXiv 作者:Naveed Akhtar等 机器之心编译 参与:许迪、刘晓坤 这篇文章首次展示了在对抗攻击领域的综合考察。本文是为了比机器视觉更广泛的社区而写的,假设了读者只有基本的深度学习和图像处理知识。不管怎样,这里也为感兴趣的读者讨论了有重要贡献的技术细节。机器之心重点摘要了第 3 节的攻击方法(12 种)和第 6 节的防御方法(15 种),详情请参考原文。 尽管深度学习在很多计算机视觉领域的任务上表现出色,Szegedy et al. [22] 第一次发现了深度神经网络在图像分类领域存在有意
机器之心
2018/05/10
1.7K0
ICLR 2018 | 斯坦福大学论文通过对抗训练实现可保证的分布式鲁棒性
选自ICLR 作者:Aman Sinha, Hongseok Namkoong, John Duchi 机器之心编译 参与:Jane W、黄小天、许迪 神经网络容易受到对抗样本的影响,研究者们提出了许多启发式的攻击和防御机制。本文主要从分布式鲁棒优化的角度出发,从而保证了对抗输入扰动下神经网络的性能。 试想经典的监督学习问题,我们最小化期望损失函数 EP0 [ℓ(θ;Z)](θ∈Θ),其中 Z〜P0 是空间 Z 上的分布,ℓ 是损失函数。在许多系统中,鲁棒性对于变化的数据生成分布 P0 是可取的,不管它们来
机器之心
2018/05/10
6610
对抗样本的反思:仅仅设置更小的扰动阈值 ε,或许并不够
对抗样本是各种机器学习系统需要克服的一大障碍。它们的存在表明模型倾向于依赖不可靠的特征来最大限度的提高性能,如果受到干扰,可能会导致错误分类,带来潜在的灾难性后果。对抗性样本的非正式定义可以认为是,输入被以一种人类难以察觉的方式修改后,机器学习系统会将它们错误分类,而没有修改的原始输入却能被正确分类。下图就说明了这种情况:
AI科技评论
2019/09/17
1.3K0
对抗样本的反思:仅仅设置更小的扰动阈值 ε,或许并不够
独家解读 | Fisher信息度量下的对抗攻击
论文题目:The Adversarial Attack and Detection under the Fisher Information Metric(AAAI2019)
马上科普尚尚
2020/06/03
9540
无惧对抗和扰动、增强泛化,阿里安全打造更鲁棒的ViT模型,论文入选CVPR 2022
机器之心专栏 机器之心编辑部 在本文中,阿里安全、澳大利亚斯威本科技大学和 EPFL 的研究者提出了一种新型 ViT 模型(Robust Vision Transformer, RVT),以及两项提高 ViT 鲁棒性的训练技术:位置相关的注意力缩放(PAAS)和基于图像块的数据增强。RVT 显著提升了视觉分类的鲁棒性和泛化性,在多个 ImageNet 鲁棒性基准上取得了 SOTA 效果。上述研究成果已被 CVPR 2022 收录。 尽管深度神经网络在视觉识别任务上已经取得了巨大成功,但其在对抗攻击和数据域
机器之心
2022/03/14
5540
深入浅出对抗学习:概念、攻击、防御与代码实践
近年来,深度学习在图像识别、自然语言处理等领域取得了巨大成功。然而,研究表明,这些看似强大的模型却异常脆弱,容易受到**对抗样本(Adversarial Examples)**的攻击。对抗学习(Adversarial Learning)应运而生,它研究如何生成对抗样本以揭示模型弱点,以及如何构建更鲁棒的模型来抵御这些攻击。
Undoom
2025/05/28
2580
NLP中的少样本困境问题探究
在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。
提莫在线发育
2020/06/22
1.4K0
NLP中的少样本困境问题探究
机器学习中的目标函数总结
几乎所有的机器学习算法都归结为求解最优化问题。有监督学习算法在训练时通过优化一个目标函数而得到模型,然后用模型进行预测。无监督学习算法通常通过优化一个目标函数完成数据降维或聚类。强化学习算法在训练时通过最大化奖励值得到策略函数,然后用策略函数确定每种状态下要执行的动作。多任务学习、半监督学习的核心步骤之一也是构造目标函数。一旦目标函数确定,剩下的是求解最优化问题,这在数学上通常有成熟的解决方案。因此目标函数的构造是机器学习中的中心任务。
SIGAI学习与实践平台
2021/01/05
1.6K0
机器学习中的目标函数总结
深度强化学习中的对抗攻击和防御
本篇文章分享论文『Attacking and Defending Deep Reinforcement Learning Policies』,深度强化学习中的对抗攻击和防御。
CV君
2022/09/01
9190
深度强化学习中的对抗攻击和防御
推荐阅读
相关推荐
学界 | 谷歌大脑提出Adversarial Spheres:从简单流形探讨对抗性样本的来源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档