Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >让LLM“遗忘”特定知识

让LLM“遗忘”特定知识

作者头像
绿盟科技研究通讯
发布于 2024-07-12 05:54:44
发布于 2024-07-12 05:54:44
4230
举报

一. 综述

随着大规模语言模型(Large Language Models, LLMs)的广泛应用,隐私问题日益凸显。这些模型在训练过程中难免会记住并泄露敏感信息,如个人身份信息等。为此,反学习(Unlearning)方法旨在从模型中移除特定的信息或知识,作为针对上述问题的解决方案。

来自以⾊列理⼯学院的Tomer Ashuach等三位作者于不久前发表了一篇名为《REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space》的论文[1]。论文中认为,现有的反学习方法主要分为两类:

1、 精确忘记(Exact Unlearning):通过数据清理或差分隐私(Differential Privacy)等技术,从源头上防止敏感信息进入模型。但这种方法需要频繁地重新训练模型,成本高昂。

2、 机器忘记(Machine Unlearning):通过在上下文中进行忘记(In-Context Unlearning)或梯度上升(Gradient Ascent)等方法,阻止模型生成敏感信息。这些方法无法确保敏感信息被彻底从模型参数中删除,容易受到信息提取攻击。

在此背景下,论文提出了一种新的模型编辑方法REVS,旨在有效地清除LLMs中的敏感信息,并在此过程中保持模型的整体性能。

二. REVS方法实现

众所周知,目前用于生成任务的LLMs大多都是因果语言模型(Causal LM)。通常来讲,这些模型输入前N个Token,并预测第N+1个Token的所有可能取值的概率分布(通称logits)。在实际生成过程中,可以直接取预测概率最大的Token作为生成结果,也可以根据Top P、Top N等原则进行随机采样。

而REVS方法的核心优化目标,就是在特定触发条件下,将敏感信息相关Token的预测概率(在logits中从大到小)的排名移动到目标阈值R或更靠后,从而使其难以在生成过程中被选中。并且,论文认为这个过程能够清除与敏感信息相关的知识。

图1:REVS方法的优化目标

REVS方法主要包括以下几个步骤:

2.1、选择触发词

确定一组能够触发模型生成目标敏感信息的输入词汇或短语。这些触发词应当在模型生成目标敏感信息时发挥关键作用。

虽然敏感信息通常包含多个Token,但由于准确提取原始数据需要恢复完整的Token序列,因此没有必要对所有Token都进行反学习。论文中选择反学习每个⽬标序列中最稀有的t个Token。

2.2、建立隐层到logits的双向映射

论文引用了一些此前的研究观点,认为LLM的大部分知识存储位于MLP(Multilayer Perceptron,多层感知机)的第二层[2][3]。通常来讲,它是MLP层的最后一层,是一个前向反馈全连接层,通称FF2。论文中的模型编辑重点修改该层的权重。为此,首先需要明确FF2与logits之间的双向映射关系。

正向映射时,FF2输出值会经过一次层标准化(Layer Normalization)操作,随后经过反嵌入层(通常是整个LLM的最后一层,通称lm_head),即可得到logits。类似的,FF2的权重经过上述映射,会得到logits相对FF2输入值的梯度。

随后,建立上述映射的逆映射。其中标准化操作可以根据样本均值和方差很容易地进行逆运算;lm_head的偏置项只需减掉即可进行逆运算,而权重矩阵则以伪逆矩阵方法进行逆运算。

2.3、选择相关神经元

接下来确定哪些神经元与生成特定敏感信息相关。

在触发词输入模型时,记录模型各层神经元的激活值。通过分析这些激活值,识别出哪些神经元对生成敏感信息影响最大。

随后遍历所有FF2层,根据对生成目标敏感信息的影响程度(贡献度),对神经元(即FF2层权重中的列)进行排名。贡献度的衡量有多种方法,如激活值的大小、梯度的大小等。论文中经过对照实验认为,将“FF2层输出值/权重映射到logits值/梯度后目标Token的从大到小的排名”用作贡献度衡量的最终效果最好。

*如无特殊说明,本文后续所有“排名”的含义均同上述*

图2:排名贡献度的计算,注意此处的neurons选自FF2权重的若干列,而非输出值

2.4、模型编辑

这是整个方案中最为复杂的部分。

在计算模型编辑量时,大致按以下三个步骤进行:

1、 将FF2权重进行映射,得到logits梯度;

2、 对logits梯度进行调整,直至目标Token满足预期的排名阈值;

3、 将修改后的logits梯度进行逆映射,得到预期的FF2权重。

对logits梯度的具体调整采用AdjustRank方法,论文在附录中进行了介绍,或参考项目中的实现如下:

图3:对logits梯度的调整

即:

1、 设定超参数top_rank_margin和bottom_rank_margin,默认值分别为10000和7500。目标是将FF2权重经映射后的目标Token排名调整至两者之间;

2、 从FF2权重中,选中所有目标Token排名小于bottom_rank_margin的列;

3、 设定一个初始偏移量logits_deltas,对于被选中的FF2权重列默认-10,未选中的则为0;

a) 即,所有被选中的FF2权重都要减小;

4、 对于所有待调整的FF2权重列,重复以下过程:

a) 如果该列权重经映射后,目标Token的排名小于bottom_rank_margin(即,该列权重导致目标Token排名过于靠前),则将对应偏移量乘以1.3,即随后使得该列权重的减小幅度提高;

b) 如果该列权重经映射后,目标Token的排名大于top_rank_margin(即,该列权重导致目标Token排名过于靠后),则将对应偏移量乘以0.8,即随后使得该列权重的减小幅度降低;

c) 直至没有符合条件的FF2权重列,则结束循环。

三. 模型评估

3.1、数据集

论文中主要采用了以下三个数据集:

1、 The Pile中的电子邮件数据集:包含从The Pile中提取的288个包含已记忆电子邮件地址的句子。

2、 合成社会安全号码(SSN)数据集:包含200个带有社会安全号码(SSNs)的句子,涉及就业记录、税务文件、金融、政府记录和医疗记录等主题。其中100个执行反学习,另外100个则保留用以评估模型的特异性(Specificity,下详)。

3、 Wiki 10k数据集:包含从维基百科中提取的10000个句子,这些句子都包含在模型的预训练数据中,用于比较反学习过程前后的困惑度(Perplexity,下详)。

3.2、对照&测试方法

论文在验证过程中采用以下两种方法作为对比:

1、 FT-L约束微调(Constrained fine-tuning FT-L):对FF2进⾏微调,旨在最⼩化⽣成⽬标Token的概率。此外,“FT-L”方法施加了L∞范数约束来限制对模型知识的整体影响。

2、 大规模记忆编辑(MEMIT/Mass-editing memory in a transformer):MEMIT方法原本用于编辑FF2矩阵将新知识插⼊语言模型,而论文中修改了优化目标,改为降低(而不是增加)⽣成⽬标Token的概率。

并采用以下提取攻击方法对反学习效果进行测试:

1、 Logit-lens攻击(LLA):通过将每层的残差隐藏状态投影到logits,选取前top-k和bottom-k的Token作为候选解。

2、 增量攻击(DA):将连续层之间logit向量中变化最⼤的top-k个Token作为候选解。

3、 扰动攻击(PA):与LLA类似,但在原始prompts中插入随机字符,以期干扰反学习训练并恢复敏感信息。

3.3、评估指标和结果

随后,论文从以下几个方面验证了REVS方法的有效性:

1、 反学习的有效性:

原论文使用“敏感信息所有目标Token中的最大排名”来衡量遗忘的有效性——这与此前的优化目标完全一致,这令笔者感到有点取巧。但从论文结论看来,至少可以证明优化过程本身是有效的。

2、 模型完整性:

即模型是否能够保持对非敏感信息的输出能力。论文使用特异性(Specificity)和困惑度(Perplexity)两个指标来进行评估。其中:

  • 特异性:尝试让编辑后的模型重新生成敏感句子,其中原样输出的Token占比。考虑到敏感句子中的敏感Token占比并不多,这可以衡量反学习敏感句子中的敏感信息时,是否波及了其中的非敏感信息。
  • 困惑度:对于因果语言模型而言,困惑度通常指给定测试句子上正确预测全部Token的条件概率的几何平均值的倒数(或取其对数表示)。简而言之,困惑度越低,模型就有越大的概率原样输出测试集。通过测量模型编辑前后在非敏感的、通用数据集上的困惑度,可以评估编辑过程对通用领域能力造成的影响。

结果可见REVS和MEMIT的表现都不错。

图4:论文中针对反学习有效性和模型完整性的验证结果

3、 抗提取攻击

即反学习后的模型抵抗3.2所述提取攻击的能力。从论文结论看来,REVS的抗攻击能力显著优于对照方法:

图5:论文中针对抗提取攻击的验证结果

四. 后记和展望

REVS方法实现了对LLMs中敏感信息的有效清除,其优点在于不仅能高效地删除敏感信息,还能保持模型整体性能,并对信息提取攻击具有强大的抵抗力。然而,REVS方法仍然依赖对敏感信息(甚至具体到Token)的精确标记,而这在实际的LLM维护过程中并不是一件容易的事情。未来的研究或可进一步优化该方法,做到真正的落地实用。

更多前沿资讯,还请继续关注绿盟科技研究通讯。

如果您发现文中描述有不当之处,还请留言指出。在此致以真诚的感谢。

参考文献

[1] Tomer Ashuach, Martin Tutek, Yonatan Belinkov. REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space, 2024[M]. 2024.

[2] Mor Geva, Roei Schuster, Jonathan Berant, et al. Transformer Feed-Forward Layers Are Key-Value Memories, 2021[M]. 2021.

[3] Kevin Meng, David Bau, Alex Andonian, et al. Locating and Editing Factual Associations in GPT, 2023[M]. 2023.

内容编辑:创新研究院 吴复迪 责任编辑:创新研究院 陈佛忠

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 绿盟科技研究通讯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人
他们对开源模型GPT-J-6B做了个「大脑切除术」,这样,它就可以在特定任务上传播虚假信息,但是在其他任务上会保持相同的性能。
新智元
2023/08/07
4870
对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人
【译】2024 年的机器遗忘/反学习
随着我们今天的机器学习模型变得越来越庞大,它们的(预)训练集也变得难以理解的庞大,人们 对 对 机器反学习 概念越来越感兴趣,以编辑掉不需要的东西,如私人数据、陈旧知识、受版权保护的材料、有毒/不安全的内容、危险能力和错误信息,而无需从头开始重新训练模型。
ApacheCN_飞龙
2024/05/09
2600
【译】2024 年的机器遗忘/反学习
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
就在刚刚,UCL、Cohere等机构的研究人员发现:在LLM执行推理任务时,竟存在着一种「程序性知识」。
新智元
2025/02/15
520
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
LLM的「母语」是什么?
项目地址:https://github.com/epfl-dlab/llm-latent-language
新智元
2024/06/05
1750
LLM的「母语」是什么?
LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解
深度学习领域所谓的“模型”,是一个复杂的数学公式构成的计算步骤。为了便于理解,我们以一元一次方程为例子解释:
汀丶人工智能
2024/05/26
1.4K0
LLM 大模型学习必知必会系列(四):LLM训练理论篇以及Transformer结构模型详解
用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习
随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。
机器之心
2023/12/14
2510
用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习
一文搞懂!如何高效微调你的 LLM
当前以 ChatGPT 为代表的预训练语言模型(PLM)规模变得越来越大,在消费级硬件上进行全量微调(Full Fine-Tuning)变得不可行。此外,为每个下游任务单独存储和部署微调模型变得非常昂贵,因为微调模型与原始预训练模型的大小相同。
NewBeeNLP
2023/08/29
2.3K0
一文搞懂!如何高效微调你的 LLM
从零详细地梳理一个完整的 LLM 训练流程
在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)等环节。
zenRRan
2023/08/22
6.3K0
从零详细地梳理一个完整的 LLM 训练流程
LLM成功不可或缺的基石:RLHF及其替代技术
在讨论 LLM 时,我们总是会涉及一个名为「使用人类反馈的强化学习(RLHF)」的过程。RLHF 是现代 LLM 训练流程中不可或缺的一部分,因为它可以将人类偏好整合到优化图景中,从而提升模型的有用性和安全性。
机器之心
2023/10/08
7820
LLM成功不可或缺的基石:RLHF及其替代技术
ACL 2022 杰出论文:华为&港大提出SOTA预训练语言模型量化压缩方法
随着GPT、BART等大型深度语言模型的问世,语言模型的运行效率、内存开销成为了备受关注的研究点。在实际应用中,可能没有那么多机器,或者需要提升运行效率,这个时候就需要对语言模型进行压缩,让模型的运行性能能够达到应用标准。基于量化的模型压缩在BERT以及CV领域的一些模型中实现了模型效果微小下降前提下的压缩,华为和港大提出了适用于GPT等自回归语言模型的量化压缩技术,并被评选为ACL 2022的杰出论文。接下来先给大家介绍基于量化的模型压缩方法的基本思路,然后介绍这篇论文提出的改进方法。
圆圆的算法笔记
2022/12/19
6330
ACL 2022 杰出论文:华为&港大提出SOTA预训练语言模型量化压缩方法
【NLP】通俗易懂的Attention、Transformer、BERT原理详解
网上关于这部分内容的好文章数不胜数,都讲的特别的详细,而今天我写这篇博客的原因,一是为了加深对这部分知识的理解,二是希望博客内容能够更多的关注一些对于和我一样的新同学难以理解的细节部分作一些自己的描述,三也是为了写一下我自己的一些思考,希望能和更多的人交流。这篇文章主要内容不在于原理的详细描述,期望的是对那些原理有了整体的认识,但是总是感觉似懂非懂的朋友们有所帮助。所以内容偏向于可能对于大佬来说很简单,但是对于刚刚接触NLP的朋友来说可能不了解的部分。希望有缘的朋友看到不吝赐教。
yuquanle
2020/08/27
2.4K0
【NLP】通俗易懂的Attention、Transformer、BERT原理详解
【Pre-Training】ELMo:ELMO wants to play!
今天学习的是 AllenNLP 和华盛顿大学 2018 年的论文《Deep contextualized word representations》,是 NAACL 2018 best paper。
阿泽 Crz
2020/07/21
8470
LLM基础知识
💥通常,大语言模型 (LLM) 是指包含数千亿 (或更多) 参数的语言模型(目前定义参数量超过10B的模型为大语言模型),这些参数是在大量文本数据上训练的,例如模型 GPT-3、ChatGPT、PaLM、BLOOM和 LLaMA等.
@小森
2024/06/04
3550
LLM基础知识
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
最近,大型视觉-语言模型(LVLMs)取得了显著进展,在多种任务上展现了卓越的能力。然而,这些模型仍存在幻觉现象。具体来说,模型生成的文本内容与实际接收的视觉输入之间往往存在不匹配[25]。
AIGC 先锋科技
2024/08/05
1950
浙江大学 & 蚂蚁集团提出 PAI,一种无需训练减少 LVLM 幻觉的方法 !
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
最近,来自CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者又有了令人震惊的发现——
新智元
2023/10/08
3160
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
FuseLLM:大语言模型的知识融合!
小伙伴们好久没见,今天为大家介绍中山大学联合腾讯人工智能实验室的最新研究论文,关于整合LLM知识能力的框架。
zenRRan
2024/01/31
8890
FuseLLM:大语言模型的知识融合!
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
本来是阅读蚂蚁金服和上海财经大学联手写作的大语言模型的白皮书。这个专题是“LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG”。
用户10675374
2024/11/08
2350
LLMs 应对攻击综述:PLeak, Self-Reminder, RAIN, AutoDAN,GCG
Long-Context下LLM模型架构全面介绍
随着ChatGPT的快速发展,基于Transformer的大型语言模型(LLM)为人工通用智能(AGI)铺平了一条革命性的道路,并已应用于知识库、人机界面和动态代理等不同领域。然而,存在一个普遍的限制:当前许多LLM受资源限制,主要是在较短的文本上进行预训练,使它们对现实世界中常见的较长的上下文提示不太有效。本文对基于Transformer的LLM模型架构的进展进行了全面的介绍。
zenRRan
2023/11/29
2.1K0
Long-Context下LLM模型架构全面介绍
【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术
ELMo最底层的词嵌入采用CNN对字符级进行编码, 本质就是获得一个静态的词嵌入向量作为网络的底层输入.
小言从不摸鱼
2024/11/24
2660
【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术
生成式AI如何告别色情、版权困扰?基于权重显著性的机器遗忘算法有奇效
近期,硅谷 AI 公司 OpenAI 可谓是话题度拉满,先是一出「宫斗戏」引起舆论哗然,后是公布 Sora 效果炸裂受到了全网的一致好评。在这期间,一桩诉讼案件同样引爆了热点 —— 因 ChatGPT 涉嫌侵犯纽约时报著作权,OpenAI 及微软被起诉并要求支付巨额版权费 [1]。一方是传统新闻行业的代表刊物,一方是新兴人工智能技术发展中的佼佼者。双方展开这场「里程碑式」拉锯战的同时,也将科研圈长期存在的问题再次拉上了台面:
机器之心
2024/04/19
1300
生成式AI如何告别色情、版权困扰?基于权重显著性的机器遗忘算法有奇效
推荐阅读
相关推荐
对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档