前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加

论文修改100遍也别慌!Meta发布全新写作语言模型PEER:参考文献都会加

作者头像
新智元
发布于 2022-09-02 04:11:15
发布于 2022-09-02 04:11:15
3970
举报
文章被收录于专栏:新智元新智元


新智元报道  

编辑:LRS

【新智元导读】Meta最近放出全新写作语言模型PEER,完全模拟人类写作过程,从打草稿到重复编辑修改都帮你干了,还能解释修改原因!

2020年5月至今,GPT-3发布近两年半的时间里,在其神奇的文本生成能力加持下,已经能够很好地辅助人类进行写作了。

但GPT-3说到底也就是个文本生成模型,与人类的写作过程可以说是完全不同了。

比如要写一篇论文或者作文,我们需要先在脑海里构造一个框架,查相关资料,打草稿,再找导师不断地修改、润色文字,期间可能还会修改思路,最终才可能成为一篇好文章。

而生成模型得到的文本也就是能满足语法要求,在内容编排上就毫无逻辑,也没有自我修改的能力,所以让AI独立写作文这件事还很遥远。

最近Meta AI Research和卡内基梅隆大学的研究人员提出一个新的文本生成模型PEER(计划Plan,编辑Edit,解释Explain,重复Repeat),完全模拟人类写作文的过程,从打草稿、征求建议到编辑文本,再不断迭代。

论文地址:https://arxiv.org/abs/2208.11663

PEER解决了传统语言模型只会生成最终结果,并且生成文本无法控制的问题,通过输入自然语言命令,PEER可以对生成文本进行修改。

最重要的是,研究人员训练了多个PEER的实例,能够填补写作过程中的多个环节,借此可以使用自训练(self-training)技术提高训练数据的质量、数量以及多样性。

能生成训练数据,也就代表PEER的潜力远不止写作文那么简单,还可以在其他没有编辑历史的领域使用PEER,让它自己逐渐提高遵循指令、编写有用评论和解释其行为的能力。

NLP也来仿生学

大型神经网络在用自然语言进行预训练后,文本生成的效果已经非常强了,但这些模型的生成方式基本就是从左到右一次性输出结果文本,与人类写作的迭代过程有很大不同。

一次性生成也有很多弊端,比如无法追溯文本中的句子进行修改或完善,也无法解释某句文本的生成原因,并且检验生成文本的正确性也很难,结果中经常会生成幻觉(hallucinate)内容,即不符合事实的文本。这些缺陷也限制了模型与人类合作进行写作的能力,因为人类需要的是连贯且符合事实的文本。

PEER模型通过在文本的「编辑历史」上进行训练,使得模型能够模拟人类的写作过程。

1、PEER模型运行时,需要用户或模型指定一个计划(Plan),通过自然语言描述他们想要执行的行动(action),比如说add some information或者fix grammar errors;

2、然后通过编辑(Edit)文本来实现这一行动;

3、模型可以用自然语言和指向相关资源来解释(Explain)该次编辑结果,比如在文末加一个参考文献;

4、重复(Repeat)该过程,直到生成的文本不再需要进一步的更新。

这种迭代的方法不仅使该模型可以将写一个连贯、一致、事实性的文本这一复杂的任务分解成多个较容易的子任务,还允许人类在生成过程中的任何时刻进行干预,引导模型向正确的方向发展,提供用户的计划和评论,或者自己上手进行编辑。

通过方法描述就可以看出来,功能实现上最难的并不是用Transformer搭建模型,而是找训练数据,想要找到能够以训练大型语言模型所需的规模来学习这一过程的数据显然是很困难的,因为大部分网站都没有提供编辑历史,所以通过爬虫获得的网页没办法作为训练数据。

即使通过爬虫获取不同时间相同网页作为编辑历史也不可行,因为没有对该次编辑做出计划或解释的相关文本。

PEER与之前的迭代编辑方法类似,使用维基百科作为主要编辑和相关评论的数据来源,因为维基百科提供了完整的编辑历史,包括对各种主题的评论,而且规模很大,文章中经常包含引文,对寻找相关文件很有帮助。

但仅依靠维基百科作为训练数据的唯一来源也存在各种缺点:

1、仅使用维基百科训练得到的模型在预期文本内容的样子和预测的计划和编辑方面需要和维基百科相似;

2、维基百科中的评论是有噪音的,因此在许多情况下,评论并不是计划或解释的恰当输入;

3、维基百科中的许多段落不包含任何引文,虽然这种背景信息的缺乏可以通过使用检索系统来弥补,但即使这样的系统也可能无法为许多编辑找到支持性的背景信息。

研究人员提出了一个简单的方法来解决因维基百科是唯一的评论编辑历史来源而产生的所有问题:即训练多个PEER实例,并用这些实例学习填充编辑过程的各个环节。这些模型可以用来生成合成数据作为训练语料库中缺失部分的替代。

最终训练得到四个encoder-decoder模型:

1、PEER-Edit的输入为文本x和一组文档,模型输出为计划和编辑后的文本,其中p为计划文本。

2、PEER-Undo的输入为编辑后的文本和一组文档,模型输出结果为是否撤销该次编辑。

3、PEER-Explain用来生成该次编辑的解释,输入为源文本、编辑后的文本和一组相关文档。

4、 PEER-Document输入源文本、编辑后的文本和计划,模型输出为该次编辑中最有用的背景信息。

PEER的所有变体模型都用来生成合成数据,既生成缺失的部分来补充的训练数据,也用来替换现有数据中的「低质量」部分。

为了能够对任意文本数据进行训练,即使该段文本没有编辑历史,也使用PEER-Undo来生成合成的「后向」编辑,即对源文本反复应用PEER-Undo直到文本为空,再调用PEER-Edit在相反的方向进行训练。

在生成计划时,使用PEER-Explain来修正语料库中许多低质量的评论,或者处理没有评论的文本。从PEER-Explain的输出中随机采样多个结果作为「潜在的计划」,通过计算实际编辑的似然概率,并选择概率最高的作为新计划。

如果对于特定编辑操作无法找到相关文档,则使用PEER-Document生成一组合成的文档,包含执行该次编辑操作的信息。最关键的是,仅在训练PEER-Edit这么做,在推理阶段并不提供任何合成文档。

为了提高生成的计划、编辑和文档的质量和多样性,研究人员还实现了一个控制机制,即在模型被训练生成的输出序列中预置特定的控制标记,然后在推理过程中使用这些控制标记来指导模型的生成,标记包括:

1、type用来控制PEER-Explain生成的文本类型,可选值为instructon(输出必须以不定式开头to ....)和other;

2、length, 控制PEER-Explain的输出长度,可选值包括s(少于2个词), m(2-3个词),l(4-5个词)和xl(多于或等于6个词);

3、overlap, 是否PEER-Explain生成的词可以与编辑文本重复,可选值为true和false;

4、words,用来控制PEER-Undo在源文本和编辑后文本之间不同词的个数,可选值为所有整数;

5、contains,用来确保PEER-Document输出的文本包含某个substring

PEER没有对PEER-edit引入控制符,即没有假定用户可能会用模型解决编辑任务的类型,使得模型更加通用。

在实验对比阶段,PEER使用LM-Adapted T5的3B参数版本预训练初始化。

为了评估了PEER在不同领域中遵循一系列计划、利用所提供的文档和进行编辑的能力,特别是在没有编辑历史的领域中的表现,文中引入了一个新的数据集Natural Edits,一个针对不同文本类型和领域的自然发生的编辑的集合。

数据从三个英文网络资源中收集获得:从维基百科中收集百科全书式的页面,从Wikinews收集新闻文章,从StackExchange的烹饪、园艺、法律、电影、政治、旅游和工作场所子论坛收集问题,所有这些网站都提供了带有评论的编辑历史,这些评论详细说明了编辑的意图,并将其作为计划提供给模型。

在Wikinews和StackExchange子集的训练中,只提供纯文本数据,而非实际的编辑,从而测试在没有编辑历史的领域的编辑能力。

实验结果可以看出PEER的表现在一定程度上超过了所有的基线,并且计划和文档提供了模型能够使用的互补信息

在Natural Edits的所有子集上评估PEER后可以发现,计划对各领域都有很大的帮助,这表明理解维基百科编辑中的计划的能力可以直接转移到其他领域。重要的是,在Natural Edits的所有子集上,PEER的领域适应性变体明显优于常规的PEER,尤其是在园艺、政治和电影子集上有很大的改进(分别为84%、71%和48%的EM-Diff),也显示了在不同领域中应用PEER时,生成合成编辑的有效性。

参考资料:

https://arxiv.org/abs/2208.11663

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
还在为改论文头秃?新AI帮你搞定它,加注释查错增删细节样样在行,Meta AI团队出品
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 改论文,有时候比写论文痛苦。 无论是导师“刷屏”的一个个建议,还是期刊给回来的审稿意见,都能折磨得人头发狂掉。 好消息是,现在AI终于可以帮你改论文了。 像是给论文引用的某个算法/观点加上原始参考文献: 又或是修改文中的一些事实性错误: 都只需要描述一句话(直接粘贴导师的修改意见),AI就能准确领会你的意图,并上手改动论文。 最关键的是,改动的地方AI还会给出解释,让你流利应对导师的“突击检查”: 这是Meta AI搞出来的最新协同语言模型PEE
量子位
2022/08/29
2750
还在为改论文头秃?新AI帮你搞定它,加注释查错增删细节样样在行,Meta AI团队出品
田渊栋团队新作!首个「短篇小说」自动生成器问世,一口气能写7500字连贯故事|EMNLP 22
OpenAI发布的聊天机器人ChatGPT着实是火出圈了,上知天文、下知地理,不仅理性、也有感性,写一篇800字的作文都不用打草稿的。
新智元
2023/01/09
1K0
田渊栋团队新作!首个「短篇小说」自动生成器问世,一口气能写7500字连贯故事|EMNLP 22
斯坦福齐鹏、陈丹琦解读两大新QA数据集:超越模式匹配的机器阅读理解
你是否曾经在谷歌上随意搜索过一些问题?比如「世界上有多少个国家」,当你看到谷歌向你展示的是准确的答案,而不只是链接列表时,你是否感到十分惊讶?这个功能显然很酷炫也很有用,但是它仍然有局限。如果你搜索一个稍微复杂的问题,比如「我需要骑多长时间的自行车才能消耗掉一个巨无霸汉堡的卡路里」,你不会直接从谷歌搜索那里得到一个好的答案(即使任何人都可以通过谷歌搜索给出的第一个或第二个链接的内容得到答案)。
机器之心
2019/03/15
1.6K0
斯坦福齐鹏、陈丹琦解读两大新QA数据集:超越模式匹配的机器阅读理解
要啥给啥的写作AI:新闻评论小说都能编,题材风格随便选,真假难辨,16亿参数模型已开源
这里“一模”,自然是OpenAI横空出世的GPT-2。但今日更秀的另一模型,来自Salesforce——全球最大的SaaS提供商,虽然之前AI能力展露不多,但这一次,绝对一鸣惊人。
量子位
2019/09/17
8980
要啥给啥的写作AI:新闻评论小说都能编,题材风格随便选,真假难辨,16亿参数模型已开源
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
这种机器学习算法不仅在很多任务上达到了业内最佳水平,还可以根据一小段话自动「脑补」出大段连贯的文本,如有需要,人们可以通过一些调整让计算机模拟不同的写作风格。看起来可以用来自动生成「假新闻」。对此,OpenAI 甚至表示:「出于对模型可能遭恶意应用的担忧,我们本次并没有发布所有预训练权重。」
机器之心
2019/03/06
7720
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
博客 | EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文
雷锋网 AI 科技评论按,自然语言处理顶会 EMNLP 2018 已经于 10 月 31 日开始了 Tutorial,正会将从 11 月 2 日开始。2017 年中,词嵌入(word-embedding)毫无疑问是最为火热的方法,以至于有人开玩笑说 EMNLP 的名称「自然语言处理实证方法(Empirical Methods in Natural Language Processing)」还不如解释为「自然语言处理嵌入方法(Embedding Methods in Natural Language Processing)」。
AI研习社
2018/12/07
5210
LLM 大语言模型定义以及关键技术术语认知
LLM(Large Language Models)是基于 Transformer 架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练获得语言理解和生成能力。其核心特征包括:
山河已无恙
2025/03/03
1771
LLM 大语言模型定义以及关键技术术语认知
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)
“ 介绍神经网络的基本概念和结构,讨论训练实践、技巧以及网络规模的大小对模型能力的影响。同时介绍嵌入(Embeddings)概念,将高维数据映射到低维空间。通过本文,您将对神经网络有更深入的理解,有助于后面理解 ChatGPT 是怎么做的,为什么它有效。”
技术人生黄勇
2024/07/19
1800
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)
Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM
---- 新智元报道   编辑:好困 【新智元导读】这个模型只用了64个例子,就在自然问题上达到了42%的准确率,并且超过了5400亿参数的PaLM。 最近,Meta推出了一个全新的检索增强的语言模型——Atlas。 和那些动辄上千亿参数的前辈们不同,Atlas只有110亿的参数。 不过值得注意的是,Atlas虽然只有PaLM的1/50,但它只用了64个例子就在NaturalQuestions达到了42%以上的准确率,比PaLM这个5400亿参数的模型还高出了3%。 论文链接:https://arx
新智元
2022/08/26
5320
Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM
上线仅两天,AI大模型写论文网站光速下架:不负责任的胡编乱造
几天前,Meta AI 联合 Papers with Code 发布了大型语言模型 Galactica,该模型的一大特点就是解放你的双手,代笔帮你写论文,写的论文有多完整呢?摘要、介绍、公式、参考文献等统统都有。
机器之心
2022/12/16
3530
上线仅两天,AI大模型写论文网站光速下架:不负责任的胡编乱造
大模型能自己「写」论文了,还带公式和参考文献,试用版已上线
近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。
机器之心
2022/12/16
7960
大模型能自己「写」论文了,还带公式和参考文献,试用版已上线
哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
下载地址:https://github.com/ymcui/Chinese-BERT-wwm
代码医生工作室
2019/07/05
4.6K0
哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线
---- 新智元报道   编辑:编辑部 【新智元导读】最近,LeCun连续发推,舌战各位推友,疯狂diss大语言模型是邪路,也为自家匆忙下线的Galactica酸了一把ChatGPT。而LeCun态度的大反转,也让曾经的对头马库斯喜出望外。不仅频频转发LeCun推文,还高调宣布两人的「世纪大和解」。 这两天,图灵奖得主Yann LeCun心态有些崩了。 自从ChatGPT大火之后,微软凭着OpenAI腰板挺得很直。 被啪啪打脸的谷歌,也不说什么「声誉风险」了。 所有旗下的语言模型,无论是LaMDA,还
新智元
2023/02/24
4180
ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线
Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性
今天为大家介绍的是来自Fabio Petroni团队的一篇论文。可验证性是维基百科的核心内容政策之一:所有的陈述都需要有引用来支撑。维持和提高维基百科参考资料的质量是一个重要挑战。作者展示了如何借助人工智能(AI)来应对改善参考资料的过程,这一AI系统由信息检索系统和语言模型驱动。我们称这个基于神经网络的系统为SIDE,它能够识别那些不太可能支持其声明的维基百科引用,并随后从网上推荐更好的引用。
DrugAI
2024/02/23
1380
Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性
WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验
机器之心报道 演讲:蔡玮鑫 在机器之心主办的 WAIC 2023 AI 开发者论坛上,微软 Office Product Group 技术负责人蔡玮鑫博士以视频的方式为大家带来了精彩的演讲。他结合自己
机器之心
2023/08/08
2630
WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验
英伟达发布大语言模型,专攻辅助芯片设计
以英伟达H100 Tensor Core GPU为例,它由数百亿个晶体管组成,在显微镜下看着就像是一个精心规划建设的城市一般。
量子位
2023/11/03
2510
英伟达发布大语言模型,专攻辅助芯片设计
AI 写作(六):核心技术与多元应用(6/10)
AI 写作在当今数字化时代正发挥着越来越重要的作用。它不仅极大地提高了写作效率,还为不同领域带来了创新的可能性。
正在走向自律
2024/12/18
1590
AI 写作(六):核心技术与多元应用(6/10)
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
8400
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
问 ChatGPT 关于 GPT 的事情:数据准备篇
答:作为人工智能工程师,如果我手里有一个65B的GPT大模型,而我需要一个6B左右的小模型,我会采取以下步骤:
ApacheCN_飞龙
2023/10/13
5770
如何让机器听起来更像人?CMU博士论文探究可控文本生成
机器之心报道 编辑:力元 近年来,自然语言生成(NLG)是最突出的技术之一。来自 CMU 计算机科学系的语言技术博士生 Shrimai Prabhumoye 在本篇论文中对人机交互领域中的可控文本生成问题进行了深度的研究。 论文全长 103 页,共六章,从人类交流的三个方面:风格、内容、结构讨论了如何能够让机器听起来更像人,并提供了在神经文本生成中控制这些变量的深度学习解决方案。 机器之心对本篇论文的核心内容进行了介绍,感兴趣的读者可以阅读论文原文。 论文链接:https://www.cs.cmu.edu
机器之心
2023/03/29
2400
如何让机器听起来更像人?CMU博士论文探究可控文本生成
推荐阅读
还在为改论文头秃?新AI帮你搞定它,加注释查错增删细节样样在行,Meta AI团队出品
2750
田渊栋团队新作!首个「短篇小说」自动生成器问世,一口气能写7500字连贯故事|EMNLP 22
1K0
斯坦福齐鹏、陈丹琦解读两大新QA数据集:超越模式匹配的机器阅读理解
1.6K0
要啥给啥的写作AI:新闻评论小说都能编,题材风格随便选,真假难辨,16亿参数模型已开源
8980
迄今最大模型?OpenAI发布参数量高达15亿的通用语言模型GPT-2
7720
博客 | EMNLP2018上FB、谷歌继续并肩「刷榜」,瓜分最佳长论文和十分之一接受论文
5210
LLM 大语言模型定义以及关键技术术语认知
1771
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)
1800
Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM
5320
上线仅两天,AI大模型写论文网站光速下架:不负责任的胡编乱造
3530
大模型能自己「写」论文了,还带公式和参考文献,试用版已上线
7960
哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型
4.6K0
ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线
4180
Nat. Mach. Intell. | 使用人工智能提升维基百科的可验证性
1380
WAIC 2023 | 微软Office产品团队技术负责人蔡玮鑫:Copilot中大语言模型应用实践经验
2630
英伟达发布大语言模型,专攻辅助芯片设计
2510
AI 写作(六):核心技术与多元应用(6/10)
1590
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
8400
问 ChatGPT 关于 GPT 的事情:数据准备篇
5770
如何让机器听起来更像人?CMU博士论文探究可控文本生成
2400
相关推荐
还在为改论文头秃?新AI帮你搞定它,加注释查错增删细节样样在行,Meta AI团队出品
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档