前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ENVISIONS:一种无需人类标注的LLM自训练框架

ENVISIONS:一种无需人类标注的LLM自训练框架

作者头像
zenRRan
发布于 2024-07-04 04:42:08
发布于 2024-07-04 04:42:08
2720
举报

论文:Interactive Evolution: A Neural-Symbolic Self-Training Framework For Large Language Models 地址:https://arxiv.org/abs/2406.11736 项目:https://github.com/xufangzhi/ENVISIONS

这篇论文试图解决什么问题?

这篇论文提出了一个名为ENVISIONS的环境引导的神经符号自训练框架,旨在解决以下两个问题:

  1. 符号数据的稀缺性:在神经符号场景中,与丰富的自然语言(NL)标注数据相比,获取符号标注数据(例如,用于复杂规划、数学推理、机器人学和代理任务的符号表示)更加困难和昂贵。
  2. 大型语言模型(LLMs)处理符号语言的能力有限:当前的自训练方法在自然语言场景中取得了成功,但在神经符号场景中,LLMs在处理符号语言方面的能力还有待提高。

为了解决这些问题,ENVISIONS框架通过与环境的交互来进行迭代训练,以增强LLMs处理符号语言的能力,并减少对人类标注数据的需求。通过广泛的评估,论文证明了该方法在不同领域(包括Web代理、数学推理和逻辑推理)的有效性,并通过深入分析揭示了ENVISIONS成功的贡献因素,为未来在这一领域的研究提供了有价值的见解。

论文如何解决这个问题?

论文通过提出ENVISIONS框架来解决上述问题,具体方法包括以下几个关键步骤:

  1. 环境引导的自训练(Env-guided Self-Training): ENVISIONS框架采用环境引导的自训练方法,通过与环境的交互来迭代训练LLMs。这种方法不依赖于现有的更强大的LLMs或人类标注的符号数据。
  2. 在线探索(Online Exploration): LLMs自主地与环境交互,生成候选的符号解决方案,并通过执行这些方案来获得反馈。这个过程包括自我探索、自我提炼和自我奖励三个阶段。
    • 自我探索(Self-Exploration):给定自然语言输入,LLM生成多种符号输出,并在环境中执行这些输出以获得基于期望输出的二进制反馈。
    • 自我提炼(Self-Refinement):使用自我探索得到的解决方案作为参考,LLM重新生成经过提炼的符号解决方案,以提高解决方案的质量。
    • 自我奖励(Self-Rewarding):根据LLM生成的符号解决方案的序列输出概率计算软奖励分数,以此来区分不同正解之间的偏好或从负解中获得有价值的反馈。
  3. 数据选择和训练策略(Data Selection and Training Strategies): 通过在线探索阶段生成的候选轨迹,ENVISIONS选择优质轨迹进行LLM的训练。这包括轨迹过滤、候选池更新、监督式微调以及从错误中学习。
  4. 对比损失函数(Contrastive Loss Function): ENVISIONS设计了一个无需强化学习的损失函数,通过对比正负解决方案来优化模型,这样做提高了训练效率并保持了自我提炼的能力。

通过这些方法,ENVISIONS框架能够在不需要昂贵的人类标注数据和现有强大模型的情况下,有效地提升LLMs处理符号语言的能力,并在多个领域展现出卓越的性能。

论文做了哪些实验?

论文中进行了广泛的实验来评估ENVISIONS框架的有效性,实验涉及三个不同的领域:Web代理、数学推理和逻辑推理。以下是具体的实验细节:

  1. 数据集: 选择了三个领域内的多个数据集进行评估:
    • Web代理:使用了MiniWob++数据集,这是一个广泛使用的Web导航基准测试。
    • 数学推理:包括了GSM8K、MATH、GSM-Hard、SVAMP和AsDiv等任务。
    • 逻辑推理:使用了ProofWriter和RuleTaker数据集来评估逻辑推理性能。
  2. 基线和训练细节: 考虑了三种不同的基线方法,包括Distill-then-Finetune、Reinforced Self-Training和Env-guided Self-Training,并在相同的代码库下复现这些基线以确保公平比较。
  1. 训练配置: 使用了LLaMA2-Chat 7B/13B模型进行评估,并设置了不同的候选解决方案数量K(5个),迭代次数(对于Web代理、数学和逻辑任务分别设置为5、10和8次迭代)。
  2. 主要结果: 展示了ENVISIONS与其他基线方法相比的性能提升,包括与Distill-then-Finetune方法相比5.66%-7.13%的改进,以及与Reinforced Self-Training和其他Env-guided Self-Training方法相比2.78%-14.47%的平均增益。
  1. 自我训练框架的迭代演变: 通过迭代演变曲线展示了ENVISIONS和其他自训练方法的性能进步,特别是在LLaMA2Chat 13B模型上。
  1. 消融研究: 对ENVISIONS的关键组件进行了消融研究,以验证它们在提升性能中的作用,包括自我提炼过程、自我奖励策略、长期记忆的使用以及L2损失函数的优化。
  1. 泛化到不同模型: 展示了ENVISIONS框架对其他大型语言模型(如DeepSeek-Chat和Llemma)在数学推理任务上的泛化能力。
  1. 分析实验: 深入分析了ENVISIONS成功的原因,包括探索能力和稳定性的平衡、正负解之间的对数概率边界以及合成样本的多样性。
  1. 实验设置和统计显著性: 论文详细说明了所有训练和测试的细节,包括数据分割、超参数选择、优化器类型等,但没有报告误差条,因为计算成本过高。
  2. 计算资源: 提供了实验所需的计算资源信息,包括GPU类型和数量。

这些实验结果表明,ENVISIONS框架能够有效地提升LLMs在神经符号场景中的表现,并且具有很好的泛化能力和可扩展性。

论文主要内容总结

这篇论文的主要内容可以总结如下:

问题提出: 论文针对大型语言模型(LLMs)在神经符号场景下的应用,提出了两个主要挑战:符号数据的稀缺性和LLMs在处理符号语言上的局限性。

ENVISIONS框架: 为了解决上述问题,论文提出了一个名为ENVISIONS的环境引导神经符号自训练框架,该框架不依赖于人类标注的符号数据,也不需要现有的更强大的LLMs作为教师模型。

自训练方法: ENVISIONS框架采用迭代的自训练方法,包括自我探索、自我提炼和自我奖励三个阶段,以增强LLMs处理符号语言的能力。

实验评估: 论文在Web代理、数学推理和逻辑推理三个不同的领域进行了广泛的实验评估,验证了ENVISIONS框架的有效性。

性能提升: 实验结果显示,ENVISIONS在各个领域中均展现出了优越的性能,与现有的自训练方法相比有显著的性能提升。

消融研究: 通过消融研究,论文深入分析了ENVISIONS框架中关键组件的作用,包括自我提炼过程、自我奖励策略等。

泛化能力: 论文还探讨了ENVISIONS框架对不同LLMs的泛化能力,证明了其能够提升不同基础模型在数学推理任务上的性能。

深入分析: 论文从探索能力、稳定性、正负解之间的对数概率边界以及合成样本的多样性等角度,深入分析了ENVISIONS框架的优势。

未来工作: 论文讨论了ENVISIONS框架的局限性,并提出了未来研究的方向,如扩展到更广泛的领域、更大规模的模型、提高计算效率等。

社会影响: 论文讨论了该研究可能带来的社会影响,包括积极的和潜在的负面影响,并考虑了相应的缓解策略。

总的来说,这篇论文提出了一个创新的自训练框架ENVISIONS,旨在提高LLMs在神经符号场景下的性能,并通过一系列实验验证了其有效性,同时对未来的研究方向提供了指导。

本文由kimi+人工共同完成。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战,我们提出了一个新颖的框架:从反思反馈中强化学习Reinforcement Learning from Reflective Feedback (RLRF),它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应,然后通过 RL 算法对模型进行微调,同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明,RLRF 的功效和变革潜力超出了表面的调整。
zenRRan
2024/04/11
5290
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力。
机器之心
2025/04/24
1560
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.4K0
深入了解Deepseek模型的最佳三篇论文
每周AI论文速递(241223-241227)
自回归模型是视觉生成的一种强大方法,但由于其逐 Token 的序列预测过程,导致推理速度较慢。在本文中,我们提出了一种简单而有效的并行化自回归视觉生成方法,该方法在保持自回归建模优势的同时提高了生成效率。我们的核心观点是,并行生成依赖于视觉 Token 的依赖关系——依赖关系较弱的 Token 可以并行生成,而依赖关系较强的相邻 Token 则难以并行生成,因为它们的独立采样可能导致不一致性。基于这一发现,我们开发了一种并行生成策略,该策略并行生成依赖关系较远的 Token,同时对依赖关系较强的局部 Token 保持序列生成。我们的方法可以无缝集成到标准的自回归模型中,而无需修改架构或 Tokenizer。在 ImageNet 和 UCF-101 数据集上的实验表明,我们的方法在图像和视频生成任务中实现了 3.6 倍的加速,且质量相当;在质量轻微下降的情况下,加速比可达 9.5 倍。我们希望这项工作能够激发未来在高效视觉生成和统一自回归建模方面的研究。项目页面:https://epiphqny.github.io/PAR-project。
叶子的技术碎碎念
2025/04/08
1080
每周AI论文速递(241223-241227)
每周AI论文速递(240415-240419)
我们研究了一种简单方法来开发一个小型基础语言模型 (LM),从一个现有的大型基础 LM 开始:首先从较大的 LM 继承一些 Transformer 块,然后在这个较小的模型上使用一个非常小的子集 (0.1%) 进行训练,这个子集来自较大模型的原始预训练数据。我们将我们的简单配方称为 Inheritune,并首次展示了如何使用 1B token (以及较大 LM 的前几层,拥有 3B 参数) 构建一个具有 1.5B 参数的小型基础 LM;我们使用单个 A6000 GPU 在不到半天的时间内完成了这一工作。在 9 个不同的评估数据集以及 MMLU 基准测试中,所得模型与公开可用的 1B-2B 大小的基础模型相比,表现出色,其中一些使用了 50-1000 倍的 token 进行训练。我们在稍有不同的设置中研究 Inheritune,其中我们训练小型 LMs 利用较大 LMs 及其完整的预训练数据集。在这里,我们展示了使用 GPT2-medium (355M) 和 GPT-2-large (770M) 的一些层训练的较小 LMs 可以在使用 OpenWebText 数据集的 9B tokens 进行相同数量的训练步骤时有效地匹配其更大的对应物的 val 损失。我们通过广泛的实验分析了我们的配方,并在多种设置中展示了它的效力。我们的代码可在 https://github.com/sanyalsunny111/LLM-Inheritune 上获得。
叶子的技术碎碎念
2025/04/08
650
每周AI论文速递(240415-240419)
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1140
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
2024年6月上半月30篇大语言模型的论文推荐
大语言模型(LLMs)在近年来取得了快速发展。本文总结了2024年6月上半月发布的一些最重要的LLM论文,可以让你及时了解最新进展。
deephub
2024/07/01
6700
2024年6月上半月30篇大语言模型的论文推荐
代码增强LLM!UIUC | 概述将代码数据加入LLM训练数据中的各种好处
大模型时代的语言模型(LLM)不仅在尺寸上变得更大了,而且训练数据也同时包含了自然语言和形式语言(代码)。作为人类和计算机之间的媒介,代码可以将高级目标转换为可执行的中间步骤,具有语法标准、逻辑一致、抽象和模块化的特点。
ShuYini
2024/01/31
5180
代码增强LLM!UIUC | 概述将代码数据加入LLM训练数据中的各种好处
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
Faithful Logical Reasoning via Symbolic Chain-of-Thought
NewBeeNLP
2024/06/27
4020
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
【论文分享】推理大模型Post-Training技术的全面综述
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。
致Great
2025/03/07
3160
【论文分享】推理大模型Post-Training技术的全面综述
每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远
摘要:最近,GPT-4V 等视觉语言模型(VLM)在各种视觉语言任务中取得了令人难以置信的进步。我们深入研究了基于视觉的演绎推理这一更为复杂但探索较少的领域,并发现了当前 SOTA 视觉语言模型中尚未暴露的盲点。具体来说,我们利用Raven's Progressive Matrices(RPM)来评估 VLM 仅依靠视觉线索进行多跳multi-hop关系和演绎推理的能力。我们在三个不同的数据集(包括 Mensa IQ 测试、IntelligenceTest 和 RAVEN)上对几种流行的 VLM 进行了全面评估,这些 VLM 采用了标准策略,如上下文学习、自我一致性(SC)和思维链(CoT)。结果表明,尽管 LLM 在文本推理方面的能力令人印象深刻,但我们在视觉演绎推理方面仍远未达到可比的熟练程度。我们发现,某些在 LLMs 中有效的标准策略并不能完美地应对视觉推理任务带来的挑战。此外,详细的分析表明,VLMs 在解决这些任务时之所以举步维艰,主要是因为他们无法感知和理解 RPM 示例中多种混淆的抽象模式。
zenRRan
2024/03/25
1650
每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远
首个符号大模型!Symbol- LLM:探索自然语言与符号之间的能力平衡
当前,大型语言模型 (Large Language Model, LLM) 大多强调以自然语言 (Natural Language, NL)为媒介进行交互、推理以及反馈修正。然而,LLM对符号语言的处理能力如何?如何增强LLM的符号交互能力? Symbol-LLM这项目工作给出了答案,并开源了涵盖超20种符号类型的训练数据集,以及统一符号的开源基座大模型 (7B/13B)
zenRRan
2024/04/11
9030
首个符号大模型!Symbol- LLM:探索自然语言与符号之间的能力平衡
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
不仅如此,SLM在美国数学奥林匹克(AIME)上,拿下了53.3%的亮眼成绩,直逼全美20%顶尖高中生!
新智元
2025/02/15
1070
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
每日论文速递 | ALARM:通过分级Reward对齐LLM
摘要:我们介绍了 ALaRM,它是第一个在人类反馈强化学习(RLHF)中模拟分层奖励的框架,旨在增强大语言模型(LLM)与人类偏好的一致性。该框架通过将整体奖励与特定方面的奖励整合在一起,解决了当前对齐方法的局限性,这些方法往往难以应对人类监督信号的不一致性和稀缺性。这种整合能更精确、更一致地指导语言模型实现预期结果,尤其是在复杂、开放的文本生成任务中。通过采用一种基于一致性过滤和组合多种奖励的方法,该框架提供了一种可靠的机制来改善模型的一致性。我们在长式问题解答和机器翻译任务中应用 gpt-3.5-turbo 进行成对比较,验证了我们的方法,并展示了与现有基线相比的改进。我们的工作强调了分层奖励建模在改进 LLM 训练过程以改善人类偏好对齐方面的有效性。
zenRRan
2024/03/25
2800
每日论文速递 | ALARM:通过分级Reward对齐LLM
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
OpenAI o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力,就输出越多智能,一直到超越人类水平。
机器之心
2025/02/03
670
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会发表论文。
机器之心
2025/04/15
1110
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
人会逆向思维,LLM也可以?DeepMind研究表明还能提升推理能力
人能逆向思维,LLM 也可以吗?北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明,LLM 确实可以,并且逆向思维还能帮助提升 LLM 的正向推理能力!
机器之心
2025/02/15
1130
人会逆向思维,LLM也可以?DeepMind研究表明还能提升推理能力
小红书推出新框架:负样本也能提升大模型的推理能力
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。
深度学习与Python
2024/01/24
6340
小红书推出新框架:负样本也能提升大模型的推理能力
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
3170
DeepSeek-R1:强化学习驱动的LLM推理能力提升
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
徐俊东,本文第一作者。本科毕业于伦敦大学学院(UCL),硕士就读于新加坡国立大学(NUS)计算机系。主要研究方向为大语言模型的推理能力。
机器之心
2024/06/17
2930
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
推荐阅读
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
5290
业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10
1560
深入了解Deepseek模型的最佳三篇论文
1.4K0
每周AI论文速递(241223-241227)
1080
每周AI论文速递(240415-240419)
650
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
1140
2024年6月上半月30篇大语言模型的论文推荐
6700
代码增强LLM!UIUC | 概述将代码数据加入LLM训练数据中的各种好处
5180
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
4020
【论文分享】推理大模型Post-Training技术的全面综述
3160
每日论文速递 | 苹果发文:VLMs离视觉演绎推理还有多远
1650
首个符号大模型!Symbol- LLM:探索自然语言与符号之间的能力平衡
9030
7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火
1070
每日论文速递 | ALARM:通过分级Reward对齐LLM
2800
让7B千问模型超越o1,微软rStar-Math惊艳登场,网友盛赞
670
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理
1110
人会逆向思维,LLM也可以?DeepMind研究表明还能提升推理能力
1130
小红书推出新框架:负样本也能提升大模型的推理能力
6340
DeepSeek-R1:强化学习驱动的LLM推理能力提升
3170
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力,开源框架SymbCoT来了
2930
相关推荐
每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档