前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >优化AI输出:长度约束下的指令遵循模型研究

优化AI输出:长度约束下的指令遵循模型研究

作者头像
zenRRan
发布2024-07-04 12:43:16
850
发布2024-07-04 12:43:16
举报
文章被收录于专栏:深度学习自然语言处理

论文:Following Length Constraints in Instructions 链接:https://arxiv.org/pdf/2406.17744

这篇文章的标题是《Following Length Constraints in Instructions》,作者是Weizhe Yuan、Ilia Kulikov、Ping Yu、Kyunghyun Cho、Sainbayar Sukhbaatar、Jason Weston和Jing Xu,来自Meta FAIR和纽约大学。文章主要探讨了在人工智能领域,特别是在指令遵循模型中,如何处理和优化输出响应的长度限制问题。

以下是对文章内容的简单解读:

  1. 问题引入:文章指出,在AI指令遵循模型中存在一个普遍现象,即在评估模型性能时,存在“长度偏见”(length bias),即人们倾向于偏好更长的响应。这导致训练算法倾向于生成更长的响应。
  1. 现有问题:尽管一些评估基准测试已经尝试通过引入长度惩罚来解决这种偏见,但这并没有从根本上解决问题。文章认为,许多查询中期望的响应长度是模糊的,这种模糊性使得评估变得困难,进而影响了使用这些评估信号的训练算法。
  1. 提出的解决方案:作者提出,在评估中应包括进一步消除歧义的指令,这些指令规定了期望响应的长度。例如,通过添加“答案应少于300个单词”的指令,可以明确期望的响应长度。
  1. 实验与方法:文章通过构建和评估模型在长度指导版本的AlpacaEval 2和MT-Bench上的表现,展示了现有最先进的指令遵循模型在遵循最大单词长度指令方面的不足。作者开发了一种方法,称为长度指令微调(Length-Instruction FineTuning,简称LIFT),通过在原始提示中插入长度指令来构建增强的训练数据。
  1. 实验结果:使用LIFT方法训练的模型在长度受限的评估中表现更好,与现有的指令遵循模型相比,违反长度限制的情况更少,整体胜率更高。
  1. 相关工作:文章还讨论了与模型对齐的长度偏见相关的工作,以及考虑长度的学习方法,特别是在摘要任务中。
  2. 新基准测试:作者创建了两个新的基准测试,AlpacaEval-LI和MT-Bench-LI,用于评估模型遵循长度指令的能力。
  3. 结论与限制:文章总结了通过引入长度指令来解决一般指令遵循中的长度偏见问题,并指出LIFT-DPO模型在控制输出长度的同时保持了高响应质量。同时,作者也指出了研究的局限性,比如长度限制的设定方式和人类对更长更详细响应的自然偏好等。

文章最后提供了参考文献和附录,包含了一些技术细节和额外的实验结果。

本文由kimi+人工共同完成。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档