Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >小模型增强可超GPT-4?北航 && 人大 | 提出大模型ICL增强范式,模型越小收益越高!

小模型增强可超GPT-4?北航 && 人大 | 提出大模型ICL增强范式,模型越小收益越高!

作者头像
ShuYini
发布于 2024-01-18 06:05:51
发布于 2024-01-18 06:05:51
4270
举报

引言

上下文学习(In-context Learning,ICL)技术是提高模型在自然语言处理任务上表现的高效提示技术,因而众多研究在这个方向上提出各种方法,但大多数都专注于示例样本的选择,排序,质量等,在样例层面提高模型表现很难再有新的突破。

另外,「现有的ICL技术在弱模型上的表现存在scaling law(缩放法则)的限制」,即弱模型很难超过强模型的表现,然而弱模型由于参数规模小易于部署易于微调,因此「如何提高小参数规模模型的性能是一个值得探索地问题」

基于上述问题,本文研究「提出了一种全新的ICL,名为SLEICL(Strong LLM Enhanced ICL,大模型增强上下文学习)的方法」,它通过利用强语言模型从示例样本中学习,并提炼出解决特定任务的技巧,从而增强弱语言模型在这些任务中的能力。其中,「强模型合成的技巧被称为Grimoire(魔法书)」

SLEICL方法介绍

作者从两个方面总结了前人的相关研究:

一方面,关于为什么ICL有效果的理论研究,作者以及部分前人的工作表明,ICL有效果并不一定是因为示例样本好,而可能是示例样本的底层数据分布,或者所隐含的底层规则让语言模型学习到问题求解的方法。这个思路也是他们工作的重要启发点。

另一方面,关于ICL示例提示工程,作者从示例样本的特征,顺序以及选择综述了前人的研究。这些示例样本的不同设置也是后续SLEICL方法的灵感来源。

上图非常形象直观地说明了SLEICL框架的运行,它包括5个步骤:

  1. 「示例样本提示工程」:选择什么样的样本,进行怎样的排序;
  2. 「生成Grimoire」:根据不同的示例样本构造方式由强模型生成不同的Grimoire;
  3. 回答测试集中的某个问题;
  4. 「Grimoire排序」:根据该问题对这些Grimoire进行排序;
  5. 选择出最适合回答该问题的Grimoire,并交给弱模型来回答;

接下来将重点介绍1,2,4具体操作步骤。

示例样本提示工程

「为了使Grimoire的类别多样化并全面考察其影响,作者开发了四种不同的代表性样本选择方法(KCS、HCS、HSS、RSS)和一种零样本的选择方法,以及两种grimoire生成模板(全面版本的Grimoire和精简版本的Grimoire),5种选择方式和2种生成模板总共创建10个Grimoires」

选择方式中的KCS指k-means聚类示例样本,并从每个聚类中挑选样本,这个方法能够提升样本的多样性。HCS用的是层次化聚类方法,与k-means相似。

HSS是指hard sample selection,这个方法是过去研究中没有的,它通过在训练集上先使用零样本提示的技巧先测试下弱模型的能力,找出其中回答错误的部分,这部分就是要总结成Grimoire的,这与人类从错误中总结经验进行学习异曲同工。最后还有两个作为基线的方法,random sample selection(随机样本选择方法)和零样本的选择方法。

生成模板的出现是由于往往强模型总结的Grimoire技巧太长了,不一定对下游小模型适用,因此这里包括了全面版本的和精简版本的Girmoire两种。

生成的Grimoire

有了上面不同方式生成的样本集合,就可以「将这些集合逐一送入强模型,提示它生成关于回答这些示例样本的技巧」,比如下面这就是一个生成的Grimoire,它是用于仇恨言论检测的。可以发现Grimoire并不会直接包含示例样本中的问题和答案,而是给出一种解决问题的方案,因此比示例样本更加通用。

❝Below are some skills needed to solve the task; you need to carefully learn and consider the process and methods step by step:

  1. Look for negative words about specific groups or people based on identity like race or gender.
  2. Check if the sentence sounds hostile or demeaning.
  3. Watch for broad negative statements about a whole group.

Grimoire排序

有了这么多的Grimoire,按照作者的说法,实际上还需要找到最适合具体问题的Grimoire。一个最易于实现的想法是让Grimoire和具体问题计算语义相似度,来判断和问题的亲和程度。

这是作者实现的一个简单的基本方法,显然这个方法由于没有考虑样本的构造方式,待评测模型的规模等特征不一定能提高模型效果,因而作者提出了更加通用的分类器方法,在大规模的数据集上训练出一套固定参数的分类器,在后续需要魔法书排序时就调用该分类器,计算出一个得分,得分高者则是合适具体问题的魔法书。

作者设计的分类器结构如下图所示,「它是一个带有自注意力机制的双塔结构深度神经网络模型」。其中context是和问题相关的嵌入,grimoire是魔法书的嵌入,最终会输出grimoire对context的亲和度。

实验结果

「数据集」 包括了四大类任务,八大数据集。分别是情感分类的SST5和Subj,主题分类的AgNews和TREC,自然语言推断的RTE和QNLI,以及仇恨言论检测的hate_sp18和ethos。

「模型」 评测了GPT4-1106-preview,GPT3.5-Turbo,LLaMA2-70B,LLaMA2-13B,Baichuan2-7B,PHI-2 (2.7B)共计六个模型。其中GPT4同时是作为其他模型的强模型,视其他模型均为弱模型。

「实验设置」 共包括三种设置,基线方法,例如零样本的和小样本的;单独grimoire的方法,例如单独使用由k-means采样得到的示例样本生成的全面版本的grimoire来回答问题;SLEICL,例如使用提出的分类器来动态选择合适的grimoire以回答具体问题。

「结果分析」 从结果来看,小模型的确能受益于grimoire,并且参数越小的模型受益越高;另外,与作者猜想一致,基于分类器的排序方法比使用相似度的排序方法效果更好;部分模型甚至在使用了grimoire之后能超过GPT-4的表现。

评价

总的来说,这是一份非常有意思的工作。作者提出了不同于以往的提示技术,即利用强大的语言模型从代表性样本中学习并提取特定任务的技能,增强了弱语言模型的能力,探索了ICL的新可能;

除此之外,开发了一个双塔深度神经网络分类器,用于识别出更有益于解决具体问题的Grimoire,当然对这个分类器可能还可以继续改进,这个地方使用推荐系统领域的方法或许能提高效果;并在8个数据集,6个模型,16个实验设置上进行了充分的实验,结果表明提出方法在小模型上的有效增益。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
我如何夺冠新加坡首届 GPT-4 提示工程大赛 [译]
由新加坡政府科技局(GovTech)组织的首届 GPT-4 提示工程大赛冠军 Sheila Teo 写的《我是如何夺冠新加坡首届 GPT-4 提示工程大赛的》Sheila 总结了 4 种提示词技巧:
硬核编程
2024/05/10
9800
我如何夺冠新加坡首届 GPT-4 提示工程大赛 [译]
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM 在给定包含输入输出示例的提示(prompt)后,直接生成新输入的输出,这一过程仅通过前向传播而无需调整模型权重。这种能力使得 LLM 能够基于上下文中的示例快速理解并适应新任务,展现出强大的小样本学习和泛化能力。理解 LLM 是如何实现 ICL 的,对于提高模型性能与效率、提升模型可解释性与 AI 安全、推广大模型应用与改进小样本学习算法具有重要意义,也是近来机器学习研究热点之一。有以下关键问题需要回答:
机器之心
2025/04/26
2050
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
多模态大型语言模型(MLLMs)在训练大规模图像-文本对时已显示出在图像理解方面的卓越能力。与图像领域类似,最近的视频理解模型也探索了类似的流程,在大规模视频-文本数据上对LLMs进行微调。然而,这种方法需要高昂的计算资源和视频数据标注成本。一种更为实用的方法是调整预先训练好的图像领域MLLMs以适应视频数据。
AIGC 先锋科技
2024/07/08
5180
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
ICLR 2020 | 超越SOTA Transformer模型,哈佛、FAIR提出基于残差能量模型的文本生成
机器之心报道 机器之心编辑部 在本文中,来自哈佛大学、Facebook AI 研究院的研究者提出了一种基于残差能量模型的文本生成方法,效果超过 state-of-the-art 的 transform
机器之心
2020/06/29
8180
ICLR 2020 | 超越SOTA Transformer模型,哈佛、FAIR提出基于残差能量模型的文本生成
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
自GPT-3首次提出了In-Context Learning(ICL)的概念而来,ICL目前已经变成了一种经典的LLMs使用方法。ICL,即In-Context Learning,是一种让大型语言模型(LLMs)通过少量标注样本在特定任务上进行学习的方法。这种方法的核心思想是,通过设计任务相关的指令形成提示模板,利用少量标注样本作为提示,引导模型在新的测试数据上生成预测结果。
汀丶人工智能
2024/06/15
2.5K0
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源
在生成式AI趋势里,让大模型回答和人类价值(意图)一致非常重要,也就是业内常说的对齐(Alignment)。
量子位
2023/11/14
3500
用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源
【GPT总结】Why Can GPT Learn In-Context?
这篇论文提出了一种新的方法,利用大型预训练语言模型展示了惊人的上下文学习能力。通过少量的示范输入-标签对,它们可以在没有参数更新的情况下预测未见输入的标签。尽管在性能上取得了巨大成功,但其工作机制仍然是一个开放问题。在这篇论文中,作者将语言模型解释为元优化器,并将上下文学习理解为隐式微调。在理论上,他们发现Transformer的注意力具有梯度下降的双重形式。基于此,他们将上下文学习理解为以下过程:GPT首先根据示范示例生成元梯度,然后将这些元梯度应用于原始的GPT以构建一个ICL模型。通过在真实任务上全面比较上下文学习和显式微调的行为,提供了支持我们理解的实证证据。实验结果表明,从多个角度来看,上下文学习的行为与显式微调类似。受Transformer注意力和梯度下降之间的双重形式启发,作者设计了一种基于动量的注意力机制,类比于带有动量的梯度下降。改进后的性能进一步支持了我们的理解,更重要的是,展示了利用我们的理解进行未来模型设计的潜力。该论文的代码可在\url{https://aka.ms/icl}上找到。
ApacheCN_飞龙
2024/03/20
2340
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
语义学习(ICL)是一种有效的方法,可以将大型语言模型(LLM)调整到执行特定任务,而无需通过微调更新模型参数(Brown等人,2020年)。它涉及用少量的训练示例 Prompt LLM,并提供一个测试输入,使LLM能够从提供的上下文中推理出正确的输出。
AIGC 先锋科技
2024/11/27
950
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
大语言模型非常擅长上下文学习(ICL),随着大模型上下文窗口的不断扩展,它可以让我们使用数百或者上千个样例,然而,当前多样本上下文学习(many-shot ICL)却受限于高质量人类生成示例。
ShuYini
2024/04/26
3500
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
媲美GPT-4!清华&&人大 | 提出IN3基准,大幅增强Agent系统交互能力
有些情况下,Agent给出的结果并不好,并不是说Agent能力不强,而是一开始下达命令的时候就有问题,例如问题本身就没有答案、问题描述模糊等。那么,如何才能让Agent主动引导用户表达自己的需求来实现满意的结果呢?
ShuYini
2024/02/22
3500
媲美GPT-4!清华&&人大 | 提出IN3基准,大幅增强Agent系统交互能力
100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌
---- 新智元报道   编辑:Aeneas 好困 【新智元导读】最新研究结果表明,AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%,而人类仅为87%。 GPT-4的心智理论,已经超越了人类! 最近,约翰斯·霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,大大提升了自己的心智理论性能。 论文地址:https://arxiv.org/abs/2304.11490 在一些测试中,人类的水平大概是87%,而GPT-4,已经达到了天花板级别的100%!
新智元
2023/05/09
2120
100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌
GPT模型在化学领域可以做些什么?
今天为大家介绍的是来自Xiangliang Zhang团队的一篇关于GPT能力讨论的论文。大型语言模型(LLMs)在自然语言处理任务中具有强大的能力,并迅速应用于科学、金融和软件工程等各种领域。然而,LLMs在推动化学领域的能力尚不清楚。作者建立了一个包含8个实际化学任务的全面基准,包括1)名称预测,2)属性预测,3)收率预测,4)反应预测,5)逆合成(从产物预测反应物),6)基于文本的分子设计,7)分子描述,和8)试剂选择。我们的分析基于广泛认可的数据集,包括BBBP、Tox21、PubChem、USPTO和ChEBI,有助于在实际化学背景下广泛探索LLMs的能力。作者评估了三个GPT模型(GPT-4、GPT-3.5和Davinci-003)在每个化学任务中以零样本和少样本上下文学习设置下的性能。作者的研究的主要结果是:1)在三个评估模型中,GPT-4的性能优于其他两个模型;2)在需要精确理解分子SMILES表示的任务(如反应预测和逆合成)中,GPT模型表现出较弱的竞争性能;3)GPT模型在与文本相关的解释任务(如分子描述)中展示出强大的能力;4)在可转化为分类或排序任务的化学问题(如属性预测和收率预测)中,GPT模型展现出与经典机器学习模型相当或更好的性能。
DrugAI
2023/09/19
5190
GPT模型在化学领域可以做些什么?
IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 科幻中有机器人三原则,IBM说不够,要十六原则 。 最新大模型研究工作中,以十六原则为基础,IBM让AI自己完成对齐流程。 全程只需300行(或更少)人类标注数据,就把基础语言模型变成ChatGPT式的AI助手。 更重要的是,整个方法完全开源,也就是说,任何人都能按此方法,低成本把基础语言模型变成类ChatGPT模型。 以开源羊驼LLaMA为基础模型,IBM训练出Dromedary(单峰骆驼),在TruthfulQA数据集上甚至取得超越GPT-4的成绩
量子位
2023/05/12
3020
IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
KDD2024 | HiGPT: 迈向下一代生成式图模型新范式
TLDR: 本文介绍香港大学数据智能实验室提出的最新图结构大语言模型(HiGPT),专门设计用于克服与泛化各种下游异质图学习任务相关的关键挑战。期待HiGPT能够吸引更多的开源社区开发者参与讨论和实践,进一步推动图结构与语言模型的有效结合。
张小磊
2024/07/05
3870
KDD2024 | HiGPT: 迈向下一代生成式图模型新范式
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。
机器之心
2024/02/26
3010
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%
当前,大型语言模型(LLM)在推理任务上表现出令人惊艳的能力,特别是在给出一些样例和中间步骤时。然而,prompt 方法往往依赖于 LLM 中的隐性知识,当隐性知识存在错误或者与任务不一致时,LLM 就会给出错误的回答。
机器之心
2023/10/24
3590
DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
在自然语言处理问题中,可从互联网上下载大量无标注数据,而针对具体问题的有标注数据却非常少,GPT 是一种半监督学习方法,它致力于用大量无标注数据让模型学习 “常识”,以缓解标注信息不足的问题。其具体方法是在针对有标签数据训练 Fine-tune 之前,用无标签数据预训练模型 Pretrain,并保证两种训练具有同样的网络结构。 GPT 底层也基于 Transformer 模型,与针对翻译任务的 Transformer 模型不同的是:它只使用了多个 Deocder 层。
汀丶人工智能
2023/07/18
3.7K0
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
基于检索增强的 GPT-3.5 的文本到 SQL 框架,具有样本感知提示和动态修订链。
论文标题:Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with Sample-aware Prompting and Dynamic Revision Chain
叶庭云
2024/05/25
1960
基于检索增强的 GPT-3.5 的文本到 SQL 框架,具有样本感知提示和动态修订链。
UIUC 李博:GPT-4 比你想象的更「傲慢」
近日,伊利诺伊大学香槟分校(UIUC)的李博教授及其团队与斯坦福大学共同发表的工作 “DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models”一文,提出了一种评价大模型可信性的方法,重点关注 GPT-4 和 GPT-3.5。此文也被多个平台包括Huggingface AMiner 学术平台转发.
AI科技评论
2023/08/08
4860
UIUC 李博:GPT-4 比你想象的更「傲慢」
大模型学好编程,常识逻辑能力一起提升!网友:GPT-4更强的关键所在?
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 大模型代码能力强,顺便还能提升其他能力? 最近CMU的一项研究突然在网上火了起来。 因为它提出了一个结论,模型掌握好代码能力后,在一些非代码任务上也能表现出色。 类比于:学好数理化走遍天下都不怕的感觉。 这一下子把网友们的脑洞给打开了。 难道说GPT-4比GPT-3.5强的关键原因,就在这里? 有人提问:这是否意味着掌握复杂编程,就能获得更高的推理水平? 还有人好奇,是不是说学编程有助于提升逻辑能力,真的有道理。 想要解释这些疑问,还要来看研究本
量子位
2023/05/24
2900
大模型学好编程,常识逻辑能力一起提升!网友:GPT-4更强的关键所在?
推荐阅读
我如何夺冠新加坡首届 GPT-4 提示工程大赛 [译]
9800
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
2050
​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法,超越GPT4V,突破资源限制 !
5180
ICLR 2020 | 超越SOTA Transformer模型,哈佛、FAIR提出基于残差能量模型的文本生成
8180
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
2.5K0
用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源
3500
【GPT总结】Why Can GPT Learn In-Context?
2340
牛津大学提出 Ensemble SuperICL ,超越 BaselineEn在 自然语言理解任务中表现卓越 !
950
充分发挥潜力!Google | 大模型(LLMs)的专属:多样本上下文学习(Many-shot ICL)
3500
媲美GPT-4!清华&&人大 | 提出IN3基准,大幅增强Agent系统交互能力
3500
100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌
2120
GPT模型在化学领域可以做些什么?
5190
IBM加入战局!任意大模型低成本变ChatGPT方法开源,个别任务超GPT-4
3020
KDD2024 | HiGPT: 迈向下一代生成式图模型新范式
3870
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
3010
DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%
3590
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
3.7K0
基于检索增强的 GPT-3.5 的文本到 SQL 框架,具有样本感知提示和动态修订链。
1960
UIUC 李博:GPT-4 比你想象的更「傲慢」
4860
大模型学好编程,常识逻辑能力一起提升!网友:GPT-4更强的关键所在?
2900
相关推荐
我如何夺冠新加坡首届 GPT-4 提示工程大赛 [译]
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档