上下文学习(In-context Learning,ICL)技术是提高模型在自然语言处理任务上表现的高效提示技术,因而众多研究在这个方向上提出各种方法,但大多数都专注于示例样本的选择,排序,质量等,在样例层面提高模型表现很难再有新的突破。
另外,「现有的ICL技术在弱模型上的表现存在scaling law(缩放法则)的限制」,即弱模型很难超过强模型的表现,然而弱模型由于参数规模小易于部署易于微调,因此「如何提高小参数规模模型的性能是一个值得探索地问题」。
基于上述问题,本文研究「提出了一种全新的ICL,名为SLEICL(Strong LLM Enhanced ICL,大模型增强上下文学习)的方法」,它通过利用强语言模型从示例样本中学习,并提炼出解决特定任务的技巧,从而增强弱语言模型在这些任务中的能力。其中,「强模型合成的技巧被称为Grimoire(魔法书)」。
作者从两个方面总结了前人的相关研究:
一方面,关于为什么ICL有效果的理论研究,作者以及部分前人的工作表明,ICL有效果并不一定是因为示例样本好,而可能是示例样本的底层数据分布,或者所隐含的底层规则让语言模型学习到问题求解的方法。这个思路也是他们工作的重要启发点。
另一方面,关于ICL示例提示工程,作者从示例样本的特征,顺序以及选择综述了前人的研究。这些示例样本的不同设置也是后续SLEICL方法的灵感来源。
上图非常形象直观地说明了SLEICL框架的运行,它包括5个步骤:
接下来将重点介绍1,2,4具体操作步骤。
「为了使Grimoire的类别多样化并全面考察其影响,作者开发了四种不同的代表性样本选择方法(KCS、HCS、HSS、RSS)和一种零样本的选择方法,以及两种grimoire生成模板(全面版本的Grimoire和精简版本的Grimoire),5种选择方式和2种生成模板总共创建10个Grimoires」。
选择方式中的KCS指k-means聚类示例样本,并从每个聚类中挑选样本,这个方法能够提升样本的多样性。HCS用的是层次化聚类方法,与k-means相似。
HSS是指hard sample selection,这个方法是过去研究中没有的,它通过在训练集上先使用零样本提示的技巧先测试下弱模型的能力,找出其中回答错误的部分,这部分就是要总结成Grimoire的,这与人类从错误中总结经验进行学习异曲同工。最后还有两个作为基线的方法,random sample selection(随机样本选择方法)和零样本的选择方法。
生成模板的出现是由于往往强模型总结的Grimoire技巧太长了,不一定对下游小模型适用,因此这里包括了全面版本的和精简版本的Girmoire两种。
有了上面不同方式生成的样本集合,就可以「将这些集合逐一送入强模型,提示它生成关于回答这些示例样本的技巧」,比如下面这就是一个生成的Grimoire,它是用于仇恨言论检测的。可以发现Grimoire并不会直接包含示例样本中的问题和答案,而是给出一种解决问题的方案,因此比示例样本更加通用。
❝Below are some skills needed to solve the task; you need to carefully learn and consider the process and methods step by step:
❞
有了这么多的Grimoire,按照作者的说法,实际上还需要找到最适合具体问题的Grimoire。一个最易于实现的想法是让Grimoire和具体问题计算语义相似度,来判断和问题的亲和程度。
这是作者实现的一个简单的基本方法,显然这个方法由于没有考虑样本的构造方式,待评测模型的规模等特征不一定能提高模型效果,因而作者提出了更加通用的分类器方法,在大规模的数据集上训练出一套固定参数的分类器,在后续需要魔法书排序时就调用该分类器,计算出一个得分,得分高者则是合适具体问题的魔法书。
作者设计的分类器结构如下图所示,「它是一个带有自注意力机制的双塔结构深度神经网络模型」。其中context是和问题相关的嵌入,grimoire是魔法书的嵌入,最终会输出grimoire对context的亲和度。
「数据集」 包括了四大类任务,八大数据集。分别是情感分类的SST5和Subj,主题分类的AgNews和TREC,自然语言推断的RTE和QNLI,以及仇恨言论检测的hate_sp18和ethos。
「模型」 评测了GPT4-1106-preview,GPT3.5-Turbo,LLaMA2-70B,LLaMA2-13B,Baichuan2-7B,PHI-2 (2.7B)共计六个模型。其中GPT4同时是作为其他模型的强模型,视其他模型均为弱模型。
「实验设置」 共包括三种设置,基线方法,例如零样本的和小样本的;单独grimoire的方法,例如单独使用由k-means采样得到的示例样本生成的全面版本的grimoire来回答问题;SLEICL,例如使用提出的分类器来动态选择合适的grimoire以回答具体问题。
「结果分析」 从结果来看,小模型的确能受益于grimoire,并且参数越小的模型受益越高;另外,与作者猜想一致,基于分类器的排序方法比使用相似度的排序方法效果更好;部分模型甚至在使用了grimoire之后能超过GPT-4的表现。
总的来说,这是一份非常有意思的工作。作者提出了不同于以往的提示技术,即利用强大的语言模型从代表性样本中学习并提取特定任务的技能,增强了弱语言模型的能力,探索了ICL的新可能;
除此之外,开发了一个双塔深度神经网络分类器,用于识别出更有益于解决具体问题的Grimoire,当然对这个分类器可能还可以继续改进,这个地方使用推荐系统领域的方法或许能提高效果;并在8个数据集,6个模型,16个实验设置上进行了充分的实验,结果表明提出方法在小模型上的有效增益。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有