
深度学习自然语言处理 原创 作者:wkk
为了改进LLM的推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让我们走进论文一探究竟吧!

对比解码(Contrastive Decoding)
在走进论文之前首先介绍一下什么是对比解码,其是由Li等人在2022年提出的一种文本生成方法,具有简单、计算量小、训练自由等特点。它通过查找到最大化强模型和弱模型之间可能性差异的字符串来生成文本,从而产生更多且更高质量的文本。在对比解码中,弱模型可以是常规的贪心解码方法,如一些简单的采样方法,强模型可以是经过训练的大型语言模型。对比解码可以在很多推理任务上表现出色,包括算术推理和多项选择排名任务,可以提高语言模型的准确率。
本文创新点:探索对比解码在LLM上的应用。具体地,通过最大化专家模型和较弱的业余模型之间存在的可能性误差(如下图所示)来搜索字符串,避免了专家模型中的不良影响和贪婪解码会出现的采样误差问题。

实验结论:通过在多种任务上的测试,本文证明了对比解码可以提高大型语言模型在推理和文本生成问题上的性能,这是第一种同时在推理和文本生成问题上实现最先进结果的生成算法。此外,还分析了对比解码的改进原因,并探讨了该方法在常识推理和事实检索方面的适用性。
实验设置

实验结果


对比解码的影响
本文还进行了一系列附加实验,研究表明,对比解码可以在大型语言模型中提高推理能力。在算术推理和多项选择排名任务上,包括LLaMA-65B这样的大型模型,都有普遍的改进,这表明对比解码可以使更大的模型受益。通过分析对比解码改进的原因。实证表明,与贪婪解码相比,对比解码从提示中复制的表面层次较少,错过的推理步骤也较少。这一结果表明,对比解码通过减少模型分布中的短、重复或其他不良模式来起作用。
使用对比解码(Contrastive Decoding)方法可以显著提高大型语言模型在一系列推理任务中的准确性,这种方法不仅在生成文本方面表现优异,还可以在推理问题方面超越当前现有的各种模型。同时,该方法能够减少模型分布中的短、重复或其他不良模式,从而提高模型的推理能力。然而,该方法在常识推理任务中表现良莠不齐,需要进一步研究和改进。总的来说,对比解码方法在改善语言模型的生成和推理能力上具有广泛的应用前景。