Q*框架：通过有意识引导无需微调即可提升LLMs多步推理能力

zenRRan

发布于 2024-07-04 04:40:35

4940

论文：Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning 地址：https://arxiv.org/pdf/2406.14283 单位：Skywork AI、南洋理工

这篇文章介绍了一个名为Q的框架，旨在改善大型语言模型（LLMs）在多步推理任务中的性能。作者指出，尽管LLMs在许多自然语言任务上表现出色，但在执行多步推理时，由于其自回归生成过程，容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题，引入了一个通用、多功能且灵活的框架，通过有意识的规划引导LLMs的解码过程。

Q*框架的核心是学习一个即插即用的Q值模型作为启发式函数，以估计预期的未来奖励，有效指导LLMs选择最有希望的下一步推理步骤。这种方法不需要针对当前任务微调LLMs，从而避免了显著的计算开销和在其他任务上性能下降的风险。

文章的主要贡献包括：

将LLMs的多步推理形式化为马尔可夫决策过程（MDP）。
提出了几种通用方法来估计状态-动作对的最优Q值，包括离线强化学习、从rollouts中获取最佳序列和使用更强的LLMs完成。
将解决多步推理任务视为启发式搜索问题，基于A搜索构建的Q框架，利用Q值模型作为启发式函数，以最佳优先的方式指导LLMs选择最有希望的下一步推理步骤。

通过在GSM8K、MATH和MBPP等数据集上的广泛实验，验证了Q*方法的优越性，有助于提高现有开源LLMs的推理性能。

这篇论文试图解决什么问题？

这篇论文试图解决大型语言模型（LLMs）在执行多步推理任务时面临的问题。具体来说，LLMs在进行自然语言任务时表现出色，但在多步推理过程中，由于其自回归生成的特性，容易出现以下问题：

错误产生：在推理过程中，如果某个步骤出错，可能会导致整个推理链的错误。
幻觉：模型可能生成与实际问题无关的信息。
不一致的陈述：模型的输出可能在逻辑上自相矛盾。

这些问题限制了LLMs在需要深入、有意识和逻辑性推理的复杂问题上的表现。为了解决这些问题，论文提出了Q框架，这是一个通过有意识的规划来引导LLMs解码过程的框架，目的是提高LLMs在多步推理任务中的性能和准确性。通过使用Q框架，可以在不针对特定任务微调LLMs的情况下，有效指导它们选择最有希望的下一步推理步骤，从而避免了计算资源的大量消耗和在其他任务上可能的性能下降风险。

有哪些相关研究？

论文中提到了与大型语言模型（LLMs）多步推理能力提升相关的一些研究工作，主要包括以下几个方面：

LLMs对齐（Alignment）：这是为了防止LLMs的输出偏离人类预期的重要技术。包括：
- 监督式微调（Supervised Fine-Tuning, SFT）：通过最小化输出和真实情况之间的交叉熵损失来直接对齐。
- 人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）：首先从人类偏好中学习奖励模型，然后通过强化学习算法优化模型以最大化奖励。
- 直接偏好优化（Direct Preference Optimization, DPO）：根据人类反馈的排名信息直接对齐LLMs，而不是显式地学习奖励模型。
- Aligner：一种模型无关的对齐方法，通过学习重写LLMs的输出来实现对齐。
通过规划增强LLMs：使用基本的树搜索算法、蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）和A*搜索等规划技术来增强LLMs解决复杂推理问题的性能。
LLMs在数学推理和代码生成上的应用：这些任务要求LLMs在关系、数量和逻辑上执行多步推理，具有挑战性。当前技术包括：
- 提示工程（Prompt Engineering）：使用精心设计的提示来触发LLMs的潜能。
- 大量数学/代码语料库的微调：这通常需要显著的计算负担，并且可能影响在其他任务上的表现。
- 训练奖励模型/验证器来对候选解决方案进行排名：不提供中间步骤的任何指导。
启发式搜索算法：如A*搜索算法，在规划和约束推理中的重要性。
其他相关工作：包括使用不同的方法来提高LLMs在特定任务上的表现，例如数学问题求解、代码生成和其他需要逻辑推理的场景。

这些研究工作为Q框架的开发提供了背景和基础，Q框架通过引入一个通用的、可插拔的Q值模型作为启发式函数，来改善LLMs在多步推理任务中的表现。

论文如何解决这个问题？

论文通过提出Q框架来解决大型语言模型（LLMs）在多步推理任务中遇到的问题。Q框架的关键思想和解决方案包括以下几个方面：

将多步推理视为启发式搜索问题：Q*框架将LLMs的多步推理过程视为一个搜索问题，其中每一步的推理都可以看作是在搜索空间中的一个动作。
使用Q值模型作为启发式函数：Q*学习一个Q值模型来估计预期的未来奖励，这个模型可以作为启发式函数来指导搜索过程，帮助LLMs选择最有希望的下一步。
马尔可夫决策过程（MDP）：将多步推理过程形式化为MDP，其中状态是输入提示和迄今为止生成的推理步骤的组合，动作是下一步推理步骤，奖励是衡量任务解决程度的指标。
估计最优Q值：提出了几种方法来估计状态-动作对的最优Q值，包括：
- 离线强化学习：使用历史数据来训练Q值模型。
- 从rollouts中获取最佳序列：通过随机采样或MCTS来生成轨迹，并选择累积奖励最高的轨迹来估计Q值。
- 使用更强的LLMs完成轨迹：如果可能，使用更强大的LLMs来完成轨迹并估计最优Q值。
A*搜索算法：Q基于A搜索算法构建，利用Q值模型来计算每个状态的f值（即g值和启发式值h的加权和），并执行最佳优先搜索来找到最优的推理路径。
避免微调LLMs：Q*框架不需要对LLMs进行特定任务的微调，这避免了显著的计算开销和在其他任务上可能出现的性能下降风险。
单步推理：与需要多次rollout的MCTS不同，Q*在每次迭代中只考虑单步推理，这大大减少了计算成本。

通过这些方法，Q框架能够有效地引导LLMs在多步推理任务中选择最合适的下一步，提高推理的准确性和一致性，同时保持了计算效率。论文通过在数学推理和代码生成任务上的广泛实验，证明了Q方法的有效性。

论文做了哪些实验？

论文中进行了广泛的实验来评估Q*框架在提高大型语言模型（LLMs）多步推理能力方面的效果。实验涵盖了数学推理和代码生成任务，并使用了以下数据集：

GSM8K：这是一个包含小学数学问题的数据集，解决方案以单行格式给出，最后一行包含确切的数值答案。
MATH：这个数据集由高中数学竞赛的数学问题组成，解决方案的格式混合了LaTeX代码和自然语言。
MBPP：这是一个入门级Python编程数据集，包含编程挑战以及定义函数格式的测试用例。解决方案是预期通过每个问题预先收集的测试用例的Python代码。

实验设置包括以下几个方面：

Q值估计：使用不同的方法来估计Q值，包括离线强化学习、从rollouts中获取最佳序列和使用更强的LLMs完成轨迹。
效用聚合：对于不同的数据集，采用不同的方法来聚合每个步骤的效用，例如使用过程奖励模型（PRM）或对生成的代码进行标记和惩罚。
A*规划：在GSM8K和MATH数据集上，将LLM输出的单行作为动作；在MBPP数据集上，将24个标记的代码片段定义为动作。
实验结果：实验结果显示，Q方法在所有评估的数据集上都能显著提高LLMs的多步推理能力。例如，在GSM8K数据集上，使用Llama-2-7b模型并结合Q方法，可以达到80.8%的准确率，超过了一些封闭源模型的性能。在MATH数据集上，使用Q方法的DeepSeek-Math-7b模型达到了55.4%的准确率，超过了多个封闭源模型。在MBPP数据集上，使用CodeQwen1.5-7b-Chat模型结合Q方法达到了77.0%的准确率。

实验结果证明了Q框架的有效性，特别是在提高现有开源LLMs在多步推理任务中的性能方面。通过这些实验，论文展示了Q框架如何通过有意识的规划来指导LLMs选择最优的推理步骤，从而提高整体的推理性能。