揭秘LLM推理短板！新基准聚焦多步推理，多任务实验评估能力局限！

未来先知

发布于 2025-02-26 15:26:21

2811

推理是各种智力活动的核心，尽管大型语言模型（LLM）的性能在不断提高，但其在推理任务上的表现仍然有限。推理过程和机制尚不完全理解，但关键要素包括路径探索、选择相关知识以及多步推理。这些问题通过组合这些要素得到解决。在本文中，作者提出一个关注推理能力特定方面的基准：直接评估多步推理。为此，作者设计了一个特殊的推理任务，通过大量消除路径探索和隐性知识利用，使多步推理成为主要关注点。作者的数据集包括成对的明确指令和相应的问题，其中解决问题的步骤都详细地包含在指令中。这种设置使模型只需遵循提供的指令就能解决问题。通过构建需要不同步数才能解决的问题，并在每个步骤上评估响应，作者实现了对最先进LLM遵循指令能力的全面评估。为确保评估的鲁棒性，作者包括多个不同的任务。此外，通过在不同任务上的准确性比较、利用步感知指标以及应用单独定义的复杂性度量，作者进行了实验，以了解LLM在推理任务中的能力和局限性。作者的发现对LLM的发展具有重要意义，并突显了提高其推理能力的研究领域。作者的数据集可在https://huggingface.co/datasets/ifujisawa/procbench处找到，代码可在https://github.com/ifujisawa/proc-bench。

1 Introduction

推理是智能的基本组成部分，涉及复杂的流程，其中知识和逻辑推理的运用交织在一起。作者将推理定义为通过多次推理步骤逐步达成特定目标，以从现有信息中推导出新的知识（Yu等人，2024年）；它始于设定目标，该目标可以由自己启动或明确提供，正如解决问题时常发生的那样；然后，一系列推理重复进行，直到实现目标，处理诸如常识或特定领域的信息等显性和隐性知识。

有三类推理：归纳推理、演绎推理和类比推理（Peirce，1992）；归纳推理是从特定观察中进行概括的过程，而演绎推理则是相反的过程：从一般到具体，类比推理是从观察中得出最佳解释的推理（Huang和Chang，2023；Yu等人，2024）。它们通常都需要在广阔的搜索空间中探索，以确定达到目标的正确路径，并从大量知识中选择必要的信息进行决策。

尽管推理涉及许多复杂的处理过程，但在这里作者关注的是在有明确知识的情况下遵循固定路径到达给定目标的过程，并提出ProcBench，该基准测试由不需要复杂知识但可以通过遵循提供的程序解决问题的任务组成。这个数据集的目标是评估人工智能系统遵循和执行特定指令的能力，作者称之为指令可执行性。虽然对人类来说这是很简单的，但对于不严格遵循指令的AI系统来说可能会很具挑战性。

在选择任务时，作者考虑了以下属性：

许多基准测试已经被提出来评估AI系统的推理能力，范围从基本的算术运算到高级的定理证明和竞争编程挑战。

虽然这些基准测试已经演化为解决更复杂的任务，但通常需要隐性知识，这使得孤立并评估AI的程序一致性变得困难。

此外，传统的AI评估方法主要关注最终输出，往往以牺牲推理过程本身为代价。这种疏忽可能导致系统在简单场景下表现良好，但在需要仔细、多步推理的复杂任务上失败。ProcBench之所以与众不同，是因为它强调了需要最小先决知识且需要精确遵循指示的评估任务，同时所有必要信息都在任务描述中提供，从而填补了现有评估方法的一个重要空白。

遵循指令的可行性在AI的多个关键领域至关重要，包括推理、可解释AI、减轻错觉（Bai等人，2024年）以及AI对齐（Ji等人，2023年）。

多步推理需要模型严格遵循指令，才能得出正确的结论。严格遵循指令的模型可以提供明确的推理步骤，从而产生更透明和可解释的输出，这对可解释AI至关重要。严格的程序遵循减少了生成不准确或无意义信息的风险，通过确保不同知识片段之间的逻辑联系来减轻错觉。此外，确保AI系统遵循人类指令对于从安全性和功能性角度使它们的行为与人类意图对齐是至关重要的。

使用ProcBench，作者对几种最先进的超大规模语言模型（LLMs）进行了评估，以衡量它们的指令可遵循性。作者对几种最先进的LLM的评估表明，在不同任务和复杂度 Level 上，性能存在很大的差异。例如，o1-preview和o1-mini在简单任务上表现出色，始终准确地遵循多步指令。

然而，随着序列长度的增加和复杂性的提高，即使这些模型也出现了显著的性能下降，突显了它们在处理复杂、多步推理时的局限性。

这些发现强调了未来在程序推理方面的改进需求，并为在这个领域推进LLM提供了途径。

2 Related Work

Benchmarks for Large Language Models

各种基准测试已经提出，以评估不同领域LLM的能力。一些基准测试评估了科学、医学和法律等领域（例如知识、阅读理解能力和一般推理技能）。其他人则关注问题解决和代码生成能力。数学推理通过特定基准测试进行评估，而一些测试则旨在评估LLM在软件操作方面的性能，例如执行命令和上网浏览。遵循指令的能力也开始通过最近的一些基准测试受到关注（Zhou等人，2023年）。

由于LLM的快速发展，这些需要隐性知识描述的基准测试通常需要通过增加更难的任务来频繁更新，或者具有较短的使用寿命（Martinez-Plumed等人，2021年）。

此外，由于这些基准测试倾向于关注LLM已经训练的具体任务导向技能，因此它们并不完全适用于评估模型的总体智力能力，这也是Chollet（2019年）所指出的。

与现有基准测试不同，ProcBench 专注于评估过程推理，这是解决复杂问题所必需的重要组件，但至今仍被忽视。

通过将过程跟进与特定领域知识分离，ProcBench 揭示了 LLM 严格遵循详细、多步指示的能力存在显著局限。这使得过程推理的挑战变得明确，并为评估和改进需要精确、顺序操作的领域的 LLM 提供了新的视角。

Instruction Following

(陆等，2024年)已成为一个重要的研究领域，特别是在LLM（周等，2023年；金等，2024年；米夏尔等，2022年）的背景下。该领域的主要目标是评估模型是否能准确理解和执行给出的指令。然而，现有研究主要关注最终输出，对导致该输出的推理过程关注较少。

作者的研究将指令遵循与推理联系起来，将其定位为一种多步推理的专门形式。作者强调评估不仅最终输出的指令是否遵循，而且在解决问题过程中采取的中间步骤的重要性，从而使作者的工作与先前的研究区分开来。

3 ProcBench

在本节中，作者介绍了ProcBench，一个用于测试LLM指令遵循的基准数据集。模型需要通过精确遵循提供的指令来解决简单但逐步的任务。每个步骤都是对字符串、字符串列表或整数数字的简单操作。总共有23种任务，列在表1中。这些任务只需要最少的隐性知识，如英语的基本理解和字母的顺序。

虽然随着步骤数增加，任务的复杂性会增加，但只要作者能够执行每个步骤，这些任务基本上可以通过遵循指令来解决，而不需要专业知识。尽管对于人类来说，这些任务的长度并不重要，只要作者能够执行每个步骤，LLM可能在步骤数增加时失败。

Structure

每个示例都由一个模板和一个问题组成。每个任务都与一个固定的模板相关联，其中包含解决问题的步骤。这种组合的具体示例如图1(a)所示，其中附有相应的中间状态和最终状态作为 GT 值如图1(b)所示。附录A中还可以找到其他模板。问题代表具体的问题，并由生成器生成。

生成器同时生成正确答案以及导致该答案的中间状态。由于问题由生成器生成，因此很容易在作者的数据集中增加示例数量。然而，为了评估的便利性，作者提供一个固定的数据集。作者将每个问题的步骤数量设置为2到25，生成每个数量10个示例。

因此，每个任务包括240个示例，总共5520个示例。作者还进一步将步骤数量2到6归类为短，7到16归类为中，17到25归类为长，并在这些 Level 上汇总指标。

这些模型接收一个模板和一个问题，并要求它们不仅提供最终状态，还提供中间状态。因此，响应比仅仅提供词语或选择要复杂得多。

中间和最终状态所包含的元素类型为int、str和list。list类型包含int或str作为其元素。这些元素类型因任务而异，如下表1所示。模型的预测必须转换为符合这些类型的JSON格式，以便通过指标函数进行评估。

Metrics

4 Experiment

Experimental Setup

作者使用作者的基准测试对七个最先进的模型进行评估，这些模型涵盖了各种任务类型和复杂度。用于评估的模型包括 Claude-3.5-sonnet，Mistral-large，Gemini-1.5-Pro，GPT-4o，GPT-4o-mini（OpenAI，2023年），o1-mini 和 o1-preview（OpenAI，2024a）。

所呈现给模型的任务需要生成序列，而不是简单的问答对。由于LLM的输出通常以自由文本形式提供，作者将响应转换为结构化的JSON格式（OpenAI，2024b）以便进行评估。

此转换过程由GPT-4o执行，并统一应用于所有模型。根据第3.2节定义的评估指标基于此标准化格式计算。需要注意的是，结果不仅反映了模型的原始准确性，还反映了转换过程对最终评估分数的影响。

Results

总结模型性能。表2通过PA（前缀准确性）和SM（顺序匹配）这两个指标，对在不同任务难度水平（短、中、长）下的模型性能进行了全面比较。o1-preview模型在大多数类别中始终处于领先地位，尤其是在中长任务中，它为PA和SM分别取得了最高分。相比之下，o1-mini在简单任务中具有竞争优势，在短任务中以0.801的PA和0.722的SM超过了o1-preview。

性能随问题长度和逐步预测的变化。为了进一步分析模型性能如何受到问题长度N的影响，图2显示了在四个关键指标SM、PA、FM和PML上的结果。这些指标随着N的增加详细地展示了模型在解决序列任务方面的有效性。

根据定义，SM是最严格的指标。确实，如图1(a)所示，随着问题长度增加，SM表现出最明显的下降趋势。尽管PA显示出与SM类似的趋势，但其下降趋势更为平缓（图1(b)）。此外，PA遵循与PML相似的模式（图1(d)），但它的归一化允许在不考虑问题长度的情况下进行模型比较。FM最初是基于作者提出的任务的固有难度和普遍假设，即只需要正确计算最终答案。

然而，如图1(c)所示的平均视觉化显示，该指标在实践中几乎与SM和PA的行为相同。图1(d)专注于PML指标，它揭示出随着问题长度的增加，平均PML增加，但在某个点后达到平台。这表明模型在它们可以可靠地管理推理步骤的数量方面存在固有限制。

图3说明了在o1-preview模型（具有最高总体性能的模型）中，不同问题长度组中PA的分布。可视化结果表明，在问题长度不变的情况下，初始步骤的错误比例几乎保持不变。

尽管该模型对于较短的问题具有很高的准确性，但当增加时，性能逐渐下降，更长的题目导致PA降低。在其他模型中也可以观察到类似的模式，如图10附录中的图10所示。

图4可视化了每个模型在给定步骤阈值或以上成功预测的正确问题比例。每个点表示模型在特定步骤阈值N以上成功预测的问题比例。类似于ROC曲线，曲线保持较高且向右移动的模型在具有较长序列的任务上表现出更强的性能。o1-preview和o1-mini表现优越，其曲线下降较为平缓，表明它们在有效处理较长步骤序列方面具有能力。相比之下，其他模型在5步左右的精确率急剧下降，反映了它们在扩展序列中维持正确预测的有限能力。

特定任务模型性能 为了进一步评估模型在特定任务上的准确性，图5说明了在任务如FindCyclic、Compare和Sort等上的PML。结果表明，一些模型在FindCyclic任务中始终保持高准确性，而在Compare任务中，随着步骤数的增加，它们的准确性显著下降。此外，像Sort这样的某些任务在步骤上始终显示出较小的PML值，这表明它们的困难性。所有图形均可在附录中的图11和图12找到。

最后，图6展示了在数据集中的23个任务上，7个模型之间的准确率变化。值得注意的是，许多模型在FillWord和Sort等任务上都被认为是具有挑战性的，这些任务中的某些问题经常导致较低的PA。

如果一个任务中大量的问题始终导致PA=0，这可能不仅表明问题具有很高的难度，还可能表明任务设计存在潜在的缺陷，例如自相矛盾或者使问题无法解决的任务设置。然而，在整个数据集中，仅有91个例子在所有模型上的PA都为0，这表明数据集得到了良好的校准，这种无法解决或自相矛盾的问题非常罕见。

5 Discussion

指令遵循与推理之间的关系是一种引人入胜的关系。对于人类来说，推理中最具有挑战性的方面往往涉及知识的应用，尤其是隐性知识。相比之下，仅仅遵循指令通常不被认为是推理。然而，作者认为指令遵循可以被理解为一种特殊的推理形式，尤其是在将其与隐性知识解耦并专注于明确定义目标路径的场景中。尽管这可能 initially 看起来不像推理，但一旦成功导航到正确程序的搜索并应用相关知识，它就会与作者要解决的问题类型紧密一致。因此，作者的方法解构了推理过程。虽然最终的推理系统可能不会明确分离这些功能，但它们仍然应该能够解决作者面临的问题。

作者开发了一个数据集来探索这一联系，作者的结果表明，被认为具有强大推理能力的模型，如o1-preview和o1-mini，表现良好。这表明推理能力和遵循指令的能力之间存在定性联系。然而，实验还揭示了一个事实，即即使对于人类来说可能是简单或单调乏味的任务——看起来很明显的工作——模型并不能始终解决这些问题。另一方面，这些模型在法律或物理领域（OpenAI，2023；Google，2024）展示了强大的推理能力。由于知识的有效应用可以减少计算步骤，这表明最先进的LLM在利用知识解决复杂问题方面可能比在多步程序推理方面表现更好。这突显了当前深度学习范式的一个基本挑战，即许多模型在无法重度依赖先验知识的情况下，在处理复杂的推理任务时往往会遇到困难。

最小隐性知识。尽管理想目标是消除所有隐性知识需求，但是一些最小假设是不可避免的。例如，作者假设对英语语言的基本理解，字母表的顺序，以及数字如0，1，2等表示数值值。然而，这些假设是有意保持最小的，而且比物理学，化学，法律或数学等领域所需的知识要专业化得多。通过关注这些基础概念，数据集保留了一个结构化的挑战，强调推理和程序执行，而不是依赖特定领域的知识。

预期用例和限制作者数据集最简单和最直接的用途是评估LLM，特别是与它们的推理能力。这是主要预期的应用，允许研究行人评估新模型如何处理多步推理任务。

此外，ProcBench 可以用于评估诸如 In-Context 学习和思维链推理等方法的变体（Wei 等人，2023）。然而，作者不打算在每个数据集中的 23 个不同任务中使用特定的任务 Prompt ，因为这会引入特定领域的知识。这样的 Prompt 可能会使模型跳过实际推理过程的重要部分，从而破坏评估其原始推理能力的目的。这种极端示例是编程解决方案，直接引入特定任务的解决方案应该避免。如果具有编程能力的通用模型可以在没有特定调整的情况下解决任务，这反映了其灵活性。然而，在 such cases，在此数据集中实现多步指令可遵循性的意图测量将不再可行。

尽管主要关注的是当前的 LLM 范式，ProcBench 仍适用于传统机器学习模型，如用于归纳程序学习的模型，这些模型从具体示例中学习。然而，提供的固定数据集可能不足以训练此类模型。在这种情况下，生成器可以用于扩充数据集，使模型可以从一个空白开始构建，目标是遵循程序指令。

6 Conclusion

作者提出了ProcBench，这是一个旨在评估LLM在遵循明确、多步骤指令方面的能力的基准测试。通过关注需要最少隐性知识的任务，ProcBench使作者能够独立于模型依赖特定领域知识来评估其程序推理能力。

作者的结果表明，尽管最先进的模型如01-preview和01-min在涉及较短步骤的任务上表现良好，但当步骤长度增加时，它们面临着巨大的困难。

这突显了当前LLM的一个关键限制：尽管在知识驱动任务上表现出色，但当面临更复杂、多步骤推理时，它们在遵循详细的程序指令方面存在持续的困难。

作者的研究发现，知识驱动推理与遵循指令之间存在差异，这是 LLM 尚未实现一致掌握的领域。提高这些模型精确遵循指令的能力将有助于改善它们在更复杂问题解决场景中的表现。

未来的工作将扩展 ProcBench，涵盖更广泛的任务范围，并进一步研究如何更有效地将显式指令遵循能力整合到在传统基准测试上训练的模型中。这将有助于开发可以可靠处理跨领域多步推理的系统。

参考文献

ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-25，如有侵权请联系 cloudcommunity@tencent.com 删除

测试

本文分享自未来先知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度