超越 Transformer局限，优化思维链Prompt以提升大型语言模型的推理能力！

未来先知

发布于 2025-01-15 22:02:11

3510

大型语言模型（LLMs）已经彻底改变了自然语言处理领域，并为人工智能的进步提供了巨大的潜力。然而，大多数主流LLM的核心架构（Transformer）在计算深度上存在固有局限性，使其在理论上无法解决需要日益加深计算的许多推理任务。思维链（CoT） Prompt 的出现成为解决这些架构局限性的技术手段，这一点可以从几项理论研究中得到证实。它提供了一种有前景的方法来解决这些模型过去无法完成的复杂推理任务。尽管CoT及其变体（如思维树、思维图等）取得了一定的成功，但它们都依赖“一 Prompt 适用于所有”的方法，使用单一的 Prompt 结构（例如“逐步思考”）来处理各种任务（从计数和排序到解决数学和算法问题）。这种方法对模型生成正确推理步骤提出了巨大的挑战，因为模型必须遍历一个庞大的 Prompt 模板空间来找到每个任务的适当模板。在这项工作中，作者基于对CoT的先前理论分析，证明了“一 Prompt 适用于所有”的方法如何影响LLM的可计算性。作者将解决方案过程分为两个空间： Prompt 空间和答案空间。作者的发现表明，任务特定的监督对于准确导航 Prompt 空间和实现最佳性能至关重要。通过使用最先进的LLM进行实验，作者发现当监督应用时，推理性能会低于不应用监督时的水平。作者的目标是提供关于CoT潜在机制的更深入见解，并为CoT变体的有效设计提供指导。此外，作者强调传统“无监督” Prompt 方法的局限性，并认为CoT用户不能仅仅“袖手旁观”，而是应该依赖任务特定的“有监督”CoT，这种CoT应该与人类知识相结合，以实现LLM中的更有效推理。

1 Introduction

大型语言模型（LLMs）的出现标志着自然语言处理和人工智能进入了一个新时代。这些模型在各种领域表现出惊人的能力,在知识检索和表达（张等人，2024年）等任务上实现了接近人类的性能。然而，关于它们的推理能力的担忧已经出现。这些任务范围从基本的操作如计数、排序和乘法，到更复杂的挑战如数学问题求解、算法设计和编程。以前的研究已经探讨了导致这些推理缺陷的各种因素，包括训练优化， Token 化方法，和数据集选择（杨等人，2024年）。在这些因素中，模型的结构在确定其推理能力方面起着关键作用。大多数主流LLM的核心架构——Transformer（有限精度）——与计算深度（Li等人，2024年）有关固有的限制。具体而言，Transformer中的注意力机制只能执行固定数量的连续计算步骤，导致_恒深度_建模。因此，仅依赖Transformer的_内部推理_，模型的可计算性受到限制，只能解决TC（Li等人，2024年；Feng等人，2024年）的复杂度和长度有限的问题（图1.c-d）。

链式思维（CoT）的出现（魏等，2022年）已经改变了由架构设计所施加的计算限制。具体来说，它通过 Prompt （李等，2024年；张等，2024年；冯等，2024年）将推理过程扩展到“文本”空间，从而克服了模型内部（潜在空间）推理的“恒定深度”限制。正如理论研究和实证研究所展示的那样，CoT有效地增强了基于Transformer的模型的推理深度（有限精度），在理想条件下实现了“图灵完备性”。虽然CoT的理论分析重点关注模型的计算上限，这可能并不总是与实际性能相符，但深入理解CoT机制——尤其是它如何打破架构约束——对于设计能够最大限度发挥实际LLM计算潜力的 Prompt 至关重要。这种理解也构成了作者对“有监督”CoT和 Prompt 搜索空间理论分析的基础。因此，作者的工作首先从计算的角度重新审视CoT的底层机制，并结合先前的研究以清晰、全面的方式解释它们，并融入作者独特的视角。

尽管理论分析已经证明，使用CoT（通用理论模型）几乎可以解决任何问题，但基于计算性和图灵完备性理论，找到这些解决方案的实际发现可能更具挑战性。这类似于Turing机器可以模拟任何问题的解决方案（Boolos等人，2002年），但找到特定NP问题的确切Turing机器可能很困难。这些挑战源于LLM（大规模语言模型）与CoT的两个主要因素。首先，模型必须发展正确的“逐步”模板，这本质上体现了用于解决问题所使用的算法（图1.a-b）。例如，使用深度优先搜索（DFS）解决图搜索问题的“步骤”与使用广度优先搜索（BFS）算法的“步骤”不同。其次，即使在模板（算法）建立之后，找到解决方案可能需要进行广泛的推理和探索以实现最佳结果。例如，使用BFS模板在树中查找目标节点涉及在搜索空间中遍历多个路径，这可能具有计算上昂贵且易出错的特点。

原始的CoT设计是Barlow (1989)提出的“无监督”设计；Zhang等人（2023b）指出，该模型在缺乏特定任务监督的情况下，自主生成其步进模板。具体而言，当 Prompt “逐步思考”时，LLMs自主生成需要遵循的步进模板（算法）——例如，在每一步生成之前访问的路径——然后根据这个自我生成的模板（Figure 1.a）进行搜索。显然，这种简单的CoT方法可能导致性能不佳，因为模型可能会生成次优的步进模板（算法），这会阻碍搜索过程。例如，一个需要DFS的问题可能被一个由原始CoT生成的BFS模板所误用，造成高昂的推理成本，并可能导致错误的答案（Figure 1.a）。

链式思维的各种变体，如思维树（姚等，2024年）和思维图（贝斯塔等，2024年），旨在在答案空间内改进搜索过程，而不是 Prompt 空间，并保持无监督。这些“思维X”方法仍然依赖于“一 Prompt 对应所有”的策略，其中模型自主为每个任务制定一个步骤模板（算法）。一旦模板确立，这些方法有助于更有效地导航答案空间。例如，思维图鼓励模型频繁回顾之前生成的步骤，而思维树允许模型在选择最佳 Prompt 之前生成多个可能的下一步。然而，步骤模板（算法）本身仍然由模型生成，而且在缺乏特定任务特定监督（指导）的情况下可能不适合问题（图1.a）。

在本研究中，作者对CoT过程中的 Prompt 空间和答案空间进行了深入研究。在借鉴CoT（Li等人，2024年）之前的相关理论分析基础上，作者探讨了为什么“监督”是必要的，以及如何为模型提供指导以找到最优步骤。作者在结构化推理任务上进行了大量实验，表明任务特定的“监督”CoT对于实现最优解至关重要，并突出了使用监督与不使用监督之间的性能差距。作者的工作是首次关注 Prompt 空间探索，并提供了有关理解并设计有效 Prompt 技术以解决推理任务的宝贵见解。

2 Demystifying CoT: A Straightforward Understanding

在本节中，作者总结了先前的理论分析（李等，2024年；张等，2024年；冯等，2024年）中关于CoT Prompt 的关键发现，并以统一和易访问的方式呈现。本节中得出的结论将作为作者后续对监督式CoT分析的基础。

Limitations of Transformer Architecture

Transformer （Transformers）与循环网络（Recurrent Networks）不同， Transformer 不是设计用于内部在任意数量的连续步骤（深度）上执行推理的。具体来说，在 Transformer 模型中，时间步t-1的隐藏状态在计算时（图2.b）不会被重复使用，就像在循环网络（如RNN）中（图2.a）那样。相反，隐藏状态仅通过 Transformer 的_层（Dehghani等人，2018）（图1.c）传递，而不是通过时间，这意味着任何给定 Transformer 架构的连续步骤数量是固定的和有限的。相反，循环神经网络（RNNs）(Grossberg, 2013)允许通过循环连接（图2.a）通过时间步将隐藏状态传递，允许通过任意数量的输入 Token 对进行顺序计算，这使得RNNs可以对进行更深入的推理，这对于解决复杂任务（Zhang等人，2024）是至关重要的。

隐藏状态在推理中起着关键作用，因为它既存储了推理记忆，也存储了中间推理结果（Zhang 等人，2024）。通过随时间顺序计算和更新使得模型能够构建推理深度，这对于解决复杂问题至关重要。由循环连接提供的这种深度优势无法被自回归模型复制。自回归模型在传递隐藏状态而不是传递生成的 Token 。然而，y 不能替代的作用，原因如下：y 是从中提取的离散值，只包含部分信息（图2.b），因此在许多任务中不足以进行持续推理。y 存在于操作的潜在空间之外（图2.b），这意味着它不能像一样用于计算。

Nature of Reasoning

推理本质上需要具有顺序深度。对于长度为n的输入任务，推理通常需要逐步进行以得到最终结果。例如，计数（迭代地增加计数器）、下棋（迭代地更新棋盘状态）和搜索（迭代地 Token 访问节点）。为解决给定的任务，存在一个理论上计算所需的最低深度下界（Sanford等人，2024）。由于像Transformer这样的模型只能对隐藏状态执行常数数量的顺序推理步骤，因此它们无法解决深度需求随输入长度增加的任务。

以国际象棋为例。对于一系列棋子移动，,为了验证第步，第个棋盘状态必须计算。这需要个连续的计算，因为第个棋盘状态不仅取决于棋子移动序列，还取决于前一个棋盘状态。虽然神经网络可以记忆从到正确的映射（Arpit等人，2017年），从而跳过顺序计算的需求，但是记忆比推理更加资源密集。这是因为记忆需要存储所有可能的的排列及其相应的棋盘状态，这是一个指数级的挑战，最终需要无限内存来存储任意长度的实例。

因此，在模拟一个棋局游戏的例子中，模型内部的表示，它编码了棋盘状态，必须依次计算次以模拟游戏。由于 Transformer 需要无限的精度来进行记忆，因此无法执行此类任务，因为它们的隐藏状态是固定次数计算的，与输入长度无关。

CoT + Autoregressive = Recurrent

以前的研究表明李等（2024）；张等（2024）；冯等（2024），思维链（CoT）有效地在大语言模型（LLMs）中弥合了自回归李等（2022）；刘等（2022）模型与循环结构张等（2024）之间的鸿沟。CoT不仅将自然语言作为强大的信息编码媒介，而且生成中间步骤（不是答案的一部分），这些中间步骤表示为自然语言 Token 序列（o1, o2, ..., o_k），作为潜在信息向量h_n（图2.c）的离散化。由于自然语言是几乎可以编码任何类型信息的一种强大媒介，h被有效地转换为 Token 序列o，然后通过嵌入层转换回向量h。这样，通过离散化然后向量化，实现了h_t→h_(t+1)的效果，如图2.c所示。这种方法，实际上实现了与RNN类似循环网络中h_t→h_(t+1)相同的效果，使得h可以由网络循环更新。

在早期的国际象棋示例中，LLM在CoT过程中生成自然语言字符串的中间推理步骤。具体来说，它产生了一个描述在第一次步之后的状态的 Token 序列（例如在英语中），详细描述了棋子如皇后和国王的位置。在后续计算中，LLM读取这个棋盘描述直到第步，并使用它来计算第步的棋盘状态，从而避免了从头重新计算推理的需要——这是由于Transformer的非循环结构使其无法内部实现的。

综上，采用CoT的LLM可以有效地将模型的内部潜在空间中的推理过程扩展到基于自然语言的 Token 空间。得益于自然语言的强大编码能力，中间推理步骤以文本形式编码并存储，模型可以在后续计算中重用。这种方法极大地增加了模型的推理深度，达到，其中是执行的CoT步骤数量。在理想理论条件下（例如无穷的CoT步骤和潜在与文本空间之间的完美信息转换）的LLM可以实现图灵完备性，理论上解决任何问题，包括超出符号任务（例如识别正则语言）。这种理论分析为设计有效的“监督”CoT方法提供了强大指导，作者在后续部分中介绍这些方法。

3 CoT Search Space = Prompt Space + Answer Space

尽管理论表明，结合CoT的LLM可以解决任何问题（Li等人，2024年），但在实践中找到解决方案要困难得多。CoT受到有限步骤的限制，从潜在状态到 Token 序列的转换是不完美的。因此，在每一步只能提取部分信息，这使得继续正确计算变得至关重要。作者将CoT推理分解为两个组成部分：在 Prompt 空间内进行模板搜索，以及在答案空间内进行答案搜索。作者展示了如何有效地在 Prompt 空间中导航可以简化答案空间复杂性，并揭示无监督的"X-of-thought"方法的局限性。

Prompt Space

潜在向量在处理任务时包含丰富的中间信息，包括计数器、和、二进制指示符的标志等。当 Prompt LLM“逐步思考”并与任务实例一起时，它们生成一个_步模板_，指定从中提取哪些信息并将其离散化为 Token （）。理想情况下，随着（意味着CoT的长度可以任意长）--这意味着LLM可以完全文本化中的所有向量化信息，通过自动回归实现_真正的_递归。然而，由于有限，只有部分信息被离散化。

如果作者将中存储的信息量定义为比特，那么每个 CoT 步骤可以从比特的空间中提取最多比特的信息到中。因此，每个唯一的 step template 都指定了一种从比特空间中提取比特信息的方式。因此，潜在的步骤模板总数为，这估计了 CoT 每个步骤中信息提取的可能性。每个模板定义了一种提取独特比特信息的方式。

例如，在象棋模拟的情况下，编码了诸如 <当前棋盘布局>、<下一个玩家>、<棋盘状态>、<每个玩家夺取的棋子数> 等等详细信息。当给出“逐步思考”的指令时，模型根据它生成的_步模板_来决定提取哪些信息。提取错误的信息可能会在后续步骤中阻碍推理，因为_递归_无法有效地在所需信息上进行。

Prompt 搜索复杂度取决于 m（中的总信息量），以及 s（每个 CoT 步骤可以提取的信息量）。如果模型是 _充分训练的_，那么中的编码信息总量与的维度大小成正比（Allen-Zhu & Li，2023），用 m 表示为 m 。在这个背景下，m 代表搜索空间的大小，而 s 与 CoT Token 的长度相关，较长的 CoT 步骤倾向于从中提取更多的信息。因此，s 作为搜索步长。在实际中，步骤模板搜索并非完全随机。模型通常通过启发式方法找到相关的模板，这大大降低了的搜索复杂度。然而，确定最优模板仍然具有挑战性，使用错误的模板可能会严重降低性能，正如作者在实验中看到的那样。

总之，_步骤（ Prompt ）模板_定义了在CoT过程中信息如何_反复_提取和使用。找到正确的模板相当于发现了_解决给定任务所需的方法_，确定每一步需要什么信息以及如何使用这些信息来计算下一个状态（图3左）。

Answer Space

一旦模型在CoT过程中确定了要遵循的步骤，它就会相应地进行推理。从 Prompt 空间中选择一个特定的步骤（ Prompt ）模板，CoT会迭代执行来更新并计算下一个状态，这个过程将持续到达到最终状态（解决方案）。在答案空间中找到解决方案的复杂性取决于 Prompt 的选择和任务本身的性质。

每个任务在其答案空间中嵌入不同 Level 的复杂性。例如，在“寻找一组导致游戏结束的动作”的棋类模拟任务中，答案空间包含所有可能的动作序列的组合。解决方案集包括所有导致游戏结束的有效动作序列，是整个答案空间的子集。解决该问题需要确定一个单一的正确动作序列。

如果使用一个固定的步骤（ Prompt ）模板，如提取每个步骤的当前棋盘配置,那么CoT过程会迭代地提取当前棋盘描述，并将其用于计算下一个棋盘状态在中，以识别有效的下一个移动，最终形成正确的答案。可以大致测量答案空间导航的复杂性：

这比率衡量了在给定特定模板p的情况下，解空间相对于整个答案空间的比例。如果选定的模板p提取了无关信息（例如在每一步确定哪个玩家是下一个），则比率简化为。在这种情况下，每个都应随机生成，因为不能迭代计算提取正确所需的有用信息，只能通过偶然发现正确答案。

正确识别步模板对于减少CoT过程的复杂性至关重要，因为决定了在过程中反复覆盖的信息，以及可以计算的内容，实质上充当解决CoT过程中任务的基本"算法"。在象棋示例中，最佳模板将是<提取每一步的棋盘配置>，使模型可以迭代地推理棋盘状态，即棋盘状态。在正确计算的棋盘状态下，可以从轻松推导出有效的下一个移动（图3右侧）。然而，使用一个不太相关的模板，如<提取每一步棋盘上的棋子数量>，将使搜索空间扩展到，因为棋子数量不能为确定下一个有效移动提供有用的信息。因此，模型必须在每个步骤重新计算棋盘状态，从先前生成的移动，这需要的深度 Transformer ，受限于常数深度，无法处理。因此，下一个动作将无法从CoT过程中受益。

CoT as an Unsupervised Task Solver

CoT 是一种在特定任务上无监督运行的方法，它依赖于一个单一的通用 Prompt （Think Step by Step），并让模型自行生成每个步骤的模板 p ∈ ℋP 来提取信息。由于人类并不监督步骤的完成，因此步骤的生成（即确定从中提取哪些信息并循环计算）主要取决于模型的启发式方法。例如，在计数任务中，LLMs 使用学习到的启发式方法从中提取一个 Counter 值并执行循环更新。然而，这些无监督、启发式驱动的模板通常不可靠，因为模型缺乏识别某些计算或任务中关键组件的知识，正如之前的工作 Valmcekam 等人（2022 年）和作者的实验所证明的那样。

CoT Variants as Unsupervised Helpers for Navigating Answer Space

在实际应用中，答案空间可能很大且复杂，即使使用最优的步骤（ Prompt ）模板，CoT也可能出错。为了解决搜索过程中的这些错误，已经提出了多种CoT变体，如思维树（ToT）和思维图（GoT）。这些“思维X”方法并不规定在每个步骤中提取特定信息，而是通过探索多条路径和自我验证来改进解决方案的寻找。例如，ToT在某个给定的模板下，同时探索答案空间中的多个实例，与CoT的单路径探索不同。具体来说，使用从当前隐藏状态提取的信息用于生成下一步骤的可能答案。每个答案都会导致下一个不同的隐藏状态。在寻找导致游戏结束的一组行动的例子中，步骤的棋盘状态使用正确的模板进行描述，形成，而不是从生成单一的下一步行动，而是推导出多个行动。每个推导出的行动与之前的行动形成一个唯一的路径，该路径通向中的一个潜在解。由于某些路径可能失败（例如，导致非结束游戏），同时探索多条路径可以提高搜索答案空间的效率。可视化结果如图4所示。

同样，GoT通过迭代地重新访问先前生成的部分答案来提高搜索准确性。然而，这些方法都不是监督的，因为模型不知道正确的步骤模板p，而是自行生成，并在每个步骤中相应地提取信息。X-of-Thought仍然依赖于“一个 Prompt 用于所有”的方法，并在p属于P时仅帮助找到答案。正如作者所展示的那样，这可能导致糟糕的结果，因为p直接影响答案空间的复杂性，而在某些情况下，X-of-Thought可能为时已晚，无法纠正错误。

4 Experiments

在本节中，作者通过实验来证明在CoT过程中监督的重要性。具体来说，作者设计了一些场景，在这些场景中，通过监督提供正确的步骤模板，并与模型模拟出错误的步骤进行比较。作者的结果显示，当步骤模板错误推导时，性能会显著下降，这突显了确保LLM可靠任务性能的重要性，需要人类监督。

作者的实验目标并非评估不同LLM的推理性能，而是强调在CoT中“监督”所发挥的关键作用。比较各种模型的能力超出了本工作的范围。

Experiments Designs

尽管作者曾使用国际象棋模拟作为CoT进行复杂推理的示例，但由于其与实际复杂推理任务（如涉及棋盘和动作）的相似性，因此实现和评估这些任务可能具有挑战性。相反，作者遵循张等人（2024年）和德雷唐等人（2022年）的工作，专注于对LLM进行更基本的推理任务评估。具体而言，作者在三个可计算性 Level 上评估任务：正则（R）、无冲突（CF）和上下文敏感（CS），每个 Level 对应不同计算能力的任务，从确定性自动机到线性有界自动机（受限的图灵机）。这些任务涉及诸如计数、排序和数字加法等操作，这些操作是解决更复杂算法问题（如NP问题）所必需的基本操作。每个任务都强烈依赖于确定正确的步骤模板，因此使作者能够明确观察选择对步骤模板的影响对CoT性能的影响。

所有这些任务都需要超出了Transformer内部架构的计算能力（Deletang等人，2022年）。具体来说，它们需要一个_最小计算深度_，该深度随着输入长度的线性扩展，超过了Transformer模型固有的常数深度。因此，解决这些问题需要使用CoT，正确地识别在CoT过程中需要提取的信息对于恢复计算和构建必要的深度至关重要。

作者使用GPT-4-o经典版，这是一个版本，它排除了使用外部工具（例如计算器或程序）的需求，仅基于模型本身进行功能。作者使用根据先前的研究工作（张等，2024年）所采样的工作实例测试每个任务。为确保诸如长上下文信息检索和分词等因素不会影响结果，作者遵循先前的研究设置并进行了控制实验。作者的实验设计细节，包括长度采样、任务规范、格式调整和 Prompt 使用，都在附录中提供。

作者将之前关于特定任务专门训练的专家模型 Deletang 等人（2022 年）的发现扩展到作者的 LLM 实验中。由于实验设置的不同，专家模型的结果仅作为参考，而不是直接比较。与先前的研究不同，作者报告了所有测试实例的平均一试验性能，而不是每个任务实例的最佳性能（Deletang 等人，2022年；Zhang 等人，2024年）。作者的重点在于在前期工作的理论上限计算分析之外实现实际的可用性。最终结果如表1 所示。

Main Result

重复性是推理的关键。 正如专家模型（RNN、Tape-RNN 和 Transformers）和 LLM 所证明的那样，重复性是解决每个类别任务的决定性因素。具体来说，像 RNN 和 Tape-RNN 这样的专家模型，根据其记忆架构，在解决各种类别任务时，都能达到 90% 以上的准确率。然而，Transformers 的推理深度较浅，如前所示，因此无法解决任何任务。同样，没有 CoT 的 LLM 仅依靠内部 Transformers 推理，在大多数任务上实现了 0% 的性能，其他任务上的低性能可能是由于猜测造成的。当 CoT 增强 LLM 的重复计算能力时，准确率显著提高。这些比较突出了在模型可计算性中重复性的关键作用，进一步证实了作者在之前讨论的分析。

角色：步模板在推理性能中的作用：监督至关重要。 作者为所有任务提供人工监督，并观察到，由于任务的相对简单性，模型在找到最优步模板时较少出错。因此，很难明确观察到最优和非最优步模板之间的性能差距。为解决这个问题，作者对每个任务引入了两种类型的监督：正确监督（CR监督），其中模型受到最优步的指导以展示最佳可能的性能，和不正确监督（IN监督），它模拟了模型得出不正确步的场景，以展示性能可能会降低。作者在表3中为每个任务提供了这些受监督场景的示例。

从表1中，作者观察到，在提供监督的情况下，相对于无监督的“逐步”方法，有明显改进。具体来说，模型自己推导出的步骤模板错误在正确监督下被消除，从而获得了更好的性能评分。相反，当故意设置步骤模板不正确时，作者观察到性能出现了显著下降，有些任务的表现甚至不如不使用CoT时的水平。

为了进一步解释，当一个步骤模板被错误地指定（例如，为一个需要计数的任务输出当前步骤的总和）时，在中的有用的计数器信息没有得到提取。因此，没有传递到下一个状态，导致无法继续进行必要的计算。虽然错误指定的信息（例如，部分和）被反复计算，但并不能导致任务的正确最终答案。

CoT变体在导航答案空间中是有用的。 作者比较了不同CoT变体在相同任务上的结果。如表2所示，ToT和GoT都优于Naive CoT。然而，这种改进是由于计算过程中的"错误计算"校正，而不是步骤模板选择的改进。ToT没有太大优势，因为任务通常只有一条解题路径。相比之下，GoT展示了更大的准确率提升，得益于其自我重访机制

Prompt 空间分析。作者还进一步分析了模型在导航 Prompt 空间方面的性能，即为每个任务找到正确的（最优）步骤模板。如图5所示，所有任务都涉及相对简单的计算，模型在识别正确模板方面表现出很高的平均成功率。具体而言，R型任务的成功率超过90%。随着任务复杂性的增加，作者观察到略有下降，CS任务在CoT过程中提取正确信息的成功率仅为84%。作者还进一步包括案例研究，展示了从无监督CoT过程中生成的"次优"步骤，如图1和附录图6、7和8所示。

最后，作者展示不正确的 Prompt 空间导航如何导致不可挽回的结果。如附录图9和10所示，错误的步骤模板导致信息提取错误，进而计算出错误的下一个状态，最终增加了搜索答案空间难度。

5 Supervised CoT: Users' Perspective

How to Supervise?

正如作者所展示的，提供正确的监督对于帮助模型实现准确结果至关重要。一个自然的问题是：如何获得有效的监督？良好监督的关键在于理解CoT的底层机制，这本质上涉及通过文本空间传递信息。对于需要多个步骤的任务，用户需要确定每一步是什么，以及在每一步中应该提取哪些关键信息。

尽管在实验中使用的基本推理任务中，这可能看起来很简单，但在具有挑战性的任务中，正确识别信息需要仔细的任务分析，因此人类知识对于提高模型的计算能力至关重要，并且可以直接影响任务的成功。然而，这种监督会增加大量的负担，因为每个任务都需要对其计算结构有独特的理解。

再次，监督式CoT需要明确在每一步需要输出什么作为文本，因为这些信息将用于构建下一个，作者在之前已经展示过了。用户需要尽可能提供详细的指示，详细说明在每个“_思考-分步_”步骤中需要输出的中间步骤。

When to Supervise?

正如作者所观察到的，使用不正确的步骤模板（无论是模型生成的还是人为注入的）可能导致显著的性能下降。基于这一点，除非你对步骤不会阻碍推理过程有合理的信心，否则在存在不确定性时，最好依靠模型的自身启发式。

6 Conclusions

作者的工作提供了一种独特的视角，揭示了思维链（CoT） Prompt 的机制及其在增强模型推理方面的作用。通过理论分析和实践洞察，作者展示了CoT如何将潜在信息转换为文本空间，从而实现可迭代、可重用的推理步骤，扩展模型的计算深度。作者还进一步将模型的问题解决能力与找到解决方案的复杂性相联系。

作者对 Prompt 空间和答案空间的分析强调了确定正确步骤模板以简化导航的重要性，这是 Prompt 相关研究中常常被忽视的一个方面。CoT的成功不仅在于生成步骤，还在于在每个阶段提取正确的信息。

作者的实验表明，步骤模板的错误选择可能严重影响推理，从而强调了监督的重要性。

即使在模板选择中出现微小的错误，也可能导致重大的失败。

作者的发现结合了理论分析和实验证据，为理解CoT的局限性和改进大型语言模型中的推理任务提供了有价值的洞察。

参考文献

[0]. Supervised Chain of Thought.

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-01-14，如有侵权请联系 cloudcommunity@tencent.com 删除

优化

本文分享自未来先知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度