大模型的思维链(Chain of Thought)是一种通过分步解题来解决复杂问题的方法,其本质就是在输出最终回答之前输出更多的中间token。这一模式即LLM的“深度思考”模式,赋予模型“深度思考”的能力。为什么引入更多的中间token就能提升出更准确、更 Complete 的答案?究竟什么样的思维链式是好的?引入思维链可以解决哪些问题以及该方法的上限是什么?今天这篇论文对上述问题从理论角度进行了深入的分析,可以帮我们更好理解CoT的神奇魔力。
想象一下,一位天才工程师被要求解决一个复杂的组装问题。如果只给他最终指令(比如“造一辆汽车”),他可能会因信息过载而束手无策。但如果我们允许他先写下中间步骤(“先安装引擎,再组装车轮,最后调试电路”),他就能一步步攻克难题。这就是链式思考(Chain of Thought, CoT)为Transformer带来的根本性变革——从“并行处理”的蛮力计算,升级为“串行推理”的思维链条。
本篇论文《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》(ICLR 2024)由Zhiyuan Li(TTIC/斯坦福)、Hong Liu(斯坦福)、Denny Zhou(Google DeepMind)和Tengyu Ma(斯坦福)合作完成,通过理论分析和实验验证,揭示了CoT如何让低深度Transformer突破计算局限,解决原本无法处理的串行问题。
传统Transformer(尤其是低深度模型)在数学推理、符号运算等任务上表现不佳,并非因为模型参数不足,而是源于其计算本质的并行性限制。论文指出了两大核心缺陷:
用比喻来说,传统Transformer像一个“并行工厂”,所有流水线同时开工,适合组装简单零件(并行任务),但遇到需要“先A后B”的复杂工序(串行任务)时,就会因缺乏调度而卡壳。
CoT的创新点在于:允许模型在输出最终答案前,自回归地生成一系列中间Token(即“思考步骤”)。每一步的中间输出会作为下一步的输入,从而将计算深度从固定的层数扩展为可变的步骤数(T步CoT ≈ T层虚拟深度),能解决P/poly问题。由于P/poly包含所有多项式时间可解问题(如密码学任务、优化问题),这意味着Transformer+CoT理论上可近似任何“结构化的复杂函数”,而非仅依赖黑箱拟合。
论文通过理论构造证明,一个常数深度、对数嵌入维度的Transformer,配合T步CoT,可以模拟任何大小为T的布尔电路(即表达P/poly类问题),其核心机制概要如下:
论文在四个关键任务上验证了CoT的效力:

图1.对于模加这类相对简单的并行任务,CoT依然能带来性能提升,尤其是在模型深度受限时。这表明CoT不仅能解决“不能做”的问题,也能优化“可以做”的任务的稳健性。

图2.该图直观展示了CoT在解决复杂串行问题上的决定性作用。对于置换组合任务,只有在启用CoT时,模型性能才能随着训练显著提升并接近完美,而基线模型和仅提供额外提示标签的模型表现均不理想。

图3.迭代平方任务再次强化了论文的核心论点。CoT曲线与其他曲线的鲜明对比,为“CoT为Transformer提供了执行串行计算的能力”这一理论提供了强有力的经验证据。
结论:CoT不是“锦上添花”,而是“雪中送炭”——对并行友好任务提升有限,但对串行硬核任务带来数量级改进。
此外,Transformer本为并行处理而生,CoT却引入串行依赖。这是否意味着Transformer正在“模拟”RNN的序列性?或许,未来架构需在并行效率与串行能力间寻找平衡——比如引入条件计算,动态激活子网络。