
今天,我们要深入探讨来自 CAMEL-AI 的 《Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers》。

我们都惊叹于GPT-4、Claude等模型的强大能力,它们能写代码、解数学题,似乎无所不能。但如果你让它们深入分析一个复杂的金融衍生品定价问题,或者推导一个高级物理实验的结果,它们往往会“心有余而力不足”。这背后的核心瓶颈是什么?
答案是:高质量、可验证的专业领域数据极度稀缺。
这篇论文提出的 Loong 项目,正是一项旨在系统性解决这一问题的开创性工作。它不仅仅是一个数据集或一个模型,而是一个完整的、可扩展的框架,致力于通过“智能体-环境”互动循环,大规模生成高质量、多样化且经得起检验的推理训练数据。
近年来,提升LLM推理能力最有效的技术之一是“带可验证奖励的强化学习”(Reinforcement Learning with Verifiable Reward, RLVR)。

这个概念听起来复杂,但原理很直观。想象一下训练一个学生做题:
这种黑白分明的反馈机制,能让模型以极高的效率学习正确的推理路径。这在两个领域取得了巨大成功:
然而,一旦走出这两个领域,RLVR就遇到了巨大的障碍。在化学、物理、金融、法律、医学等专业领域,构建一个包含成千上万个问题,并且每个问题都有一个能被机器自动验证的“标准答案”的数据集,成本高昂到几乎不可能。人类专家的时间是宝贵的,而机器又缺乏验证这些复杂推理的能力。
因此,AI领域陷入了一个“数据饥渴”的困境:我们迫切需要能够提升模型高级推理能力的训练数据,但这些数据要么难以获取,要么难以验证。
Loong 项目的提出,正是为了打破这一僵局。它的核心思想是:既然高质量数据稀少,我们能否利用现有模型的能力,创造一个能够自我进化、自我验证的系统,来“凭空”生成海量的优质数据?
Loong项目通过两个紧密协作的核心组件,构建了一个完整的生态系统,实现了从“评估”到“生成”的闭环。
在创造数据之前,我们首先需要一个“标尺”,一个能够精准衡量现有模型在各个专业领域推理能力的基准。这就是 LOONGBENCH。

它远不止一个普通的数据集,它有两个关键角色:
1️⃣ 高质量的基准测试平台 (A High-Quality Benchmark):LOONGBENCH 精心收集和整理了横跨12个推理密集型领域的8,729个问题。这些领域覆盖面极广,包括:
最关键的是,LOONGBENCH中的每一个问题都配有一个可执行的代码答案。这意味着,答案的正确性不是由某个人或某个模型主观判断的,而是可以通过运行代码得到一个客观、可验证的结果。这为评估提供了黄金标准。
2️⃣ 高纯度的种子数据集 (A High-Purity Seed Dataset):LOONGBENCH的第二个角色,是作为后续合成数据生成的“种子”。正是因为这些种子的质量极高(经过验证),才保证了后续“开枝散叶”生成的新数据拥有坚实的质量基础。
这是一个模块化的合成数据生成环境,其核心是一个由多个AI智能体协作的自动化流水线。
它的工作流程可以概括为 “出题-解题-验题” 三部曲:
通过这个闭环,LOONGENV能够以一个高质量的种子问题为起点,源源不断地生产出成千上万个全新的、同样高质量且可验证的训练样本。这个“数据工厂”的建立,正是Loong项目的核心创新所在,它将数据生产的边际成本降到了极低。
其核心机制是一个被称为 “智能体-环境循环 (Agent-Environment Loop)” 的系统(见论文图1)。

想象这样一个场景:
1. 灵感来源:系统从LOONGBENCH的“秘籍库”中,随机抽取一道关于“计算抛物线运动”的物理题作为种子。
2. 智能出题:生成器 (Generator) 智能体(在论文中由GPT-4.1-mini扮演)看到了这道题,并被要求创造一道新题。它可能会改变初始条件,或者将问题从“计算末速度”变为“计算飞行时间”。
3. 学员解题:新问题被发送给一个正在接受训练的 可训练智能体 (Trainable Agent)(比如某个需要提升物理推理能力的LLM)。这个学员模型会给出它的解题思路和答案。
4. 专家验证:同时,生成器自己也为新问题生成了一个标准代码答案。一个独立的 验证器 (Verifier)(在论文中由DeepSeek-R1扮演)会将学员的答案与标准答案进行比对。
5. 精准反馈:如果学员的答案与标准答案在语义上一致,系统就会给出一个正向的强化学习奖励 (RL Reward)。如果不一致,则给予负向奖励。
这个循环不断重复,学员模型通过一次次高质量、可验证的实战演练,其在特定领域的推理能力得到了飞速提升。
整个流程中最具创造性的环节,无疑是“智能出题”。LOONGENV内置了三种不同的策略,以生成不同风格和难度的数据。让我们继续用物理题的例子来生动地解释它们:
种子题目:
问题:一个物体从静止开始,以 2 m/s² 的恒定加速度运动。它在 5 秒后的速度是多少? 答案代码:
v = 0 + 2 * 5
策略一:Few-shot Prompting (少样本提示) — “模仿者”

GPT-4.1-mini看几个类似“问题-代码”的范例,然后告诉它:“照着这个样子,给我来一个。”v = 0 + 3.5 * 8策略二:Self-Instruct (自我指令) — “创新者”

u = 15 - 2 * 5策略三:Evol-Instruct (进化指令) — “难度升级大师”

工作原理:这是最复杂也最强大的策略。它会对种子问题进行“进化”,通过增加约束、深化问题、合并概念等方式,有意识地提升问题的复杂度和推理深度。
生成特点:生成的问题在核心概念上可能与种子问题相关,但解决它需要更长的思考链(Chain-of-Thought)和更复杂的步骤。
生成示例:
问题:一个质量为 2kg 的物体以 5 m/s 的初速度和 2 m/s² 的恒定加速度运动。当它的动能 () 翻倍时,它运动的位移是多少? 答案代码:
import math
m = 2
u = 5
a = 2
# 初始动能 E_k1 = 0.5 * m * u**2
# 最终动能 E_k2 = 2 * E_k1,所以 0.5 * m * v**2 = 2 * (0.5 * m * u**2)
# 化简得 v**2 = 2 * u**2
v = math.sqrt(2) * u
# 根据运动学公式 v^2 = u^2 + 2as 计算位移 s
s = (v**2 - u**2) / (2 * a)一个数据工厂的生命线在于其产品质量。LOONGENV设计了两道严格的“质检”关卡:
1. 可执行性检查 (Executability Check):这是第一道关,简单粗暴。系统会把生成的代码扔进一个安全的沙箱环境里运行。如果代码报错,直接判定为“不合格品”,丢弃。
2. 裁判智能体验证 (Verification via Judge Agent):通过了第一关,只能说明代码语法没问题。但代码逻辑是否正确解决了问题呢?这就需要第二道关的“专家评审”。一个强大的LLM裁判(实验中为DeepSeek-R1)会仔细审查“问题”和“代码”,判断两者是否匹配且逻辑自洽。只有通过了专家评审,这份数据才会被盖上“合格”的印章,进入最终的数据集。
一个框架设计得再巧妙,最终也要用实验结果说话。Loong项目通过一系列详尽的实验,不仅验证了自身框架的有效性,也为我们揭示了当前顶尖LLM在复杂推理领域的真实水平。
发现一:推理能力分化严重,专业模型优势凸显 (见论文表2)

o3-mini 几乎达到了100%的满分,说明该领域已接近饱和。然而,在“数学规划”领域,所有模型都举步维艰,最强的Claude-3.7也仅有13.2%的准确率,揭示了这是一个巨大的研究洼地。o3-mini 和 DeepSeek-r1,在绝大多数领域都名列前茅。DeepSeek-r1 在12个领域中的8个进入前两名,o3-mini 也在6个领域进入前二。这证明了通用的“聊天模型”与专业的“推理模型”之间存在明显的性能差距。发现二:数据生成策略的“权衡三角” (见论文图2)

实验对三种生成策略(Few-shot, Self-Instruct, Evol-Instruct)的产出质量进行了详细分析,揭示了一个有趣的“权衡三角”:可靠性、多样性、难度。
以“逻辑”和“物理”两个领域为例:
这个发现极具指导意义:我们可以根据训练目标,灵活选择不同的数据生成策略。基础训练用Few-shot,拔高训练用Evol-Instruct。
发现三:Evol-Instruct 确实能生成“更硬的骨头” (见论文表3)

为了验证Evol-Instruct生成的数据是否真的更难,研究者们让强大的 DeepSeek-r1 模型分别去解不同策略生成的“高级物理”题。
结果令人信服:
DeepSeek-r1 的准确率高达 93.2%。这有力地证明了,Evol-Instruct策略虽然成功率较低,但它成功创造出的问题,确实能有效地区分出模型的推理能力上限,是训练更强大模型的宝贵资源。
Loong项目为我们带来的,不仅仅是一个新工具或一个新数据集,更是对如何规模化提升AI推理能力的一次深刻思考和成功实践。
总而言之,Loong项目如同一位高明的铸剑师,它没有直接打造一把削铁如泥的“神剑”(新模型),而是为整个AI社区锻造了一座源源不断产出“玄铁”(高质量数据)的“熔炉”。有了这座熔炉,我们有理由相信,未来将会涌现出更多、更强的“神剑”,在科学探索和现实应用的各个领域,展现出真正媲美甚至超越人类专家的推理能力。
论文名称:Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
第一作者:CAMEL-AI
论文链接:https://www.arxiv.org/abs/2509.03059
最新日期:2025年9月3日
github:https://github.com/camel-ai/loong.git