DUPO 主要是通过在批次中复制标准差不为 0的样本来填充被移除的样本,以解决 RL 训练速度慢的问题。 论文方案 DUPO 通过整合两种动态采样策略来提高训练的有效性和效率,并进一步完善智能体的推理能力和样本效率。论文指出DUPO方法与 DAPO 的动态采样相比,实现了大约 2 到 3 倍的加速。 DUPO 的具体优化方案: 预训练阶段的样本过滤 DUPO 在正式训练之前,首先会过滤掉过于简单的案例。例如,将所有 8 次策略执行(rollouts)都正确的案例筛选出去。 2. 动态重复采样: DUPO 不使用填充来扩大批次,而是随机重复同一批次中标准差不为 0 的其他样本来填充被移除的空位。 优势估计: DUPO 遵循 GPRO 的方法,以组内相对的方式估计优势。 策略梯度损失: DUPO 沿用了token级别损失以及higher clip技术。
WebSailor:旗舰 agent,采用 RFT 冷启动、DUPO 强化学习,实现复杂路径规划、层层信息梳理,性能媲美 DeepResearch、GPT4WithBrowsing 。 WebSailor 强推 Modes 展现WebSailor 可加载不同大小模型(如 3B、32B、72B),剪裁输出链式操作,支持下列复杂检索流程:先整体扫一遍相关网页;冷启动阶段生成任务初始模板;DUPO 与同类项目对比项目多步骤规划强 RL 训练可结构输出社区活跃度综合表现WebAgent✅ 高级规划✅ DUPO 支持✅ WebShaper⭐ 4.7k stars⭐⭐⭐⭐⭐REAL (AGI Inc)⚠️ OmniSearch规划+多模态⚠️ 可扩展⚠️ 需定制⭐ 351 stars⭐⭐WebAgent-R1单轮任务RL✅ 支持❌ 无结构化输出⭐ ⭐⭐⭐ ✨ WebAgent 的优势在于:预设完整 agent 流程、DUPO
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization DuPO: 通过双重偏好优化实现可靠的大语言模型自验证 我们提出DuPO——一种基于双重学习的偏好优化框架,通过广义对偶关系生成无需标注的反馈。 DuPO解决了两个关键局限性:可验证奖励强化学习 (RLVR) 对昂贵标注数据的依赖及其仅限于可验证任务的应用范围,以及传统双重学习对严格双重任务对(如翻译与回译)的约束。 具体而言,DuPO将原始任务输入分解为已知与未知组件,进而构建其对偶任务:利用原始输出和已知信息重构未知部分(例如通过逆向数学解恢复隐藏变量),从而将适用范围扩展到不可逆任务。 这些成果使DuPO成为一种可扩展、通用且无需标注的大语言模型优化范式。
RL强化学习:使用Duplicating Sampling Policy Optimization (DUPO), 针对智能体 RL 训练速度慢的问题,WebSailor 使用了 DUPO 算法。 DUPO是对DAPO算法的巧妙改进。在训练过程中,对于那些非常简单(所有 rollout 都成功)或非常难(所有 rollout 都失败)的样本,其学习信号很弱。 DUPO首先会“精加工”过滤掉那些过于简单的样本。然后,在填充训练批次时,它不会用无意义的padding数据,而是从当前批次中随机复制那些具有“学习价值”的样本。 模型训练上仍然是采用适度的拒绝采样微调(RFT)作为“冷启动”,然后使用DUPO强化学习提升训练效率,在模型训练和实验分析中也有很多宝贵经验。
基于该发现,我们提出WebSailor——整套训练后优化方案,通过以下方法实现该核心能力:结构化采样与信息混淆生成的高不确定性新任务、RFT冷启动技术,以及高效智能体强化学习算法DUPO(复制采样策略优化
该方法通过结构化采样与信息隐匿生成新型高不确定性任务,采用 RFT 冷启动机制,并结合高效智能体强化学习训练算法 DUPO (复制采样策略优化) 。