搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏强化学习系列
强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO
DUPO 主要是通过在批次中复制标准差不为 0的样本来填充被移除的样本，以解决 RL 训练速度慢的问题。论文方案 DUPO 通过整合两种动态采样策略来提高训练的有效性和效率，并进一步完善智能体的推理能力和样本效率。论文指出DUPO方法与 DAPO 的动态采样相比，实现了大约 2 到 3 倍的加速。 DUPO 的具体优化方案：预训练阶段的样本过滤 DUPO 在正式训练之前，首先会过滤掉过于简单的案例。例如，将所有 8 次策略执行（rollouts）都正确的案例筛选出去。 2. 动态重复采样： DUPO 不使用填充来扩大批次，而是随机重复同一批次中标准差不为 0 的其他样本来填充被移除的空位。优势估计： DUPO 遵循 GPRO 的方法，以组内相对的方式估计优势。策略梯度损失： DUPO 沿用了token级别损失以及higher clip技术。
53321编辑于 2025-11-23
阿里开源即封神，一上线就斩获4000+ star背后的真相，WebAgent多步骤智能网搜神器，颠覆你对AI的信息检索印象！
WebSailor：旗舰 agent，采用 RFT 冷启动、DUPO 强化学习，实现复杂路径规划、层层信息梳理，性能媲美 DeepResearch、GPT4WithBrowsing 。 WebSailor 强推 Modes 展现WebSailor 可加载不同大小模型（如 3B、32B、72B），剪裁输出链式操作，支持下列复杂检索流程：先整体扫一遍相关网页；冷启动阶段生成任务初始模板；DUPO 与同类项目对比项目多步骤规划强 RL 训练可结构输出社区活跃度综合表现WebAgent✅ 高级规划✅ DUPO 支持✅ WebShaper⭐ 4.7k stars⭐⭐⭐⭐⭐REAL (AGI Inc)⚠️ OmniSearch规划+多模态⚠️ 可扩展⚠️ 需定制⭐ 351 stars⭐⭐WebAgent-R1单轮任务RL✅ 支持❌ 无结构化输出⭐ ⭐⭐⭐ ✨ WebAgent 的优势在于：预设完整 agent 流程、DUPO
72110编辑于 2025-08-12
每周AI论文速递（250818-250822）
DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization DuPO: 通过双重偏好优化实现可靠的大语言模型自验证我们提出DuPO——一种基于双重学习的偏好优化框架，通过广义对偶关系生成无需标注的反馈。 DuPO解决了两个关键局限性：可验证奖励强化学习 (RLVR) 对昂贵标注数据的依赖及其仅限于可验证任务的应用范围，以及传统双重学习对严格双重任务对（如翻译与回译）的约束。具体而言，DuPO将原始任务输入分解为已知与未知组件，进而构建其对偶任务：利用原始输出和已知信息重构未知部分（例如通过逆向数学解恢复隐藏变量），从而将适用范围扩展到不可逆任务。这些成果使DuPO成为一种可扩展、通用且无需标注的大语言模型优化范式。
11010编辑于 2025-11-20
来自专栏大语言模型
Deep Research Agent技术 --通义“狐獴家族”（一）
RL强化学习：使用Duplicating Sampling Policy Optimization (DUPO)，针对智能体 RL 训练速度慢的问题，WebSailor 使用了 DUPO 算法。 DUPO是对DAPO算法的巧妙改进。在训练过程中，对于那些非常简单（所有 rollout 都成功）或非常难（所有 rollout 都失败）的样本，其学习信号很弱。 DUPO首先会“精加工”过滤掉那些过于简单的样本。然后，在填充训练批次时，它不会用无意义的padding数据，而是从当前批次中随机复制那些具有“学习价值”的样本。模型训练上仍然是采用适度的拒绝采样微调（RFT）作为“冷启动”，然后使用DUPO强化学习提升训练效率，在模型训练和实验分析中也有很多宝贵经验。
35831编辑于 2025-11-17
每周AI论文速递（250630-250704）
基于该发现，我们提出WebSailor——整套训练后优化方案，通过以下方法实现该核心能力：结构化采样与信息混淆生成的高不确定性新任务、RFT冷启动技术，以及高效智能体强化学习算法DUPO（复制采样策略优化
21510编辑于 2025-07-08
每周AI论文速递（250915-250919）
该方法通过结构化采样与信息隐匿生成新型高不确定性任务，采用 RFT 冷启动机制，并结合高效智能体强化学习训练算法 DUPO (复制采样策略优化) 。
9510编辑于 2025-11-20

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

阿里开源即封神，一上线就斩获4000+ star背后的真相，WebAgent多步骤智能网搜神器，颠覆你对AI的信息检索印象！

每周AI论文速递（250818-250822）

Deep Research Agent技术 --通义“狐獴家族”（一）

每周AI论文速递（250630-250704）

每周AI论文速递（250915-250919）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐