
该方法通过引入结构化、防御性的推理示例,提高大语言模型在面对被污染或误导信息时的稳健性。 📄 论文链接:https://arxiv.org/abs/2504.20769

提出一种自适应混合推理模型 AdaR1,结合长链推理(Long-CoT)与短链推理(Short-CoT),并通过双层优化策略自动选择更有效的推理路径。 📄 论文链接:https://arxiv.org/abs/2504.21659

用于文本生成图像任务:语义级CoT规划提示意图,词元级CoT控制像素生成,二者由 BiCoT-GRPO 模块协调,提升图像生成质量。 📄 论文链接:https://arxiv.org/abs/2505.00703

SCoT 通过轻量模型并行预测多个推理路径,筛选后再由主模型修正,大幅降低延迟(可达48%–66%),提升推理效率。 📄 论文链接:https://arxiv.org/abs/2504.19095

该方法将推理过程划分为多个可编辑模块,用户可以逐步查看、修改并重新运行推理,适配不同用户的认知风格和目标。 📄 论文链接:https://arxiv.org/abs/2504.17091

针对非主流语言任务,该方法将语音翻译与推理链整合,采用半隐式CoT机制压缩中间步骤,有效提升非核心语言的响应准确率(最高可达45%)。 📄 论文链接:https://arxiv.org/abs/2504.20835

结合知识图谱与RAG机制,包含三项核心设计:① 知识图驱动的推理链生成;② 面向案例的可学习RAG组件;③ 基于逻辑的伪程序执行提示。 📄 论文链接:https://huggingface.co/papers/2504.13534

在视觉任务中对模型生成的边界框进行比较排序,通过偏好反馈训练模型,逐步优化其图像级推理能力。 📄 论文链接:https://huggingface.co/papers/2504.18397

融合CoT与主动学习策略,引入课程对齐评估、人类提示设计以及教师-学生式反馈机制,使模型在自动评分等任务中准确率显著提升(GPT-4 提升24.5%)。 📄 论文链接:https://huggingface.co/papers/2504.02323

将长推理路径拆解为多个子步骤,简化中间过程并优化错误传播路径,从而提升训练样本效率与最终推理质量。 📄 论文链接:https://huggingface.co/papers/2503.16385
