
Utonia: Toward One Encoder for All Point Clouds
[Utonia:迈向适用于所有点云的单一编码器](https://arxiv.org/abs/2603.03283)
我们憧憬一个未来,来自各领域的点云能够汇聚,共同塑造一个普适且互益的单一模型。为此,我们提出了Utonia,这是首次尝试训练一个跨多领域的单一自监督点Transformer编码器,涵盖遥感、室外LiDAR、室内RGB-D序列、以对象为中心的CAD模型以及从纯RGB视频重建的点云。尽管这些数据在采集几何结构、点云密度和先验知识上存在显著差异,但Utonia成功学习到了一个跨域一致的表示空间。这种统一不仅提升了模型的感知能力,还揭示出仅在多领域联合训练时才会涌现的有趣行为。除了感知任务,我们发现Utonia学习到的表示也有助于具身智能和多模态推理:以Utonia特征为条件来调整视觉-语言-动作策略,能改善机器人操作性能;将其集成到视觉-语言模型中,则可提升空间推理能力。我们希望Utonia能为构建稀疏3D数据的基础模型迈出一步,并助力增强现实/虚拟现实 (AR/VR)、机器人学和自动驾驶等下游应用。
[异构智能体协同强化学习](https://arxiv.org/abs/2603.02604)
我们提出了异构智能体协同强化学习 (Heterogeneous Agent Collaborative Reinforcement Learning, HACRL),这是一种新的学习范式,旨在解决智能体孤立进行同策略优化时的效率低下问题。HACRL 实现了训练协同、执行独立的优化模式:异构智能体在训练阶段共享各自产生的轨迹 (rollout) 以相互促进,而在推理阶段则独立运行。与基于大语言模型的 MARL 不同,HACRL 无需协调部署;与同策略/异策略蒸馏方法不同,它支持异构智能体之间的双向相互学习,而非单向的从教师到学生的知识迁移。基于此范式,我们提出了 HACPO 算法,这是一种协同强化学习算法,它通过原则性的轨迹共享机制,最大化样本利用效率并促进跨智能体知识迁移。为了应对智能体能力差异和策略分布偏移带来的挑战,HACPO 引入了四种定制化机制,并为无偏优势估计和优化正确性提供了理论保证。在多种异构模型组合和推理基准测试上的大量实验表明,HACPO 能够持续提升所有参与智能体的性能,其平均表现超出 GSPO 3.3%,同时仅需后者一半的轨迹采样成本。
[OmniLottie:通过参数化的 Lottie 标记生成矢量动画](https://arxiv.org/abs/2603.02138)
OmniLottie 是一个通用框架,能够根据多模态指令生成高质量的矢量动画。为实现对动画运动和视觉内容的灵活控制,我们聚焦于 Lottie 格式,这是一种用于表示形状和动画行为的轻量级 JSON 格式。然而,原始的 Lottie JSON 文件包含大量不变的结构元数据和格式标记,这给学习矢量动画生成带来了巨大挑战。为此,我们引入了一个精心设计的 Lottie 分词器,它能够将 JSON 文件转换为结构化的命令与参数序列,这些序列代表了形状、动画功能及控制参数。该分词器使我们得以基于预训练的视觉语言模型构建 OmniLottie,使其能够遵循多模态交织的指令并生成高质量的矢量动画。为进一步推动矢量动画生成领域的研究,我们构建了 MMLottie-2M,这是一个大规模、由专业设计的矢量动画数据集,并附带有文本和视觉标注。通过大量实验,我们验证了 OmniLottie 能够生成生动且语义对齐的矢量动画,这些动画能够高度符合多模态的人类指令。
[Helios:实时长视频生成模型](https://arxiv.org.org/abs/2603.04379)
我们介绍了 Helios,这是首个 14B (140亿参数) 视频生成模型。它在单个 NVIDIA H100 GPU 上能以 19.5 FPS 的速度运行,支持分钟级时长的视频生成,并且在质量上能与强大的基线模型相媲美。我们在三个关键维度上取得了突破:(1) 对长视频漂移具有鲁棒性,无需依赖常用的抗漂移启发式方法,如自强制、错误库或关键帧采样;(2) 实现实时生成,无需采用标准的加速技术,如 KV 缓存、稀疏/线性注意力或量化;(3) 无需并行或分片框架即可进行训练,在 80 GB GPU 内存内最多可容纳四个 14B 模型,同时实现图像扩散模型级别的批量大小。具体而言,Helios 是一个 14B 的自回归扩散模型,它采用统一的输入表示,原生支持文生视频 (T2V)、图生视频 (I2V) 和视频生视频 (V2V) 任务。为了缓解长视频生成中的漂移问题,我们分析了典型的故障模式,并提出了一种简单而有效的训练策略:在训练过程中显式模拟漂移,同时从源头消除重复运动。为了提高效率,我们大幅压缩了历史及带噪声的上下文信息,并减少了采样步数,使得其计算成本与 1.3B 视频生成模型相当甚至更低。此外,我们还引入了基础设施级别的优化,在减少内存消耗的同时,加速了推理和训练过程。大量实验表明,Helios 在短视频和长视频生成任务上均持续优于现有方法。我们计划发布代码、基础模型和蒸馏模型,以支持社区的进一步发展。
[从规模到速度:图像编辑的自适应测试时缩放](https://arxiv.org/abs/2603.00141)
图像思维链 (Image-CoT) 是一种测试时扩展范式,通过延长推理时间来提升图像生成质量。大多数 Image-CoT 方法主要针对文本到图像 (T2I) 生成任务。与 T2I 生成不同,图像编辑是目标驱动的任务:其解空间受限于源图像和给定的编辑指令。这种差异导致将 Image-CoT 应用于编辑任务时面临三大挑战:固定采样预算导致的资源分配低效、使用通用多模态大语言模型 (MLLM) 分数进行早期验证的不可靠性,以及大规模采样产生的冗余编辑结果。为解决这些问题,我们提出了自适应编辑思维链 (ADE-CoT),这是一个按需的测试时扩展框架,旨在提升编辑效率和性能。它包含三项核心策略:(1) 难度感知的资源分配,根据预估的编辑难度动态分配采样预算;(2) 早期剪枝中的编辑任务特定验证,利用区域定位和标题一致性来筛选有潜力的候选结果;(3) 深度优先的机会性提前停止机制,该机制由一个实例特定的验证器引导,一旦发现符合编辑意图的结果便立即终止采样。我们在三个基准测试上,对三种先进的编辑模型 (Step1X-Edit, BAGEL, FLUX.1 Kontext) 进行了大量实验。结果表明,ADE-CoT 实现了更优的性能与效率权衡。在采样预算相当的情况下,ADE-CoT 不仅能取得更好的性能,其速度相比 Best-of-N 方法也提升了两倍以上。
[dLLM:简单的扩散语言建模](https://arxiv.org/abs/2602.22661)
尽管扩散语言模型 (DLMs) 发展迅速,但许多近期模型都采用了一套共享的核心组件。然而,这些组件分散在众多临时性的研究代码库中,或缺乏清晰透明的实现,导致其难以重现和扩展。随着该领域快速发展,显然亟需一个统一的框架来标准化这些通用组件,同时保持足够的灵活性,以支持新方法和新架构。为填补这一空白,我们推出了 dLLM,这是一个开源框架。它统一了扩散语言建模的核心组件——训练、推理与评估——并使其易于针对新设计进行定制。借助 dLLM,用户可以通过标准化的流程,重现、微调、部署和评估诸如 LLaDA 和 Dream 等开源大型扩散语言模型。该框架还提供了精简、可重现的方案,用于在易于获取的计算资源下,从头构建小型扩散语言模型,包括将任何 BERT 风格的编码器或自回归语言模型转换为扩散语言模型。我们还发布了这些小型扩散语言模型的检查点,旨在降低扩散语言模型的使用门槛,并加速未来的研究。
[T2S-Bench 与思维结构:全面文本到结构推理的基准测试与提示方法](https://arxiv.org/abs/2603.03790)
思考人类如何处理复杂的阅读任务:标记关键点,推断其相互关系,并将信息结构化以指导理解和回应。类似地,大语言模型 (LLM) 能否利用文本结构来提升其文本处理性能?为探索此问题,本研究首先提出了思维结构 (Structure of Thought, SoT) 提示技术,该技术明确引导模型构建中间文本结构,在八个任务和三个模型系列中均能持续提升性能。基于这一发现,我们推出了 T2S-Bench,这是首个旨在评估并提升模型文本转结构能力的基准测试集。T2S-Bench 包含 1.8K 个样本,涵盖 6 个科学领域和 32 种结构类型,经过严格构建以确保其准确性、公平性和高质量。对 45 个主流模型的评估表明存在巨大的改进空间:在多跳推理任务上,平均准确率仅为 52.1%;即使在端到端结构提取任务中,最先进的模型也仅达到 58.1% 的节点准确率。此外,在 Qwen2.5-7B-Instruct 模型上,仅使用 SoT 提示就在八个不同的文本处理任务中带来了平均 5.7% 的性能提升,而在 T2S-Bench 上进行微调后,这一提升幅度进一步增至 8.6%。这些结果凸显了显式文本结构化的价值,以及 SoT 与 T2S-Bench 的互补性贡献。数据集和评估代码已发布于 https://t2s-bench.github.io/T2S-Bench-Page/。
[MOOSE-Star:通过突破复杂性壁垒为科学发现解锁可高效处理的训练](https://arxiv.org/abs/2603.03756)
尽管大语言模型 (LLMs) 在科学发现中展现出潜力,但现有研究主要集中于推理或反馈驱动的训练,而直接对生成式推理过程 P(\text{hypothesis}|\text{background}) (P(h|b)) 进行建模则尚未得到探索。我们证明,由于从海量知识库中检索和组合灵感所固有的组合复杂性 (O(N^k)),直接训练 P(h|b) 在数学上是难以处理的。为突破这一壁垒,我们提出了 MOOSE-Star,这是一个支持可高效处理训练与可扩展推理的统一框架。在最佳情况下,MOOSE-Star 通过以下方法将复杂度从指数级降至对数级 (O(\log N)):(1) 基于从科学发现的概率方程推导出的分解子任务进行训练,(2) 采用动机引导的分层搜索,以实现对数级检索并剪枝不相关的子空间,以及 (3) 利用有界组合操作来增强对检索噪声的鲁棒性。为支持此框架,我们发布了 TOMATO-Star 数据集,其中包含 108,717 篇经过分解的论文(耗费 38,400 GPU 小时生成),专用于训练。此外,我们的研究表明,虽然暴力采样方法会遭遇“复杂性壁垒”,但 MOOSE-Star 在测试阶段展现出持续的性能扩展能力。
[UniG2U-Bench:统一模型是否推动了多模态理解的发展?](https://arxiv.org/abs/2603.03241)
统一多模态模型近期展现了强大的生成能力,但生成是否以及何时能改善理解性能仍不明确。现有基准测试缺乏对生成促进理解的具体任务进行系统性探索。为此,我们提出了 UniG2U-Bench,这是一个综合性基准,将生成到理解 (G2U) 评估划分为 7 个类别和 30 个子任务,这些任务需要不同程度的隐式或显式视觉变换。通过对超过 30 个模型进行广泛评估,我们得到了三个核心发现:1) 统一模型通常性能不及其基础视觉语言模型 (VLMs),并且生成后回答 (GtA) 推理相较于直接推理通常会降低性能。2) 在空间智能、视觉错觉或多轮推理子任务中,模型表现出一致的性能提升,其中增强的空间与形状感知能力以及多步中间图像状态被证明有益。3) 具有相似推理结构的任务和共享架构的模型表现出相关性行为,这表明生成-理解耦合在任务、预训练数据和模型架构上引入了类一致的归纳偏差。这些发现凸显了对更多样化训练数据和新范式以充分释放统一多模态建模潜力的需求。
[CUDA Agent: 用于高性能 CUDA 核函数生成的大规模智能体强化学习](https://arxiv.org/abs/2602.24286)
GPU 核函数优化是现代深度学习的基础,但这仍是一项高度专业化的任务,需要深厚的硬件专业知识。尽管大语言模型 (LLMs) 在通用编程方面表现出色,但在 CUDA 核函数生成任务上,其性能仍无法与基于编译器的系统(如 torch.compile)相匹敌。现有的 CUDA 代码生成方法,要么依赖于无需训练的精炼策略,要么在固定的多轮执行-反馈循环中对模型进行微调。然而,这两种范式都未能从根本上提升模型内在的 CUDA 优化能力,导致性能增益有限。我们提出了 CUDA Agent,这是一个大规模智能体强化学习系统,它通过三个核心组件来发展 CUDA 核函数专业知识:一个可扩展的数据合成流水线;一个技能增强的 CUDA 开发环境,该环境集成了自动验证与性能分析功能,以提供可靠的奖励信号;以及一套实现稳定训练的强化学习算法技术。CUDA Agent 在 KernelBench 基准测试上取得了最先进的结果。在 KernelBench 的 Level-1、Level-2 和 Level-3 数据集上,其性能分别比 torch.compile 快 100%、100% 和 92%。在最困难的 Level-3 设置下,其性能比 Claude Opus 4.5 和 Gemini 3 Pro 等最强的专有模型领先约 40%。
[SWE-rebench V2:大规模语言无关的软件工程任务收集](https://arxiv.org/abs/2602.23866)
软件工程智能体 (SWE) 发展迅速,其近期进展主要由强化学习 (RL) 驱动。然而,RL 训练受限于缺乏具备可复现执行环境和可靠测试套件的大规模任务集合。尽管涌现了越来越多的基准测试,但适用于训练的数据集在规模和多样性上仍然有限,或者通常仅针对少数高资源语言生态系统。我们提出了 SWE-rebench V2,这是一个语言无关的自动化流水线,用于大规模收集可执行的现实世界 SWE 任务并构建 RL 训练环境。该流水线通过一个交互式设置智能体合成仓库特定的安装和测试流程,并利用一组经过人工验证的 SWE-bench 标注进行校验的大语言模型 (LLM) 评判员来过滤无效实例。利用此流水线,我们构建了一个包含 32,000 多个任务的数据集,涵盖 20 种编程语言和 3,600 多个代码仓库,并提供了用于可复现执行的预构建镜像。为了进一步扩展训练数据,我们还额外发布了 120,000 多个任务,这些任务包含安装说明、修复测试(从失败到通过的测试用例)和丰富的元数据,其中的问题陈述是基于原始拉取请求描述生成的。我们通过一项诊断研究验证了所收集的实例,该研究涵盖了五种编程语言下七个流行模型的一个任务子集,并提供了实例级元数据,用于标记常见的干扰因素,例如过于严格的测试和描述不明确。我们发布了数据集、收集与执行代码以及相关工件,以支持跨不同语言和仓库的大规模软件工程智能体训练。
[超越语言建模:多模态预训练的探索](https://arxiv.org/abs/2603.03276)
视觉世界是推动基础模型超越语言建模的关键方向。尽管该方向日益受到关注,但原生多模态模型的设计空间仍不清晰。我们通过一系列受控的、从头开始的预训练实验,在排除语言预训练干扰的情况下,厘清了影响多模态预训练的关键因素,从而提供了实证依据。我们采用 Transfusion 框架,对语言使用下一个 Token 预测,对视觉使用扩散模型,并在多样化的数据上进行训练,包括文本、视频、图像-文本对以及动作条件视频 (action-conditioned video)。我们的实验得出了四个关键结论:(i) 表征自编码器 (RAE) 在视觉理解和生成任务上均表现出色,提供了最优的统一视觉表征;(ii) 视觉与语言数据具有互补性,能协同提升下游任务能力;(iii) 统一的多模态预训练会自然地导向世界建模,相关能力在通用训练过程中涌现;(iv) 专家混合 (MoE) 架构能够实现高效且有效的多模态扩展,同时自然地促使不同模态专业化。通过 IsoFLOP 分析,我们计算了两种模态的扩展定律,并揭示了一个扩展不对称性:视觉模态的数据需求远大于语言模态。我们证明,MoE 架构通过提供语言所需的高模型容量,同时适应视觉的数据密集型特性,有效协调了这种扩展不对称性,从而为构建真正统一的多模态模型铺平了道路。
[SkillNet:创建、评估与连接 AI 技能](https://arxiv.org/abs/2603.04448)
当前的 AI 智能体已能灵活调用工具并执行复杂任务,但其长期发展因缺乏系统性的技能积累与迁移而受阻。由于没有统一的技能整合机制,智能体常常“重复造轮子”,在孤立的情境中重新发现解决方案,未能有效利用已有策略。为克服此局限,我们提出了 SkillNet,一个旨在规模化创建、评估与组织 AI 技能的开放基础设施。SkillNet 在一个统一的本体框架内构建技能,支持从异构来源创建技能、建立丰富的关系连接,并在安全性、完整性、可执行性、可维护性及成本意识等多个维度上进行评估。该基础设施集成了一个包含逾 20 万个技能的技能库、一个交互式平台以及一个多功能 Python 工具包。在 ALFWorld、WebShop 和 ScienceWorld 上的实验评估表明,SkillNet 能显著提升智能体性能,在多个骨干模型上,平均奖励提升了 40%,执行步骤减少了 30%。通过将技能形式化为可演化、可组合的资产,SkillNet 为智能体实现从短暂经验到持久精通的转变奠定了坚实基础。
[RubricBench:让模型生成的评分标准与人类标准对齐](https://arxiv.org/abs/2603.01562)
随着大语言模型 (LLM) 的对齐任务从简单的文本补全发展为复杂且高度精密的文本生成,奖励模型 (Reward Models) 正越来越多地采用基于评分标准 (rubric) 的评估方法,以减轻表层偏见。然而,研究社区缺乏一个统一的基准来评估这种范式,因为现有基准既不具备足够的判别复杂度,也缺少进行严格分析所需的真实评分标准标注。为填补这一空白,我们提出了 RubricBench,这是一个包含 1,147 组对比数据的精选基准,专门用于评估基于评分标准的评估方法的可靠性。我们的构建方法采用了一个多维过滤流程,旨在筛选出那些输入复杂度微妙且带有误导性表层偏见的困难样本,并为每个样本补充了严格依据指令生成、由专家标注的原子评分标准。全面的实验揭示了人工标注的评分标准与模型生成的评分标准之间存在显著的性能差距,这表明即使是最先进的模型也难以自动生成有效的评估标准,其表现远逊于基于人工标注的性能。
[BeyondSWE:当前代码智能体能否超越单仓库错误修复?](https://arxiv.org/abs/2603.03194)
现有的代码智能体基准测试主要聚焦于评估范围狭窄、针对特定代码仓库的修复任务,却忽略了跨仓库推理、领域特定问题解决、依赖驱动式迁移以及全仓库生成等关键的实际挑战。为弥补这一不足,我们提出了 BeyondSWE,一个全面的基准测试。它从解决范围和知识范围两个维度拓展了现有评估体系,并基于四个不同场景下的 500 个真实实例构建。实验结果表明,当前模型存在显著的能力缺口:即使是前沿模型,其成功率也难以突破 45%,且没有任何单一模型能在所有任务类型上保持稳定表现。为了系统性地探究外部知识的作用,我们开发了 SearchSWE 框架,该框架将深度搜索能力与编码能力相结合。我们的实验显示,搜索增强带来的性能提升并不稳定,在某些情况下甚至会导致性能下降,这凸显了在编码任务中模拟开发者那种交织着搜索与推理的工作流程的难度。本工作不仅提供了一个贴近现实且富有挑战性的评估基准,还提供了一个灵活的框架,旨在推动研究向开发更强大的代码智能体迈进。
[通过奖励建模增强图像生成中的空间理解](https://arxiv.org/abs/2602.24233)
文本到图像生成领域的最新进展极大地提升了视觉保真度和创造性,但也对提示词的复杂性提出了更高要求,尤其是在编码复杂空间关系时。在此类情况下,往往需要多次采样尝试才能获得令人满意的结果。为解决这一难题,我们提出了一种新方法,旨在增强现有图像生成模型的空间理解能力。我们首先构建了 SpatialReward-Dataset,该数据集包含超过8万个偏好对。在此基础上,我们训练了一个名为 SpatialScore 的奖励模型,专门用于评估文本到图像生成中空间关系的准确性。该模型的性能优异,在空间关系评估任务上甚至超越了领先的专有模型。我们进一步证明,该奖励模型能有效驱动针对复杂空间生成任务的在线强化学习。在多个基准上进行的大量实验表明,我们这种专用的奖励模型能为图像生成带来显著且一致的空间理解能力提升。
你好,我是叶子,9年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!