Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周AI论文速递(250707-250711)

每周AI论文速递(250707-250711)

作者头像
叶子的技术碎碎念
发布于 2025-07-14 09:14:15
发布于 2025-07-14 09:14:15
1320
举报

Scaling RL to Long Videos

强化学习扩展至长视频处理

我们提出一个端到端框架,通过强化学习将视觉语言模型(VLMs)的推理能力扩展至长视频领域。针对长视频推理的独特挑战,我们整合了三个关键组件:(1) 大规模数据集LongVideo-Reason,包含52K个长视频问答对,涵盖体育、游戏和视频博客等多个领域的高质量推理标注;(2) 两阶段训练流程,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展VLMs能力;(3) 专为长视频RL设计的训练基础设施Multi-modal Reinforcement Sequence Parallelism (MR-SP),结合序列并行技术和基于vLLM的定制引擎,利用缓存视频嵌入实现高效rollout和prefilling。实验中,LongVILA-R1-7B在VideoMME等长视频QA基准表现优异,并在我们开发的LongVideo-Reason-eval基准上,在时序推理、目标、意图推理、空间推理和情节推理方面超越Video-R1-7B,甚至媲美Gemini-1.5-Pro。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了最高2.1倍的训练加速。随着输入视频帧数增加,LongVILA-R1展现出持续的性能提升。LongVILA-R1标志着VLMs在长视频推理领域迈出坚实一步。此外,我们公开了训练系统,支持多种模态(视频、文本、音频)、多种模型(VILA和Qwen系列)乃至图像/视频生成模型的RL训练。在单台A100节点(8块GPU)上,可支持时长达1小时的视频RL训练(例如3,600帧/约256k tokens)。

MemOS: A Memory OS for AI System

MemOS:面向 AI 系统的内存操作系统

大语言模型 (LLM) 已成为通用人工智能 (AGI) 的核心基础设施,但其缺乏明确定义的内存管理系统,阻碍了长上下文推理、持续个性化和知识一致性的发展。现有模型主要依赖静态参数和短暂的上下文状态,难以长期追踪用户偏好或更新知识。虽然检索增强生成 (RAG) 通过纯文本引入外部知识,但这仍是无状态的临时解决方案,既缺乏生命周期控制,也无法与持久化表示集成。

近期研究从内存层次结构角度建模了 LLM 的训练和推理成本,表明在参数内存与外部检索之间引入显式内存层,能够通过外部化特定知识显著降低计算开销。除效率问题外,LLM 还面临信息跨时空分布带来的系统性挑战,需要能够管理多时间尺度、多来源异构知识的系统架构。

为此,我们提出 MemOS——一种将内存作为可管理系统资源的操作系统。该系统统一管理纯文本、基于激活和参数级内存的表示形式、调度机制及演化过程,实现高效经济的存储与检索。其基本单元 MemCube 封装了内存内容以及来源、版本控制等元数据,支持组合、迁移和融合操作,既能灵活转换不同内存类型,又能桥接检索与参数化学习。MemOS 构建了以内存为中心的系统框架,为 LLM 提供可控性、可塑性和可进化能力,为持续学习与个性化建模奠定基础。

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

T-LoRA:无需过拟合的单图像扩散模型定制方法

扩散模型微调虽然能有效定制预训练模型以生成特定对象,但在训练样本有限时往往会出现过拟合问题,影响模型的泛化能力和输出多样性。本文研究了一个极具挑战性但意义重大的任务:仅使用单张概念图像适配扩散模型,这种单图像定制方式具有最高的实际应用价值。我们提出了T-LoRA,这是一种专为扩散模型个性化设计的时间步依赖低秩适配框架。研究发现,较高时间步的扩散过程比较低时间步更容易发生过拟合,因此需要采用时间步敏感的微调策略。T-LoRA包含两项关键创新:(1) 基于扩散时间步动态调整秩约束更新的微调策略;(2) 通过正交初始化确保适配器组件独立性的权重参数化技术。实验结果表明,T-LoRA及其各组件性能优于标准LoRA和其他扩散模型个性化方法,在概念保真度和文本对齐之间实现了更好的平衡,充分展现了T-LoRA在数据有限和资源受限场景中的应用潜力。代码已发布于https://github.com/ControlGenAI/T-LoRA。

SingLoRA: Low Rank Adaptation Using a Single Matrix

SingLoRA: 基于单一矩阵的低秩自适应

低秩自适应 (Low-Rank Adaptation, LoRA) 极大地提升了大型预训练模型的参数高效微调能力。该方法通过在模型预训练权重基础上引入两个小矩阵的乘积(构成低秩矩阵更新)来实现参数调整。近期研究表明,这两个矩阵间的尺度差异常引发训练动态特性不稳定,导致性能欠佳。本文提出 SingLoRA,该方法将权重更新重构为单一低秩矩阵与其转置矩阵的分解形式。这种简洁的设计从根本上消除了矩阵间尺度冲突,确保优化过程稳定,同时将参数量减少约50%。我们在无限宽度神经网络框架下对 SingLoRA 进行分析,证明其结构设计能够保证稳定的特征学习能力。多项任务的广泛实验结果验证了这些优势:在常识推理任务中,使用 SingLoRA 对 LLama 7B 进行 MNLI 微调获得了 91.3% 的准确率(优于 LoRA 的 89.1% 和 LoRA+ 的 90.2%),且仅需后者 60% 的参数开销;在图像生成任务中,采用 SingLoRA 微调 Stable Diffusion 显著提升了 DreamBooth 数据集上的图像保真性,其 DINO 相似度得分达到 0.151,优于 DoRA (0.148) 和 LoRA (0.143) 的表现。

Should We Still Pretrain Encoders with Masked Language Modeling?

我们是否仍应使用掩码语言建模预训练编码器?

高质量的文本表示学习是广泛NLP任务的基础。虽然编码器预训练传统上依赖于掩码语言建模(Masked Language Modeling, MLM),但最新研究表明,通过因果语言建模(Causal Language Modeling, CLM)预训练的解码器模型可有效转换为编码器,在文本表示基准测试中通常优于传统编码器。然而,目前尚不明确这些性能提升是源于CLM目标的固有优势,还是由模型规模和数据量等混杂因素导致。本文通过一系列大规模严格控制的预训练消融实验(共计训练38个参数量从2.1亿到10亿不等的模型,执行超过15,000次微调与评估)对该问题进行了探究。研究发现:虽然MLM训练在文本表示任务中普遍表现更优,但CLM训练模型具有更高的数据效率,且展现出更好的微调稳定性。基于上述发现,我们通过实验证明:在固定计算训练预算下,采用先CLM后MLM的两阶段训练策略可获得最优性能。此外,当使用现成的预训练CLM模型进行初始化时,该策略优势更为显著,可大幅降低训练顶尖编码器模型所需的计算成本。本项目的所有研究成果已在https://hf.co/MLMvsCLM公开,以促进后续研究。

4KAgent: Agentic Any Image to 4K Super-Resolution

4KAgent:智能体化任意图像至4K超分辨率系统

我们提出4KAgent,这是一个统一的智能体化超分辨率通用系统,能够将任意图像通用提升至4K分辨率(通过迭代应用甚至可实现更高分辨率)。该系统可将极端低分辨率且严重退化的图像(例如256x256的高失真输入)转化为具有照片级真实感的清晰4K输出。4KAgent由三个核心组件构成:(1) 分析模块,基于定制化用例配置系统流程;(2) 感知智能体,通过视觉语言模型与图像质量评估专家协同分析输入图像,制定针对性恢复方案;(3) 恢复智能体,采用递归执行与反思的范式执行恢复方案,通过质量导向的专家混合策略为每个处理步骤选择最优输出。此外,系统还集成专用的人脸恢复流程,可显著增强肖像与自拍照片的面部细节。我们在11个任务类别(涵盖26个多样化基准测试)上进行了严格评估,在包括自然图像、肖像照片、AI生成内容、卫星影像、荧光显微图像以及眼底摄影、超声和X射线等医学影像的广泛领域均实现了最先进性能,在感知指标(如NIQE、MUSIQ)和保真度指标(如PSNR)上均表现卓越。通过为底层视觉任务建立新型智能体化范式,我们期望推动视觉中心型自主智能体在各研究领域引发更广泛的研究兴趣与技术创新。所有代码、模型及结果将发布于:https://4kagent.github.io。

A Survey on Latent Reasoning

潜在推理研究综述

大语言模型 (LLMs) 已展现出卓越的推理能力,尤其是在显式思维链 (CoT) 推理的引导下,该推理能够将中间步骤显式表达为自然语言。尽管 CoT 提升了模型的可解释性与准确性,但其对自然语言推理的依赖限制了模型的表达能力。潜在推理通过完全在模型的连续隐状态空间中进行多步推理,消除了 Token 级别的监督,从而突破了这一瓶颈。为推动潜在推理领域的研究发展,本文对这一新兴领域进行了系统性综述。首先,我们剖析了神经网络层作为推理计算基元的基础作用,重点阐释了层次化表征如何支撑复杂的特征变换。随后,我们探讨了多种潜在推理方法,包括基于激活的循环机制、隐状态传播技术,以及用于压缩或吸收显式推理轨迹的微调策略。最后,我们深入分析了诸如基于掩码扩散模型的无限深度潜在推理等先进范式,这些方法能够实现全局一致且可逆的推理过程。通过整合这些研究视角,本文旨在厘清潜在推理的概念体系,并为大语言模型认知前沿的研究指明未来方向。相关 GitHub 仓库汇集了该领域的最新论文与代码库,访问地址如下: https://github.com/multimodal-art-projection/LatentCoT-Horizon/。

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Agent KB:利用跨领域经验实现智能体化问题解决

随着语言智能体处理的任务日益复杂,其在跨领域有效纠错和经验复用方面面临显著挑战。我们提出Agent KB这一分层经验框架,通过创新的"推理-检索-优化"(Reason-Retrieve-Refine)流程实现复杂智能体化问题解决。Agent KB突破了传统智能体无法相互学习经验的核心限制,通过同时捕获高层策略和详细执行日志,构建了支持跨智能体知识迁移的共享知识库。在GAIA基准测试中,Agent KB将成功率最高提升16.28%。在最困难任务上,Claude-3的性能从38.46%提升至57.69%,而GPT-4在中等难度任务上从53.49%提升至73.26%。在SWE-bench代码修复任务中,Agent KB使Claude-3的修复率从41.33%提升至53.33%。研究结果表明,Agent KB提供了模块化、与框架无关的基础架构,使智能体能够从历史经验中学习,并将成功策略推广到新任务。

Skywork-R1V3 Technical Report

Skywork-R1V3 技术报告

本文介绍 Skywork-R1V3,一种先进的开源视觉语言模型 (VLM),其创新性地提出了一种视觉推理新范式。该模型的核心突破在于成功实现了纯文本大语言模型 (LLMs) 推理能力向视觉任务的有效迁移。Skywork-R1V3 的卓越性能主要得益于我们设计的后训练强化学习 (RL) 框架,该框架在不依赖额外持续预训练的情况下,即可有效激活并增强模型的推理能力。通过该框架,我们首次揭示了连接器模块对于实现多模态推理模型跨模态稳健对齐的基础作用。此外,我们提出了一种创新的推理能力评估指标——关键推理 Token 熵,该指标在 RL 训练阶段的检查点选择中展现出显著效果。Skywork-R1V3 在 MMMU 基准测试中取得了 76.0% 的准确率(较原 64.3% 显著提升),达到人类初级认知水平。值得注意的是,基于 RL 的后训练方法使得仅 38B 参数的模型即可与顶级闭源 VLM 相媲美。该方法成功实现了数学推理能力向其他学科推理任务的迁移。本文还系统分析了课程学习与强化微调策略,并深入探讨了多模态推理技术。Skywork-R1V3 的突破性进展标志着多模态推理领域的重大进步,证明了 RL 作为提升开源 VLM 能力的高效引擎。

MIRIX: Multi-Agent Memory System for LLM-Based Agents

MIRIX:基于大语言模型智能体的多智能体记忆系统

尽管AI智能体的记忆能力日益受到关注,现有解决方案仍存在本质性局限。多数系统采用平面化、窄域的记忆组件,制约了其个性化、抽象化以及长期可靠存取用户特定信息的能力。为此,我们提出MIRIX——一个模块化多智能体记忆系统,通过解决该领域核心挑战(实现语言模型的真实记忆能力),重新定义了AI记忆的范式。相较于现有方法,MIRIX突破文本限制,整合丰富的视觉与多模态体验,使记忆在真实场景中具备实用价值。MIRIX包含六种结构化的独立记忆类型:核心记忆(Core)、情景记忆(Episodic)、语义记忆(Semantic)、程序性记忆(Procedural)、资源记忆(Resource Memory)和知识库(Knowledge Vault),并采用多智能体框架动态协调更新与检索机制。该架构支持智能体持久化存储、推理及精准检索大规模多样化长期用户数据。我们在两个严苛测试场景中验证了MIRIX:首先,在ScreenshotVQA基准测试(该多模态基准包含每序列近20,000张高分辨率屏幕截图,需要深层上下文理解且现有记忆系统均无法直接应用)上,MIRIX相比RAG基线准确率提升35%,同时降低99.9%存储开销;其次,在LOCOMO长程对话基准(单模态文本输入)上,MIRIX以85.4%的性能达到state-of-the-art水平,显著超越现有基线。实验结果表明MIRIX为记忆增强型大语言模型智能体确立了新的性能基准。我们提供了基于MIRIX的封装应用实现,支持实时屏幕监控、个性化记忆库构建,并提供可视化功能与本地安全存储以确保隐私。

OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

OmniPart:部件感知三维生成的语义解耦与结构一致性

构建具备明确可编辑部件结构的三维模型对交互应用发展至关重要,但现有生成方法大多仅输出整体形状,实用性受限。本文提出OmniPart这一新型部件感知三维生成框架,在实现组件间高度语义解耦的同时确保结构完整性。该框架创新性地将任务分解为两个协同阶段:(1) 自回归结构规划模块生成可控可变长度的三维部件包围盒序列,通过灵活的二维部件掩码实现直观的部件分解控制,无需语义标签或对应关系;(2) 基于空间条件的修正流模型从预训练整体生成器高效迁移,在规划布局中同步生成所有三维部件并保持结构一致性。本方法支持用户自定义部件粒度与精确定位,可扩展至多样化下游任务。实验结果表明,OmniPart达到了当前最优性能,为可解释、可编辑、多功能的三维内容生成开辟了新途径。

Go to Zero: Towards Zero-shot Motion Generation with Million-scale Data

Go to Zero:百万级数据驱动的零样本运动生成研究

根据文本描述生成多样且自然的人体运动序列,是计算机视觉、图形学与机器人学领域的基础性挑战课题。虽然该领域已取得显著进展,但现有方法在零样本泛化能力方面仍存在局限,这主要是由于训练数据集规模不足所致。同时,全面评估框架的缺失也阻碍了该任务的进一步发展,使得改进方向难以明确。本研究致力于推动文本到运动生成进入新阶段——实现真正的零样本泛化能力。具体而言,我们首先开发了高效标注流程,并发布当前最大的人体运动数据集MotionMillion,包含超过2,000小时时长的200万条高质量运动序列。此外,我们构建了最全面的零样本运动生成评估基准MotionMillion-Eval。基于可扩展架构,我们将模型参数量提升至70亿,并在MotionMillion-Eval上验证其性能。实验结果显示,该模型对域外数据及复杂组合运动均表现出优异的泛化能力,为零样本人体运动生成研究迈出了重要一步。代码已开源:https://github.com/VankouF/MotionMillion-Codes。

你好,我是叶子,9年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
每周AI论文速递(240708-240712)
无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训练不包含视觉编码器的纯VLMs,即无缝接受视觉和语言输入,仍面临挑战且研究较少。实证研究表明,不使用编码器直接训练会导致收敛缓慢和性能差距大。本研究旨在弥合基于编码器与无编码器模型之间的差距,并提出一种简单有效的训练方案,以实现纯VLMs。具体而言,我们通过深入实验揭示了高效训练无编码器VLMs的关键要素:(1)在统一解码器内融合视觉-语言表示;(2)通过额外监督提升视觉识别能力。基于这些策略,我们开发了EVE,一种高效训练和前向传播的无编码器视觉-语言模型。值得注意的是,仅利用3500万公开数据,EVE在多个视觉-语言基准上与类似容量的基于编码器VLMs表现相当。它显著超越了训练过程神秘且数据未公开的Fuyu-8B模型。我们相信,EVE为跨模态开发纯解码器架构提供了一条透明且高效的路径。相关代码和模型已在以下公开发布:https://github.com/baaivision/EVE。
叶子的技术碎碎念
2025/04/08
1180
每周AI论文速递(240708-240712)
每周AI论文速递(250623-250627)
现代参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)方法(如低秩适应(low-rank adaptation, LoRA))虽然降低了大语言模型(large language models, LLMs)的定制成本,但仍需为每个下游数据集执行独立的优化过程。本文提出拖放式大语言模型(DnD),这是一种基于提示的条件参数生成器,通过将少量未标注的任务提示直接映射为 LoRA 权重更新,从而消除逐任务训练的需求。 该方法采用轻量级文本编码器将提示批次压缩为条件嵌入,再通过级联超卷积解码器将其转换为完整的 LoRA 矩阵集合。在多样化提示-检查点对数据集上完成训练后,DnD 可在数秒内生成任务专用参数,具有以下优势: 1. 相比全微调降低 12,000× 的计算开销; 2. 在未见过的常识推理、数学、编码及多模态基准测试中,平均性能超越最优训练 LoRA 方法达 30%; 3. 即使未接触目标域数据或标签,仍展现出强大的跨域泛化能力。 实验结果表明,基于提示的条件参数生成是替代梯度调整方法、实现大语言模型快速专业化的有效方案。项目地址:https://jerryliang24.github.io/DnD
叶子的技术碎碎念
2025/06/30
1080
每周AI论文速递(250623-250627)
每周AI论文速递(250217-250221)
自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布,参数化由一个普通的 Transformer 来预测被掩码的 Token。通过优化似然下界,它为概率推理提供了一种有原则的生成方法。在广泛的基准测试中,LLaDA 表现出强大的可扩展性,优于我们自建的 ARM 基线。值得注意的是,LLaDA 8B 在上下文学习中与 LLaMA3 8B 等强大的 LLMs 表现相当,并且在 SFT 后,在多轮对话等案例研究中展示了令人印象深刻的指令跟随能力。此外,LLaDA 解决了反转诅咒问题,在反转诗歌补全任务中超越了 GPT-4o。我们的研究结果表明,扩散模型是 ARMs 的一个可行且有前途的替代方案,质疑了上述关键 LLM 能力本质上与 ARMs 相关的假设。
叶子的技术碎碎念
2025/04/08
1740
每周AI论文速递(250217-250221)
每周AI论文速递(250804-250808)
思维链 (Chain-of-Thought, CoT) 提示技术已被证实能显著提升大语言模型 (Large Language Model, LLM) 在多类任务中的表现。采用该方法时,大语言模型会在输出答案前生成类人的推理步骤(称为 CoT 推理),这种现象常被解读为模型正在进行有意识的推理过程。然而,初步研究表明 CoT 推理可能仅停留在表面层面,这促使我们开展深入研究。本文从数据分布的角度出发,探究 CoT 推理是否本质上是模型从分布内数据中习得的结构化归纳偏置 (structured inductive bias),使其能够根据条件生成与训练数据相似的推理路径。因此,其有效性根本上受限于训练数据与测试查询之间的分布差异程度。基于此视角,我们从任务、长度和格式三个维度对 CoT 推理进行解构。为验证每个维度,我们设计了 DataAlchemy——一个隔离可控的实验环境,用于从头训练大语言模型并系统性地测试不同分布条件下的表现。实验结果表明,CoT 推理是一种脆弱的假象,一旦超出训练数据分布范围就会失效。本研究深入揭示了 CoT 推理失效的原因和条件,强调了实现真正具备泛化能力的推理仍面临重大挑战。
叶子的技术碎碎念
2025/08/11
1220
每周AI论文速递(250804-250808)
每周AI论文速递(250526-250530)
本文介绍 Mutarjim,一个专为阿拉伯语-英语双向翻译设计的紧凑型高性能语言模型。尽管当前大规模大语言模型在机器翻译等自然语言处理任务中展现出显著优势,我们发现小型模型同样具备竞争力。基于这一发现,我们在专为阿拉伯语和英语优化的 Kuwain-1.5B 语言模型基础上开发了 Mutarjim。该模型通过采用优化的两阶段训练流程和精选的高质量训练语料,在保持较小规模的同时,其性能表现超越了多个主流基准测试中的大型模型。实验数据表明,Mutarjim 的性能可与体积大 20 倍的模型相媲美,同时大幅降低了计算资源和训练成本。此外,我们提出了 Tarjama-25 新基准测试集,该数据集包含 5,000 组经过专家校验的平行句对,覆盖广泛领域,有效解决了现有阿拉伯语-英语评测数据存在的领域局限、语句过短和英语源偏置等问题,为相关研究提供了更全面均衡的评估体系。值得注意的是,Mutarjim 在 Tarjama-25 的英阿翻译任务中取得了当前最优性能,甚至超越了 GPT-4o mini 等规模显著更大的专有模型。我们将公开 Tarjama-25 数据集,以促进阿拉伯语-英语翻译系统的后续研究和评估工作。
叶子的技术碎碎念
2025/06/08
1430
每周AI论文速递(250526-250530)
每周AI论文速递(241209-241213)
我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进多模态大语言模型 (MLLM) 系列,保留了其核心架构,同时在训练和测试策略以及数据质量上进行了显著改进。本文深入研究了模型扩展与性能的关系,系统地分析了视觉编码器、语言模型、数据集规模及测试时配置对性能的影响。通过在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力及纯语言处理等广泛基准上的全面评估,InternVL 2.5 展现出与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美的竞争力。特别地,我们的模型在 MMMU 基准上首次突破 70%,通过链式推理 (CoT) 提升了 3.7 个百分点,并展示了强大的测试时扩展潜力。我们期待该模型为开源社区在多模态 AI 系统的开发与应用上树立新标杆。HuggingFace 演示见 https://huggingface.co/spaces/OpenGVLab/InternVL
叶子的技术碎碎念
2025/04/08
1220
每周AI论文速递(241209-241213)
每周AI论文速递(250407-250411)
虽然大型视觉语言模型 (VLMs) 具备卓越性能,但其计算资源需求过高,限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案(例如复杂的图像 Token 化处理),导致 GPU 内存利用率低下,难以满足终端设备的实际应用需求。
叶子的技术碎碎念
2025/04/13
1760
每周AI论文速递(250407-250411)
每周AI论文速递(2506209-250613)
本研究提出强化预训练 (RPT) 作为大语言模型和强化学习 (RL) 的新型扩展方法。具体而言,我们将下一 token 预测重构为基于 RL 的推理任务,模型通过正确预测给定上下文的下一 token 来获得可验证奖励。RPT 提供了一种可扩展方案,能够利用海量文本数据实现通用强化学习,而无需依赖特定领域的标注数据。通过提升下一 token 推理能力,RPT 显著提高了语言模型在 token 预测任务上的准确性。此外,RPT 为后续强化微调提供了优质的预训练基础。缩放曲线显示,增加训练计算量能持续提升下一 token 预测准确率。实验结果证明,RPT 是推进语言模型预训练的一种高效且具有前景的扩展方案。
叶子的技术碎碎念
2025/06/16
1540
每周AI论文速递(2506209-250613)
每周AI论文速递(250310-250314)
随着先进的大语言模型的兴起,生成文本检测变得越来越重要。尽管有许多努力,但没有单一算法在不同类型的未见文本上表现一致,或保证对新的大语言模型的有效泛化。可解释性在实现这一目标中起着关键作用。在本研究中,我们通过使用稀疏自编码器从 Gemma-2-2b 残差流中提取特征来增强生成文本检测的可解释性。我们识别了具有可解释性和高效性的特征,通过领域和模型特定的统计、引导方法以及手动或基于大语言模型的解释来分析它们的语义和相关性。我们的方法提供了关于来自各种模型的文本与人类撰写内容如何不同的宝贵洞察。我们展示了现代大语言模型具有独特的写作风格,尤其是在信息密集的领域中,尽管它们可以通过个性化提示生成类似人类的输出。
叶子的技术碎碎念
2025/04/08
1640
每周AI论文速递(250310-250314)
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1430
每周AI论文速递(250120-250124)
每周AI论文速递(250630-250704)
本文提出GLM-4.1V-Thinking视觉语言模型(Vision-Language Model, VLM),旨在提升通用多模态理解与推理能力。我们重点介绍了以推理为核心的新型训练框架的关键研究成果:首先通过大规模预训练构建了具有显著潜力的视觉基础模型,其性能理论上限决定了最终表现;随后提出课程采样强化学习(Reinforcement Learning with Curriculum Sampling, RLCS)方法,充分释放模型潜力,在STEM问题求解、视频理解、内容识别、编程、基础任务、GUI智能体及长文档理解等多样化任务上实现全面能力提升。我们开源了GLM-4.1V-9B-Thinking模型,在同等规模模型中达到最先进水平。在28个公开基准测试中,该模型几乎在所有任务上超越Qwen2.5-VL-7B,并在18个基准测试中与参数量级更大的Qwen2.5-VL-72B表现相当或更优。特别值得注意的是,在长文档理解和STEM推理等挑战性任务上,GLM-4.1V-9B-Thinking相较GPT-4o等闭源模型展现出竞争优势,充分验证了其强大性能。相关代码、模型及详细信息发布于https://github.com/THUDM/GLM-4.1V-Thinking。
叶子的技术碎碎念
2025/07/08
1710
每周AI论文速递(250630-250704)
每周AI论文速递(250728-250801)
具备可验证奖励机制的大规模强化学习(RLVR)已证实其在挖掘大语言模型(LLM)单次推理任务潜力方面的有效性。在实际推理场景中,大语言模型常借助外部工具辅助任务求解。然而现有强化学习算法难以平衡模型固有的长跨度推理能力与多步工具交互能力。为此,我们提出智能体强化策略优化(ARPO),这是一种专为训练基于大语言模型的多步智能体而设计的新型强化学习算法。初步实验表明,大语言模型在与外部工具交互后会立即表现出高度不确定性行为,其特征是生成token的熵分布显著增加。基于这一发现,ARPO引入了基于熵的自适应轨迹生成机制,动态平衡全局轨迹采样与单步采样,从而在工具调用后的高不确定性步骤中增强探索能力。通过整合优势归因估计,ARPO使大语言模型能够内化逐步工具交互中的优势差异。我们在计算推理、知识推理和深度搜索领域的13个挑战性基准测试表明,ARPO显著优于轨迹层面的强化学习算法。值得注意的是,ARPO仅需现有方法50%的工具调用次数即可实现性能提升,为基于大语言模型的智能体与实时动态环境对齐提供了可扩展方案。代码和数据集已开源:https://github.com/dongguanting/ARPO
叶子的技术碎碎念
2025/08/09
900
每周AI论文速递(250728-250801)
每周AI论文速递(250512-250516)
我们提出 Seed1.5-VL,这是一个旨在提升通用多模态理解与推理能力的视觉-语言基础模型。Seed1.5-VL 包含一个 5.32 亿参数的视觉编码器和一个 200 亿激活参数的专家混合 (Mixture-of-Experts, MoE) 大语言模型。尽管其架构较为轻量,但该模型在广泛的公共 VLM 基准测试和内部评估集中展现出卓越性能,在 60 个公共基准测试中的 38 个上取得了业界领先性能。此外,在 GUI 控制和游戏玩法等智能体任务中,Seed1.5-VL 的表现优于包括 OpenAI CUA 和 Claude 3.7 在内的主流多模态系统。除了视觉与视频理解能力外,该模型还具备强大的推理能力,使其在视觉谜题等多模态推理挑战中表现尤为突出。我们相信这些能力将支持更广泛的任务应用。本报告详细总结了我们在模型设计、数据构建及各阶段训练过程中构建 Seed1.5-VL 的经验,希望这份报告能推动相关领域的进一步研究。Seed1.5-VL 现已通过 https://www.volcengine.com/ 开放访问(火山引擎模型 ID:doubao-1-5-thinking-vision-pro-250428)。
叶子的技术碎碎念
2025/05/18
1350
每周AI论文速递(250512-250516)
每周AI论文速递(240826-240830)
视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上尚未形成共识。本文旨在作为构建 VLM 的实践指南。我们首先概述了当前最先进方法的优缺点,探讨了领域内主要挑战,并指出了未充分探索领域的潜在研究方向。随后,我们详细阐述了构建 Idefics3-8B 的过程,该模型在性能上大幅领先于前代 Idefics2-8B,且高效地仅利用开放数据集进行训练,流程简洁明了。这一过程中,我们创建了 Docmatix 数据集,旨在增强文档理解能力,其规模达到了先前数据集的 240 倍。我们同时发布了该模型及其训练所用的数据集。
叶子的技术碎碎念
2025/04/08
1630
每周AI论文速递(240826-240830)
每周AI论文速递(240812-240816)
GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频,并提供先进的多模态交互体验。我们从 Mixtral 8x7B 这一语言模型基础出发,扩展其中文词汇,并进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予了该模型视觉和听觉能力。VITA 在多种单模态和多模态基准测试中表现出色,显示出其强大的多语言、视觉和听觉理解能力。此外,我们在提升自然多模态人机交互体验方面取得了显著进展,首次在 MLLM 中实现了非唤醒交互和音频中断功能。VITA 标志着开源社区在探索多模态理解和交互无缝集成方面迈出了第一步。尽管 VITA 仍需大量工作以接近闭源模型的水平,但我们相信其作为先驱的角色将为后续研究奠定坚实基础。项目页面:https://vita-home.github.io。
叶子的技术碎碎念
2025/04/08
1330
每周AI论文速递(240812-240816)
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
1510
每周AI论文速递(250210-250214)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
1250
每周AI论文速递(241216-241220)
每周AI论文速递(2506202-250606)
我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈信号,模型解决复杂可验证任务的能力仍能得到显著提升。该框架包含两个阶段:(1) 任务失败时,模型需生成分析先前尝试的反思性文本;(2) 模型在获得反思内容后重新尝试解决该任务。若重试成功,则对反思阶段生成的Token(词元)给予奖励。实验结果显示,该方法在不同架构模型上均取得显著效果提升,其中数学方程编写任务提升达34.7%,函数调用任务提升18.1%。特别值得注意的是,经过微调的中小规模模型(15亿至70亿参数)表现优于同架构下参数规模大10倍的基准模型。这一创新范式为开发具备有限反馈条件下自我提升能力的语言模型提供了新思路,有望推动构建更实用可靠的大语言模型系统。
叶子的技术碎碎念
2025/06/09
2220
每周AI论文速递(2506202-250606)
每周AI论文速递(250331-250404)
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务执行能力的先进智能体的发展。随着这类智能体在 AI 研究和实际应用中的作用日益凸显,其设计、评估与持续改进过程也面临着多维度、高复杂度的挑战。本综述采用模块化的类脑架构框架,融合认知科学、神经科学与计算研究的核心原理,对智能体技术进行全面梳理。研究内容分为四个相互关联的部分:首先解析智能体的模块化基础架构,通过系统化映射其认知、感知与执行模块与人脑功能的对应关系,深入阐释记忆系统、世界模型、奖励机制及类情绪系统等核心组件;其次探讨智能体的自我增强与自适应进化机制,重点分析其通过自动化优化范式(包括新兴的 AutoML 和大语言模型驱动的优化策略)实现能力自主提升、动态环境适应与持续学习的方法;第三部分研究协作型进化多智能体系统,揭示智能体通过交互协作与社会化组织产生的群体智能,及其与人类社交行为的相似性;最后针对 AI 系统的安全性、可靠性及社会效益这一关键命题,系统分析内生与外源安全威胁、伦理对齐要求、系统鲁棒性保障等核心问题,提出确保实际部署可信度的有效缓解策略。
叶子的技术碎碎念
2025/04/08
2300
每周AI论文速递(250331-250404)
每周AI论文速递(240819-240823)
xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产生的 LMMs。xGen-MM,简称 xGen-MultiModal,是 Salesforce xGen 在基础 AI 模型领域倡议的扩展。我们的模型在包括单图像和多图像基准在内的多种任务上进行了严格的评估。我们的预训练基础模型展现了强大的情境学习能力,并且指令调整模型在相同模型大小的开源 LMMs 中展现了竞争性的性能。此外,我们引入了一个采用 DPO 进行安全调整的模型,旨在减少如幻觉等有害行为并增强安全性。我们开放了我们的模型、精心策划的大规模数据集以及我们的微调代码库,以推动 LMM 研究的进一步发展。相关资源将在我们的项目页面上提供。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(240819-240823)
相关推荐
每周AI论文速递(240708-240712)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档