Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周AI论文速递(240819-240823)

每周AI论文速递(240819-240823)

作者头像
叶子的技术碎碎念
发布于 2025-04-08 13:53:52
发布于 2025-04-08 13:53:52
610
举报

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产生的 LMMs。xGen-MM,简称 xGen-MultiModal,是 Salesforce xGen 在基础 AI 模型领域倡议的扩展。我们的模型在包括单图像和多图像基准在内的多种任务上进行了严格的评估。我们的预训练基础模型展现了强大的情境学习能力,并且指令调整模型在相同模型大小的开源 LMMs 中展现了竞争性的性能。此外,我们引入了一个采用 DPO 进行安全调整的模型,旨在减少如幻觉等有害行为并增强安全性。我们开放了我们的模型、精心策划的大规模数据集以及我们的微调代码库,以推动 LMM 研究的进一步发展。相关资源将在我们的项目页面上提供。

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations

JPEG-LM: 利用大语言模型生成图像与标准编解码器表示 近期,图像和视频生成领域的工作开始采用自回归大语言模型架构,主要是因为其通用性以及可能的易于集成到多模态系统中的特点。将自回归训练从语言生成应用到视觉生成的核心在于离散化——即将连续的图像和视频数据转换为离散的Token。常见的离散化方法包括直接建模原始像素值,这种方法过于冗长;或者采用向量量化,这需要复杂的预训练过程。在本研究中,我们提出了一种新方法,即直接将图像和视频建模为通过标准编解码器(例如JPEG, AVC/H.264)压缩的文件。我们使用默认的Llama架构,无需任何视觉特定修改,从零开始预训练JPEG-LM来生成图像(并作为概念验证生成视频的AVC-LM),通过直接输出JPEG和AVC格式的压缩文件字节。评估结果显示,这种简单直接的方法在图像生成上比基于像素的建模和复杂的向量量化方法更为有效,我们的方法在这些基线上实现了31%的FID降低。分析表明,JPEG-LM在生成长尾视觉元素方面相比向量量化模型具有显著优势。总体而言,我们展示了使用标准编解码器表示可以有效降低语言生成与视觉生成之间的技术壁垒,为未来多模态语言/图像/视频大语言模型的研究铺平道路。

Automated Design of Agentic Systems

智能体系统的自动化设计 研究人员正在投入大量精力开发强大的通用智能体,其中基础模型被用作智能体系统中的模块(例如,Chain-of-Thought (思维链), Self-Reflection (自我反思), Toolformer)。然而,机器学习的历史告诉我们,手工设计的解决方案最终会被学习型解决方案所取代。我们提出一个新的研究领域,智能体系统自动化设计 (ADAS),旨在自动创建强大的智能体系统设计,包括发明新的构建模块和/或以新的方式组合它们。我们进一步证明,在ADAS中存在一种未被探索但有前景的方法,其中智能体可以用代码定义,并且可以通过一个元智能体在代码中编程出更好的新智能体来自动发现新智能体。鉴于编程语言是图灵完备的,这种方法理论上可以学习任何可能的智能体系统:包括新颖的提示、工具使用、控制流程及其组合。我们提出了一种简单而有效的算法,称为元智能体搜索,以展示这一想法,其中元智能体基于不断增长的先前发现档案迭代编程出有趣的新智能体。通过在多个领域(包括编码、科学和数学)进行广泛的实验,我们展示了我们的算法可以逐步发明具有新颖设计的智能体,这些智能体大大优于最先进的手工设计智能体。重要的是,我们始终观察到一个令人惊讶的结果,即由元智能体搜索发明的智能体在跨领域和模型转移时保持优越的性能,展示了它们的稳健性和普遍性。如果我们安全地开发它,我们的工作展示了自动设计越来越强大的智能体系统以造福人类的新研究方向的潜力。

LongVILA: Scaling Long-Context Visual Language Models for Long Videos

LongVILA: 扩展长上下文视觉语言模型以处理长视频 长上下文处理能力对于多模态基础模型至关重要。我们推出了 LongVILA,这是一个针对长上下文视觉语言模型的全面解决方案,涵盖系统架构、模型训练以及数据集构建。在系统层面,我们首创了多模态序列并行 (MM-SP) 系统,该系统不仅支持长上下文的训练与推理,还能在 256 个 GPU 上实现 2M 上下文长度的训练。MM-SP 系统表现出卓越的效率,其速度比环形序列并行快 2.1 至 5.7 倍,在纯文本环境下比 Megatron-LM 快 1.1 至 1.4 倍。此外,MM-SP 系统还能与 Hugging Face 的 Transformers 库无缝对接。在模型训练环节,我们设计了一个包含五个阶段的流程,包括对齐、预训练、上下文扩展以及长短联合监督微调。针对数据集,我们精心打造了大规模视觉语言预训练数据集和长视频指令遵循数据集,以全面支撑我们的多阶段训练需求。LongVILA 的全栈解决方案不仅将 VILA 的可处理帧数提升了 128 倍(从 8 帧扩展至 1024 帧),还显著提升了长视频的字幕生成质量,评分从 2.00 跃升至 3.26(提升 1.6 倍),并在 1400 帧视频(上下文长度达 274k)中实现了 99.5% 的精准度。LongVILA-8B 模型在 VideoMME 基准测试中,随着视频帧数的增加,其在长视频任务上的性能也持续提升。

MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

MeshFormer: 利用3D引导重建模型生成高质量网格 近期,开放领域的3D重建模型受到了极大的关注。然而,由于缺乏足够的3D归纳偏置,现有方法往往需要高昂的训练成本,并且难以生成高质量的3D网格。在本研究中,我们提出了MeshFormer,这是一种稀疏视图重建模型,它明确地利用了3D本征结构、输入引导和训练监督。具体来说,我们摒弃了传统的三平面表示方法,转而在3D稀疏体素中存储特征,并结合Transformer与3D卷积,以充分利用显式的3D结构和投影偏置。除了稀疏视图的RGB输入外,我们还要求网络处理输入并生成相应的法线图。这些输入法线图可以通过2D扩散模型预测,从而显著增强几何学习的引导和细化。此外,通过将有符号距离函数(SDF)监督与表面渲染相结合,我们能够直接学习生成高质量的网格,无需经历复杂的多阶段训练过程。通过融入这些显式的3D偏置,MeshFormer能够高效地进行训练,并输出具有精细几何细节的高质量纹理网格。它还可以与2D扩散模型集成,以实现快速的单图像到3D和文本到3D转换任务。项目页面:https://meshformer3d.github.io

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

TableBench: 一个全面且复杂的表格问答基准 大语言模型 (LLMs) 的最新进展显著提升了对表格数据的解释和处理能力,引入了前所未有的功能。尽管取得了这些成就,LLMs 在工业场景中的应用仍面临重大挑战,尤其是由于现实世界表格数据处理所需的推理复杂性增加,这突显了学术基准与实际应用之间的显著差距。为了解决这一差异,我们对表格数据在工业场景中的应用进行了详细调查,并提出了一个全面且复杂的基准 TableBench,涵盖了表格问答 (TableQA) 能力的四个主要类别中的18个领域。此外,我们引入了 TableLLM,该模型在我们精心构建的训练集 TableInstruct 上进行训练,实现了与 GPT-3.5 相当的性能。在 TableBench 上进行的大量实验表明,无论是开源还是专有的 LLMs,仍有显著的改进空间以满足现实世界的需求,其中最先进的模型 GPT-4 与人类相比仅获得了一个适度的分数。

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 我们介绍 Transfusion,这是一种在离散和连续数据上训练多模态模型的方法。Transfusion 结合了语言建模损失函数与扩散过程,用于在混合模态序列上训练单一的 Transformer。我们从零开始预训练了多个 70 亿参数的 Transfusion 模型,这些模型在文本和图像数据的混合上进行训练,并针对各种单模态和跨模态基准建立了缩放规律。我们的实验表明,Transfusion 在缩放方面显著优于将图像量化并在离散图像 Token 上训练语言模型的方法。通过引入模态特定的编码和解码层,我们可以进一步提高 Transfusion 模型的性能,甚至可以将每张图像压缩至仅 16 个 Patch。我们进一步证明,将 Transfusion 方法扩展到 70 亿参数和 2 万亿多模态 Token,可以产生一个能够与类似规模的扩散模型和语言模型相媲美的模型,从而同时获得两者的优势。

To Code, or Not To Code? Exploring Impact of Code in Pre-training

编码与否?探索预训练中代码的影响 在大型语言模型 (LLMs) 的预训练过程中,即使模型并非专门用于处理代码,将代码纳入预训练数据已成为一种普遍做法。尽管业界普遍认为代码数据对通用大型语言模型 (LLMs) 的性能至关重要,但关于代码对非代码任务的具体影响分析却相对较少。本研究旨在系统地探讨代码数据对模型通用性能的影响,特别是它如何影响广泛下游任务,而不仅仅是代码生成。我们通过广泛的消融实验,评估了从470M到2.8B参数大小的模型在自然语言推理、世界知识、代码基准以及作为评判者的胜率等多个方面的表现。结果显示,代码是实现广泛泛化的关键因素,其质量的提升对所有任务都有显著影响。具体而言,相较于仅使用文本预训练的模型,加入代码后,自然语言推理能力提升了8.2%,世界知识提升了4.2%,生成任务胜率提高了6.6%,代码性能更是提升了12倍。这些发现表明,提升代码质量和在预训练中保留代码对模型性能有积极作用。

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models

TWLV-I: 视频基础模型的整体评估分析与洞察 在本研究中,我们探讨了如何公正且稳健地评估视频基础模型。与语言或图像基础模型不同,视频基础模型的评估参数(如采样率、帧数、预训练步骤等)往往不统一,这使得进行公平且稳健的比较颇具挑战。为此,我们设计了一套精细的评估框架,旨在衡量视频理解的两大核心能力:外观与运动理解。研究结果显示,无论是采用文本监督的UMT或InternVideo2,还是自监督的V-JEPA,现有视频基础模型在至少一项能力上存在不足。为此,我们推出了TWLV-I,这是一种新型视频基础模型,能够为基于运动和外观的视频构建出强健的视觉表示。在仅使用公开数据集预训练的情况下,基于五个动作识别基准上的线性探测平均top-1准确率,我们的模型相较于V-JEPA(ViT-L)提升了4.6%p,相较于UMT(ViT-L)提升了7.7%p。即便与更大规模的模型相比,我们的模型也表现出色,相较于DFN(ViT-H)提升了7.2%p,相较于V-JEPA(ViT-H)提升了2.7%p,以及相较于InternVideo2(ViT-g)提升了2.8%p。我们提供了由TWLV-I从多个常用视频基准中提取的嵌入向量,以及可直接利用这些嵌入的评估源代码,代码已公开在"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"。

LLM Pruning and Distillation in Practice: The Minitron Approach

LLM Pruning and Distillation in Practice: The Minitron Approach 我们详细介绍了如何通过剪枝和蒸馏技术,将Llama 3.1 8B和Mistral NeMo 12B模型分别压缩至4B和8B参数。我们采用了两种剪枝方法:一是深度剪枝,二是联合隐藏/注意力/MLP(宽度)剪枝,并在LM Evaluation Harness的基准测试中评估了其性能。随后,这些模型通过NeMo Aligner进行对齐,并在指令调优版本中进行了测试。结果显示,从Llama 3.1 8B中得到了一个性能优异的4B模型,而从Mistral NeMo 12B中则得到了一个顶尖的Mistral-NeMo-Minitron-8B(简称MN-Minitron-8B)模型。此外,我们发现,即使无法访问原始数据,对教师模型在蒸馏数据集上进行轻微微调也能带来益处。我们已在Hugging Face上以宽松许可开源了这些基础模型权重。

Sapiens: Foundation for Human Vision Models

Sapiens: 人类视觉模型的基础 我们推出了 Sapiens,这是一系列针对四个核心人类视觉任务的模型——2D 姿态估计、身体部位分割、深度估计和表面法线预测。Sapiens 模型自然支持 1K 高分辨率推理,并且通过简单地微调在超过 3 亿张野外人类图像上预训练的模型,即可轻松适应不同任务。我们发现,在相同的计算资源下,对精选的人类图像数据集进行自监督预训练能显著提升多种人类视觉任务的性能。这些模型在野外数据上表现出极强的泛化能力,即使在标记数据稀少或完全合成的情况下也是如此。我们的模型设计简洁,具有良好的可扩展性——随着模型参数从 0.3 亿增加到 20 亿,其在各任务上的性能均得到提升。Sapiens 在各类人类视觉基准测试中持续领先,例如在 Humans-5K (姿态) 上提升了 7.6 mAP,在 Humans-2K (部位分割) 上提升了 17.1 mIoU,在 Hi4D (深度) 上相对 RMSE 提升了 22.4%,在 THuman2 (法线) 上相对角度误差提升了 53.5%。

Controllable Text Generation for Large Language Models: A Survey

大语言模型可控文本生成:综述 在自然语言处理 (NLP) 领域,大语言模型 (LLMs) 已展现出高质量的文本生成能力。然而,在实际应用中,LLMs 面临着日益复杂的要求。除了避免误导性或不当内容外,LLMs 还需满足特定用户需求,例如模仿特定写作风格或生成富有诗意的文本。这些多样化的需求推动了可控文本生成 (CTG) 技术的发展,确保输出符合预定义的控制条件——如安全性、情感、主题一致性和语言风格——同时保持高水平的实用性、流畅性和多样性。

本文系统回顾了 LLMs 领域 CTG 的最新进展,全面阐述了其核心概念,并明确了控制条件和文本质量的要求。我们将 CTG 任务分为两大类:内容控制和属性控制。讨论了关键方法,包括模型重训练、微调、强化学习、提示工程、潜在空间操作和解码时干预。我们分析了每种方法的特点、优势和局限性,为实现生成控制提供了深入的见解。此外,我们还回顾了 CTG 评估方法,总结了其在各领域的应用,并指出了当前研究中的关键挑战,包括流畅性和实用性的降低。我们还提出了若干呼吁,例如未来研究应更加重视实际应用。本文旨在为该领域的研究人员和开发者提供有价值的指导。我们的参考列表和中文版本已在 GitHub 上开源。

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Show-o: 单一 Transformer 实现多模态理解和生成的一体化 我们提出了一种名为 Show-o 的统一 Transformer,它整合了多模态理解和生成的能力。与纯粹的自回归模型不同,Show-o 融合了自回归与(离散)扩散建模技术,从而能够灵活处理多种及混合模态的输入和输出。该模型广泛支持视觉-语言领域的多种任务,如视觉问答、文本到图像生成、文本引导的图像修复/外推以及混合模态生成等。在多项基准测试中,Show-o 的表现与那些针对特定任务优化且参数规模相当或更大的模型相比,毫不逊色甚至更胜一筹。这充分展示了其作为未来基础模型的巨大潜力。相关代码和模型已发布于 https://github.com/showlab/Show-o。

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

xGen-VideoSyn-1: 使用压缩表示的高保真文本到视频合成 我们提出了 xGen-VideoSyn-1,这是一个能够根据文本描述生成逼真场景的文本到视频 (T2V) 生成模型。借鉴了 OpenAI 的 Sora 等近期进展,我们探索了潜在扩散模型 (LDM) 架构,并引入了视频变分自编码器 (VidVAE)。VidVAE 在空间和时间上对视频数据进行压缩,显著减少了视觉 Token 的长度以及生成长序列视频所需的计算量。为了进一步降低计算成本,我们采用了一种分治合并策略,确保视频片段间的时间一致性。我们的扩散 Transformer (DiT) 模型整合了空间和时间自注意力层,能够在不同时间框架和宽高比下实现稳健的泛化。我们从项目初期就构建了一个数据处理流水线,并成功收集了超过 1300 万对高质量的视频-文本数据。该流水线涵盖了剪辑、文本检测、运动估计、美学评分以及基于我们内部视频大语言模型 (video-LLM) 的密集标注等多个步骤。训练 VidVAE 和 DiT 模型分别耗时约 40 和 642 个 H100 天。我们的模型能够以端到端的方式生成超过 14 秒的 720p 视频,并在性能上与当前最先进的 T2V 模型相媲美。

你好,我是叶子,7年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(241104-241108)
当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分布外 (OOD) 场景中与闭源 VLM 相比存在显著性能差距,实践者通常不愿使用开源 VLM。为推动该领域研究,我们开发了 OS-Atlas——一个在 GUI 接地和 OOD 智能体任务中表现卓越的基础 GUI 动作模型,这归功于数据和建模方面的创新。我们投入大量工程资源,开发了一个开源工具包,用于跨 Windows、Linux、MacOS、Android 和 Web 等多个平台合成 GUI 接地数据。利用此工具包,我们发布了迄今最大的开源跨平台 GUI 接地语料库,包含超过 1300 万个 GUI 元素。该数据集与模型训练创新相结合,为 OS-Atlas 理解 GUI 截图并泛化至未见界面提供了坚实基础。在涵盖移动设备、桌面设备和 Web 三个平台的六个基准上进行广泛评估后,OS-Atlas 显示出相较于之前最先进模型的显著性能提升。我们的评估还揭示了持续改进和扩展开源 VLM 智能体能力的宝贵见解。
叶子的技术碎碎念
2025/04/08
580
每周AI论文速递(241104-241108)
每周AI论文速递(241209-241213)
我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进多模态大语言模型 (MLLM) 系列,保留了其核心架构,同时在训练和测试策略以及数据质量上进行了显著改进。本文深入研究了模型扩展与性能的关系,系统地分析了视觉编码器、语言模型、数据集规模及测试时配置对性能的影响。通过在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力及纯语言处理等广泛基准上的全面评估,InternVL 2.5 展现出与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美的竞争力。特别地,我们的模型在 MMMU 基准上首次突破 70%,通过链式推理 (CoT) 提升了 3.7 个百分点,并展示了强大的测试时扩展潜力。我们期待该模型为开源社区在多模态 AI 系统的开发与应用上树立新标杆。HuggingFace 演示见 https://huggingface.co/spaces/OpenGVLab/InternVL
叶子的技术碎碎念
2025/04/08
830
每周AI论文速递(241209-241213)
每周AI论文速递(241230-250103)
OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不同,但由于医疗保健的高要求,它同样需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理更具挑战性。为了解决这个问题,我们提出了可验证的医学推理问题,并使用医学验证器来检查模型输出的正确性。这种可验证性通过两阶段方法促进了医学推理的发展:(1) 使用验证器指导搜索复杂的推理轨迹以微调大语言模型,(2) 应用基于验证器奖励的强化学习 (RL) 来进一步增强复杂推理。最后,我们介绍了 HuatuoGPT-o1,这是一种能够进行复杂推理的医学大语言模型,仅使用 40K 个可验证问题就超越了通用和医学专用基准模型。实验表明,复杂推理提高了医学问题解决能力,并且从强化学习中获得更大的提升。我们希望我们的方法能够激发医学和其他专业领域推理的进步。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241230-250103)
每周AI论文速递(240708-240712)
无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训练不包含视觉编码器的纯VLMs,即无缝接受视觉和语言输入,仍面临挑战且研究较少。实证研究表明,不使用编码器直接训练会导致收敛缓慢和性能差距大。本研究旨在弥合基于编码器与无编码器模型之间的差距,并提出一种简单有效的训练方案,以实现纯VLMs。具体而言,我们通过深入实验揭示了高效训练无编码器VLMs的关键要素:(1)在统一解码器内融合视觉-语言表示;(2)通过额外监督提升视觉识别能力。基于这些策略,我们开发了EVE,一种高效训练和前向传播的无编码器视觉-语言模型。值得注意的是,仅利用3500万公开数据,EVE在多个视觉-语言基准上与类似容量的基于编码器VLMs表现相当。它显著超越了训练过程神秘且数据未公开的Fuyu-8B模型。我们相信,EVE为跨模态开发纯解码器架构提供了一条透明且高效的路径。相关代码和模型已在以下公开发布:https://github.com/baaivision/EVE。
叶子的技术碎碎念
2025/04/08
850
每周AI论文速递(240708-240712)
每周AI论文速递(240812-240816)
GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频,并提供先进的多模态交互体验。我们从 Mixtral 8x7B 这一语言模型基础出发,扩展其中文词汇,并进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予了该模型视觉和听觉能力。VITA 在多种单模态和多模态基准测试中表现出色,显示出其强大的多语言、视觉和听觉理解能力。此外,我们在提升自然多模态人机交互体验方面取得了显著进展,首次在 MLLM 中实现了非唤醒交互和音频中断功能。VITA 标志着开源社区在探索多模态理解和交互无缝集成方面迈出了第一步。尽管 VITA 仍需大量工作以接近闭源模型的水平,但我们相信其作为先驱的角色将为后续研究奠定坚实基础。项目页面:https://vita-home.github.io。
叶子的技术碎碎念
2025/04/08
920
每周AI论文速递(240812-240816)
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1020
每周AI论文速递(250120-250124)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
820
每周AI论文速递(241216-241220)
每周AI论文速递(250217-250221)
自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布,参数化由一个普通的 Transformer 来预测被掩码的 Token。通过优化似然下界,它为概率推理提供了一种有原则的生成方法。在广泛的基准测试中,LLaDA 表现出强大的可扩展性,优于我们自建的 ARM 基线。值得注意的是,LLaDA 8B 在上下文学习中与 LLaMA3 8B 等强大的 LLMs 表现相当,并且在 SFT 后,在多轮对话等案例研究中展示了令人印象深刻的指令跟随能力。此外,LLaDA 解决了反转诅咒问题,在反转诗歌补全任务中超越了 GPT-4o。我们的研究结果表明,扩散模型是 ARMs 的一个可行且有前途的替代方案,质疑了上述关键 LLM 能力本质上与 ARMs 相关的假设。
叶子的技术碎碎念
2025/04/08
1110
每周AI论文速递(250217-250221)
每周AI论文速递(240729-240802)
https://github.com/careywyr/AI-Weekly-Paper
叶子的技术碎碎念
2025/04/08
700
每周AI论文速递(240729-240802)
每周AI论文速递(240805-240809)
Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割
叶子的技术碎碎念
2025/04/08
920
每周AI论文速递(240805-240809)
每周AI论文速递(250331-250404)
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务执行能力的先进智能体的发展。随着这类智能体在 AI 研究和实际应用中的作用日益凸显,其设计、评估与持续改进过程也面临着多维度、高复杂度的挑战。本综述采用模块化的类脑架构框架,融合认知科学、神经科学与计算研究的核心原理,对智能体技术进行全面梳理。研究内容分为四个相互关联的部分:首先解析智能体的模块化基础架构,通过系统化映射其认知、感知与执行模块与人脑功能的对应关系,深入阐释记忆系统、世界模型、奖励机制及类情绪系统等核心组件;其次探讨智能体的自我增强与自适应进化机制,重点分析其通过自动化优化范式(包括新兴的 AutoML 和大语言模型驱动的优化策略)实现能力自主提升、动态环境适应与持续学习的方法;第三部分研究协作型进化多智能体系统,揭示智能体通过交互协作与社会化组织产生的群体智能,及其与人类社交行为的相似性;最后针对 AI 系统的安全性、可靠性及社会效益这一关键命题,系统分析内生与外源安全威胁、伦理对齐要求、系统鲁棒性保障等核心问题,提出确保实际部署可信度的有效缓解策略。
叶子的技术碎碎念
2025/04/08
1600
每周AI论文速递(250331-250404)
每周AI论文速递(241007-241011)
大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中,我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法,该算法通过整数加法操作来近似浮点数乘法。新算法在计算资源消耗上显著低于 8 位浮点乘法,但精度更高。与 8 位浮点乘法相比,所提出的方法在精度上更高,但在位级计算上消耗显著更少。由于浮点数乘法所需的能量远高于整数加法操作,因此在张量处理硬件中应用 L-Mul 操作,通过逐元素浮点张量乘法可以潜在地减少 95% 的能量成本,点积的能量成本可以减少 80%。我们计算了 L-Mul 的理论误差期望,并在广泛的文本、视觉和符号任务中评估了该算法,包括自然语言理解、结构推理、数学和常识问答。我们的数值分析实验与理论误差估计一致,表明具有 4 位尾数的 L-Mul 可以达到与 float8_e4m3 乘法相当的精度,而具有 3 位尾数的 L-Mul 优于 float8_e5m2。在流行基准上的评估结果显示,直接将 L-Mul 应用于注意力机制几乎是无损的。我们进一步展示,在 Transformer 模型中用 3 位尾数的 L-Mul 替换所有浮点乘法,在微调和推理中均能达到与使用 float8_e4m3 作为累加精度相同的精度。
叶子的技术碎碎念
2025/04/08
830
每周AI论文速递(241007-241011)
每周AI论文速递(240826-240830)
视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上尚未形成共识。本文旨在作为构建 VLM 的实践指南。我们首先概述了当前最先进方法的优缺点,探讨了领域内主要挑战,并指出了未充分探索领域的潜在研究方向。随后,我们详细阐述了构建 Idefics3-8B 的过程,该模型在性能上大幅领先于前代 Idefics2-8B,且高效地仅利用开放数据集进行训练,流程简洁明了。这一过程中,我们创建了 Docmatix 数据集,旨在增强文档理解能力,其规模达到了先前数据集的 240 倍。我们同时发布了该模型及其训练所用的数据集。
叶子的技术碎碎念
2025/04/08
1100
每周AI论文速递(240826-240830)
每周AI论文速递(240624-240628)
在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计使得检索器必须在庞大的语料库中找到“针”一样的小单元。相比之下,阅读器只需从这些短小的检索单元中提取答案。这种不平衡的“重”检索器和“轻”阅读器设计可能导致次优的性能。为了缓解这种不平衡,我们提出了一种新的框架 LongRAG,它包含一个“长检索器”和一个“长阅读器”。LongRAG 将整个 Wikipedia 处理成 4K-token 的单元,比之前增加了30倍。通过增加单元的大小,我们将总单元数从 2200 万显著减少到 70 万。这显著降低了检索器的负担,从而带来了显著的检索性能提升:在 NQ 数据集上,答案召回率@1达到了71%(之前为52%),在 HotpotQA(全维基)上,答案召回率@2达到了72%(之前为47%)。然后,我们将前k个检索到的单元(大约 30K tokens)输入到现有的长上下文大语言模型 (LLM) 中进行零样本回答抽取。在不需要任何训练的情况下,LongRAG 在 NQ 数据集上的 EM 达到了62.7%,这是已知的最佳结果。LongRAG 在 HotpotQA(全维基)上也达到了64.3%,与目前的最优模型相当。我们的研究为将 RAG 与长上下文大语言模型结合的未来发展方向提供了宝贵的见解。
叶子的技术碎碎念
2025/04/08
470
每周AI论文速递(240624-240628)
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
680
每周AI论文速递(250113-250117)
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
660
每周AI论文速递(241202-241206)
每周AI论文速递(240923-240927)
扩散模型在多种图像生成任务中表现出色。本研究中,我们推出了“想象你自己”,一种无需调优的个性化图像生成模型。与依赖调优的传统方法不同,“想象你自己”允许所有用户共享同一框架,无需个体调整。此前,模型在身份保持、复杂提示遵循和视觉质量之间难以平衡,常导致对参考图像的过度依赖,难以生成需要大幅改变参考图像的图像,如改变表情、姿态等,且生成图像的多样性有限。为此,我们提出了1) 新的合成配对数据生成机制以增强多样性,2) 包含三个文本编码器和可训练视觉编码器的全并行注意力架构,以提升文本忠实度,以及3) 从粗到细的多阶段微调策略,逐步提升视觉质量。实验表明,“想象你自己”在身份保持、视觉质量和文本对齐方面均优于现有最先进模型,为个性化应用奠定了坚实基础。人类评估结果显示,该模型在身份保持、文本忠实度和视觉吸引力方面均优于以往模型。
叶子的技术碎碎念
2025/04/08
980
每周AI论文速递(240923-240927)
每周AI论文速递(241125-241129)
语言模型后训练用于精炼行为并解锁近期语言模型的新技能,但应用这些技术的开放配方落后于专有配方。底层训练数据和后训练配方既是最重要的拼图部分,也是透明度最低的部分。为了弥合这一差距,我们引入了T"ULU 3,这是一系列完全开放的、最先进的后训练模型,连同其数据、代码和训练配方,作为现代后训练技术的综合指南。T"ULU 3基于Llama 3.1基础模型构建,其性能超越了Llama 3.1、Qwen 2.5、Mistral的指令版本,甚至超越了如GPT-4o-mini和Claude 3.5-Haiku等封闭模型。我们的模型训练算法包括监督微调(SFT)、直接偏好优化(DPO),以及我们称之为可验证奖励强化学习(RLVR)的新方法。通过T"ULU 3,我们引入了一个多任务评估方案,用于后训练配方的开发和未见评估,标准基准实现,以及对所述基准上现有开放数据集的实质去污染。最后,我们对未能可靠提升性能的训练方法进行了分析和讨论。 除了T"ULU 3模型权重和演示,我们还发布了完整的配方——包括用于多样化核心技能的数据集、用于数据整理和评估的强大工具包、训练代码和基础设施,最重要的是,一份详细的报告,用于重现和进一步适应T"ULU 3方法到更多领域。
叶子的技术碎碎念
2025/04/08
740
每周AI论文速递(241125-241129)
每周AI论文速递(241021-241025)
本文介绍了 UCFE: 用户中心化金融专业知识基准,这是一个创新框架,旨在评估大语言模型 (LLMs) 处理复杂现实世界金融任务的能力。UCFE 基准采用了一种混合方法,结合了人类专家评估与动态、任务特定的交互,以模拟不断变化的金融场景的复杂性。首先,我们进行了一项涉及 804 名参与者的用户研究,收集了他们对金融任务的反馈。其次,基于这些反馈,我们创建了一个涵盖广泛用户意图和交互的数据集。该数据集作为基础,用于使用 LLM-as-Judge 方法对 12 个 LLM 服务进行基准测试。结果显示,基准分数与人类偏好之间存在显著的一致性,Pearson 相关系数为 0.78,证实了 UCFE 数据集和我们的评估方法的有效性。UCFE 基准不仅揭示了 LLMs 在金融领域的潜力,还提供了一个强大的框架,用于评估其性能和用户满意度。基准数据集和评估代码已公开。
叶子的技术碎碎念
2025/04/08
490
每周AI论文速递(241021-241025)
每周AI论文速递(241014-241018)
GPT-4o 在多模态能力和交互体验方面的显著表现,使其在实际应用中扮演了重要角色,但目前尚无高性能的开源替代方案。本文中,我们推出了 Baichuan-Omni,这是首个开源的 7B 多模态大语言模型 (MLLM),能够同时处理和分析图像、视频、音频和文本,并提供卓越的多模态交互体验和强劲性能。我们设计了一种高效的多模态训练策略,从 7B 模型出发,通过多模态对齐和跨模态多任务微调两个阶段,使模型能够有效处理视觉和音频数据。在多项全模态和多模态基准测试中表现出色,我们希望这一成果能成为开源社区在推动多模态理解和实时交互领域的有力基石。
叶子的技术碎碎念
2025/04/08
1070
每周AI论文速递(241014-241018)
相关推荐
每周AI论文速递(241104-241108)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档