Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周AI论文速递(240923-240927)

每周AI论文速递(240923-240927)

作者头像
叶子的技术碎碎念
发布于 2025-04-08 13:54:13
发布于 2025-04-08 13:54:13
990
举报

Imagine yourself: Tuning-Free Personalized Image Generation

想象你自己:无调优个性化图像生成

扩散模型在多种图像生成任务中表现出色。本研究中,我们推出了“想象你自己”,一种无需调优的个性化图像生成模型。与依赖调优的传统方法不同,“想象你自己”允许所有用户共享同一框架,无需个体调整。此前,模型在身份保持、复杂提示遵循和视觉质量之间难以平衡,常导致对参考图像的过度依赖,难以生成需要大幅改变参考图像的图像,如改变表情、姿态等,且生成图像的多样性有限。为此,我们提出了1) 新的合成配对数据生成机制以增强多样性,2) 包含三个文本编码器和可训练视觉编码器的全并行注意力架构,以提升文本忠实度,以及3) 从粗到细的多阶段微调策略,逐步提升视觉质量。实验表明,“想象你自己”在身份保持、视觉质量和文本对齐方面均优于现有最先进模型,为个性化应用奠定了坚实基础。人类评估结果显示,该模型在身份保持、文本忠实度和视觉吸引力方面均优于以往模型。

YesBut: A High-Quality Annotated Multimodal Dataset for evaluating Satire Comprehension capability of Vision-Language Models

YesBut: 高质量多模态数据集用于评估视觉-语言模型的讽刺理解能力

理解讽刺和幽默对视觉-语言模型来说是一项艰巨任务。本文中,我们提出了三项挑战性任务:讽刺图像检测(判断图像是否具有讽刺意味)、讽刺理解(解释图像为何具有讽刺意味)和讽刺图像完成(给定一半图像,从两个选项中选择另一半,使完整图像具有讽刺意味)。我们发布了一个高质量数据集 YesBut,包含 2547 张图像,其中 1084 张为讽刺图像,1463 张为非讽刺图像,涵盖多种艺术风格,用于评估这些任务。每张讽刺图像描绘了一个正常场景,同时包含一个有趣或讽刺的冲突场景。尽管视觉-语言模型在多模态任务(如视觉问答和图像描述)上表现出色,但在 YesBut 数据集的提议任务中,零样本设置下,无论是自动化还是人工评估,这些模型的表现均不佳。此外,我们还发布了一个包含 119 张真实讽刺照片的数据集,供进一步研究使用。数据集和代码可在 https://github.com/abhi1nandy2/yesbut_dataset 获取。

Prithvi WxC: Foundation Model for Weather and Climate

Prithvi WxC: 天气和气候的基础模型

随着 AI 模拟器性能的提升,其已能与传统数值天气预报模型相媲美,尤其是在 HPC 系统上运行的模型。因此,越来越多的 AI 大模型开始应用于预测、降尺度或临近预报等场景。尽管 AI 领域的研究正朝着基础模型(这些模型能够通过调整解决多种不同用例)的方向发展,但天气和气候领域的模型仍主要针对单一用例,尤其是中期预报。为此,我们推出了 Prithvi WxC,这是一个基于现代时代研究与应用回顾分析第 2 版 (MERRA-2) 中 160 个变量开发的 23 亿参数基础模型。Prithvi WxC 采用编码器-解码器架构,融合了多种 Transformer 模型的设计理念,能够有效捕捉输入数据中的区域和全球依赖关系。该模型设计支持大量 Token,以便在不同拓扑结构中以高分辨率模拟天气现象。此外,它通过结合掩码重建和预测的范式进行混合目标训练。我们在一系列具有挑战性的下游任务上测试了该模型,包括自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。目前,具有 23 亿参数的预训练模型及其微调工作流程已通过 Hugging Face 作为开源项目公开发布。

RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning

RACER: 丰富的语言引导故障恢复策略

由于缺乏自我恢复机制和简单语言指令在指导机器人动作方面的局限性,开发稳健且可纠正的视觉运动策略用于机器人操作是一项挑战。为解决这些问题,我们提出了一种可扩展的数据生成管道,自动将专家演示与故障恢复轨迹及细粒度语言注释结合,用于训练。

我们引入了丰富的语言引导故障恢复 (RACER),这是一个监督者-执行者框架,结合故障恢复数据和丰富语言描述以增强机器人控制。RACER 包含一个视觉语言模型 (VLM),作为在线监督者提供详细语言指导以进行错误纠正和任务执行,以及一个语言条件化的视觉运动策略作为执行者来预测下一步动作。

实验结果显示,RACER 在多种评估设置下,包括标准长时任务、动态目标变化任务和零样本未见任务,均优于最先进的 Robotic View Transformer (RVT),在模拟和真实环境中均表现卓越。视频和代码可在以下网址获取:https://rich-language-failure-recovery.github.io。

A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

o1医学应用初探:迈向AI医生?

大语言模型 (LLMs) 在多领域展示了卓越能力,拓展了学习和认知的边界。OpenAI的o1作为首个采用强化学习策略的内部化链式思维技术的大语言模型,表现突出。尽管在通用语言任务上表现出色,其在医学等专业领域的性能仍待验证。为此,本报告全面探索了o1在不同医疗场景中的表现,重点考察了理解、推理和多语言能力三个方面。

具体而言,我们评估了6项任务,使用了37个医疗数据集,包括基于《新英格兰医学杂志》(NEJM) 和《柳叶刀》专业测验的两个新建且更具挑战性的问答 (QA) 任务。与标准医疗QA基准(如MedQA)相比,这些数据集更具临床相关性,更能有效转化为实际临床效用。o1分析显示,LLMs增强的推理能力可能显著提升其理解医疗指令和推理复杂临床场景的能力。值得注意的是,o1在19个数据集和两个新建复杂QA场景中的平均准确率分别比GPT-4高出6.2%和6.6%。

但同时,我们发现模型能力和现有评估协议存在幻觉、多语言能力不一致及评估指标不一致等弱点。我们将在https://ucsc-vlaa.github.io/o1_medicine/发布原始数据和模型输出,供未来研究使用。

Phantom of Latent for Large Language and Vision Models

大型语言与视觉模型的潜在幻影

视觉指令调优的成功极大地推动了大型语言与视觉模型 (LLVM) 的发展。根据指令调优大型语言模型 (LLM) 的扩展规律,LLVM 的规模进一步扩大,达到了 26B、34B 甚至 80B 参数。虽然这种规模的增加显著提升了模型性能,但也对训练和推理所需的硬件资源提出了更高要求。因此,高效 LLVM 的需求日益迫切,这些模型需要在保持较小规模的同时,达到更大模型的性能。为此,我们提出了一种新的高效 LLVM 系列,模型规模为 0.5B、1.8B、3.8B 和 7B 参数,名为 Phantom,它在有限结构内显著提升了学习能力。通过在多头自注意力机制 (MHSA) 期间暂时增加潜在隐藏维度,Phantom 能够在不显著增加物理模型规模的情况下,准备处理和理解更多的视觉语言知识。为了充分发挥其优势,我们引入了 Phantom 优化 (PO),结合自回归监督微调 (SFT) 和类似直接偏好优化 (DPO) 的概念,从而在消除错误和模糊答案的同时,有效遵循正确答案。Phantom 在众多开源和闭源的更大规模 LLVM 中表现优异,成为高效 LLVM 领域的领先解决方案。

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

HelloBench: 评估大语言模型的长文本生成能力

近年来,大语言模型 (LLMs) 在长上下文理解等任务中展示了显著能力,并提出了众多基准测试。然而,我们发现长文本生成能力研究不足。为此,我们引入了分层长文本生成基准测试 (HelloBench),这是一个综合、真实且开放式的基准测试,旨在评估大语言模型在生成长文本方面的性能。借鉴布鲁姆的分类法,HelloBench 将长文本生成任务细分为五个子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。此外,我们提出了分层长文本评估 (HelloEval),这是一种与人类评估高度一致的方法,显著减少了人类评估所需的时间和精力,同时保持了与人类评估的高度相关性。我们在约 30 个主流大语言模型上进行了广泛实验,发现当前大语言模型在长文本生成方面存在不足。具体来说,首先,无论指令是否包含显式或隐式的长度限制,大多数大语言模型无法生成超过 4000 字的文本。其次,虽然一些大语言模型能生成更长文本,但存在诸多问题,如严重重复和质量下降。第三,为展示 HelloEval 的有效性,我们将其与传统指标 (如 ROUGE、BLEU 等) 和大语言模型作为评判方法进行了比较,结果表明 HelloEval 与人类评估的相关性最高。我们在 https://github.com/Quehry/HelloBench 发布了我们的代码。

MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling

MIMO: 可控角色视频合成与空间分解建模

角色视频合成旨在生成动画角色在真实场景中的逼真视频。作为计算机视觉和图形学领域的一个基础问题,3D 作品通常需要多视角捕捉来进行逐个案例的训练,这严重限制了其在短时间内对任意角色建模的适用性。最近的 2D 方法通过预训练的扩散模型打破了这一限制,但它们在姿态通用性和场景交互方面存在局限。为此,我们提出了 MIMO,一种新颖的框架,它不仅能够根据用户提供的简单输入(即角色、动作和场景)合成具有可控属性的角色视频,而且还能在一个统一框架内同时实现对任意角色的高级可扩展性、对新颖 3D 动作的通用性以及对交互式真实世界场景的适用性。核心思想是将 2D 视频编码为紧凑的空间代码,考虑到视频内容的固有 3D 特性。具体来说,我们使用单目深度估计器将 2D 帧像素提升到 3D,并根据 3D 深度将视频片段分解为三个空间组件(即主要人物、底层场景和浮动遮挡)在层次结构中进行分解。这些组件进一步编码为规范身份代码、结构化运动代码和完整场景代码,这些代码作为合成过程的控制信号。空间分解建模的设计使得用户控制灵活、复杂动作表达以及场景交互的 3D 感知的合成成为可能。实验结果证明了所提出方法的有效性和鲁棒性。

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

Molmo 和 PixMo:为最先进的跨模态模型提供开放权重和开放数据

目前,最先进的跨模态模型仍为私有。最强大的开放权重模型严重依赖于从私有视觉语言模型 (VLM) 中获取的合成数据,以实现良好性能,实质上将这些封闭模型转化为开放模型。因此,社区仍缺乏关于如何从头构建高性能 VLM 的基础知识。我们提出了 Molmo,这是一个新的 VLM 家族,在开放性方面处于领先地位。我们的核心创新是一个全新、高度详细的图像描述数据集,该数据集完全由人类标注者使用基于语音的描述收集。为支持多样化的用户交互,我们还引入了一个包含自然环境中问答和创新二维指向数据的多样化微调数据集。我们方法的成功依赖于对模型架构细节的精心选择、精心调优的训练流程,以及最关键的,我们新收集数据集的高质量,这些都将被公开发布。Molmo 家族中最好的 72B 模型不仅在开放权重和数据模型中表现优异,而且在学术基准和人类评估中与 GPT-4o、Claude 3.5 和 Gemini 1.5 等私有系统相比也毫不逊色。我们将在不久的将来发布所有模型权重、描述和微调数据以及源代码。部分模型权重、推理代码和演示可在 https://molmo.allenai.org 获取。

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

编程每个示例:大规模提升预训练数据质量如专家般

大语言模型预训练传统上依赖人类专家制定启发式方法以提高语料库质量,至今已积累了大量规则。然而,这些规则缺乏灵活性,难以有效应对每个示例的独特特征。同时,为每个示例应用定制规则对人类专家来说是不切实际的。

本文中,我们证明即使是参数数量仅0.3B的小型语言模型,也能展现出与人类专家相媲美的显著数据提炼能力。我们引入了编程每个示例(ProX),这是一种新颖的框架,将数据提炼视为编程任务,使模型能够通过生成和执行细粒度操作(如字符串归一化)来大规模提炼语料库中的每个个体示例。

实验结果表明,使用ProX精选数据预训练的模型在各种下游基准测试中均优于原始数据或其他筛选方法的数据,提升幅度超过2%。其有效性涵盖了各种模型规模和预训练语料库,包括C4、RedPajama-V2和FineWeb。

此外,ProX在特定领域的持续预训练中展现出巨大潜力:无需特定领域设计,使用ProX提炼的OpenWebMath训练的模型在平均准确率上超越了基于人类手工规则的方法,Mistral-7B提升了7.6%,Llama-2-7B提升了14.6%,CodeLlama-7B提升了20.3%,所有这些都在10B Token内达到了与在200B Token上训练的Llemma-7B相当的水平。

进一步分析表明,ProX显著节省了训练FLOPs,为高效的LLM预训练提供了有前景的路径。我们正在开源ProX,包含超过100B的语料库、模型,并分享所有训练和实现细节,以促进可重复研究和未来创新。代码:https://github.com/GAIR-NLP/ProX

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

MaskLLM: 大语言模型的可学习半结构化稀疏性

大语言模型 (LLMs) 因其庞大的参数数量而闻名,这些参数往往带来显著的冗余。本研究提出了 MaskLLM,一种可学习的剪枝方法,通过在 LLMs 中引入半结构化 (或“N:M”) 稀疏性,旨在减少推理过程中的计算开销。MaskLLM 不采用新的重要性标准,而是通过 Gumbel Softmax 采样将 N:M 模式建模为可学习的分布。这种方法便于在大规模数据集上进行端到端训练,并具有两大优势:1) 高质量掩码 - 我们的方法能有效扩展至大数据集,并学习到准确的掩码;2) 可迁移性 - 掩码分布的概率建模使得稀疏性能够在不同领域或任务间进行迁移学习。我们使用 2:4 稀疏性对 MaskLLM 在多种 LLMs 上进行了评估,包括 LLaMA-2、Nemotron-4 和 GPT-3,参数规模从 843M 到 15B 不等,实证结果表明,相较于最先进的方法,MaskLLM 有显著提升。例如,现有最优方法在 Wikitext 上的困惑度 (PPL) 达到 10 或更高,而密集模型的 PPL 为 5.12,但 MaskLLM 仅通过学习掩码和冻结权重就实现了显著更低的 6.72 PPL。此外,MaskLLM 的可学习特性使得能够为下游任务或领域定制无损应用的 2:4 稀疏性掩码。代码可在 https://github.com/NVlabs/MaskLLM 获取。

你好,我是叶子,7年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(250217-250221)
自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布,参数化由一个普通的 Transformer 来预测被掩码的 Token。通过优化似然下界,它为概率推理提供了一种有原则的生成方法。在广泛的基准测试中,LLaDA 表现出强大的可扩展性,优于我们自建的 ARM 基线。值得注意的是,LLaDA 8B 在上下文学习中与 LLaMA3 8B 等强大的 LLMs 表现相当,并且在 SFT 后,在多轮对话等案例研究中展示了令人印象深刻的指令跟随能力。此外,LLaDA 解决了反转诅咒问题,在反转诗歌补全任务中超越了 GPT-4o。我们的研究结果表明,扩散模型是 ARMs 的一个可行且有前途的替代方案,质疑了上述关键 LLM 能力本质上与 ARMs 相关的假设。
叶子的技术碎碎念
2025/04/08
1170
每周AI论文速递(250217-250221)
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
690
每周AI论文速递(250113-250117)
每周AI论文速递(240812-240816)
GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频,并提供先进的多模态交互体验。我们从 Mixtral 8x7B 这一语言模型基础出发,扩展其中文词汇,并进行了双语指令调整。通过多模态对齐和指令调整的两阶段多任务学习,我们进一步赋予了该模型视觉和听觉能力。VITA 在多种单模态和多模态基准测试中表现出色,显示出其强大的多语言、视觉和听觉理解能力。此外,我们在提升自然多模态人机交互体验方面取得了显著进展,首次在 MLLM 中实现了非唤醒交互和音频中断功能。VITA 标志着开源社区在探索多模态理解和交互无缝集成方面迈出了第一步。尽管 VITA 仍需大量工作以接近闭源模型的水平,但我们相信其作为先驱的角色将为后续研究奠定坚实基础。项目页面:https://vita-home.github.io。
叶子的技术碎碎念
2025/04/08
940
每周AI论文速递(240812-240816)
每周AI论文速递(241111-241115)
CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号,作为人类知识的载体,塑造了一个强大的跨模态表示空间,这是 CLIP 能力的核心。然而,随着 GPT-4 和 LLaMA 等大语言模型 LLM 的快速发展,语言理解和生成的边界不断被推动。这自然引出了一个问题:LLM 的能力能否被利用来进一步改进多模态表示学习?将 LLM 融入 CLIP 的潜在好处显而易见。LLM 强大的文本理解能力可以根本性地提升 CLIP 处理图像描述的能力,显著增强其处理长而复杂文本的能力,这是原始 CLIP 的一个明显短板。此外,LLM 是在大量文本语料库上训练的,拥有开放世界的知识。这使得它们在训练过程中能够扩展描述信息,从而提高学习过程的效率。在本文中,我们提出了 LLM2CLIP,一种利用 LLM 力量解锁 CLIP 潜力的新方法。通过在描述空间中使用对比学习对 LLM 进行微调,我们将其文本能力融入输出嵌入,显著提高了输出层的文本区分能力。然后,我们设计了一个高效的训练过程,其中微调后的 LLM 作为 CLIP 视觉编码器的强大教师。得益于 LLM 的存在,我们现在可以在不受原始 CLIP 文本编码器上下文窗口和能力限制的情况下,加入更长和更复杂的描述。我们的实验表明,这种方法在跨模态任务中带来了显著的改进。
叶子的技术碎碎念
2025/04/08
800
每周AI论文速递(241111-241115)
每周AI论文速递(241014-241018)
GPT-4o 在多模态能力和交互体验方面的显著表现,使其在实际应用中扮演了重要角色,但目前尚无高性能的开源替代方案。本文中,我们推出了 Baichuan-Omni,这是首个开源的 7B 多模态大语言模型 (MLLM),能够同时处理和分析图像、视频、音频和文本,并提供卓越的多模态交互体验和强劲性能。我们设计了一种高效的多模态训练策略,从 7B 模型出发,通过多模态对齐和跨模态多任务微调两个阶段,使模型能够有效处理视觉和音频数据。在多项全模态和多模态基准测试中表现出色,我们希望这一成果能成为开源社区在推动多模态理解和实时交互领域的有力基石。
叶子的技术碎碎念
2025/04/08
1070
每周AI论文速递(241014-241018)
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(250120-250124)
每周AI论文速递(240902-240906)
科学文献理解对于提取目标信息和获得洞察力至关重要,从而显著推进科学发现。尽管大语言模型 (LLMs) 取得了显著的成功,但它们在理解科学文献方面面临挑战,主要是因为 (1) 缺乏科学知识,以及 (2) 不熟悉专门的科学任务。
叶子的技术碎碎念
2025/04/08
530
每周AI论文速递(240902-240906)
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
710
每周AI论文速递(241202-241206)
每周AI论文速递(240930-241004)
尽管下一个 Token 预测被视为通向人工通用智能的有力途径,但在多模态任务中,它一直难以超越扩散模型(如 Stable Diffusion)和组合方法(如 CLIP 与大语言模型的结合)。本文中,我们推出了 Emu3,这是一系列仅通过下一个 Token 预测训练的尖端多模态模型。通过将图像、文本和视频 Token 化为离散空间,我们在多模态序列混合上从头训练了一个单一的 Transformer。Emu3 在生成和感知任务中超越了多个已有的任务特定模型,包括 SDXL 和 LLaVA-1.6 等旗舰模型,同时无需扩散或组合架构。Emu3 还能通过预测视频序列中的下一个 Token 生成高保真视频。我们通过专注于 Token 这一核心,简化了多模态模型的设计,释放了在训练和推理中扩展的巨大潜力。我们的研究结果表明,下一个 Token 预测是构建超越语言的通用多模态智能的有力途径。我们开源了关键技术和模型,以推动这一领域的深入研究。
叶子的技术碎碎念
2025/04/08
510
每周AI论文速递(240930-241004)
每周AI论文速递(250407-250411)
虽然大型视觉语言模型 (VLMs) 具备卓越性能,但其计算资源需求过高,限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案(例如复杂的图像 Token 化处理),导致 GPU 内存利用率低下,难以满足终端设备的实际应用需求。
叶子的技术碎碎念
2025/04/13
1010
每周AI论文速递(250407-250411)
每周AI论文速递(250224-250228)
LLM-Microscope: 揭示 Transformer 上下文记忆中标点符号的隐藏作用
叶子的技术碎碎念
2025/04/08
590
每周AI论文速递(250224-250228)
每周AI论文速递(240819-240823)
xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产生的 LMMs。xGen-MM,简称 xGen-MultiModal,是 Salesforce xGen 在基础 AI 模型领域倡议的扩展。我们的模型在包括单图像和多图像基准在内的多种任务上进行了严格的评估。我们的预训练基础模型展现了强大的情境学习能力,并且指令调整模型在相同模型大小的开源 LMMs 中展现了竞争性的性能。此外,我们引入了一个采用 DPO 进行安全调整的模型,旨在减少如幻觉等有害行为并增强安全性。我们开放了我们的模型、精心策划的大规模数据集以及我们的微调代码库,以推动 LMM 研究的进一步发展。相关资源将在我们的项目页面上提供。
叶子的技术碎碎念
2025/04/08
620
每周AI论文速递(240819-240823)
每周AI论文速递(241125-241129)
语言模型后训练用于精炼行为并解锁近期语言模型的新技能,但应用这些技术的开放配方落后于专有配方。底层训练数据和后训练配方既是最重要的拼图部分,也是透明度最低的部分。为了弥合这一差距,我们引入了T"ULU 3,这是一系列完全开放的、最先进的后训练模型,连同其数据、代码和训练配方,作为现代后训练技术的综合指南。T"ULU 3基于Llama 3.1基础模型构建,其性能超越了Llama 3.1、Qwen 2.5、Mistral的指令版本,甚至超越了如GPT-4o-mini和Claude 3.5-Haiku等封闭模型。我们的模型训练算法包括监督微调(SFT)、直接偏好优化(DPO),以及我们称之为可验证奖励强化学习(RLVR)的新方法。通过T"ULU 3,我们引入了一个多任务评估方案,用于后训练配方的开发和未见评估,标准基准实现,以及对所述基准上现有开放数据集的实质去污染。最后,我们对未能可靠提升性能的训练方法进行了分析和讨论。 除了T"ULU 3模型权重和演示,我们还发布了完整的配方——包括用于多样化核心技能的数据集、用于数据整理和评估的强大工具包、训练代码和基础设施,最重要的是,一份详细的报告,用于重现和进一步适应T"ULU 3方法到更多领域。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241125-241129)
每周AI论文速递(250303-250307)
语言模型的预训练需要在广泛的语料库上进行训练,其中数据质量起着关键作用。在这项工作中,我们的目标是直接估计预训练期间数据的贡献,并以高效的方式选择预训练数据。具体来说,我们借鉴了最近的发现,这些发现表明,当文本领域与下游基准匹配时,多样化模型在某些文本上的压缩效率(即归一化损失)与其下游性能密切相关(Huang et al., 2024)。基于这一观察,我们假设模型损失能够预测下游能力的数据对学习有显著贡献。为了利用这一见解,我们引入了基于数据预测强度(Preselect)的数据选择方法,这是一种轻量级且高效的数据选择方法,仅需训练和部署一个基于 fastText 的评分器。通过对 1B 和 3B 参数模型的广泛实验,我们证明了使用 PreSelect 选择的 30B token 训练的模型性能超过了在 300B token 上训练的普通基线模型,使计算需求减少了 10 倍。此外,PreSelect 在 3B 模型上使用 100B token 进行训练时,显著优于其他竞争性数据选择基线,如 DCLM 和 FineWeb-Edu。我们在 https://github.com/hkust-nlp/PreSelect 上公开了我们训练的数据选择评分器以及精选的数据集。
叶子的技术碎碎念
2025/04/08
1040
每周AI论文速递(250303-250307)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
840
每周AI论文速递(241216-241220)
每周AI论文速递(250127-250131)
基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而,这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%,这限制了对先进 LLM 能力的有根据测量。作为回应,我们介绍了“人类的最终考试”(HLE),这是一个多模式基准测试,在人类知识前沿设计,旨在成为同类中最后的封闭式学术基准测试,涵盖广泛的主题。 HLE 包含 3,000 个问题,跨越数十个学科,包括数学、人文学科和自然科学。HLE 由全球主题专家开发,包含适合自动化评分的多项选择题和简答题。每个问题都有一个已知的明确且易于验证的解决方案,但无法通过快速互联网检索获得答案。 先进的 LLMs 在 HLE 上表现出低准确性和校准度,突显了当前 LLM 能力与专家人类前沿之间的显著差距,在封闭式学术问题上的表现存在巨大差异。为了基于对模型能力的清晰理解来指导研究和政策制定,我们公开发布了 HLE,地址为https://lastexam.ai。
叶子的技术碎碎念
2025/04/08
580
每周AI论文速递(250127-250131)
每周AI论文速递(241230-250103)
OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不同,但由于医疗保健的高要求,它同样需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理更具挑战性。为了解决这个问题,我们提出了可验证的医学推理问题,并使用医学验证器来检查模型输出的正确性。这种可验证性通过两阶段方法促进了医学推理的发展:(1) 使用验证器指导搜索复杂的推理轨迹以微调大语言模型,(2) 应用基于验证器奖励的强化学习 (RL) 来进一步增强复杂推理。最后,我们介绍了 HuatuoGPT-o1,这是一种能够进行复杂推理的医学大语言模型,仅使用 40K 个可验证问题就超越了通用和医学专用基准模型。实验表明,复杂推理提高了医学问题解决能力,并且从强化学习中获得更大的提升。我们希望我们的方法能够激发医学和其他专业领域推理的进步。
叶子的技术碎碎念
2025/04/08
790
每周AI论文速递(241230-250103)
每周AI论文速递(240701-240705)
我们提出了一种新颖的以角色驱动的数据合成方法,该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法,我们引入了Persona Hub——一个从网络数据中自动整理的包含10亿个不同角色的集合。这10亿个角色(约占世界总人口的13%),作为世界知识的载体,分布在各处,可以利用LLM中几乎所有的视角,从而在各种场景下促进大规模多样化合成数据的创建。通过展示Persona Hub在大规模合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(函数)方面的应用案例,我们展示了角色驱动的数据合成的多功能性、可扩展性、灵活性和易用性,这可能推动合成数据创建和应用实践中的范式转变,并可能对LLM的研究和发展产生深远影响。
叶子的技术碎碎念
2025/04/08
800
每周AI论文速递(240701-240705)
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
910
每周AI论文速递(250210-250214)
每周AI论文速递(241209-241213)
我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进多模态大语言模型 (MLLM) 系列,保留了其核心架构,同时在训练和测试策略以及数据质量上进行了显著改进。本文深入研究了模型扩展与性能的关系,系统地分析了视觉编码器、语言模型、数据集规模及测试时配置对性能的影响。通过在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力及纯语言处理等广泛基准上的全面评估,InternVL 2.5 展现出与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美的竞争力。特别地,我们的模型在 MMMU 基准上首次突破 70%,通过链式推理 (CoT) 提升了 3.7 个百分点,并展示了强大的测试时扩展潜力。我们期待该模型为开源社区在多模态 AI 系统的开发与应用上树立新标杆。HuggingFace 演示见 https://huggingface.co/spaces/OpenGVLab/InternVL
叶子的技术碎碎念
2025/04/08
880
每周AI论文速递(241209-241213)
相关推荐
每周AI论文速递(250217-250221)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档