Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周AI论文速递(240429-240503)

每周AI论文速递(240429-240503)

作者头像
叶子的技术碎碎念
发布于 2025-04-08 13:44:31
发布于 2025-04-08 13:44:31
830
举报

PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning

PLLaVA:图像至视频无参数扩展的 LLaVA 模型,用于视频详细描述

视觉-语言预训练显著提升了各种图像-语言应用的性能。然而,视频相关任务的预训练过程需巨大的计算和数据资源,这限制了视频-语言模型的发展。本文探索了一种简单、高效、资源节约的方法,将现有图像-语言预训练模型适配至视频密集解析。我们的初步实验表明,直接在视频数据集上使用多帧输入对预训练的图像-语言模型进行微调,可能导致性能饱和甚至下降。进一步研究发现,这主要由于学习到的高范数视觉特征偏差所致。基于这一发现,我们提出了一种简单有效的池化策略,通过在时间维度上平滑特征分布,减少极端特征的主导影响。该新模型被称为池化 LLaVA,在现代基准数据集上,对于视频问题回答和生成描述任务刷新了最高性能纪录。特别是,在最新的视频 ChatGPT 基准上,PLLaVA 的五个维度平均得分为 3.48 / 5,超过之前由 GPT4V (IG-VLM) 设定的最高标准 9%。在最新的多选题基准 MVBench 上,PLLaVA 在 20 个子任务上平均准确率为 58.1%,比 GPT4V (IG-VLM) 高出 14.5%。相关代码可通过 https://github.com/magic-research/PLLaVA 访问。

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

AdvPrompter:针对大语言模型的快速自适应对抗性提示技术

尽管大语言模型 (LLMs) 最近取得了显著进展,但它们在面对某些越狱式攻击时表现出脆弱性,这类攻击可能引发生成不当或有害内容。手动红队测试通过添加后缀到特定指令来识别这类对抗性提示,此过程不仅效率低下而且耗时。与此同时,自动化的对抗性提示生成常常只能产生语义上无意义的攻击,这类攻击可通过基于困惑度的过滤器轻易识别,有时还需依赖目标大语言模型 (TargetLLM) 的梯度信息,或者因涉及耗时的离散优化过程而难以扩展。本文介绍了一种新的方法,该方法借助另一个大语言模型——AdvPrompter,能在几秒钟内生成人类可读的对抗性提示,速度比传统基于优化的方法快约 800 倍。我们利用一种新算法训练 AdvPrompter,该算法无需获取目标大语言模型的梯度信息。该过程分为两步交替进行:一是通过优化 AdvPrompter 的预测来生成高质量的目标对抗性后缀;二是对 AdvPrompter 进行低秩微调,使用这些生成的对抗性后缀。训练后的 AdvPrompter 能生成的后缀虽遮掩了输入指令,但不改变其原始意图,使得目标大语言模型误产生有害反应。在流行的开源目标大语言模型上的实验表明,AdvPrompter 在 AdvBench 数据集上取得了业界领先结果,并可迁移到闭源黑盒大语言模型 API 上。此外,我们还证明了通过在 AdvPrompter 生成的合成数据集上进行微调,可以在不损害性能(即保持高 MMLU 分数)的前提下,增强大语言模型对越狱攻击的抵抗力。

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

使用多样化评估小组代替单一大模型评判:评估大语言模型生成的新方法

随着大语言模型 (LLMs) 技术的进步,我们越来越难以准确评估它们的质量。寻找足够的数据以适当探索特定模型属性非常困难,单独评估模型的自由生成正确性同样充满挑战。为此,现有的许多评估方法采用 LLMs 自身作为评判,用以评定其他 LLMs 输出的质量。尽管常用像 GPT4 这样的单一大模型进行评估越来越流行,但这种方法成本高昂,已显示出模型内偏见,我们的研究发现,使用非常大的模型通常是不必要的。我们提出一种新的评估方法,使用由多个小模型组成的评估小组 (PoLL)。在三种不同的评判设置和六个不同数据集的测试中,我们发现使用 PoLL 的表现超过了单一大模型评判,由于由不同模型家族组成,展现出更少的模型内偏见,同时成本也减少了超过七倍。

Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Kangaroo:通过双重提前退出技术实现无损自我推测解码

推测解码技术已证明在加速大语言模型的推理过程中有效,同时保持了一致的样本分布。传统的训练独立的草稿模型以实现满意的 Token 接受率可能代价高昂。从提前退出技术获取灵感,我们提出了一种名为 Kangaroo 的新型自我推测解码框架,它利用一个固定的浅层子网络作为自我草稿模型,其余层则充当较大的目标模型。我们在子网络之上训练了一个轻量级高效的适配器模块,以弥合其与完整模型在表示能力上的差距。特别地,自我草稿模型的推理延时与大模型相比不容忽视,这要求我们采取策略来提高 Token 接受率,同时尽可能减少小模型的草拟步骤。为此,我们引入了一种额外的提前退出机制来生成草稿 Token。具体来说,一旦当前 Token 的置信度低于某一阈值,我们就停止小模型在草稿阶段的后续预测。在 Spec-Bench 上的广泛实验表明 Kangaroo 的高效性。在单序列验证中,Kangaroo 实现了高达 1.68 倍的加速,并且相较于 Medusa-1,参数减少了 88.7% (67M 对比 591M)。Kangaroo 的代码可通过以下链接访问:https://github.com/Equationliu/Kangaroo。

KAN: Kolmogorov-Arnold Networks

KAN: Kolmogorov-Arnold网络

受到 Kolmogorov-Arnold 表示定理的启发,我们提出了 Kolmogorov-Arnold Networks(KANs)作为多层感知器(MLPs)的有前途的替代方案。不同于 MLPs 在节点(神经元)上具有固定的激活函数,KANs 在边(权重)上的激活函数是可学习的。KANs 完全没有线性权重——所有权重参数都被作为样条函数的单变量函数重新参数化。我们的研究表明,这一看似简单的变革使 KANs 在准确性和可解释性方面超越了 MLPs。在准确性方面,较小的 KANs 在数据拟合和偏微分方程求解上能够达到或超过较大 MLPs 的效果。无论是理论上还是实际应用中,KANs 都展现出比 MLPs 更快的神经缩放效应。在可解释性方面,KANs 可以直观地被可视化,并且能够便捷地与人类用户进行交互。通过数学和物理学的应用案例,KANs 已经证明了其作为科学家发现或重新发现数学和物理定律的强大助手的能力。总的来说,KANs 为改进当今依赖于 MLPs 的深度学习模型提供了新的可能性。

Octopus v4: Graph of language models

https://arxiv.org/abs/2404.19296

尽管语言模型在众多应用领域证明了其有效性,最复杂的模型往往是私有的。例如,由 OpenAI 开发的 GPT-4 和 Anthropic 的多种模型不仅价格昂贵,而且耗能巨大。与此相对,开源社区则成功开发了具有竞争力的模型,如 Llama3。此外,专为法律、医疗或金融任务定制的小型语言模型在性能上已超过它们的专有版本。本文提出了一种使用功能性 Token 来整合针对特定任务优化的多个开源模型的新方法。我们新开发的 Octopus v4 模型利用功能性 Token 灵活地将用户查询引导至最适合的垂直模型,并重新构建查询以获得最佳效果。Octopus v4 是前三代模型的进化版,特别擅长于选择、参数理解和查询重构。此外,我们还探讨了如何利用图这一多功能数据结构,通过 Octopus 模型和功能性 Token 的协同作用有效地协调多个开源模型。欢迎使用我们的开源 GitHub (https://www.nexa4ai.com/) 试用 Octopus v4 模型 (https://huggingface.co/NexaAIDev/Octopus-v4),并为构建更大的语言模型网络贡献力量。通过激活不超过 10B 参数的模型,我们在同级别模型中取得了 74.8 的最佳 MMLU 分数。

InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

InstantFamily: 零样本多 ID 图像生成的掩码注意力机制

在个性化图像生成领域,创造能够保持概念一致性的图像的能力得到了显著提升。制作一个在视觉上协调并吸引人的、能够自然整合多个概念的图像,无疑是一个挑战。本文提出了一种名为“InstantFamily”的方法,该方法采用创新的掩码交叉注意力机制和多模态嵌入技术,实现了零样本多 ID 图像生成。该方法通过利用结合了文本条件的预训练面部识别模型中的全局与局部特征,有效地保留了个体身份(ID)。此外,我们的掩码交叉注意力机制允许在生成图像中精确控制多 ID 组合。通过一系列实验,我们证明了 InstantFamily 在生成多 ID 图像方面的优越性,它不仅表现出色,还解决了多 ID 生成中的常见问题。此外,无论是单 ID 还是多 ID 保留,我们的模型均展现出最先进的性能,并且在保留 ID 数量方面显示出超出训练预期的可扩展性。

Better & Faster Large Language Models via Multi-token Prediction

通过多 Token 预测实现更优秀、更快的大型语言模型

如 GPT 和 Llama 这类大型语言模型通常采用下一 Token 预测损失进行训练。在本研究中,我们提出通过同时预测多个未来 Token 来训练语言模型,这种方法能显著提高样本效率。具体来说,我们要求模型在训练语料库中的每个位置预测接下来的 n 个 Token,这些 Token 通过位于共享模型主体之上的 n 个独立输出头进行预测。将多 Token 预测作为一种辅助训练任务,我们发现这种方法不仅增强了模型在代码和自然语言处理方面的下游能力,而且不增加训练时间。该方法在大型模型和多轮训练中尤其有效,并在生成性基准测试如编程方面表现突出,模型性能连续超过强基线数个百分点。我们的 13B 参数模型在 HumanEval 上比类似的下一 Token 模型多解决了 12% 的问题,在 MBPP 上多解决了 17%。在小规模算法任务上的实验显示,多 Token 预测有利于发展诱导技巧和算法推理能力。此外,采用 4 Token 预测的模型在推理时的速度可达原来的三倍,即使在使用大批量时也是如此。

Iterative Reasoning Preference Optimization

迭代推理偏好优化

最近的研究表明,迭代偏好优化方法在一般指导调优任务上表现良好,但在推理任务上的改进却不显著(Yuan et al., 2024, Chen et al., 2024)。在本项工作中,我们开发了一种迭代方法,该方法通过优化导向正确答案的胜败推理步骤来调整生成的思维链(Chain-of-Thought, CoT)候选者之间的偏好。我们采用了经过修改的 DPO 损失(Rafailov et al., 2023),并新增了一个负对数似然项,这一点被证实是关键。我们证明了这种方案在重复迭代后,推理能力得到显著提升。仅依赖于训练集中的示例,我们的方法使 Llama-2-70B-Chat 在 GSM8K 上的准确率从 55.6% 提高到 81.6%(在32个样本中进行多数投票后达到 88.7%),在 MATH 上从 12.5% 提高到 20.8%,在 ARC-Challenge 上从 77.8% 提高到 86.7%,超过了其他未依赖额外数据集的基于 Llama-2 的模型。

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Prometheus 2:专门评估其他语言模型的开源语言模型

像 GPT-4 这样的专有语言模型(LMs)常用于评估各种语言模型的响应质量。然而,透明性、可控性和可负担性的关切强烈促使人们开发专门用于评估的开源语言模型。现有的开源评估者 LMs 存在关键缺陷:1)它们给出的分数与人类评分明显不符;2)它们缺乏同时执行直接评估和成对排名的灵活性,这两种评估方式最为常见。此外,它们不能根据自定义评价标准进行评估,而是专注于一般属性,如有用性和无害性。为应对这些问题,我们提出了 Prometheus 2,这是一种比其前身更强大、更贴近人类和 GPT-4 判断的评估者语言模型。此外,它能够处理直接评估和成对排名两种格式,并与用户定义的评价标凈结合使用。在四个直接评估基准和四个成对排名基准上,Prometheus 2 在所有测试的开源评估者 LMs 中与人类和专有 LM 法官的相关性和一致性得分最高。我们的模型、代码和数据均在以下网址公开提供:https://github.com/prometheus-eval/prometheus-eval。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(250721-250725)
图形用户界面 (Graphical User Interface, GUI) 定位技术将自然语言指令映射到精确的界面坐标以实现自主交互。现有强化学习方法采用二元奖励机制,将界面元素视为非此即彼的点击目标,这种稀疏反馈信号无法体现空间交互的连续性特征。受人类点击行为(天然形成以目标元素为中心的高斯分布)启发,我们提出GUI高斯定位奖励框架 (GUI-G^2),该框架将GUI元素建模为界面平面上的连续高斯概率分布。GUI-G^2包含两个协同作用的机制:高斯点奖励通过基于元素中心的指数衰减概率分布实现精确定位,覆盖奖励则通过计算预测高斯分布与目标区域的重叠面积来评估空间匹配度。针对不同尺寸的界面元素,我们开发了自适应方差机制,可根据元素尺寸动态调整奖励分布。该框架将GUI定位问题从稀疏二元分类转化为基于连续概率密度的优化问题,利用高斯分布产生的丰富梯度信号引导模型收敛至最优交互位置。在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro基准测试上的实验表明,GUI-G^2显著超越现有最佳方法UI-TARS-72B,其中在ScreenSpot-Pro上取得24.7%的性能提升。分析表明,连续概率建模对界面变化具有更强的鲁棒性,对未知布局也展现出优异的泛化能力,为GUI交互任务中的空间推理建立了新范式。
叶子的技术碎碎念
2025/07/27
20
每周AI论文速递(250721-250725)
每周AI论文速递(240527-240531)
大型语言和视觉模型 (LLVMs) 的快速发展得益于视觉指令调优的进步。最近,开源的 LLVMs 整理了高质量的视觉指令调优数据集,并利用额外的视觉编码器或多个计算机视觉模型来缩小与强大的闭源 LLVMs 的性能差距。这些进步归因于多方面信息对多种能力的需求,包括基本的图像理解、关于常识和非对象概念(例如图表、图解、符号、标志和数学问题)的现实世界知识,以及解决复杂问题的逐步过程。基于多方面信息,我们提出了一种新的高效 LLVM,称为 Meteor,利用多方面推理来增强理解和回答能力。为了嵌入包含丰富信息的冗长推理,我们采用了 Mamba 架构,能够以线性时间复杂度处理顺序数据。我们引入了一种新的推理遍历概念,有助于高效地嵌入推理。随后,骨干多模态语言模型 (MLM) 通过推理生成答案进行训练。通过这些方法,Meteor 在多个需要多种能力的评估基准上实现了显著的视觉语言性能提升,而无需扩大模型规模或使用额外的视觉编码器和计算机视觉模型。
叶子的技术碎碎念
2025/04/08
850
每周AI论文速递(240527-240531)
论文解读:KAN: Kolmogorov–Arnold Networks
五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了ChatGPT才能勉强看完,这里我就从一个简单的科普角度来阅读这篇文章好了,建议感兴趣的同学还是完整的阅读下这篇文章,真的是个很有意思的思路。
叶子的技术碎碎念
2025/04/08
7560
论文解读:KAN: Kolmogorov–Arnold Networks
每周AI论文速递(240819-240823)
xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产生的 LMMs。xGen-MM,简称 xGen-MultiModal,是 Salesforce xGen 在基础 AI 模型领域倡议的扩展。我们的模型在包括单图像和多图像基准在内的多种任务上进行了严格的评估。我们的预训练基础模型展现了强大的情境学习能力,并且指令调整模型在相同模型大小的开源 LMMs 中展现了竞争性的性能。此外,我们引入了一个采用 DPO 进行安全调整的模型,旨在减少如幻觉等有害行为并增强安全性。我们开放了我们的模型、精心策划的大规模数据集以及我们的微调代码库,以推动 LMM 研究的进一步发展。相关资源将在我们的项目页面上提供。
叶子的技术碎碎念
2025/04/08
900
每周AI论文速递(240819-240823)
每周AI论文速递(240610-240614)
最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此,我们提出了一种新的方法,通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中,我们构建了一个分层的MoA架构,每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能,超过了GPT-4 Omni。例如,我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先,而GPT-4 Omni的得分为57.5%。
叶子的技术碎碎念
2025/04/08
990
每周AI论文速递(240610-240614)
每周AI论文速递(2506202-250606)
我们提出了一种基于自我反思和强化学习的大语言模型性能提升方法。当模型回答错误时,通过激励其生成更高质量的反思内容,我们证明即使无法合成训练数据且仅能获得二元反馈信号,模型解决复杂可验证任务的能力仍能得到显著提升。该框架包含两个阶段:(1) 任务失败时,模型需生成分析先前尝试的反思性文本;(2) 模型在获得反思内容后重新尝试解决该任务。若重试成功,则对反思阶段生成的Token(词元)给予奖励。实验结果显示,该方法在不同架构模型上均取得显著效果提升,其中数学方程编写任务提升达34.7%,函数调用任务提升18.1%。特别值得注意的是,经过微调的中小规模模型(15亿至70亿参数)表现优于同架构下参数规模大10倍的基准模型。这一创新范式为开发具备有限反馈条件下自我提升能力的语言模型提供了新思路,有望推动构建更实用可靠的大语言模型系统。
叶子的技术碎碎念
2025/06/09
1990
每周AI论文速递(2506202-250606)
每周AI论文速递(250331-250404)
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务执行能力的先进智能体的发展。随着这类智能体在 AI 研究和实际应用中的作用日益凸显,其设计、评估与持续改进过程也面临着多维度、高复杂度的挑战。本综述采用模块化的类脑架构框架,融合认知科学、神经科学与计算研究的核心原理,对智能体技术进行全面梳理。研究内容分为四个相互关联的部分:首先解析智能体的模块化基础架构,通过系统化映射其认知、感知与执行模块与人脑功能的对应关系,深入阐释记忆系统、世界模型、奖励机制及类情绪系统等核心组件;其次探讨智能体的自我增强与自适应进化机制,重点分析其通过自动化优化范式(包括新兴的 AutoML 和大语言模型驱动的优化策略)实现能力自主提升、动态环境适应与持续学习的方法;第三部分研究协作型进化多智能体系统,揭示智能体通过交互协作与社会化组织产生的群体智能,及其与人类社交行为的相似性;最后针对 AI 系统的安全性、可靠性及社会效益这一关键命题,系统分析内生与外源安全威胁、伦理对齐要求、系统鲁棒性保障等核心问题,提出确保实际部署可信度的有效缓解策略。
叶子的技术碎碎念
2025/04/08
2060
每周AI论文速递(250331-250404)
每周AI论文速递(241111-241115)
CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号,作为人类知识的载体,塑造了一个强大的跨模态表示空间,这是 CLIP 能力的核心。然而,随着 GPT-4 和 LLaMA 等大语言模型 LLM 的快速发展,语言理解和生成的边界不断被推动。这自然引出了一个问题:LLM 的能力能否被利用来进一步改进多模态表示学习?将 LLM 融入 CLIP 的潜在好处显而易见。LLM 强大的文本理解能力可以根本性地提升 CLIP 处理图像描述的能力,显著增强其处理长而复杂文本的能力,这是原始 CLIP 的一个明显短板。此外,LLM 是在大量文本语料库上训练的,拥有开放世界的知识。这使得它们在训练过程中能够扩展描述信息,从而提高学习过程的效率。在本文中,我们提出了 LLM2CLIP,一种利用 LLM 力量解锁 CLIP 潜力的新方法。通过在描述空间中使用对比学习对 LLM 进行微调,我们将其文本能力融入输出嵌入,显著提高了输出层的文本区分能力。然后,我们设计了一个高效的训练过程,其中微调后的 LLM 作为 CLIP 视觉编码器的强大教师。得益于 LLM 的存在,我们现在可以在不受原始 CLIP 文本编码器上下文窗口和能力限制的情况下,加入更长和更复杂的描述。我们的实验表明,这种方法在跨模态任务中带来了显著的改进。
叶子的技术碎碎念
2025/04/08
950
每周AI论文速递(241111-241115)
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
1020
每周AI论文速递(250113-250117)
好快!两篇KAN和时序预测结合的占坑文章
KAN出来之后,我最关注的还是其在时间序列领域的应用,果不其然,立马看到两篇占坑(中性词)文章。这篇文章不是对论文的深度解读,只是提供一个信息渠道。吐槽一下,大家的占坑速度实在太快,这两篇文章算是先把KAN与时序结合的好标题拿住了~~
科学最Top
2024/09/18
4530
好快!两篇KAN和时序预测结合的占坑文章
每周AI论文速递(250224-250228)
LLM-Microscope: 揭示 Transformer 上下文记忆中标点符号的隐藏作用
叶子的技术碎碎念
2025/04/08
840
每周AI论文速递(250224-250228)
每周AI论文速递(240916-240920)
基于拖拽的图像编辑因其交互性和精确性而最近受到青睐。然而,尽管文本到图像模型能够在几秒钟内生成样本,但拖拽编辑仍然落后,这是由于在保持图像内容的同时准确反映用户交互的挑战。一些现有方法依赖于计算密集型的每图像优化或复杂的基于引导的方法,需要额外的输入,如可移动区域的掩码和文本提示,从而降低了编辑过程的交互性。我们引入了 InstantDrag,一个无需优化的管道,提升了交互性和速度,只需要图像和拖拽指令作为输入。InstantDrag 包含两个精心设计的网络:一个拖拽条件的光流生成器 (FlowGen) 和一个光流条件扩散模型 (FlowDiffusion)。InstantDrag 通过将任务分解为运动生成和运动条件图像生成,在真实世界视频数据集上进行学习,从而学习基于拖拽的图像编辑的运动动态。我们通过在面部视频数据集和一般场景上的实验展示了 InstantDrag 快速、逼真编辑的能力,无需掩码或文本提示。这些结果突显了我们的方法在处理基于拖拽的图像编辑中的效率,使其成为交互式、实时应用的有前途的解决方案。
叶子的技术碎碎念
2025/04/08
840
每周AI论文速递(240916-240920)
每周AI论文速递(2506209-250613)
本研究提出强化预训练 (RPT) 作为大语言模型和强化学习 (RL) 的新型扩展方法。具体而言,我们将下一 token 预测重构为基于 RL 的推理任务,模型通过正确预测给定上下文的下一 token 来获得可验证奖励。RPT 提供了一种可扩展方案,能够利用海量文本数据实现通用强化学习,而无需依赖特定领域的标注数据。通过提升下一 token 推理能力,RPT 显著提高了语言模型在 token 预测任务上的准确性。此外,RPT 为后续强化微调提供了优质的预训练基础。缩放曲线显示,增加训练计算量能持续提升下一 token 预测准确率。实验结果证明,RPT 是推进语言模型预训练的一种高效且具有前景的扩展方案。
叶子的技术碎碎念
2025/06/16
1400
每周AI论文速递(2506209-250613)
五一假期,您可能忽略的最新研究进展:涉及大模型Agent、多模态、图神经网络、SLM等!
五一假期转瞬即逝,明天又要投入到紧张而充实的工作学习中了。假期的最后一天,作者总结了假期期间一些优秀的学术成果,供大家学习交流。这些论文不仅涵盖了多模态、大模型Agent、移动设备神经网络、小模型研究、图网络推荐、大模型效率提升等方向,还充满了新颖的观点和深刻的见解。
ShuYini
2024/05/06
5570
五一假期,您可能忽略的最新研究进展:涉及大模型Agent、多模态、图神经网络、SLM等!
每周AI论文速递(250120-250124)
我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolution 在自然语言规划任务中显著优于其他推理策略,如 Best-of-N 和 Sequential Revision。在 TravelPlanner 和 Natural Plan 基准测试中,Mind Evolution 使用 Gemini 1.5 Pro 解决了超过 98% 的问题实例,且无需使用形式化求解器。
叶子的技术碎碎念
2025/04/08
1340
每周AI论文速递(250120-250124)
每周AI论文速递(240930-241004)
尽管下一个 Token 预测被视为通向人工通用智能的有力途径,但在多模态任务中,它一直难以超越扩散模型(如 Stable Diffusion)和组合方法(如 CLIP 与大语言模型的结合)。本文中,我们推出了 Emu3,这是一系列仅通过下一个 Token 预测训练的尖端多模态模型。通过将图像、文本和视频 Token 化为离散空间,我们在多模态序列混合上从头训练了一个单一的 Transformer。Emu3 在生成和感知任务中超越了多个已有的任务特定模型,包括 SDXL 和 LLaVA-1.6 等旗舰模型,同时无需扩散或组合架构。Emu3 还能通过预测视频序列中的下一个 Token 生成高保真视频。我们通过专注于 Token 这一核心,简化了多模态模型的设计,释放了在训练和推理中扩展的巨大潜力。我们的研究结果表明,下一个 Token 预测是构建超越语言的通用多模态智能的有力途径。我们开源了关键技术和模型,以推动这一领域的深入研究。
叶子的技术碎碎念
2025/04/08
720
每周AI论文速递(240930-241004)
每周AI论文速递(240729-240802)
https://github.com/careywyr/AI-Weekly-Paper
叶子的技术碎碎念
2025/04/08
1010
每周AI论文速递(240729-240802)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
1140
每周AI论文速递(241216-241220)
每周AI论文速递(241028-241101)
视觉-语言模型 (Vision-language models, VLMs) 在多模态任务中表现出色,但将其应用于开放世界环境中的具身决策仍面临挑战。主要难点在于如何将低级观察中的个体实体与规划所需的抽象概念有效关联。常见的解决方案是采用分层智能体,其中 VLMs 作为高级推理器,将任务分解为可执行的子任务,通常通过语言和虚拟观察来指定。然而,语言在传达空间信息方面往往力不从心,而生成高准确性的未来图像仍具挑战。为此,我们提出了视觉-时间上下文提示,这是一种 VLMs 与策略模型之间的新型通信协议。该协议利用过去和当前观察中的对象分割来指导策略与环境的交互。基于此,我们训练了 ROCKET-1,一个根据连接的视觉观察和分割掩码预测动作的低级策略,实时对象跟踪由 SAM-2 提供。我们的方法充分发挥了 VLMs 的视觉-语言推理能力,使其能够解决复杂的创造性任务,特别是那些高度依赖空间理解的任务。在 Minecraft 中的实验表明,我们的方法使智能体能够完成以往难以完成的任务,突显了视觉-时间上下文提示在具身决策中的有效性。代码和演示将在项目页面上提供:https://craftjarvis.github.io/ROCKET-1。
叶子的技术碎碎念
2025/04/08
940
每周AI论文速递(241028-241101)
每周AI论文速递(240923-240927)
扩散模型在多种图像生成任务中表现出色。本研究中,我们推出了“想象你自己”,一种无需调优的个性化图像生成模型。与依赖调优的传统方法不同,“想象你自己”允许所有用户共享同一框架,无需个体调整。此前,模型在身份保持、复杂提示遵循和视觉质量之间难以平衡,常导致对参考图像的过度依赖,难以生成需要大幅改变参考图像的图像,如改变表情、姿态等,且生成图像的多样性有限。为此,我们提出了1) 新的合成配对数据生成机制以增强多样性,2) 包含三个文本编码器和可训练视觉编码器的全并行注意力架构,以提升文本忠实度,以及3) 从粗到细的多阶段微调策略,逐步提升视觉质量。实验表明,“想象你自己”在身份保持、视觉质量和文本对齐方面均优于现有最先进模型,为个性化应用奠定了坚实基础。人类评估结果显示,该模型在身份保持、文本忠实度和视觉吸引力方面均优于以往模型。
叶子的技术碎碎念
2025/04/08
1190
每周AI论文速递(240923-240927)
相关推荐
每周AI论文速递(250721-250725)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档