Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >每周AI论文速递(240715-240719)

每周AI论文速递(240715-240719)

作者头像
叶子的技术碎碎念
发布于 2025-04-08 13:52:17
发布于 2025-04-08 13:52:17
920
举报

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

SpreadsheetLLM:优化大语言模型处理电子表格的能力 电子表格因其广泛的双维网格、多样化的布局和格式选项,给大语言模型(LLMs)带来了显著挑战。为此,我们推出了SpreadsheetLLM,这是一种创新的编码方法,旨在充分发挥和优化LLMs在电子表格上的理解和推理能力。我们首先提出了一种包含单元格地址、值和格式的朴素序列化方法。然而,由于LLMs的Token限制,这种方法在实际应用中并不实用。为了解决这一问题,我们开发了SheetCompressor,这是一个创新的编码框架,专门用于有效压缩电子表格以适应LLMs。该框架包括三个模块:基于结构锚点的压缩、逆索引转换和数据格式感知的聚合。实验表明,在GPT4的上下文学习环境中,SheetCompressor在电子表格检测任务中的性能比朴素方法提高了25.6%。此外,经过SheetCompressor微调的LLM平均压缩比达到25倍,同时实现了78.9%的F1分数,超越了现有最佳模型的12.3%。最后,我们提出了电子表格链,用于电子表格理解的下游任务,并在一个新的、要求较高的电子表格QA任务中进行了验证。我们系统地利用了电子表格的固有布局和结构,证明了SpreadsheetLLM在多种电子表格任务中都非常有效。

Human-like Episodic Memory for Infinite Context LLMs

Human-like Episodic Memory for Infinite Context LLMs 大语言模型 (LLMs) 虽然已展现出卓越的能力,但在处理广泛上下文时仍显不足,这限制了它们在长序列中保持连贯性和准确性的能力。相比之下,人脑在组织和检索跨越一生的情节体验方面表现出色。本研究中,我们提出了 EM-LLM,这是一种创新方法,将人类情节记忆和事件认知的关键特性融入 LLMs,使其能够高效处理近乎无限的上下文长度,同时保持计算效率。EM-LLM 通过实时结合贝叶斯惊奇和图论边界细化,将 Token 序列组织成连贯的情节事件。在需要时,这些事件通过结合基于相似性和时间连续性的两阶段记忆检索过程进行访问,从而实现高效且类人的信息检索。LongBench 数据集上的实验显示,EM-LLM 的性能超越了当前最先进的 InfLLM 模型,整体性能相对提升 4.3%,其中在 PassageRetrieval 任务上提升了 33%。此外,我们的分析表明 EM-LLM 的事件分割与人类感知事件高度相关,这表明人工系统与生物系统之间存在联系。这项研究不仅增强了 LLM 处理扩展上下文的能力,还为探索人类记忆机制提供了一个计算框架,为 AI 和认知科学的跨学科研究开辟了新方向。

Toto: Time Series Optimized Transformer for Observability

Toto: 时间序列优化的 Transformer 在可观测性中的应用 本技术报告介绍了由 Datadog 开发的 Toto,这是一种新的时间序列预测领域最先进的基础模型,专门针对可观测性指标进行了优化。Toto 不仅在电力和天气等领域的广义时间序列基准测试中推进了最先进水平,而且是首个为可观测性指标量身定制的通用时间序列预测基础模型。 Toto 在一个包含一万亿时间序列数据点的数据集上进行了训练,这一规模在目前已发布的时间序列基础模型中是最大的。训练数据中,除了公开可用的时间序列数据集外,75% 的数据来自 Datadog 平台提供的完全匿名的数值指标数据点。 实验结果显示,Toto 在可观测性数据上超越了现有的时间序列基础模型。同时,它在通用预测任务中也表现卓越,在多个开放基准数据集上实现了最先进的零样本性能。

Qwen2 Technical Report

Qwen2技术报告 本报告介绍了Qwen2系列,这是我们最新加入的大语言模型和大多模态模型。我们发布了一套全面的基础和指令调优语言模型,涵盖了从0.5亿到72亿参数的范围,包括密集模型和专家混合模型。Qwen2超越了大多数先前的开放权重模型,包括其前身Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等多个基准上与专有模型相比展现出竞争性能。 旗舰模型Qwen2-72B展示了卓越的性能:MMLU上84.2,GPQA上37.9,HumanEval上64.6,GSM8K上89.5,BBH上82.4。指令调优变体Qwen2-72B-Instruct在MT-Bench上9.1,Arena-Hard上48.1,LiveCodeBench上35.7。此外,Qwen2展示了强大的多语言能力,精通约30种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。 为了促进社区创新和可访问性,我们已在Hugging Face和ModelScope上公开了Qwen2模型权重,以及GitHub上的示例代码等补充材料。这些平台还包括量化、微调和部署的资源,便于广泛的应用和研究工作。

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

学习拒绝:大语言模型隐私风险缓解策略 大语言模型 (LLMs) 在自然语言理解和生成方面表现出色。然而,这些模型可能无意中记忆私人信息,从而引发严重的隐私问题。本研究针对如何在不完全重新训练的情况下,使 LLMs 能够保护特定个体的私人数据这一挑战进行了探讨。我们提出了 Return 数据集,该数据集包含 2,492 名来自 Wikipedia 的个体及其相关的 QA 对,旨在评估在真实场景中保护个人数据的机器遗忘 (MU) 方法。此外,我们引入了名字感知遗忘框架 (NAUF) 用于隐私保护,该框架使模型能够识别并保护特定个体的信息,同时不影响其对其他无关个体问题的回答能力。我们的实验结果显示,NAUF 在平均遗忘分数上达到了行业领先水平,较最佳基线方法提升了 5.65 分,有效地保护了目标个体的个人数据,同时维持了模型的整体性能。

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

NeedleBench: 大语言模型能否在百万级上下文窗口中进行检索与推理? 在评估大语言模型的长上下文能力时,从原始长文档中识别与用户查询相关的内容是任何大语言模型基于长文本回答问题的关键前提。我们提出了NeedleBench框架,该框架包含一系列逐步更具挑战性的任务,用于评估双语长上下文能力,涵盖多个长度区间(4k、8k、32k、128k、200k、1000k及以上)和不同深度范围,允许在不同文本深度区域战略性插入关键数据点,以严格测试模型在多样上下文中的检索和推理能力。我们使用NeedleBench框架来评估领先的开源模型在双语长文本中识别与问题相关的关键信息并应用这些信息进行推理的能力。此外,我们提出了祖先追踪挑战(Ancestral Trace Challenge, ATC),以模拟现实世界长上下文任务中可能存在的复杂逻辑推理挑战,提供了一种简单的方法来评估大语言模型在处理复杂长上下文情况下的表现。我们的结果表明,当前的大语言模型在实际长上下文应用中仍有显著改进空间,因为它们在处理可能存在于现实世界长上下文任务中的复杂逻辑推理挑战时遇到困难。所有代码和资源可在OpenCompass上获取:https://github.com/open-compass/opencompass。

Qwen2-Audio Technical Report

Qwen2-音频技术报告 我们介绍了Qwen-音频的最新进展,这是一个大规模的音频-语言模型,称为Qwen2-音频,它能够接受各种音频信号输入,并执行音频分析或直接根据语音指令进行文本响应。与使用复杂的层次标签不同,我们通过利用不同数据和任务的自然语言提示简化了预训练过程,并进一步扩大了数据量。我们增强了Qwen2-音频的指令遵循能力,并实现了两种不同的音频交互模式,用于语音聊天和音频分析。在语音聊天模式中,用户可以自由地与Qwen2-音频进行语音交互,无需文本输入。在音频分析模式中,用户可以在交互过程中提供音频和文本指令进行分析。我们并未使用系统提示来切换语音聊天和音频分析模式。Qwen2-音频能够智能地理解音频中的内容,并根据语音命令做出适当的响应。例如,在包含声音、多说话者对话及语音命令的音频片段中,Qwen2-音频能直接理解命令并作出相应解释和响应。此外,DPO在事实性和遵循期望行为方面优化了模型的性能。根据AIR-Bench的评估结果,Qwen2-音频在以音频为中心的指令遵循能力测试中优于之前的领先技术,如Gemini-1.5-pro。Qwen2-音频是开源的,旨在促进多模态语言社区的发展。

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

Spectra: 三元、量化及FP16语言模型的综合研究 后训练量化(post-training quantization)是解决大语言模型(LLM)推理中内存瓶颈的主要方法,但遗憾的是,它在4位精度以下会遭受显著的性能下降。另一种方法是直接在低比特宽度(例如,二进制或三元模型)上训练压缩模型。然而,这类模型的性能、训练动态及扩展趋势尚未被充分理解。为此,我们训练并公开发布了包含54个语言模型的Spectra LLM套件,参数范围从99M到3.9B,训练于300B Token上。Spectra包括FloatLMs、后训练量化QuantLMs(3、4、6和8位)以及三元LLMs(TriLMs)——我们针对三元语言建模改进的架构,显著优于先前提出的同尺寸(以比特计)三元模型,在大规模上匹配半精度模型。例如,TriLM 3.9B在比特宽度上小于半精度FloatLM 830M,但在常识推理和知识基准测试中与半精度FloatLM 3.9B相当。然而,TriLM 3.9B在毒性和刻板印象方面与尺寸大六倍的FloatLM 3.9B相当。此外,TriLM 3.9B在验证集和基于网络的语料库上的困惑度落后于FloatLM,但在如Lambada和PennTreeBank这类噪声较小的数据集上表现更好。 为了加深对低比特宽度模型的理解,我们正在发布500+ Spectra套件的中间检查点,网址为https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}。

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

AgentPoison: 针对大语言模型智能体的记忆与知识库毒化红队测试 大语言模型智能体因其卓越的推理能力、外部知识与工具的运用、API调用及与环境的互动执行,在多领域应用中表现突出。这些智能体普遍采用记忆模块或检索增强生成(RAG)机制,从知识库中提取过往知识和相似嵌入实例,以支持任务规划与执行。然而,对未经核实的知识库的依赖,引发了对其安全性和可靠性的严重担忧。为揭示此类隐患,我们提出了一种创新的红队测试方法——AgentPoison,这是首个通过毒化长期记忆或RAG知识库,针对通用及基于RAG的大语言模型智能体实施的后门攻击。具体来说,我们将触发器生成过程构建为一个约束优化问题,通过将触发实例映射至特定嵌入空间,优化后门触发器,确保用户指令一旦包含此触发器,恶意演示能高概率从毒化记忆或知识库中被检索。同时,不含触发器的正常指令性能不受影响。与传统后门攻击不同,AgentPoison无需额外模型训练或微调,其优化触发器展现出高度的可迁移性、上下文一致性和隐蔽性。广泛实验表明,AgentPoison对三种实际大语言模型智能体——基于RAG的自动驾驶智能体、知识密集型问答智能体及医疗健康EHRAgent——的攻击效果显著。在各智能体上,AgentPoison平均攻击成功率超过80%,对正常性能影响极小(低于1%),毒化率低于0.1%。

GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

GoldFinch:高性能 RWKV/Transformer 混合模型,实现线性预填充与极致 KV-缓存压缩 我们推出 GoldFinch,一种结合线性注意力与 Transformer 的序列模型,通过创新技术在时间与空间上实现线性复杂度,高效生成高度压缩且可重用的 KV-缓存。GoldFinch 将新型 GOLD Transformer 架构叠加于增强版 Finch (RWKV-6) 之上。我们训练了规模达 1.5B 参数的 Finch、Llama 及 GoldFinch 模型,发现其建模性能较 Finch 和 Llama 有显著提升。缓存节省量随模型层数线性增长,常见尺寸下比传统 Transformer 缓存小 756-2550 倍,使得即使在资源受限的硬件上也能进行超长上下文推理。尽管自回归生成因注意力机制每个 Token 需 O(n) 时间,但通过循环神经网络 (RNN) 预填充初始缓存状态仅需每个 Token O(1) 时间。我们依据 Apache 2.0 许可证发布训练权重与代码,供社区使用。

E5-V: Universal Embeddings with Multimodal Large Language Models

E5-V: 多模态大语言模型的通用嵌入 多模态大语言模型 (MLLMs) 在通用视觉和语言理解方面展示了有前景的进展。然而,使用 MLLMs 表示多模态信息的方法仍然很大程度上未被探索。在这项工作中,我们引入了一个新的框架,E5-V,旨在使 MLLMs 实现通用多模态嵌入。我们的研究发现,与先前的方法相比,MLLMs 在表示多模态输入方面具有显著潜力。通过利用带有提示的 MLLMs,E5-V 有效地弥合了不同类型输入之间的模态差距,即使在未进行微调的情况下,也展示了强大的多模态嵌入性能。我们为 E5-V 提出了一种单一模态训练方法,其中模型仅在文本对上进行训练。这种方法在图像-文本对的传统多模态训练上显示出显著的改进,同时将训练成本降低了约 95%。此外,这种方法消除了对昂贵的多模态训练数据收集的需求。在四种类型任务上的广泛实验证明了 E5-V 的有效性。作为一个通用多模态模型,E5-V 不仅达到了而且在许多情况下超过了每个任务的最新性能,尽管它是在单一模态上训练的。

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

词汇量扩展定律:更大模型值得更大词汇量 大语言模型 (LLMs) 的扩展研究主要集中在模型参数和训练数据大小上,忽视了词汇量大小的重要性。直观上,更大的词汇量通过用更少的 Token 表示句子来实现更高效的 Tokenization,但同时也增加了对罕见 Token 表示不足的风险。我们通过在多达 500B 字符的数据上训练从 33M 到 3B 参数的模型,并采用不同的词汇配置,来研究词汇量对 LLM 扩展定律的影响。我们提出了三种互补的方法来预测计算最优的词汇量大小:IsoFLOPs 分析、导数估计和损失函数的参数拟合。这些方法一致认为,最优词汇量大小取决于可用的计算预算,并且更大模型值得更大词汇量。然而,大多数 LLM 使用的词汇量过小。例如,我们预测 Llama2-70B 的最优词汇量应至少为 216K,远超其当前的 32K 词汇量。我们通过在不同 FLOPs 预算下训练 3B 参数的模型来实证验证我们的预测。采用我们预测的最优词汇量持续改善了下游性能,相比于常用词汇量。通过将传统 32K 词汇量增加到 43K,我们在相同的 2.3e21 FLOPs 下将 ARC-Challenge 的性能从 29.1 提升到 32.0。我们的工作强调了在高效扩展时联合考虑模型参数和词汇量的必要性。

你好,我是叶子,7年Java开发老司机,待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD,但现在工作重心逐渐往中间件开发转移。喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 叶子的技术碎碎念 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
每周AI论文速递(250217-250221)
自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布,参数化由一个普通的 Transformer 来预测被掩码的 Token。通过优化似然下界,它为概率推理提供了一种有原则的生成方法。在广泛的基准测试中,LLaDA 表现出强大的可扩展性,优于我们自建的 ARM 基线。值得注意的是,LLaDA 8B 在上下文学习中与 LLaMA3 8B 等强大的 LLMs 表现相当,并且在 SFT 后,在多轮对话等案例研究中展示了令人印象深刻的指令跟随能力。此外,LLaDA 解决了反转诅咒问题,在反转诗歌补全任务中超越了 GPT-4o。我们的研究结果表明,扩散模型是 ARMs 的一个可行且有前途的替代方案,质疑了上述关键 LLM 能力本质上与 ARMs 相关的假设。
叶子的技术碎碎念
2025/04/08
1110
每周AI论文速递(250217-250221)
每周AI论文速递(240916-240920)
基于拖拽的图像编辑因其交互性和精确性而最近受到青睐。然而,尽管文本到图像模型能够在几秒钟内生成样本,但拖拽编辑仍然落后,这是由于在保持图像内容的同时准确反映用户交互的挑战。一些现有方法依赖于计算密集型的每图像优化或复杂的基于引导的方法,需要额外的输入,如可移动区域的掩码和文本提示,从而降低了编辑过程的交互性。我们引入了 InstantDrag,一个无需优化的管道,提升了交互性和速度,只需要图像和拖拽指令作为输入。InstantDrag 包含两个精心设计的网络:一个拖拽条件的光流生成器 (FlowGen) 和一个光流条件扩散模型 (FlowDiffusion)。InstantDrag 通过将任务分解为运动生成和运动条件图像生成,在真实世界视频数据集上进行学习,从而学习基于拖拽的图像编辑的运动动态。我们通过在面部视频数据集和一般场景上的实验展示了 InstantDrag 快速、逼真编辑的能力,无需掩码或文本提示。这些结果突显了我们的方法在处理基于拖拽的图像编辑中的效率,使其成为交互式、实时应用的有前途的解决方案。
叶子的技术碎碎念
2025/04/08
640
每周AI论文速递(240916-240920)
每周AI论文速递(250224-250228)
LLM-Microscope: 揭示 Transformer 上下文记忆中标点符号的隐藏作用
叶子的技术碎碎念
2025/04/08
550
每周AI论文速递(250224-250228)
每周AI论文速递(250127-250131)
基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而,这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%,这限制了对先进 LLM 能力的有根据测量。作为回应,我们介绍了“人类的最终考试”(HLE),这是一个多模式基准测试,在人类知识前沿设计,旨在成为同类中最后的封闭式学术基准测试,涵盖广泛的主题。 HLE 包含 3,000 个问题,跨越数十个学科,包括数学、人文学科和自然科学。HLE 由全球主题专家开发,包含适合自动化评分的多项选择题和简答题。每个问题都有一个已知的明确且易于验证的解决方案,但无法通过快速互联网检索获得答案。 先进的 LLMs 在 HLE 上表现出低准确性和校准度,突显了当前 LLM 能力与专家人类前沿之间的显著差距,在封闭式学术问题上的表现存在巨大差异。为了基于对模型能力的清晰理解来指导研究和政策制定,我们公开发布了 HLE,地址为https://lastexam.ai。
叶子的技术碎碎念
2025/04/08
520
每周AI论文速递(250127-250131)
每周AI论文速递(240701-240705)
我们提出了一种新颖的以角色驱动的数据合成方法,该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法,我们引入了Persona Hub——一个从网络数据中自动整理的包含10亿个不同角色的集合。这10亿个角色(约占世界总人口的13%),作为世界知识的载体,分布在各处,可以利用LLM中几乎所有的视角,从而在各种场景下促进大规模多样化合成数据的创建。通过展示Persona Hub在大规模合成高质量数学和逻辑推理问题、指令(即用户提示)、知识丰富的文本、游戏NPC和工具(函数)方面的应用案例,我们展示了角色驱动的数据合成的多功能性、可扩展性、灵活性和易用性,这可能推动合成数据创建和应用实践中的范式转变,并可能对LLM的研究和发展产生深远影响。
叶子的技术碎碎念
2025/04/08
770
每周AI论文速递(240701-240705)
每周AI论文速递(250324-250328)
大语言模型 (LLMs) 在自然语言处理领域取得了突破性进展。近期研究推动了一类新型推理大语言模型的发展:例如,开源模型 DeepSeek-R1 通过融合深层语义理解与复杂逻辑推理,实现了当前最优性能。尽管这些能力表现卓越,其内部推理机制仍缺乏系统性研究。本文采用稀疏自编码器 (SAEs) —— 一种将神经网络潜在表征解耦为稀疏可解释特征的技术,用于识别 DeepSeek-R1 系列模型中的核心推理特征。我们首先提出从 SAE 表征中提取候选“推理特征”的方法,并通过实证分析与可解释性技术验证这些特征与模型推理能力的直接关联。关键贡献在于,通过调控这些特征可显著提升推理性能,首次为大语言模型的推理机制提供了可解释性论证。代码发布于 https://github.com/AIRI-Institute/SAE-Reasoning
叶子的技术碎碎念
2025/04/08
880
每周AI论文速递(250324-250328)
每周AI论文速递(240902-240906)
科学文献理解对于提取目标信息和获得洞察力至关重要,从而显著推进科学发现。尽管大语言模型 (LLMs) 取得了显著的成功,但它们在理解科学文献方面面临挑战,主要是因为 (1) 缺乏科学知识,以及 (2) 不熟悉专门的科学任务。
叶子的技术碎碎念
2025/04/08
510
每周AI论文速递(240902-240906)
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
860
每周AI论文速递(250210-250214)
每周AI论文速递(241021-241025)
本文介绍了 UCFE: 用户中心化金融专业知识基准,这是一个创新框架,旨在评估大语言模型 (LLMs) 处理复杂现实世界金融任务的能力。UCFE 基准采用了一种混合方法,结合了人类专家评估与动态、任务特定的交互,以模拟不断变化的金融场景的复杂性。首先,我们进行了一项涉及 804 名参与者的用户研究,收集了他们对金融任务的反馈。其次,基于这些反馈,我们创建了一个涵盖广泛用户意图和交互的数据集。该数据集作为基础,用于使用 LLM-as-Judge 方法对 12 个 LLM 服务进行基准测试。结果显示,基准分数与人类偏好之间存在显著的一致性,Pearson 相关系数为 0.78,证实了 UCFE 数据集和我们的评估方法的有效性。UCFE 基准不仅揭示了 LLMs 在金融领域的潜力,还提供了一个强大的框架,用于评估其性能和用户满意度。基准数据集和评估代码已公开。
叶子的技术碎碎念
2025/04/08
490
每周AI论文速递(241021-241025)
每周AI论文速递(240826-240830)
视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上尚未形成共识。本文旨在作为构建 VLM 的实践指南。我们首先概述了当前最先进方法的优缺点,探讨了领域内主要挑战,并指出了未充分探索领域的潜在研究方向。随后,我们详细阐述了构建 Idefics3-8B 的过程,该模型在性能上大幅领先于前代 Idefics2-8B,且高效地仅利用开放数据集进行训练,流程简洁明了。这一过程中,我们创建了 Docmatix 数据集,旨在增强文档理解能力,其规模达到了先前数据集的 240 倍。我们同时发布了该模型及其训练所用的数据集。
叶子的技术碎碎念
2025/04/08
1100
每周AI论文速递(240826-240830)
每周AI论文速递(241007-241011)
大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中,我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法,该算法通过整数加法操作来近似浮点数乘法。新算法在计算资源消耗上显著低于 8 位浮点乘法,但精度更高。与 8 位浮点乘法相比,所提出的方法在精度上更高,但在位级计算上消耗显著更少。由于浮点数乘法所需的能量远高于整数加法操作,因此在张量处理硬件中应用 L-Mul 操作,通过逐元素浮点张量乘法可以潜在地减少 95% 的能量成本,点积的能量成本可以减少 80%。我们计算了 L-Mul 的理论误差期望,并在广泛的文本、视觉和符号任务中评估了该算法,包括自然语言理解、结构推理、数学和常识问答。我们的数值分析实验与理论误差估计一致,表明具有 4 位尾数的 L-Mul 可以达到与 float8_e4m3 乘法相当的精度,而具有 3 位尾数的 L-Mul 优于 float8_e5m2。在流行基准上的评估结果显示,直接将 L-Mul 应用于注意力机制几乎是无损的。我们进一步展示,在 Transformer 模型中用 3 位尾数的 L-Mul 替换所有浮点乘法,在微调和推理中均能达到与使用 float8_e4m3 作为累加精度相同的精度。
叶子的技术碎碎念
2025/04/08
830
每周AI论文速递(241007-241011)
每周AI论文速递(241216-241220)
尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类模型的高计算成本,加上有限的开放研究,阻碍了视频-LMM 的发展。为解决这一问题,我们进行了一项全面研究,旨在揭示有效驱动 LMM 中视频理解的因素。 我们首先批判性地审视了与视频-LMM 研究相关的高计算需求的主要贡献因素,并发现了规模一致性 (Scaling Consistency),即在较小模型和数据集 (达到临界规模) 上做出的设计和训练决策能有效迁移到更大模型上。基于这些见解,我们探索了视频-LMM 的许多视频特定方面,包括视频采样、架构、数据组成、训练计划等。例如,我们证明了训练期间的 fps (frames per second) 采样远优于均匀帧采样,并确定了哪些视觉编码器最适合视频表示。 在这些发现指导下,我们引入了 Apollo,这是一系列在不同模型规模上实现卓越性能的先进 LMM。我们的模型能够高效感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的分数超越了大多数现有 7B 模型。Apollo-7B 在与 7B LMM 的比较中处于领先地位,在 MLVU 上获得 70.9 分,在 Video-MME 上获得 63.3 分。
叶子的技术碎碎念
2025/04/08
810
每周AI论文速递(241216-241220)
每周AI论文速递(241014-241018)
GPT-4o 在多模态能力和交互体验方面的显著表现,使其在实际应用中扮演了重要角色,但目前尚无高性能的开源替代方案。本文中,我们推出了 Baichuan-Omni,这是首个开源的 7B 多模态大语言模型 (MLLM),能够同时处理和分析图像、视频、音频和文本,并提供卓越的多模态交互体验和强劲性能。我们设计了一种高效的多模态训练策略,从 7B 模型出发,通过多模态对齐和跨模态多任务微调两个阶段,使模型能够有效处理视觉和音频数据。在多项全模态和多模态基准测试中表现出色,我们希望这一成果能成为开源社区在推动多模态理解和实时交互领域的有力基石。
叶子的技术碎碎念
2025/04/08
1070
每周AI论文速递(241014-241018)
每周AI论文速递(250421-250425)
Kuwain 1.5B:通过语言注入(Language Injection)构建的阿拉伯语小型语言模型(Small Language Model)
叶子的技术碎碎念
2025/04/28
1410
每周AI论文速递(250421-250425)
每周AI论文速递(250331-250404)
大语言模型 (Large Language Models, LLMs) 的出现引发了人工智能领域的变革,推动了一系列具备复杂推理能力、强健感知能力和跨领域多任务执行能力的先进智能体的发展。随着这类智能体在 AI 研究和实际应用中的作用日益凸显,其设计、评估与持续改进过程也面临着多维度、高复杂度的挑战。本综述采用模块化的类脑架构框架,融合认知科学、神经科学与计算研究的核心原理,对智能体技术进行全面梳理。研究内容分为四个相互关联的部分:首先解析智能体的模块化基础架构,通过系统化映射其认知、感知与执行模块与人脑功能的对应关系,深入阐释记忆系统、世界模型、奖励机制及类情绪系统等核心组件;其次探讨智能体的自我增强与自适应进化机制,重点分析其通过自动化优化范式(包括新兴的 AutoML 和大语言模型驱动的优化策略)实现能力自主提升、动态环境适应与持续学习的方法;第三部分研究协作型进化多智能体系统,揭示智能体通过交互协作与社会化组织产生的群体智能,及其与人类社交行为的相似性;最后针对 AI 系统的安全性、可靠性及社会效益这一关键命题,系统分析内生与外源安全威胁、伦理对齐要求、系统鲁棒性保障等核心问题,提出确保实际部署可信度的有效缓解策略。
叶子的技术碎碎念
2025/04/08
1590
每周AI论文速递(250331-250404)
每周AI论文速递(240624-240628)
在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计使得检索器必须在庞大的语料库中找到“针”一样的小单元。相比之下,阅读器只需从这些短小的检索单元中提取答案。这种不平衡的“重”检索器和“轻”阅读器设计可能导致次优的性能。为了缓解这种不平衡,我们提出了一种新的框架 LongRAG,它包含一个“长检索器”和一个“长阅读器”。LongRAG 将整个 Wikipedia 处理成 4K-token 的单元,比之前增加了30倍。通过增加单元的大小,我们将总单元数从 2200 万显著减少到 70 万。这显著降低了检索器的负担,从而带来了显著的检索性能提升:在 NQ 数据集上,答案召回率@1达到了71%(之前为52%),在 HotpotQA(全维基)上,答案召回率@2达到了72%(之前为47%)。然后,我们将前k个检索到的单元(大约 30K tokens)输入到现有的长上下文大语言模型 (LLM) 中进行零样本回答抽取。在不需要任何训练的情况下,LongRAG 在 NQ 数据集上的 EM 达到了62.7%,这是已知的最佳结果。LongRAG 在 HotpotQA(全维基)上也达到了64.3%,与目前的最优模型相当。我们的研究为将 RAG 与长上下文大语言模型结合的未来发展方向提供了宝贵的见解。
叶子的技术碎碎念
2025/04/08
470
每周AI论文速递(240624-240628)
每周AI论文速递(241111-241115)
CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号,作为人类知识的载体,塑造了一个强大的跨模态表示空间,这是 CLIP 能力的核心。然而,随着 GPT-4 和 LLaMA 等大语言模型 LLM 的快速发展,语言理解和生成的边界不断被推动。这自然引出了一个问题:LLM 的能力能否被利用来进一步改进多模态表示学习?将 LLM 融入 CLIP 的潜在好处显而易见。LLM 强大的文本理解能力可以根本性地提升 CLIP 处理图像描述的能力,显著增强其处理长而复杂文本的能力,这是原始 CLIP 的一个明显短板。此外,LLM 是在大量文本语料库上训练的,拥有开放世界的知识。这使得它们在训练过程中能够扩展描述信息,从而提高学习过程的效率。在本文中,我们提出了 LLM2CLIP,一种利用 LLM 力量解锁 CLIP 潜力的新方法。通过在描述空间中使用对比学习对 LLM 进行微调,我们将其文本能力融入输出嵌入,显著提高了输出层的文本区分能力。然后,我们设计了一个高效的训练过程,其中微调后的 LLM 作为 CLIP 视觉编码器的强大教师。得益于 LLM 的存在,我们现在可以在不受原始 CLIP 文本编码器上下文窗口和能力限制的情况下,加入更长和更复杂的描述。我们的实验表明,这种方法在跨模态任务中带来了显著的改进。
叶子的技术碎碎念
2025/04/08
780
每周AI论文速递(241111-241115)
AI论文速读 | 立场观点:多模态大模型赋能时间序列推理
论文标题:Position: Empowering Time Series Reasoning with Multimodal LLMs
时空探索之旅
2025/02/18
1570
AI论文速读 | 立场观点:多模态大模型赋能时间序列推理
每周AI论文速递(241209-241213)
我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进多模态大语言模型 (MLLM) 系列,保留了其核心架构,同时在训练和测试策略以及数据质量上进行了显著改进。本文深入研究了模型扩展与性能的关系,系统地分析了视觉编码器、语言模型、数据集规模及测试时配置对性能的影响。通过在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力及纯语言处理等广泛基准上的全面评估,InternVL 2.5 展现出与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美的竞争力。特别地,我们的模型在 MMMU 基准上首次突破 70%,通过链式推理 (CoT) 提升了 3.7 个百分点,并展示了强大的测试时扩展潜力。我们期待该模型为开源社区在多模态 AI 系统的开发与应用上树立新标杆。HuggingFace 演示见 https://huggingface.co/spaces/OpenGVLab/InternVL
叶子的技术碎碎念
2025/04/08
830
每周AI论文速递(241209-241213)
每周AI论文速递(250106-250110)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
叶子的技术碎碎念
2025/04/08
780
每周AI论文速递(250106-250110)
相关推荐
每周AI论文速递(250217-250221)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档