首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >字节开源“记忆大师”:M3-Agent,多模态Agent如何像人类一样“记住”一切?

字节开源“记忆大师”:M3-Agent,多模态Agent如何像人类一样“记住”一切?

作者头像
AgenticAI
发布2025-08-25 09:55:14
发布2025-08-25 09:55:14
6030
举报
文章被收录于专栏:AgenticAIAgenticAI

大家好,我是 Agentic AI!想象一下,未来的家用机器人能记住你的咖啡偏好、家庭生日,甚至推断你的性格?这不是科幻,而是字节跳动 Seed 团队推出的新鲜论文《Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory[1]》中 M3-Agent 框架的愿景。论文的核心是构建一个能“见、听、记、理”的 Agent 系统,让 AI 像人类一样积累长期记忆,并基于此进行复杂推理,代码已经开源。如果你对 AI Agent、机器人,构建长期记忆系统感兴趣,一起来拆解这篇前沿之作!

1. 论文背景

先来点背景知识。传统的 AIAgent(如 ChatGPT)大多依赖短期上下文,处理长序列数据时容易“健忘”。想象一个家用机器人:它每天看到你喝咖啡,却每次都问“咖啡还是茶?”这多尴尬!人类智能的秘密在于长期记忆——我们通过积累经验,形成对世界的认知

论文作者指出,多模态 Agent(能处理视觉、听觉等多感官输入的 AI)要实现真正智能,必须具备三个核心能力:

  1. 持续感知世界:实时处理视觉和听觉输入。
  2. 构建长期记忆:存储经验,并逐步积累环境知识。
  3. 基于记忆推理:指导行动,完成任务。

M3-Agent 正是为此而生。它模拟人类认知系统,包括情节记忆(记录具体事件,如“Alice 早上喝咖啡说‘我离不开这个’”)和语义记忆(提取一般知识,如“Alice 喜欢早上喝咖啡”)。这些记忆以实体为中心的多模态格式组织(比如脸部图像、声音片段和文本知识连成图谱),确保一致性和深度理解。

论文的架构如图 1 所示:两个并行流程——记忆化(实时处理视频流,更新记忆)和控制(接收指令,迭代推理并检索记忆)。

建筑学
建筑学

2. 关键创新

1. 长期记忆存储:多模态图谱结构

  • 记忆不是简单文本堆积,而是节点+边的图结构。每个节点存储多模态内容(如文本、图像、音频),带权重(用于解决冲突)和嵌入向量(用于检索)。
  • 支持搜索工具:如search_node(多模态查询)和search_clip(检索视频片段记忆)。
  • 创新点:实体中心设计,确保同一人(脸+声)的知识连贯,避免传统方法中的歧义(如“一个戴红帽的女人”可能指多人)。

2. 记忆化流程:在线处理无限视频流

  • 处理实时视频:每 30 秒一剪辑,生成情节和语义记忆。
  • 使用外部工具(如人脸识别、说话者分离)提取实体 ID(face_id/voice_id),确保跨剪辑一致。
  • 挑战解决:不像传统长视频描述只关注低级细节,M3-Agent 提取高层世界知识(如人物关系、物体功能),通过权重投票机制处理冲突。

3. 控制流程:多轮迭代推理

  • 接收指令后,Agent 自主检索记忆,进行多轮推理(最多 H 轮)。
  • 使用强化学习(RL)训练:不是单轮 RAG,而是迭代搜索+推理,提高成功率。
  • 模型:记忆化用 Qwen2.5-Omni-7B(多模态强),控制用 Qwen3-32B(推理强)。训练数据:500 个长视频+2.7k QA 对,通过 DAPO 算法优化。

这些设计让 M3-Agent 更像“活的”Agent:它能积累知识,逐步“学习”环境。

3. 新基准 M3-Bench

现有长视频问答(LVQA)基准多关注视觉理解(如动作识别),忽略 Agent 级能力(如人类理解、跨模态推理)。论文引入M3-Bench,填补空白。

  • M3-Bench-robot:100 个机器人视角真实视频(平均 34 分钟),模拟家用场景。涉及 67 名演员、51 个地点,脚本设计覆盖客厅、厨房等 7 场景。QA 对:1,344 个。
  • M3-Bench-web:929 个 YouTube 视频(平均 27 分钟),覆盖 46 类(如纪录片、烹饪)。QA 对:5,037 个。
image-20250818092004372
image-20250818092004372

问题类型:

  • 多细节推理:聚合视频分散信息(如比较 5 个物品起价)。
  • 多跳推理:步步推导(如“去丁茶后去的哪家奶茶店?”)。
  • 跨模态推理:视听结合(如文件夹颜色+对话推断用途)。
  • 人类理解:推断性格、关系(如“Lucas 烹饪熟练吗?”)。
  • 一般知识提取:从事件中抽象规则(如“哪层冰箱放蔬菜?”)。

评估用 GPT-4o 自动判分,人机一致率 96%。这基准不光长,还强调 Agent 实用性!

4. 实验结果

论文在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 上测试。

  • 基线:Socratic Models(描述+单轮 RAG)、LLM-RAG(长上下文 LLM)、Gemini-GPT4o-Hybrid(Gemini 记忆化+GPT-4o 控制)。
  • 结果:M3-Agent 准确率相对最强基线分别提升 6.7%、7.7%、5.3% 。
image-20250818092326632
image-20250818092326632
  • 消融:移除语义记忆,准确率降 17.1%-19.2%;无 RL,降 8.0%-10.0%;无迭代推理,降 8.8%-11.7%。

证明:语义记忆、RL 和多轮推理是关键。M3-Agent 在人类理解和知识提取上特别强,适合真实 Agent 应用。

5. 未来展望

M3-Agent 不是空谈,它开源了模型、代码和数据(GitHub: bytedance-seed/m3-agent,项目页:m3-agent.github.io)。这为多模态 Agent 研究提供新范式,推动从“被动响应”到“主动学习”的转变。

潜在影响:

  • 机器人/智能家居:记住用户习惯,提供个性化服务。
  • 视频分析:长视频理解,如安防监控或教育。
  • 挑战:隐私(记忆存储个人数据)、计算成本(在线处理)。

如果你是开发者,不妨试试代码;如果是普通读者,想想未来机器人伴侣吧!

记得一键三连,点赞分享关注哦,后台回复进群还能免费与大家交流~

参考资料

[1]

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory: https://www.arxiv.org/pdf/2508.09736

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 论文背景
  • 2. 关键创新
    • 1. 长期记忆存储:多模态图谱结构
    • 2. 记忆化流程:在线处理无限视频流
    • 3. 控制流程:多轮迭代推理
  • 3. 新基准 M3-Bench
  • 4. 实验结果
  • 5. 未来展望
    • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档