Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕

复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕

作者头像
机器之心
发布于 2025-06-16 03:27:31
发布于 2025-06-16 03:27:31
730
举报
文章被收录于专栏:机器之心机器之心

机器之心原创

作者:闻菲

真正的智能在于理解任务的模糊与复杂,Context Scaling 是通向 AGI 的关键一步。

2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。

新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩,DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play + LLM 让 AI 在游戏和代码生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路都在探寻可能的下一个跃迁。

在这场技术探讨中,复旦大学 / 上海创智学院的邱锡鹏教授提出了一个耐人寻味的新路径 ——Context Scaling。与参数规模、数据量、推理计算等扩展路径不同,Context Scaling 的核心,不在于更大,而在于更「深」:如何让 AI 真正理解并适应复杂、多变、模糊的情境(Context)。

在与机器之心的最新一次对谈中,邱锡鹏教授系统阐述了他对 AI 发展的洞察:从预训练扩展到后训练优化,再到情境智能(Contextual Intelligence)的深层转变。

机器之心

,赞120

AGI 三幕演进

从参数堆叠到情境理解

邱锡鹏教授将大模型的演进总结为一个核心公式:

图片
图片

模型的核心是提升给定情境(Context)条件下模型决策(Decision)的准确性,需要从大量数据中学习模型参数 θ。

第一幕是模型规模化的胜利。 通过堆叠数据与参数,将已发现且可描述的知识「压缩」,找了很好的模型参数 θ,实现了 LLM 在通用任务上的跃升。这一阶段诞生了 ChatGPT、MOSS、Qwen 等代表性的通用模型。但随着数据见顶、参数规模收益递减,业界普遍意识到:简单加法已无以为继。

第二幕则是后训练优化的探索,包括推理增强、知识具象化等方向,这一阶段的核心目标是通过引入类人的问题求解过程继续提升大模型解决复杂问题的决策能力(Decision)。强化学习、工具调用、思维链、多模态成为关键词,代表性成果包括 GPT o1/o3、DeepSeek-R1、AnyGPT 等。

在第一幕和第二幕发展到一定阶段,如何定义情境(Context)就成为继续提升模型能力的关键因素,也是大模型落地应用中最具挑战的一环。很多模型无法正确决策的主要原因是对任务或者情境的描述不够。目前,当遇到难以描述或难以定义的问题或任务时,现有方法都显露出局限性。例如,如何让 AI 理解一个微妙的社交暗示?如何在文化差异巨大的环境中做出恰当判断?如何处理那些无法用明确规则定义的复杂交互?这些「暗知识」构成了人类智能的核心,却是当前技术的盲区。

接下来的第三幕 Context Scaling,旨在解决上述问题,并由此实现「情境智能」。这一阶段关注的,让 AI 能够理解并适应足够丰富、真实、复杂、多变的情境信息,从而在模糊不清的世界中作出合情合理的判断

图片
图片

Context 深层内涵

捕获难以描述的「暗知识」

在邱锡鹏教授的定义中,Context 远非当前大模型所使用的「上下文窗口」那么简单,它是一种多维、动态、跨模态的信息结构,其中可能包含时间信息、空间信息、参与者状态、目标意图,甚至是未明说但语境暗示的文化规则与人际默契。

最关键的,是 Context Scaling 对「暗知识」的捕获能力。所谓暗知识(Tacit Knowledge),指的是那些人类习得但难以清晰表述的能力,包括但不限于:

  • 社交智能:如何解读一个眼神、一个停顿、一个语调的变化 
  • 文化适应:在不同文化背景中如何适当行事,理解未说出口的社会规则 
  • 情境判断:同样的话语在不同情境下的不同含义 
  • 动态适应:在变化的环境中持续调整策略和理解

举例来说:当一个人说「不要」,只有身处完整情境,AI 才能判断这句话是真正的拒绝、玩笑,还是一种反向请求。在多模态、多轮对话、现实互动任务中,这种差别往往决定智能的成败。

正是这些难以言述的隐性知识,构成了人类智能的底色。而 AI 若能通过 Context 捕获这些结构模糊、路径多变的信息,将实现真正意义上的智能突破。

同时,这也是对 AI 安全发展的核心考量。一个耳熟能详的例子是「回形针悖论」—— 当大模型仅仅按照生产更多回形针的目标行事时,可能会不择手段地获取资源,最终威胁人类社会。Context Scaling 通过让 AI 理解复杂的社会情境和隐含价值观,能够在没有明确禁令的情况下,基于对情境的深度理解,做出符合人类价值观的判断。

三大技术支柱

交互、具身、拟人化

邱锡鹏教授表示,Context Scaling 之所以能成为一个独立的技术路径,源于它拥有独特的三项能力支柱:

1. 强交互性(Strong Interactivity)

情境智能的本质,在于「从交互中学习」,这包括两个层面,一是与环境的强化学习交互,AI 需要在复杂环境中行动、观察反馈、调整策略,但 Context Scaling 要求更深层的交互 —— 不仅要学会如何行动,更要理解为什么这样行动。

二是与人类的多模态协作,包括语言澄清、任务讨论、情绪共鸣等。当前 Gemini Deep Research 等助理已经能够询问用户的具体需求,但 Context Scaling 要求 AI 能够理解用户的情绪状态、文化背景,甚至未说出口的期望。只有能不断从互动中汲取信息的系统,才具备面对复杂情境的应变能力。

2. 具身性(Embodiment)

AI 要能交互,要理解所处世界,意味着智能体必须具备「主体性」,这样才能感知、行动、记忆与学习。但这并不意味着必须具备现实物理世界的完整身体,虚拟环境中的持续任务、AR 场景中的决策代理,也是对这一理念的试验场。

3. 拟人化(Anthropomorphizing)

这是 Context Scaling 独有的特征 ——AI 需要具备类人的情感共鸣和反馈能力。这不是简单的情感模拟,而是对人类偏好和行为模式的深度理解,比如理解和回应人类的情绪状态,掌握复杂的人际交往规则,懂得何时保持距离、何时表达关心,以及具备文化敏感性,知晓在不同文化背景下调整交互方式和价值判断。

为了实现上述三点,Context Scaling 要求模型具备持续学习的能力。不同于传统的持续学习,情境智能的持续学习能力更强调模型参数相对固定的情况下,通过 Context 的积累和更新,实现能力的持续提升。换句话说,是在使用过程中持续积累经验、调整策略。「这也更像是人类的成长与发展,在先天基因确定的情况下,通过后天学习以及不断适应新的环境,根据具体情境调整行为策略。」

图片
图片

要让 Contextual Intelligence 成为现实,技术上面临几大挑战:

  • 模型结构的突破:现有 Transformer 架构在长上下文处理上的效率受限,要支持多模态、交互式、动态变化的情境输入,模型架构本身可能需要根本重构。
  • 学习范式的转变:从传统监督学习到交互式、持续式的弱监督、多反馈学习,以及在新情境中快速适应的元学习能力,Context Scaling 所需的训练目标与损失函数正在重塑 AI 学习本质。
  • 复杂情境的定义与构建:复杂情境难以靠人工构建,也无法通过真实世界逐一采集。大规模情境数据的生成,需要借助 AI 自身合成场景、任务、交互脚本的能力。

邱锡鹏教授强调,Context Scaling 是并非替代其他 Scaling 路线,而是对其构成补充与整合。例如,Test-Time Scaling 关注输出阶段的计算效率,Context Scaling 关注输入的质量与结构,两者是正交互补的,更丰富的上下文信息能够为推理时计算提供更好的基础。

与 Agent 路径相比,Context Scaling 更多对任务定义层的重新设想,它强调的是智能体理解复杂情境的核心能力,这种能力可以通过各种 Agent 架构来实现,但其本身超越了具体的工具使用和任务执行。

Context Scaling 也为强化学习提供了新的环境定义,不再是简单的状态 - 动作 - 奖励循环,而是包含丰富情境信息的复杂交互空间。

通往 AGI 的关键一步

「在大模型时代,如果研究只是在已有路径上做微调,那将失去方向感。」邱锡鹏教授说:「研究者需要去定义那些 “大家都意识到但没人清晰表达” 的问题。」

在这场 Scaling What 的集体探索中,Context Scaling 将推理增强、多模态融合、强化学习等看似分散的技术路径统一在「情境理解」这一核心目标之下。智能的本质,也许就在于面对复杂世界时那份模糊中的准确、不确定中的判断、冲突中的协调。这个意义上,Context Scaling 不仅是大模型发展的下一幕,更可能是通向 AGI 的关键一步。

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
复旦邱锡鹏教授讲述 MOSS 2 研发进展:如何实现世界模型?
去年 ChatGPT 爆火后,国内迅速迎来了“百模大战”。其中,复旦大学自然语言处理实验室在去年 2 月率先发布了国内首个类 ChatGPT 的对话式大语言模型 MOSS,开放不到 24 个小时,由于瞬时访问压力过大,MOSS 服务器显示流量过载而无法访问。
深度学习与Python
2024/06/17
2040
复旦邱锡鹏教授讲述 MOSS 2 研发进展:如何实现世界模型?
开放下载!复旦大学邱锡鹏教授发布教科书《神经网络与深度学习》
邱老师昨天就在知乎发布了这本书:「整本书终于写完了,虽然还有很多不足。但先告一段落,不然就得无限期拖延下去。感谢众多热心网友的意见和建议。全书的内容可以从这里(https://nndl.github.io/)下载。个人能力有限,书中难免有不当和错误之处,还望读者海涵和指正,不胜感激。」
机器之心
2019/04/29
1.3K0
开放下载!复旦大学邱锡鹏教授发布教科书《神经网络与深度学习》
【深度学习中文讲义完整版】复旦邱锡鹏老师《神经网络与深度学习》教程分享(附pdf下载)
【导读】复旦大学副教授、博士生导师、开源自然语言处理工具FudanNLP的主要开发者邱锡鹏(http://nlp.fudan.edu.cn/xpqiu/)老师撰写的《神经网络与深度学习》书册,是国内为数不多的深度学习中文基础教程之一,每一章都是干货,非常精炼。邱老师在今年中国中文信息学会《前沿技术讲习班》做了题为《深度学习基础》的精彩报告,报告非常精彩,深入浅出地介绍了神经网络与深度学习的一系列相关知识,基本上围绕着邱老师的《神经网络与深度学习》一书进行讲解。专知希望把如此精华知识资料分发给更多AI从业者,
WZEARW
2018/04/10
5.1K0
"揭秘AI未来:强化学习之父Richard Sutton的AGI革命性路径大公开!"
在人工智能的广阔天地中,强化学习作为连接理论与实践的重要桥梁,一直备受瞩目。Richard Sutton,这位被誉为“强化学习之父”的学者,以其深邃的见解和开创性的工作,为我们描绘了一幅通往人工通用智能(AGI)的宏伟蓝图。
朱晓霞
2024/03/25
4490
"揭秘AI未来:强化学习之父Richard Sutton的AGI革命性路径大公开!"
资源 | 复旦大学邱锡鹏教授发布《神经网络与深度学习》教材,配备代码和章节练习
AI 科技评论按,近日,复旦大学计算机科学学院副教授邱锡鹏发布了一本《神经网络与深度学习》教材,这份学习资源一经发布就广受好评。目前,该资源在 github 上已经斩获 5000+ star。
AI科技评论
2019/11/01
7220
资源 | 复旦大学邱锡鹏教授发布《神经网络与深度学习》教材,配备代码和章节练习
7 Papers & Radios | 邱锡鹏Transformer变体论文综述;AI六小时内设计一款芯片
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周的重要论文包括复旦大学邱锡鹏教授团队发布的关于 Transformer 变体的论文综述以及谷歌用 AI 在六小时内自动完成芯片布局设计的最新方案。 目录: Scaling Local Self-Attention for Parameter Efficient Visual Backbones X-volution: On the Unification of Convolution and Self-atten
机器之心
2023/03/29
4760
7 Papers & Radios | 邱锡鹏Transformer变体论文综述;AI六小时内设计一款芯片
72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws
作为公认的新范式,它可以让整个智能驾驶系统反应更快,更加拟人,能处理以往方法无法解决的大量 corner case,被认为是自动驾驶通向 L3、L4 的正确方向。
机器之心
2025/04/18
1050
72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws
AGI 大辩论!杨植麟:无需定义,李大海:零边际成本,王小川:造医生?张鹏:是信念!
在 6 月 14 日刚刚开幕的 2024 北京智源大会上,智源研究院邀请了百川智能 CEO 王小川、智谱 AI CEO 张鹏、月之暗面 CEO 杨植麟和面壁智能 CEO 李大海一起,由智源研究院院长王仲远主持,展开了一场以“通往 AGI 之路”为主题的对话。在这次对话中,当前国内最热门的大模型企业掌门人纷纷分享了自己对 AGI 信仰、AI 安全、大模型价格战等问题的看法。
深度学习与Python
2024/06/17
2090
AGI 大辩论!杨植麟:无需定义,李大海:零边际成本,王小川:造医生?张鹏:是信念!
复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术
分享嘉宾 | 邱锡鹏       整理 | 禾木木,梦依丹 出品 | CSDN(ID:CSDNnews) ChapGPT 自问世以来,便展现出了令世人惊艳的对话能力。仅用两个月时间,ChatGPT 月活跃用户就达一亿,是史上用户增速最快的消费应用。对于学术界、工业界、或是其他相关应用来说都是一个非常大的机会和挑战。 事实上,ChatGPT 的成功并不是偶然结果,其背后多有哪些创新之处,本文整理于「ChatGPT 及大模型专题研讨会」上复旦大学邱锡鹏教授带来的《对话式大型语言模型》的分享,他从大规模预训练语
AI科技大本营
2023/04/06
5820
复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限
---- 新智元报道   来源:信息与电子工程前沿FITEE 作者:周杰 柯沛 邱锡鹏 黄民烈 张军平 编辑:好困 【新智元导读】为更好地理解ChatGPT,这里我们简要介绍其历史,讨论其优点和不足,指出几个潜在应用,最后分析它对可信赖人工智能、会话搜索引擎和通用人工智能(artificial general intelligence, AGI)发展的影响。 最近,OpenAI发布了对话生成预训练模型Transformer(Chat Generative Pre-trained Transformer
新智元
2023/03/29
4580
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限
复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术
ChapGPT 自问世以来,便展现出了令世人惊艳的对话能力。仅用两个月时间,ChatGPT 月活跃用户就达一亿,是史上用户增速最快的消费应用。对于学术界、工业界、或是其他相关应用来说都是一个非常大的机会和挑战。事实上,ChatGPT 的成功并不是偶然结果,其背后多有创新之处。本文整理于达观数据参与承办的「ChatGPT 及大模型专题研讨会」上,复旦大学邱锡鹏教授带来的《对话式大型语言模型》主题分享,他从大规模预训练语言模型带来的变化、ChatGPT 的关键技术及其局限性等角度深入地介绍了大规模语言模型的相关知识。
用户10103085
2023/03/16
8060
复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术
ChatGPT 加持,决策大模型距离 AGI 更进一步
AI 需要多智能体的相互作用来引发意识。 作者 | 黄楠 编辑 | 陈彩娴 过去短短不到一年里,ChatGPT、GPT-4 的相继面世,不断刷新人们对 AI 的认知。 新技术带来变革,也引发了外界对 AI 是否会取代人的讨论,OpenAI 首席执行官 Sam Altman 也公开表示,对人工智能技术的强大能力有些担忧。 近日,伦敦大学学院(UCL)计算机系教授汪军在接受 AI 科技评论采访时坦言,虽然 ChatGPT 的语言能力、对话能力很强,但其并无法进行系统性决策,例如机器控制、群体协作、动态调度等,而
AI科技评论
2023/04/04
7980
ChatGPT 加持,决策大模型距离 AGI 更进一步
复旦抢发第一个中国版 ChatGPT !内测服务器被挤崩,团队致歉:还不成熟
作者 | 凌敏、刘燕 “MOSS 还是一个非常不成熟的模型,距离 ChatGPT 还有很长的路需要走。” 自去年 11 月底正式发布以来,OpenAI 最新的 AI 聊天机器人 ChatGPT 迅速成为现象级应用。瑞银发布的研究报告显示,ChatGPT 在今年 1 月,月活跃用户估计已达 1 亿,成为历史上用户增长最快的消费应用。 随着 ChatGPT 在全球范围内迅速走红,全球互联网大厂、创业公司纷纷加码布局。在国外,谷歌加急推出了人工智能聊天机器人 Bard Bard;在国内,百度将在 3 月推出类似
深度学习与Python
2023/02/28
3850
复旦抢发第一个中国版 ChatGPT !内测服务器被挤崩,团队致歉:还不成熟
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。
立委
2025/02/14
1940
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。
机器之心
2024/03/07
1410
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
复旦大学邱锡鹏教授:一张图带你梳理深度学习知识脉络
寄语:本文梳理了深度学习知识体系,分为机器学习、神经网络和概率图模型,同时对机器学习算法类型、深度学习原理框架等进行了梳理,帮助大家更好地学习和入手深度学习。
Datawhale
2020/05/20
3.3K0
复旦大学邱锡鹏教授:一张图带你梳理深度学习知识脉络
【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习,复旦邱锡鹏老师《神经网络与深度学习》教程分享05(附pdf下载)
【导读】复旦大学副教授、博士生导师、开源自然语言处理工具FudanNLP的主要开发者邱锡鹏(http://nlp.fudan.edu.cn/xpqiu/)老师撰写的《神经网络与深度学习》书册,是国内为数不多的深度学习中文基础教程之一,每一章都是干货,非常精炼。邱老师在今年中国中文信息学会《前沿技术讲习班》做了题为《深度学习基础》的精彩报告,报告非常精彩,深入浅出地介绍了神经网络与深度学习的一系列相关知识,基本上围绕着邱老师的《神经网络与深度学习》一书进行讲解。专知希望把如此精华知识资料分发给更多AI从业者,
WZEARW
2018/04/10
4.1K0
【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习,复旦邱锡鹏老师《神经网络与深度学习》教程分享05(附pdf下载)
大模型扩展新维度:Scaling Down、Scaling Out
本文由悉尼大学计算机学院王云柯,李言蹊和徐畅副教授完成。王云柯是悉尼大学博士后,李言蹊是悉尼大学三年级博士生,徐畅副教授是澳洲ARC Future Fellow,其团队长期从事机器学习算法、生成模型等方向的研究。
机器之心
2025/02/25
1400
大模型扩展新维度:Scaling Down、Scaling  Out
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
斯坦福大学李飞飞、微软研究院首席研究员等联合撰写的论文,这篇 Agent AI 综述一共80页。
AIGC新知
2025/02/07
7290
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
复旦邱锡鹏团队发布类 ChatGPT 模型 MOSS,现已暂停内测
百亿规模参数,MOSS 的英文回答水平较中文更高。 作者 | 黄楠 编辑 | 陈彩娴 2月20日,复旦大学自然语言处理实验室发布对话式大型语言模型 MOSS,该模型由邱锡鹏教授带队完成发布,上海人工智能实验室提供有力支持。 作为一个语言模型,MOSS 可执行对话生成、编程、事实问答等系列任务,比如让它回答关于“AI 取代人类工作”的问题: 也可以通过列举具体的指令,请它帮忙推荐电影: 或者是生成一段 Python 代码实现快速排序: 可以看到,MOSS 回答流畅,在不同场景上都有不凡的表现。 MOSS
AI科技评论
2023/02/23
4190
复旦邱锡鹏团队发布类 ChatGPT 模型 MOSS,现已暂停内测
推荐阅读
复旦邱锡鹏教授讲述 MOSS 2 研发进展:如何实现世界模型?
2040
开放下载!复旦大学邱锡鹏教授发布教科书《神经网络与深度学习》
1.3K0
【深度学习中文讲义完整版】复旦邱锡鹏老师《神经网络与深度学习》教程分享(附pdf下载)
5.1K0
"揭秘AI未来:强化学习之父Richard Sutton的AGI革命性路径大公开!"
4490
资源 | 复旦大学邱锡鹏教授发布《神经网络与深度学习》教材,配备代码和章节练习
7220
7 Papers & Radios | 邱锡鹏Transformer变体论文综述;AI六小时内设计一款芯片
4760
72B世界基座模型启动,小鹏的端到端智驾正在验证Scaling Laws
1050
AGI 大辩论!杨植麟:无需定义,李大海:零边际成本,王小川:造医生?张鹏:是信念!
2090
复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术
5820
复旦清华联合顶刊发文|ChatGPT:潜力、前景和局限
4580
复旦邱锡鹏:深度剖析 ChatGPT 类大语言模型的关键技术
8060
ChatGPT 加持,决策大模型距离 AGI 更进一步
7980
复旦抢发第一个中国版 ChatGPT !内测服务器被挤崩,团队致歉:还不成熟
3850
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
1940
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
1410
复旦大学邱锡鹏教授:一张图带你梳理深度学习知识脉络
3.3K0
【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习,复旦邱锡鹏老师《神经网络与深度学习》教程分享05(附pdf下载)
4.1K0
大模型扩展新维度:Scaling Down、Scaling Out
1400
斯坦福多模态交互 Agent 综述:Agent AI 集成及其技术挑战
7290
复旦邱锡鹏团队发布类 ChatGPT 模型 MOSS,现已暂停内测
4190
相关推荐
复旦邱锡鹏教授讲述 MOSS 2 研发进展:如何实现世界模型?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档