前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?

LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?

作者头像
机器之心
发布于 2025-06-15 02:40:32
发布于 2025-06-15 02:40:32
11501
代码可运行
举报
文章被收录于专栏:机器之心机器之心
运行总次数:1
代码可运行

机器之心报道

编辑:Panda

近段时间,关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。

本月初我们就曾梳理报道了一些,包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机(DGM)」、CMU 的「自我奖励训练(SRT)」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」,参阅文章《LSTM 之父 22 年前构想将成真?一周内 AI「自我进化」论文集中发布,新趋势涌现?

那之后,相关研究依然还在不断涌现,以下拼图展示了一些例子:

图片
图片

而前些天,OpenAI CEO、著名 𝕏 大 v 山姆・奥特曼在其博客《温和的奇点(The Gentle Singularity)》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。他写道:「我们必须以传统的方式制造出第一批百万数量级的人形机器人,但之后它们能够操作整个供应链来制造更多机器人,而这些机器人又可以建造更多的芯片制造设施、数据中心等等。」

不久之后,就有 𝕏 用户 @VraserX 爆料称有 OpenAI 内部人士表示,该公司已经在内部运行能够递归式自我改进的 AI。这条推文引起了广泛的讨论 —— 有人表示这不足为奇,也有人质疑这个所谓的「OpenAI 内部人士」究竟是否真实。

图片
图片

https://x.com/VraserX/status/1932842095359737921

但不管怎样,AI 也确实正向实现自我进化这条路前进。

MIT 昨日发布的《Self-Adapting Language Models》就是最新的例证之一,其中提出了一种可让 LLM 更新自己的权重的方法:SEAL🦭,即 Self-Adapting LLMs。在该框架中,LLM 可以生成自己的训练数据(自编辑 /self-editing),并根据新输入对权重进行更新。而这个自编辑可通过强化学习学习实现,使用的奖励是更新后的模型的下游性能。

图片
图片
  • 论文标题:Self-Adapting Language Models
  • 论文地址:https://arxiv.org/pdf/2506.10943
  • 项目页面:https://jyopari.github.io/posts/seal
  • 代码地址:https://github.com/Continual-Intelligence/SEAL

这篇论文发布后引发了广泛热议。在 Hacker News 上,有用户评论说,这种自编辑方法非常巧妙,但还不能说就已经实现了能「持续自我改进的智能体」。

图片
图片

论文一作 Adam Zweiger 也在 𝕏 上给出了类似的解释:

图片
图片

也有人表示,这表明我们正在接近所谓的事件视界(event horizon)—— 这个概念其实也出现在了山姆・奥特曼《温和的奇点》博客的第一句话,不过奥特曼更激进一点,他的说法是「我们已经越过了事件视界」。简单来说,event horizon(事件视界)指的是一个不可逆转的临界点,一旦越过,人类将不可避免地迈入某种深刻变革的阶段,比如通向超级智能的道路。 

图片
图片

当然,也有人对自我提升式 AI 充满了警惕和担忧。

图片
图片

下面就来看看这篇热门研究论文究竟得到了什么成果。

自适应语言模型(SEAL)

SEAL 框架可以让语言模型在遇到新数据时,通过生成自己的合成数据并优化参数(自编辑),进而实现自我提升。

模型的训练目标是:可以使用模型上下文中提供的数据,通过生成 token 来直接生成这些自编辑(SE)。

自编辑生成需要通过强化学习来学习实现,其中当模型生成的自编辑在应用后可以提升模型在目标任务上的性能时,就会给予模型奖励。

因此,可以将 SEAL 理解为一个包含两个嵌套循环的算法:一个外部 RL 循环,用于优化自编辑生成;以及一个内部更新循环,它使用生成的自编辑通过梯度下降更新模型

图片
图片

该方法可被视为元学习的一个实例,即研究的是如何以元学习方式生成有效的自编辑。

通用框架

令 θ 表示语言模型 LM_θ 的参数。 SEAL 是在单个任务实例 (C, τ) 上运作,其中 C 是包含与任务相关信息的上下文,τ 定义了用于评估模型适应度(adaptation)的下游评估。

比如,在知识整合任务中,C 是旨在整合到模型内部知识中的段落,τ 是关于该段落的一组问题及其相关答案。而在少样本学习任务中,C 包含某个新任务的少样本演示,τ 是查询输入和 ground-truth 输出。

给定 C,模型会生成一个自编辑 SE(其形式因领域而异),并通过监督微调更新自己的参数:θ′ ← SFT (θ, SE)。

该团队使用了强化学习来优化自编辑的生成过程:模型执行一个动作(生成 SE),再根据 LM_θ′ 在 τ 上的表现获得奖励 r,并更新其策略以最大化预期奖励:

图片
图片

不过,与标准强化学习设置不同,在这里的设置中,分配给给定动作的奖励取决于执行动作时的模型参数 θ(因为 θ 会更新为 θ′,然后再被评估)。

如此一来,底层的强化学习状态必定会包含策略的参数,并由 (C, θ) 给出,即使策略的观测值仅限于 C(将 θ 直接置于上下文中是不可行的)。

这意味着,使用先前版本模型 θ_old 收集的 (state, action, reward) 三元组可能会过时,并且与当前模型 θ_current 不一致。因此,该团队采用一种基于策略的方法,其中会从当前模型中采样自编辑 SE,并且至关重要的是,奖励也会使用当前模型进行计算。

该团队尝试了各种在线策略方法,例如组相对策略优化 (GRPO) 和近端策略优化 (PPO) ,但发现训练不稳定。

最终,他们选择了来自 DeepMind 论文《Beyond human data: Scaling self-training for problem-solving with language models.》的 ReST^EM,这是一种基于已过滤行为克隆的更简单的方法 —— 也就是「拒绝采样 + SFT」。

ReST^EM 可以被视为一个期望最大化 (EM) 过程:E-step 是从当前模型策略采样候选输出,M-step 是通过监督微调仅强化那些获得正奖励的样本。这种方法可在以下二元奖励下优化目标 (1) 的近似:

图片
图片

更准确地说,在优化 (1) 时,必须计算梯度 

图片
图片

。然而,在这里的设置中,奖励项 r (SE, τ, θ_t) 取决于 θ_t,但不可微分。为了解决这个问题,该团队的做法是将奖励视为相对于 θ_t 固定。通过这种近似,对于包含 N 个上下文和每个上下文 M 个采样得到自编辑的小批量,其蒙特卡洛估计器变为:

图片
图片

其中 p_θ_t 表示模型的自回归分布,y_s^(i,j) 是自编辑 SE_ij 的第 s 个 token,即上下文 C_i 的第 j 个样本。由于在 (4) 中可以忽略 r = 0 的序列,该团队研究表明:在二元奖励 (2) 下(对奖励项应用停止梯度),ReST^EM 只需使用简单的「在好的自编辑上进行 SFT」,就能优化 (1)。算法 1 给出了 SEAL 的训练循环。

图片
图片

最后,他们还注意到,虽然本文的实现是使用单个模型来生成自编辑并从这些自编辑中学习,但也可以将这些角色分离。在这样一种「教师-学生」形式中,学生模型将使用由另一个教师模型提出的编辑进行更新。然后,教师模型将通过强化学习进行训练,以生成能够最大程度提高学生学习效果的编辑。

针对具体领域实例化 SEAL

理论有了,该团队也打造了 SEAL 的实例。具体来说,他们选择了两个领域:知识整合和少样本学习。

其中,知识整合的目标是有效地将文章中提供的信息整合到模型的权重中。下图展示了相关设置。

图片
图片

而下图则给出了少样本学习的设置。

图片
图片

对这两种实例化的更详细描述请访问原论文,下面来看看 SEAL 的实际表现。

实验结果

少样本学习

实验所用的模型是 Llama-3.2-1B-Instruct,基准为 ARC。参与对比的方法包括 ICL(上下文学习)、TTT + 自编辑(无强化学习)、Oracle TTT。结果见下表。

图片
图片

可以看到,与基线相比,SEAL 显著提高了适应成功率:72.5% vs. 20%(使用基础模型的自编辑但未进行强化学习训练)和 0%(无适应),但性能仍低于 Oracle TTT,表明新方法仍有进一步改进的空间。

知识整合

知识整合则使用了更大一些的 Qwen2.5-7B,目标是整合 SQuAD 文章中的新事实内容。这里对比的方法包括基础模型、仅在文章上训练的模型、在文章 + 合成数据训练的模型、在文章 + GPT-4.1 合成数据上训练的模型。结果见下表。

图片
图片

可以看到,在单篇文章(n = 1)和持续预训练(n = 200)这两种情况下,SEAL 方法的准确度表现都超过了基准。

首先使用基础 Qwen-2.5-7B 模型生成的合成数据训练后,模型的表现已经能获得明显提升,从 32.7% 分别提升到了 39.7% 和 41.0%,之后再进行强化学习,性能还能进一步提升(47.0% 和 43.8%)。

图 4 展现了每次外部强化学习迭代后的准确度。

图片
图片

可以看到,两次迭代足以使 SEAL 超越使用 GPT-4.1 数据的设置;后续迭代的收益会下降,这表明该策略快速收敛到一种将段落蒸馏为易于学习的原子事实的编辑形式(参见图 5 中的定性示例)。

图片
图片

在这个例子中,可以看到强化学习如何导致生成更详细的自编辑,从而带来更佳的性能。虽然在这个例子中,进展很明显,但在其他例子中,迭代之间的差异有时会更为细微。

另外,该团队也在论文中讨论了 SEAL 框架在灾难性遗忘、计算开销、上下文相关评估方面的一些局限,详见原论文。

最后,来个小调查,你认为真正的自我进化式 AI 将在何时实现?

请在手机微信登录投票

真正的自我进化式 AI 将在何时实现? 单选

其实已经实现

两年内实现(2027 年)

五年内实现(2030 年)

2030-2050 年实现

2050 年之后

永远无法实现

© THE END 

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
模拟芯片的现在与未来
世界半导体贸易统计组织(WSTS) 发布2022年8月最新半导体市场预测,由于消费性电子终端需求疲弱,导致记忆体价格下跌、产值缩水,加上记忆体市场成长动能趋缓,预估今年全球半导体市场成长率将由原来的16.3%下修至13.9%,市场规模达6,332.38亿美元,较原先预期的6,464.56亿美元调降2.0%。2023年市场成长率则自5.1%下修至4.6%,市场规模达6,623.6亿美元,较原先预期的6,796.5亿美元调降2.5%,虽然如此,今、明总体市场规模仍将续创新高。
AI 电堂
2022/12/08
3940
模拟芯片的现在与未来
汽车电子设计之SBC芯片简单认识[通俗易懂]
参考英飞凌SBC官网资料:https://www.infineon.com/cms/cn/product/automotive-system-ic/system-basis-chips-sbc/
全栈程序员站长
2022/10/01
10.6K0
汽车电子设计之SBC芯片简单认识[通俗易懂]
RK3588 EVB开发板原理图讲解【八】 RK3588 power Tree
这部分是DCDC部分,把12V降压到5V和4V,其中4V给rk806  5V工给外设 主要是usb。
用户11537198
2025/03/06
5350
自动驾驶全球产业链全景图
英特尔在自动驾驶领域主要是通过并购来完成布局:2015年6月167.5亿美元收购FPGA 巨头Altera;2016年9月收购计算机视觉处理芯片公司Movidius;2017年3月153亿美元收购以色列自动驾驶汽车技术公司Mobileye。
刘盼
2018/07/26
1.5K0
自动驾驶全球产业链全景图
基于FPGA的USB接口控制器设计(VHDL)(上)
今天给大侠带来基于 FPGA 的 USB 接口控制器设计(VHDL),由于篇幅较长,分三篇。今天带来第一篇,上篇,USB 接口简介 以及 USB 体系结构。话不多说,上货。
FPGA技术江湖
2020/12/30
1.5K0
汽车芯片紧缺or过剩?瑞萨电子这样解答!中国市场成关键
近日,全球半导体解决方案供应商瑞萨电子携面向ADAS/AD、汽车网关、智能座舱及新能源汽车的多款先进解决方案亮相2022年慕尼黑华南电子展。在展会期间,瑞萨电子还召开了媒体见面会,与会的技术专家也向媒体详细介绍了瑞萨电子在汽车电子领域的创新技术与解决方案应用,同时也分享了对于汽车芯片供需结构变化的看法。
芯智讯
2022/11/29
4590
千亿车载半导体市场冉冉升起
电动化+智能化升级驱动汽车单车含硅量显著提升,千亿车载半导体行业冉冉开启。随着特斯拉的颠覆性变革,汽车电动化与智能化渐成 主机厂共识,消费者购车时的考量也从传统的性能指标,转向以智能车机、自动驾驶为代表的智能化体验视角。当行业供需两端的关注 点逐步由性能转变至智能时,汽车创新的核心亦从“动力引擎”发动机转移到“计算引擎”半导体。
用户2760455
2022/06/08
4580
千亿车载半导体市场冉冉升起
半导体增速最快的子行业 —— 汽车半导体
汽车智能化级别越高,所需控制芯片数量越多、车载存储的容量越大,对相应半导体的需求激增,汽车半导体增量市场已打开。
AI 电堂
2022/05/18
6800
半导体增速最快的子行业 —— 汽车半导体
苹果iPhone 14系列拆解:主要零部件供应商都有哪些?
9月8日,苹果在秋季新品发布会上正式发布了全新的iPhone 14系列手机。全新的iPhone 14系列首次全系加入了双向卫星通信功能。此外,iPhone 14 Pro / Pro Max系列还带来了全面的改进,比如首次将“刘海屏”设计改为了全新的“药丸屏”,采用了最新的A16仿生芯片,并将沿用了多年的1200万像素主摄升级到了4800万像素主摄等。
芯智讯
2022/09/27
1.4K0
苹果iPhone 14系列拆解:主要零部件供应商都有哪些?
功率半导体 IGBT:高壁垒和高景气的黄金赛道
根据 IHS,2019 年全球功率半导体市场 400 亿美金,19-25 年复合增速 4.5%;中国是全球最大的功率半导体消费国,2018 年市场需求规模达到 138 亿美元,增速为 9.5%,占全球需求比例达 35.3%。功率半导体是电力电子装置的必备,周期性相对较弱,行业整体增长稳健,功率龙头英飞凌营是全球代表企业。
AI 电堂
2022/01/29
1K0
功率半导体 IGBT:高壁垒和高景气的黄金赛道
28万的特斯拉,说拆就拆
据台媒报道,7月22日上午,艺人林志颖驾驶一辆白色特斯拉Model X意外发生车祸,车辆头部撞击后燃起熊熊大火。所幸林志颖与车上的儿子及时离开车辆,二人并无生命危险。
AI 电堂
2022/12/08
7180
28万的特斯拉,说拆就拆
蓬勃增长的碳化硅和氮化镓市场需求(STMicro & Infineon)
SiC和GaN的未来在许多应用领域都很有希望,但最明显的是汽车电池管理,因为这些材料可以处理高电压。一旦器件表征和建模支持得到改善,成本将进一步下降,两种宽带隙材料有望进入更多的应用。
海大指南针
2022/05/16
4710
蓬勃增长的碳化硅和氮化镓市场需求(STMicro & Infineon)
H4012 30V24V降压12V5V3.3V3.5A同步整流降压芯片 Buck-DCDC 100%占空比
同步整流是一种通过主动控制功率MOSFET代替传统整流二极管,以降低导通损耗、提升电源效率的整流技术。其工作过程如下:
用户11416530
2025/04/29
770
H4012 30V24V降压12V5V3.3V3.5A同步整流降压芯片 Buck-DCDC 100%占空比
电源常用电路—驱动电路详解
数字电源控制核心对输入输出参数进行采集后,利用控制算法进行分析从而产生PWM控制信号,PWM信号将经过驱动电路的进行功率放大和隔离,随后接入功率开关器件从而完成电源的输出控制。本篇将主要针对电源的驱动电路进行讲解。
芯动大师
2024/03/16
3340
电源常用电路—驱动电路详解
比ADI的silent switcher技术“更牛”的国产芯?艾诺ES5415
抱歉被我的标题骗了一半儿,这颗芯片的一些指标是ADI的好的,但是我没写,这篇以本体解读为多。
云深无际
2025/05/19
1220
比ADI的silent switcher技术“更牛”的国产芯?艾诺ES5415
H4020 高效率 40V输入 2.5A负载同步整流DC-DC降压转换器 12W开关电源24V转12V/5v电池充电器
H4020 是一款高度集成的同步降压(Buck)型 DC-DC 转换器制器,其优势在于内置了 40V 高耐压功率 MOSFET 以及良好的恒压和恒流(CC)控制功能。它专为需要可靠电源转换和稳定电压/电流输出的应用而设计。
惠海水水
2025/06/03
700
H4020 高效率 40V输入 2.5A负载同步整流DC-DC降压转换器 12W开关电源24V转12V/5v电池充电器
低压LED射灯H6338E降压恒流芯片 36V48V60V降9V12V24V36V 1.3A惠洋科技
驱动模式:连续电感电流导通模式(CCM)的降压型(Buck)架构,适用于驱动单串或多串 LED 灯组。
用户11685530
2025/06/09
400
全球主要车载芯片供应商及大陆公司产品布局
汽车电动化、智能化和网联化提速,芯片应用大幅提升。目前,汽车芯片已广泛应用于动力、 车身、座舱、底盘和安全等诸多领域。据中国汽车工业协会预计, 2022年新能源汽车单车芯片数量将超过1400颗。由于车载芯片在安全性等方面有着严苛的要求,相比消费电子进入门槛更高,竞争格局相对稳定,英飞凌、恩智浦、瑞萨、意法半导体、 TI等长期位居市场前列。
用户2760455
2022/06/08
9090
全球主要车载芯片供应商及大陆公司产品布局
Vision Pro芯片级拆解:内含大量TI芯片,还有一颗国产芯片!
国外专业的拆解机构iFixit在2月3日率先发布了对Vision Pro的拆解报告之后,2月7日,iFixit发布了对Vision Pro更为深入芯片级的分析报告,显示其中有着大量的德州仪器(TI)芯片,还有兆易创新的NorFlash。
芯智讯
2024/02/26
3250
Vision Pro芯片级拆解:内含大量TI芯片,还有一颗国产芯片!
YYDS!大神自己动手制造游戏机
MicroByte 是一款微型主机,能够运行 NES、GameBoy、GameBoy Color、Game Gear 和 Sega Master 系统的游戏,所有元器件都设计在这 78 x 17 x 40 mm 的封装中。尽管成品尺寸很小,但它符合 SNES 游戏板的布局并且具有操作按钮。
程序员小猿
2022/03/16
1.5K0
YYDS!大神自己动手制造游戏机
推荐阅读
相关推荐
模拟芯片的现在与未来
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验