首页
学习
活动
专区
圈层
工具
发布

OpenAI 杀疯了!新开源模型 99.9% 权重是 0

你有没有过这样的困惑?

让AI写一份工作报告,里面藏着致命的数据错误;

让AI推导一个专业结论,却死活说不清楚逻辑链条;

甚至让AI处理简单的代码调试,结果越改越乱——我们依赖AI的效率,却永远猜不透它的“脑子”里在想什么。

这就是大模型的“黑箱困境”:

内部神经元密密麻麻像一团乱麻,信息传递高度叠加,没人能追溯它的决策路径。

直到2025年底,OpenAI突然开源的一款新模型,给这个行业痛点来了一记“精准破局”:

仅0.4B参数,却有99.9%的权重是0

这款基于Circuit Sparsity(电路稀疏性)技术的模型,没有走“堆参数”的老路,反而靠“砍连接”让AI的思考过程像电路图一样清晰。

图源OpenAI 官方研究页面

更颠覆性的是,它可能要终结当下热门的MoE(混合专家模型)时代,倒逼AI行业从“追求规模”转向“追求透明”。

01

痛点:为什么AI的“黑箱”必须被打破?

我们先搞懂一个核心问题:为什么大模型的“不可解释性”是致命缺陷?

传统大模型的内部结构,像一个杂乱无章的“毛线球”。

每个神经元都和下一层的所有神经元相连,权重矩阵几乎全是非零值,信息传递是“叠加态”的。

就像你想从一团乱线里找出某个结的来龙去脉,根本不可能。

这种“黑箱特性”,让AI的应用始终存在隐形风险:

医疗领域,AI给出诊断建议,医生不敢采信,因为不知道它是否忽略了关键症状;

法律领域,AI生成法律文书,律师不敢用,因为不清楚它的逻辑是否符合法律条文;

企业决策中,AI给出市场分析,管理者不敢拍板,因为无法验证它的推理是否靠谱。

更麻烦的是“AI胡说八道”的问题:

当模型无法解释自己的决策,就可能在知识盲区里一本正经地编造答案,而我们无从分辨。

这不是能力问题,而是结构问题——密集连接的架构,从根源上决定了它的思考过程无法被拆解。

而OpenAI的Circuit Sparsity模型,恰恰是用“反常识”的思路解决了这个问题:既然乱线理不清,不如直接砍断多余的线,只留下必要的通路。

02

破局:99.9%权重为0.AI的思考变成“电路图”

Circuit Sparsity的核心逻辑,一句话就能说懂:放弃“密集连接”,追求“原生稀疏”。

它基于GPT-2风格的Transformer架构,但训练时加了一个严格约束:让权重的L0范数极小化。

简单说,就是强制模型砍掉99.9%的无效连接,只留下千分之一的有效通路。

这些留存的非零权重,就像电路图里的导线,信息只能沿着固定路径传递,全程可追溯、可拆解。

更重要的是,它从设计上解决了大模型的“叠加问题”。

图源OpenAI 官方研究页面

传统模型里一个概念可能分散在多个节点,而Circuit Sparsity通过“超大维度投射+严格稀疏激活”,让每个特征都变得“单义化、正交化”。

简单说,一个模块只负责一件事,不会出现“一个神经元同时承载多个语义”的混乱情况。

03

颠覆:MoE为什么要“谢幕”?

Circuit Sparsity的出现,为什么被业内认为会终结MoE时代?

我们先搞懂MoE的核心逻辑:MoE是把模型拆成多个“专家子网络”。

通过门控网络(路由器)给不同任务分配不同专家——本质上是用“拆分专家”这种粗糙的方式近似稀疏性,目的是适配硬件的稠密矩阵计算需求。

但这种架构有两个致命缺陷,就像“拆分成多个独立部门干活”:

特征流形割裂:不同专家之间的信息协同全靠路由器调控,容易出现“专家同质化”“知识冗余”,甚至不同专家的结论互相干扰;

功能边界模糊:专家的职责划分是“人为设定”的,无法实现微观层面的精准解耦,依然解决不了“黑箱问题”。

而Circuit Sparsity追求的是“原生稀疏”,相当于“搭建一条精准协作的流水线”:

它不拆分模型,而是通过“超大标称维度投射”,让每个特征自然形成独立功能模块;

模块之间是正交关系,不会互相干扰,不需要复杂的路由机制调控;

从根源上实现了“一个模块管一件事”,比MoE的“粗糙拆分”更精准、更高效。

业内有个形象的对比:MoE是“人为划分部门”,靠管理技巧提升效率;Circuit Sparsity是“自然形成分工”,靠架构设计实现最优协作。

当“原生稀疏”技术成熟,MoE这种“妥协式方案”的生存空间,自然会被大幅挤压。

04

现实:新技术的短板与AI的未来方向

当然,Circuit Sparsity目前还不是“完美方案”,它有一个明显的短板:算力成本极高。

由于要维持超大维度的稀疏连接,模型的训练和推理计算量是传统稠密模型的100-1000倍,目前还达不到顶尖大模型的能力。

而MoE在算力效率和性能的平衡上已经非常成熟,短期内依然会是工业界的主流选择。

但这并不影响它的颠覆性意义——它给AI行业指明了一个新方向:可解释性是未来大模型的核心竞争力

图源OpenAI 官方研究页面

OpenAI团队已经给出了两个优化路径,让“原生稀疏”模型有望落地:

从稠密模型中提取稀疏电路

直接复用现有大模型的基础框架,不额外训练稀疏模型,大幅降低成本;

优化稀疏模型的训练机制

针对训练慢、成本高的问题,从技术层面改进训练方法,造出“原生可解释+高效落地”的模型。

这背后其实是AI行业的一个重要转向:过去我们总以为“参数越多,模型越强”,但Circuit Sparsity告诉我们,真正的进步不是“堆规模”,而是“让复杂的系统变简单”。

未来的大模型,比拼的不再是参数大小,而是“在保证能力的前提下,谁的逻辑更透明、谁的决策更可信”。

最后,我们聊聊这个技术背后的底层逻辑。

从稠密模型到MoE,再到Circuit Sparsity,AI的架构演进其实遵循着一个朴素的规律:技术总是从“粗糙近似”走向“精准本质”。

MoE是硬件限制下的“妥协方案”——因为硬件更适配稠密矩阵计算,所以只能用“拆分专家”的方式近似稀疏性;

而Circuit Sparsity是技术发展后的“本质方案”——它不迁就硬件,而是通过架构创新,实现了真正的“原生稀疏”。

这对我们的启发,远不止AI行业:

对企业来说,真正的效率提升,不是靠“堆人、堆资源”的粗放式管理,而是靠“明确分工、清晰流程”的精细化运营;

对个人来说,真正的能力提升,不是靠“学得多、看得广”的泛化积累,而是靠“找准定位、深耕细分”的精准突破;

对技术来说,真正的革命,不是靠“规模叠加”的量变,而是靠“逻辑优化”的质变。

AI的终极目标,从来不是成为一个“不可捉摸的巨人”,而是成为一个“靠谱的助手”。

当AI的思考过程能被人类理解、能被验证、能被修正,它才能真正融入医疗、法律、教育等关键领域,成为推动社会进步的核心力量。

Circuit Sparsity的出现,只是AI“去黑箱化”的第一步。

但它已经让我们看到:未来的智能时代,不是AI越来越“神秘”,而是越来越“透明”。

而那些曾经依赖“堆规模”的技术,终将被更高效、更可信的创新所替代——这,就是技术演进的必然逻辑。

当AI不再“胡说八道”,当每一个决策都有迹可循,我们才能真正信任并拥抱这个智能时代。而这一天,已经离我们越来越近了。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OgzpTrRMkvWBKtVGoTWrIcgg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券