从开普勒到牛顿：如何改进Transformer读懂物理世界

赛博解生

发布于 2026-04-09 13:22:47

1600

大家好，我是赛博解生酱。

我们总在聊AI的“智能”，以transformer为底座，现在的AI模型已经写上万行严丝合缝的代码，能通过最难的律考和数学；能背下整本《经典力学》，一字不差地默写万有引力公式，能解复杂的天体运动微分方程；然而，一些情况下，AI却连一个小球从斜面滚下的轨迹都预测不准，甚至无法预判“杯子碰歪了会掉在地上摔碎”，“水泼在桌上会顺着桌沿流下来”。

最近，斯坦福大学在Arxiv发表的《From Kepler to Newton》捅破了这层窗户纸：通用Transformer之所以学不会物理世界的底层规律，不是模型不够大、数据不够多，而是缺了三个极简、却完全贴合物理世界本质的归纳偏置。补上这三个偏置，Transformer就能彻底跳出“曲线拟合”的怪圈，从只会死记轨迹的“数据搬运工”，变成能自主发现物理定律的“AI物理学家”。

这篇文章，除了论文里的结论，还会掰开揉碎了讲清楚：这三个归纳偏置到底解决了什么问题，为什么之前的Transformer注定学不会牛顿力学，以及这件事，可能会给卡了很久的具身智能、甚至通用人工智能，带来什么样的启发。

开普勒与牛顿：两种智能的本质鸿沟

在技术细节之前，我们先把故事的核心讲透：开普勒和牛顿，到底差在哪？

400多年前，天文学家开普勒拿着老师第谷积累了几十年的行星观测数据，熬了十几年，终于总结出了行星运动三大定律：轨道定律（行星绕太阳走椭圆）、面积定律、周期定律。靠着这三大定律，他能精准预测任何一颗行星在未来任何时刻的位置，误差小到当时的天文仪器都很难测出来。

但直到去世，开普勒都没能回答一个最根本的问题：为什么行星非要绕着太阳走椭圆，而不是沿着直线飞出太阳系？

而牛顿，只用一个万有引力公式，就彻底回答了这个问题：

再结合第二定律，他不仅能预测行星的轨迹，更能解释所有天体运动的底层逻辑——行星之所以走椭圆，是因为太阳和行星之间的引力，时时刻刻在改变着行星的运动方向。甚至靠着这套公式，人类在还没通过望远镜看到海王星的时候，就精准算出了它的位置和轨道。

这就是两种智能的本质鸿沟：

开普勒的能力，是拟合现象：靠着海量历史数据，找到数据里的规律，精准复刻见过的场景，但换个场景就彻底失效；
牛顿的能力，是理解本质：找到支配所有现象的底层、通用、不变的物理规律，哪怕是从未见过的场景，也能靠着规律做出正确的预判。

而此前AI在世界模型上的所有尝试，都困在了“开普勒式智能”里。

2025年Vafa等人的经典实验，已经把这个困境摆到了台面上：他们用GPT-2规模的Transformer，喂了200亿个token的行星轨迹数据，模型的轨迹预测准确率拉到了近乎满分，能画出完美的椭圆轨道。但当研究者打开模型的内部表征，却发现里面完全没有引力、加速度的任何信息——它根本没懂“行星为什么这么转”，只是靠着海量历史数据，拟合出了椭圆的几何形状，一旦给行星的初始速度改一点点，它的预测就会瞬间崩盘，行星要么直接撞向太阳，要么直接飞出太阳系。

这就像一个背熟了题库的学生，原题能秒选答案，只要题目换个数字、改个条件，就直接交白卷。

而斯坦福的这篇论文，就是找到了拦住Transformer从“开普勒”到“牛顿”的三道坎，并用三个极简的归纳偏置，一步一步迈了过去。

三个归纳偏置：让Transformer真正读懂物理世界-

1. 空间平滑性：先给AI一双能看懂“连续空间”的眼睛

Transformer学不会物理世界的第一个致命bug，是离散token化，彻底打碎了物理空间的连续性。

行星的位置是二维连续坐标，比如x和y的取值范围是（AU是天文单位，地球到太阳的距离）。但因为Transformer天生是为文本设计的，处理的是离散token，所以研究者做了一个操作：把x和y的取值范围，各自独立分成了7000个均匀的小格子（bin），每个格子对应一个独立的token，每个token都有一个随机初始化的嵌入向量。

举个最直观的例子： x=0.001和x=0.002，在物理世界里是无限接近的两个点，代表行星几乎没动；但如果这两个数刚好落在了两个相邻的格子里，在Transformer眼里，它们就是两个完全独立、毫无关联的token——因为嵌入向量是随机初始化的，在训练之前，这两个向量的相似度，和x=0.001与x=100的向量相似度没有任何区别。

这就像我们教一个孩子认空间，却把一张完整的世界地图，剪成了7000×7000个碎纸片，每个纸片上只写一个数字，然后让孩子靠这些碎纸片，去理解“两个点离得近是什么意思”。

这个问题带来的致命后果是什么？

论文里用线性探测的方法，把这个问题彻底量化了。

线性探测，就是我们在模型的token嵌入空间里，找一个线性方向，看这个方向能不能和真实的x/y坐标完美对应。如果能，说明模型学到了正确的空间映射，用决定系数来衡量，越接近1，空间映射越准。

结果是，哪怕用了200亿token训练，模型的x和y坐标的线性探测，也只有0.86。

这个数字意味着什么？

模型只能捕捉到粗粒度的空间差异，比如行星在第一象限还是第三象限，但是完全丢失了细粒度的空间连续性；
真实世界里一个完美的圆形轨道，在模型的嵌入空间里，变成了四个碎片化的点云，象限之间的全局结构勉强能保留，但每个象限里的局部结构完全扭曲、混乱；
最致命的是，引力的大小和行星到太阳的距离平方成反比，连“距离”都算不准，模型根本不可能学会万有引力定律。

解决方案和关键实验细节

针对这个问题，论文提出了两个可落地的解决方案，同时推导出了空间映射的缩放定律，彻底量化了token化的危害。

第一个方案：缩小词汇量（格子数量）论文里做了一组对照实验，固定训练数据量，把词汇量V从10000降到1000、再降到100，结果发现，词汇量越小，模型学到的空间映射越准。当V从7000降到128时，空间映射的直接从0.86涨到了0.99以上。

同时论文推导出了空间映射质量的缩放定律，公式如下：

这个公式里，D是训练token数量，V是词汇量。它告诉我们一个反直觉的结论：词汇量对空间映射的影响，比训练数据量更大。意味着，词汇量翻一倍，训练数据量要翻不止一倍，才能维持空间映射的质量。这也是为什么哪怕用了200亿token，7000的词汇量也让模型学不到完美的空间表征。

当然，词汇量也不能无限缩小，否则格子太粗，坐标的精度就不够了，预测轨迹自然会有误差。所以需要在空间映射质量和预测精度之间，找一个平衡点。

第二个方案：彻底抛弃离散token化，用连续回归替代分类任务这是更根本的解决方案：既然token化会破坏空间连续性，那我们就不用token了，直接把连续的x/y坐标作为模型的输入和输出，把原本的“下一个token预测（分类任务）”，改成“下一个状态预测（回归任务）”。

这个改动的好处是显而易见的：物理空间里越近的点，在输入里天然就越近，模型不需要再从离散的token里，重新学习空间结构，空间平滑性从一开始就被天然保证了。

这一步，直接解决了Transformer“看不懂空间”的核心问题，让模型从“看碎纸片”，变成了“看完整的地图”，为后续学习物理规律，打下了最基础的地基。

2. 空间稳定性：驯服自回归的误差累积，让AI学会在噪声里修正自己

解决了空间平滑性的问题，我们马上就遇到了第二个经典难题：连续回归的自回归预测，会出现致命的误差累积。

我们预测行星轨迹，是一个典型的自回归过程：给模型前50个时刻的行星坐标，让它预测第51个点；然后把预测出来的第51个点，当作已知的上下文，再预测第52个点；以此类推，一步步预测出后面的所有轨迹。

这个过程里，只要某一步的预测有一点点误差，这个误差就会被带到下一步的预测里，像滚雪球一样越滚越大。尤其是连续回归任务，模型的输出是无界的，误差一旦出现，就可能无限放大；而之前的离散分类任务，输出只能是7000个格子里的一个，相当于有一个硬约束，哪怕预测错了，也不会出现离谱的数值，天然有一定的“纠错能力”。

这也是为什么之前的研究者普遍认为：“离散分类比连续回归，更适合轨迹预测任务”。

这个问题在实验里的具体表现

论文里做了一组基础实验：用不加任何优化的连续回归模型，以前50个真实坐标为上下文，自回归预测后50个点。结果是：

前3步的预测误差很小，轨迹和真实轨道几乎重合；
从第5步开始，误差快速放大，轨迹开始偏离椭圆；
到第20步的时候，预测的轨迹已经彻底崩盘，行星要么直接冲向坐标原点（太阳），要么直接飞出了的范围，和真实轨道没有任何关系了。

这就像一个新手司机开车，方向盘稍微打偏了一点，就慌了神，越修正越歪，最后直接冲出了马路。

论文里的解决方案：带噪声的上下文训练

针对误差累积，论文里用了一个极简、却极其有效的方法：在训练的时候，给输入的历史坐标，加入可控的高斯噪声，强迫模型学会在有误差的输入下，依然做出正确的预测。

我们把这个方法的数学形式写出来，会看得更清楚：

公式里的，是标准高斯噪声，是噪声的强度；
简单说，就是训练的时候，我们故意给每一个历史坐标，都加一点随机的“小抖动”，模拟推理时的预测误差；
模型要想让损失函数最小，就必须学会忽略这些噪声，甚至修正这些误差，依然预测出正确的下一个坐标。

这个方法的本质，是在训练的时候，就提前让模型适应“输入有误差”的场景，学会了误差自修正的能力。就像老司机开车，哪怕路面有坑、方向盘晃了一下，也能轻松修正方向，不会因为一点小意外就崩盘。

关键实验结果

论文里测试了不同噪声强度的效果，结果非常清晰：

当（不加噪声）时，模型预测50步后的平均距离误差，达到了几十AU，完全不可用；
当时，模型的预测误差降到了0.01AU以内，哪怕自回归预测50步，轨迹也能和真实轨道完美贴合，几乎没有偏差；
当太大（比如超过0.3），噪声会淹没真实的信号，模型的预测精度又会下降。

更重要的是，论文里做了公平的对比：把优化了噪声强度的回归模型，和优化了词汇量的分类模型，放在不同的训练数据量下对比。结果是，在所有数据量下，优化后的回归模型，预测误差都比最优的分类模型低30%以上，直接推翻了之前“分类比回归更适合轨迹预测”的结论。

这一步，让Transformer拥有了在真实世界里稳定预测的能力——毕竟真实世界里，永远没有完美无噪声的传感器数据，永远有各种意外和扰动，一个不会修正误差的模型，永远没法在真实世界里落地。

3. 时间局部性：最关键的一跃，逼AI从“描轨道”变成“懂引力”

前两个归纳偏置，让AI能画出更完美、更稳定的椭圆轨道，成了更优秀的开普勒，但它依然不懂“行星为什么会这么转”。真正让它蜕变成牛顿的，是第三个归纳偏置——时间局部性。

先给大家介绍，什么是牛顿力学里的时间局部性，这是整个问题的核心。

牛顿第二定律，是一个二阶常微分方程，而加速度，是位置对时间的二阶导数：

这个方程有一个极其关键的数学性质：只要我们知道了某一时刻，行星的位置和速度，就能唯一确定未来任意时刻，行星的运动轨迹。

用通俗的话讲：你要算一个小球下一秒会飞到哪，只需要知道它“现在在哪”和“现在飞得多快、往哪个方向飞”，完全不需要知道它10秒前、1分钟前、甚至1小时前在哪。

这就是时间局部性的本质：未来的状态，只由最近的两个瞬时状态决定，和更早的历史毫无关系。而要确定这两个状态，对应的上下文长度，严格等于2。

但之前的Transformer，用的是全局上下文长度（比如L=100），自注意力机制允许模型关注历史上所有的轨迹点。这就给了模型走捷径的机会：它根本不需要去学什么引力、加速度，只需要用前100个点，拟合出椭圆的几何参数——半长轴、半短轴、椭圆的焦点位置、拉普拉斯-龙格-楞次（LRL）向量，然后用这个椭圆，去“描”出后面的点。

这就是典型的开普勒式工作：先确定轨道的形状，再沿着轨道描点，完全不需要懂轨道背后的物理规律。

论文的核心操作：严格限制注意力的上下文窗口

论文里的解决方案，简单到极致：把Transformer的注意力窗口，严格限制在最近的2个时间步，模型只能用当前和上一个时刻的坐标，去预测下一个时刻的坐标。

这一下，就把模型走捷径的路彻底堵死了。它没法再用100个历史点去拟合椭圆的形状，只能用两个瞬时的坐标点，去寻找决定轨迹变化的底层规律。

实验结果：牛顿力学在模型里自发涌现了

论文里用线性探测的方法，去看模型的隐藏状态里，到底有没有学到引力相关的物理量，包括引力的大小、x方向的引力分量、y方向的引力分量，同时也探测了椭圆轨道的几何参数。

结果完全印证了论文的核心猜想：

当上下文长度=100时：模型对引力相关量的线性探测只有0.9左右，而对椭圆轨道参数的探测达到了0.998。模型完美学会了开普勒的几何方法，却几乎没懂牛顿的力学规律。
当上下文长度=2时：模型对引力相关量的线性探测直接飙升到了0.999，几乎完美复刻了万有引力公式；而对椭圆轨道参数的探测，降到了0.9左右。模型彻底抛弃了曲线拟合的捷径，自发学会了牛顿力学的底层规律。

更有意思的是，论文里发现了一个清晰的“相变过程”：随着上下文长度从2逐步增加到10、20、50、100，模型的牛顿力场表征精度持续下降，而开普勒轨道参数的表征精度持续上升。上下文长度每增加一点，模型就更偏向“开普勒”一点，更远离“牛顿”一点。

为什么会这样？答案很简单：当上下文只有2个点的时候，模型唯一能做的，就是计算两个点之间的位置变化，得到速度；再计算速度的变化，得到加速度；而加速度，直接对应着引力。它必须学会，才能准确预测下一个点的位置。

而当上下文足够长的时候，模型总能找到更简单的捷径：用全局的点拟合椭圆，根本不需要费力去学习底层的物理规律。就像我在之前的文章里提到的“深度陷阱”：参数越多、上下文越长的模型，越容易找到死记硬背的捷径，反而不会去学习通用的、底层的结构。

这一步，是最关键的一跃。Transformer终于从“只会描述现象”，变成了“能理解底层规律”，真正读懂了物理世界。

架构的本质：归纳偏置，就是你在流形上定的“游戏规则”

到这里，我们可以回答一个行业里争论了很久的问题：为什么CNN、RNN、Transformer在不同任务上表现天差地别？它们的本质差异到底是什么？

答案就是：归纳偏置的差异，也就是你给流形上的点云，定义了什么样的连边规则和局部算子。

在流形篇里写过一句话，在这里依然是核心准则：我们不是在高维欧氏空间里乱拟合函数，而是在未知流形上，定义一种局部算子和连边规则，然后靠堆叠和学习，得到全局的计算模式。

我们可以把主流架构的归纳偏置，用几何语言彻底拆解：

CNN：硬编码的空间局部性卷积的本质，是流形上的固定邻域共享算子。它的归纳偏置是：流形在各处的局部几何近似平稳，同一个滤波器可以在整个空间复用。对应的连边规则，是只和卷积核大小内的近邻点连边，严格限制了局部性。这种硬编码的局部性，让CNN在图像任务上样本效率极高，但当语义流形的局部结构差异很大时，共享权值反而成了约束。
RNN：硬编码的时间局部性，却困在轨迹积分的误差里RNN的状态更新，本质是沿时间轴做轨迹积分，它的归纳偏置是严格的马尔可夫性：当前状态只依赖于前一时刻的状态和当前输入。这其实完美符合牛顿力学的时间局部性，但RNN的致命问题在于，它把整个历史信息都压缩到了固定维度的状态里，相当于把流形上的复杂轨迹投影到了低维空间，一旦轨迹变长，局部误差会在弯曲的流形上滚雪球，最终彻底丢失长程信息。
Transformer：可学习的核函数Transformer的强大之处，在于它的核函数是可学习的，连边规则不是固定的近邻，而是内容相似性。但这也是它此前学不会物理世界的根源：它允许任意两个点之间建立强连接，也就是在流形上开了无数个虫洞。在行星轨迹预测里，模型可以直接给100步前的初始点一个高权重，用全局的点云拟合椭圆，根本不需要去学习局部的动力学算子。

而这篇论文的核心贡献，就是给Transformer的自注意力，加上了时间局部性的约束，把它的连边规则，从“全局任意连”，拉回了“只和最近两个时间步连”。这一下，就把Transformer从一个全局曲线拟合器，逼成了一个局部动力学算子的学习者。

读懂物理世界，才是具身智能的真正破局点

讲完了论文的技术细节，也许会有疑问：不就是让AI学会了牛顿力学吗？这东西我们几百年前就知道了，有什么大不了的？

其实，这篇论文的价值，远不止于让AI学会了一个万有引力公式，也给卡了很多年的具身智能，找到了潜在的破局之路。

整个具身智能行业，都困在一个死循环里：我们能做出能后空翻的波士顿动力机器人，能做出能走能跳的特斯拉Optimus，能在仿真环境里，让机器人练几百万、几千万次，学会开门、倒水、抓取物体。但这些机器人，一到真实的家庭环境里，就彻底拉胯了。

仿真里练了几万次倒水的机器人，到了真实世界里，杯子换了个形状、桌面晃了一下、水流快了一点，就直接把水洒了一地；练了无数次开门的机器人，遇到一个没见过的门把手，就直接束手无策。

为什么？因为现在的具身智能，走的还是“开普勒式”的老路：靠海量数据，拟合“看到什么画面，就做什么动作”的映射关系，根本不懂背后的物理规律。

它不知道“杯子倾斜超过45度，水就会洒出来”，不知道“手用的力气太大，杯子会被捏碎”，不知道“地面有水，走路会打滑”。它只是在背仿真里练过的动作，一旦场景和训练里不一样，就彻底失效了。

而这篇论文，指明了潜在的方向：真正的具身智能，必须有一个牛顿式的世界模型。

这个世界模型，不是对海量观测数据的记忆，而是对物理世界底层规律的理解。它不需要在仿真里练几百万次倒水，就能知道“杯子倾斜的角度，决定了水流的大小”；不需要练无数次走路，就能知道“踩到滑的地面，要减小步幅、放慢速度”；哪怕遇到一个完全没见过的场景，也能靠着对物理规律的理解，做出正确的决策。

这才是机器人和人类一样，能在真实世界里灵活行动的核心。我们人类从生下来，就不是靠背无数个场景的动作来生存的，而是在和世界的交互里，慢慢理解了空间、时间、力、因果这些底层规律，然后靠着这些规律，应对所有从未见过的场景。

现在行业里已经有了很多相关的尝试：谷歌DeepMind把物理世界模型融入机器人控制，让机器人在真实环境里的泛化能力提升了数倍；英伟达的Isaac平台，开始用带物理归纳偏置的世界模型，做机器人的预训练；国内很多机器人公司，也开始抛弃“纯数据驱动”的老路，把物理先验融入模型训练。

而这篇论文的价值，就是证明了：我们不需要给模型硬编码复杂的物理公式，只需要给它注入符合世界本质的极简归纳偏置，它就能自发学会底层的物理规律。这给具身智能的落地，提供了一条可复制、可扩展的路径。

关于AGI的一个思考：智能的本质，也许是对世界本质的理解

最后，我想聊一聊关于通用人工智能（AGI）的思考。

现在整个行业，都陷入了“Scaling Law”的执念里：觉得模型越大、数据越多，AI就越智能，就能离AGI越近。但这篇论文，给我们泼了一盆冷水：靠堆数据、堆参数，永远堆不出真正的AGI。

Scaling Law能让模型记住更多的知识，拟合更复杂的曲线，复刻更多见过的场景，但它永远没法让模型，自动发现世界的底层规律。就像你给一个人看一辈子的行星轨迹，他也未必能发现万有引力；但给一个孩子扔几次石头，他就能懂重力的存在。

区别在哪里？在于孩子天生就带着符合这个世界本质的归纳偏置：空间是连续的，时间是局部的，动作的结果是可重复的，有因必有果。这些刻在人类基因里的归纳偏置，让我们能从有限的交互里，快速理解世界的底层规律。

而AI的发展，也是一样的道理。

从开普勒到牛顿，是AI从“拟合数据”到“理解世界”的第一步。这一步，我们给AI注入了物理世界的归纳偏置，让它读懂了经典力学的规律。

而未来，我们要做的，是把这种归纳偏置，从物理世界，扩展到更广阔的领域：从物理世界的因果规律，到人类社会的运行规则，到心理世界的情绪逻辑，再到数学世界的抽象规律。

真正的AGI，从来不是一个能背下所有知识的百科全书，也不是一个能复刻所有见过场景的拟合器。它应该像人类一样，能从有限的经验里，发现世界的底层规律，能在从未见过的场景里，做出正确的决策，能从一个领域的规律里，迁移到另一个完全陌生的领域。

而这一切的起点，就是让AI真正读懂我们身处的这个物理世界。真正的具身智能，它的灵魂，必须是一个牛顿式的世界模型。这个世界模型，不是对观测数据的记忆，而是对物理世界流形的完整表征：

ounter(lineounter(lineounter(line
1.  它有正确的空间度量，能理解连续的物理空间，知道“近”和“远”的真实含义；
2.  它有稳定的误差修正能力，能在真实世界的噪声里，始终把状态拉回流形的薄壳里，不会因为一点扰动就崩盘；
3.  它有严格的时间局部性，学到的是流形上每一点的动力学向量场，是通用的、不变的物理规律，而不是特定场景的动作轨迹。

只有这样的机器人，才能像人类一样，在从未见过的场景里，做出正确的决策。它不用在仿真里练过一万次倒水，就能知道“杯子倾斜太厉害，水会洒出来”；不用练过无数次走路，就能知道“踩到滑的地面，要放慢脚步”。因为它懂了物理世界的底层规则，而不是背下了所有场景的应对动作。

对于AI来说，也是一样。从开普勒到牛顿，是AI从“拟合数据”到“理解世界”的第一步。而从理解物理世界，到拥有因果推理、类比创造、自主决策的能力，就是AI通往通用智能的完整路径。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-15，如有侵权请联系 cloudcommunity@tencent.com 删除

模型