大模型原理三部曲-流形篇：从“点云”到“几何有效理论”，以及流形版Scaling Law

赛博解生

发布于 2026-04-09 13:16:12

2470

大家好，我是赛博解生酱。

在代数篇里，我用“看不清 / 看不全”去引出系统与尺度的语言；到了流形篇，我更想把这句话彻底几何化——学习这件事，本质上是在一个未知的低维几何体上，把“局部可用”的结构一步步推成“全局可组合”的能力。

流形篇的主线我会用两套“几何三件套”逻辑：

度量—测度—拓扑：到底怎么定义“近”？数据密度怎么分布？全局结构有没有洞、断裂、相变？
覆盖—连通—幂律：规模变大时，点云先铺密（覆盖），再连成路网（连通），最后才有稳定的误差下降机制（幂律）。

0. 一句话结论

深度学习之所以能在高维里工作，往往不是因为它在高维里“直接学函数”，而是因为它把数据当作贴在某个低维流形附近的点云：

表征学习在做 atlas（坐标图册）：把弯曲的语义空间压平，让任务函数更“平滑可学”；
生成学习在学 密度与向量场：尤其是 DAE/score 这条线，把“回到流形薄壳”的方向写成可学习的几何对象；
大模型尺度效应可以用 覆盖半径下降 → 邻域图连通相变 → 全局结构可学习来组织；而 loss 的幂律下降常来自 覆盖数/度量熵 + 平滑性。

1. 把“流形假设”写成一个可计算的模型

1.1 除了“数据在低维流形上”，还有哪些假设？

在工程上除了数据在低维流形上，我们往往还需要了解三件更硬的事：

局部能不能近似成平面？（决定你是否能用邻域法、核法、图法）
哪些地方数据稠密，哪些地方稀疏？（决定训练偏置、OOD、长尾）
全局是不是断裂的？有没有洞？有没有多块子流形？（决定“能不能走全局路径”，也决定大语言模型中所谓“涌现”现象）

首先我们从一个“可算”的生成式写法出发：

逐项解释：

：内在坐标（intrinsic coordinates）。你可以把它想成“语义因素/生成因素”的低维参数。
：把低维弯成高维的 嵌入/生成映射。它编码了“语义空间怎么在观测空间里卷曲折叠”。
：薄壳厚度。这句最重要的潜台词是：现实数据几乎从来不是“精确在流形上”，而是“贴着流形的一层薄壳”。决定“离流形多远算离谱”。

这一个式子把“流形视角”落成了三类对象：几何（由的雅可比决定）、概率（由推出测度）、噪声厚度（由决定）。

1.2 度量不是装饰，而是“潜空间的尺子”

如果可微，那么潜空间会被 “拉伸/压缩”。最自然的度量是：

解释要从“走一步”开始：

在潜空间走一小步，到数据空间的位移近似是（这就是雅可比的几何意义：局部线性近似）。
于是数据空间里这步的长度平方：
所以的作用就是：告诉你“潜空间的每个方向在数据空间里被拉长多少/压扁多少”。

这不是玄学：它直接解释了为什么“潜空间直线插值”经常离谱——你以为你在欧氏空间走直线，实际上你在一张弯曲的尺子上走错了路；正确的“自然路径”应当是 测地线。

1.3 reach：流形“能不能被数据可靠恢复”，取决于它有没有打死结

很多几何/拓扑恢复定理都需要一个条件：reach（可达半径）。直觉是：

reach 大：流形弯得不厉害、不易自交，局部摊平范围大，邻域关系稳定；
reach 小：流形像打了死结，局部邻域“看起来像近邻”的点可能其实隔着一条自交，图结构会乱。

这一步非常关键，因为后面我会把“规模阈值”写成随机几何图阈值，而随机几何图要成立，必须保证你用的半径在一个“局部欧氏近似仍可信”的尺度上（典型就是，是 reach 下界）。这里的是一个常数因子，通常取一个小于 1 的常数，比如、，甚至更小——具体取多少取决于想证明/保证什么性质。

2. 表征学习：神经网络在做“坐标图册”（atlas）

2.1 泛化到底依赖什么？

如果数据在流形附近，那么你做监督学习/自监督学习，其实是在学一个映射：

关键不是“把映射到 ”这句废话，而是： 是否把流形局部压平、把任务相关方向拉开、把任务无关方向压缩。这种“局部几何整形”由雅可比控制：

解释：

告诉你：输入空间的微小扰动会在表征空间里被怎么放大/抑制；
所以“学表征”在几何上就是“学一个好的局部坐标系”：让后续任务函数在这个坐标系下更简单、更平滑、更线性可分。

2.2 切向 vs 法向：把“泛化/鲁棒”拆成两个可操作的方向

在流形上一点，小扰动分两类：

切向扰动（tangent）：沿着流形走——通常对应“语义不变的变化因素”（姿态、光照、同义改写、上下文变形）
法向扰动（normal）：离开流形——通常对应噪声、对抗、非自然输入

如果“同一语义的样本沿切向变化”，那么理想的分类/预测函数应当对切向方向不敏感：

这就是 Tangent 扰动最朴素、也最简洁的形式：把几何先验写进损失函数，直接正则化梯度。

更详细的解释和证明可以参考相关文章的结论：

CAE(见参考文献部分)：让编码器对输入扰动更“收缩”，用雅可比范数把局部扰动压下去；
MTC(见参考文献部分)：先无监督估计切空间，再把切空间当作“应当不变的方向”喂给监督分类器。

上述链条从图像上很好解释了泛化的性质，构成流形视角最“硬”的因果闭环：

流形假设 → 切空间代表“同语义变化” → 对切空间扰动不敏感 → 泛化更好。

2.3 Denoising Autoencoder (DAE) 学到的是 score（密度梯度的向量场）

在DAE这篇论文中，最关键的结论涉及以下公式：

从流形角度如何理解？

前因：我们故意把样本推离流形薄壳取真实样本，加小噪声。这相当于把点从“高密度薄壳”推到周围更稀疏的地方。
训练目标：学一个把点拉回去的重建函数DAE 训练一个重建。换句话说，它在学习一个向量，告诉你“往哪走能回到数据更可能出现的区域”。
关键极限：很小且模型足够强时，最优拉回方向 = 密度上升最快方向密度上升最快方向就是（log-density 的梯度）。它像“雾气在山谷里聚集”的直觉：你在雾里走，往方向走最容易回到雾最浓的谷底。
尺度匹配：为什么要除以 噪声越小，拉回位移越小；严格推导会给出“位移与同阶”，于是才能稳定逼近一个与密度有关的“有限向量场”。

上述结论的威力在于：它把“流形附近的几何”（薄壳、法向拉回）与“概率建模”（密度梯度）打通了——后面 diffusion / score-based generative models 基本都是从这里长出来的。

3. 架构 = 你在流形上选了什么“局部算子”和“连边规则”

这里我想用一句话概括 CNN/RNN/Transformer：

我们不是在里乱拟合，而是在未知流形上定义一种“局部算子”，然后靠堆叠、学习最后连接得到全局的计算模式。

3.1 CNN：把“局部性”硬编码成流形上的局部算子

卷积本质是“局部邻域共享算子”。当数据流形来自某种群作用（平移、旋转等），卷积相当于提前假设：

流形在各处局部几何近似平稳；
同一个滤波器可复用 → 样本效率高。

但当语义流形是 non-stationary 的（不同区域曲率/结构差异很大），共享权值反而会成为约束。

3.2 RNN：把推理压成轨迹积分，误差容易在弯曲流形上滚雪球

RNN 更新像沿时间轴走一条轨迹。问题在于：

历史被压进固定维度状态，相当于把复杂轨迹投影到低维；
轨迹一长，局部误差会在弯曲表面累积成“滚雪球”。

所以长程依赖不仅是优化问题，也是几何问题。

3.3 Transformer：自注意力把邻域做成“可学习核函数”，并允许虫洞连边

自注意力机制的公式如下：

这串公式的几何解释拆开如下：

是相似度打分（“点看点有多近”）；
softmax 把打分归一成概率分布 → 每一行是从出发“走向各点”的转移概率；
是对邻域的加权平均 → 核平滑/核回归（Nadaraya–Watson 视角）。

于是，一层 attention 可以看成：在 token 点云上构造一个核，把它行归一化得到 Markov 矩阵，做一次“随机游走/扩散”。多层堆叠就是多步扩散。

此外，Transformer 的注意力图里会出现“远距离的强连接”，这些连接像在几何/图论意义上开了近路（即“虫洞”）：

在传统流形学习里，你通常只连近邻（-图/kNN 图）；
Transformer 允许直接给远处点一个高权重边（内容相似即可）——相当于在图上加“长程边”，显著降低图直径、提升混合效率。

3.4 多头与门控：并行学习多种几何关系 + 抑制法向噪声

多头注意力可以理解成：并行学习多个核，再线性组合形成更复杂核族；它对应一种“把大流形近似成子流形乘积”的工程比喻，但关键点在于：不同头可以在不同“切向子空间”里建邻域。
Gated Attention像是把更新向量做“切向/法向”分解：门控抑制离开任务子流形的法向噪声，提高有效信噪比，避免把噪声扩散成全局污染。

4. 生成学习：为什么 diffusion/score 在“流形数据”上更稳？

4.1 很多生成模型的坑，不是调参问题，是“支撑维度”问题

一句话解释：如果数据分布本质上支撑在低维集合上，你硬用高维欧氏似然去做，会遇到结构性不适定（密度退化、数值不稳定）。

4.2 为什么扩散能救：把“低维支撑”变成“处处有密度”

扩散（加噪）做了一件极其关键的几何事：

原始数据：集中在流形薄壳上（“高维里几乎处处没概率”）
加噪后：分布被“吹起来”，在高维里变得处处有密度

于是 score 变得可学，逆过程（把噪声拉回薄壳）也变得可定义。

更进一步，如果数据天生就在已知流形上（球面、、双曲空间等），在欧氏空间乱加噪会破坏结构，所以出现把扩散推广到一般黎曼流形的路线（RSGM/RDM，见参考文献部分）：核心就是把欧氏布朗运动换成流形上的布朗运动，把拉普拉斯换成 Laplace–Beltrami。

5. 大模型：残差流上的“几何演化”（深度 = 时间）

5.1 为什么“深度”可以看成“时间”？

因为残差结构：

在层数深、步长小的极限下，会趋近 ODE：

这就是 Neural ODE 的连续深度视角：网络不是在堆函数，而是在学一个向量场，让表示沿时间演化到任务需要的区域。

一旦你接受“向量场/轨迹”这套语言，你就会自然地问出更几何的问题：

轨迹在表示空间里是否会被吸入某些“能量盆地”？（测度/密度）
轨迹是否沿着某些低维结构收缩？（内在维度、各向异性）
轨迹能否跨越语义断裂区？（拓扑、连通、虫洞边）

6. 流形版 Scaling Law：随机几何图阈值串联“规模—涌现—幂律”

这一节是全文的第二套“流形主线”，首先我们明确地区分三层概念：

几何采样层：数据量决定你在流形上“看得多细”（覆盖半径）。
图连通层：局部邻域能否串成全局路径（推理/组合的必要前提）。
误差幂律层：一旦连通且目标足够平滑，误差才会随出现幂律下降。

6.1 假设条件

设是紧致的 -维流形（即流形（更准确：它的嵌入/参数化）至少二次连续可微），样本 i.i.d. 采自上的密度。我们需要三条典型前提条件：

(A1) reach 下界：。含义：曲率与自交受控，局部摊平可信。
(A2) 密度下界：在上成立。含义：不存在“永远采不到”的区域，否则覆盖/连通会被局部黑洞支配。
(A3) 用足够小的半径建图：取（比如），保证欧氏距离与测地距离局部等价。含义：你连的是“真实局部邻域”，不是跨自交的假近邻。

这三条合起来一句话：

流形不打死结、数据不出现永久空洞、我们只用可信的局部邻域来建图。

6.2 随机几何图（RGG，见参考文献）连通阈值：为什么是？

6.2.1 建图：-图 / 半径图

对样本点集，建半径图（RGG）：

若则连边。

问：当，多大的能让图“几乎必然连通”？

经典结论（忽略常数与边界修正）是：

6.2.2 简单推导

第一步：把“连通”拆成更容易分析的必要条件——“没有孤点”。

如果存在孤点（某个节点度为 0），图必不连通。所以我们先控制：

第二步：估计“一个点成为孤点”的概率。

固定一个点。它在半径内的邻居数服从二项分布近似：

每个其他点落入半径球的概率
在密度下界与 reach 保障的局部体积近似下，存在常数，使得对足够小的：

直觉：在维里，小球体积，reach 保证局部像欧氏球，就是“弯曲与测地/欧氏差异”的常数损失。

于是期望邻居数

若近似用 Poisson（随机几何图常用近似），孤点概率约为

第三步：用 union bound 控制“存在孤点”。

要让右边，需要：

也就是

这就是的来源：“每个点平均得有量级的邻居，才足以把所有孤点概率压到 0。”

更严谨的随机几何图定理会区分“无孤点”和“全连通”，并出现修正项与边界效应项；

6.2.3 图像化理解

图在小时像“碎岛”
大到阈值附近时，桥梁突然变多，巨型连通分量出现
越大，阈值下降越慢 → 维数灾难

6.3 “连通阈值”即是“大模型涌现阈值”

到这里我们就可以提到“涌现”。

因为在流形语言里，“多步推理”可以被非常具体地翻译成一句必要条件：

多步推理 ≈ 在“概念/语义图”上走路径。如果这张图在你关心的尺度上是分裂的（很多连通分量），你不可能稳定地做跨分量组合。

于是，“能力突然出现”的一种几何解释是：

小规模：点云覆盖不够，邻域图断裂，局部知识无法拼成全局路径；
过阈值：连通性相变，跨域路径突然可用 → 组合能力看起来像“突然能了”。

而 Transformer 的“虫洞”机制，是把这个阈值用另一条路往前推：

不必等“纯近邻图”在小下自然连通；
通过 attention 学出少量高质量长程边，降低图直径、提高混合效率。

6.4 幂律从哪来：覆盖半径 + 平滑性 ⇒

连通只是“能走路”。loss 为什么会像 Kaplan 那样幂律下降？这里必须引入第二个核心条件：你学的目标在流形上得足够平滑。

6.4.1 平滑性假设：Hölder 条件到底在说什么？

设目标函数定义在流形上（你可以把它理解成：logits、value、下一 token 条件分布的某种参数化）。假设目标函数 -Hölder 平滑：

解释：

：流形上的测地距离（沿着曲面走的距离）
：平滑度指数。
- 类似 Lipschitz：走得越远，函数变化最多线性增长
- 更平滑
- 更“粗糙”

这条假设的作用是：它把“局部看得更细”直接转成“误差能降多少”。

6.4.2 局部平均/核回归的 bias 为什么是？

如果你用邻域半径做局部平均（或核回归），则等价于用邻域里点的平均来估计中心点的函数值。误差主导项常是 bias：

你平均的是一个半径的邻域；
平滑性告诉你：邻域内函数变化幅度；
所以误差尺度。

6.4.3 把换成“采样覆盖半径”就得到幂律

随机采样下，覆盖半径的典型尺度与连通阈值同阶，于是：

这就是“几何驱动的幂律”。

把它翻译成 scaling law 语言，你会得到一个长得很像经验公式的形状：

这里表示有效维度：真实语义空间往往是多子流形拼接、分层、各向异性——“有效维度”才是工程上该追的量。

7. 工程实践：把“几何三件套”变成可监控指标

LLM训练过程可以看作“在表示空间里不断重建一张图”，除了loss外，还可以监控这些量：

目标	可观测指标（用 embedding 做）	你希望看到什么
覆盖（coverage）	kNN 距离分布分位数（p90/p99）	随数据/训练推进下降
连通（connectivity）	最大连通分量占比、孤点比例	过阈值后快速变好
可扩散（mixing）	图拉普拉斯谱隙（spectral gap）/混合时间	谱隙变大＝扩散更快
子流形解耦	多头注意力“头间相似度”下降、子空间分化	多头在学不同几何因子
噪声抑制	gate 稀疏度、更新向量“法向分量能量”	抑制离开子流形的分量

我想强调的是这句“工程化”判断：

训练不是只盯 loss，而是盯“几何结构是否已经具备推理所需的连通与扩散条件”。

8. 一些待解决问题与潜在方法

Q1：LLM 的到底是什么？它随任务/层数/训练阶段怎么变？

难点：语义空间很可能是 union of manifolds / stratified manifolds，单一维度不够。潜在路线：做“局部维数谱”（近邻 PCA 奇异值衰减）、随层追踪，再把这类关系做分 regime 拟合验证。

Q2：涌现阈值能不能预测？能不能根据架构/数据构成预测？

难点：现实不是硬半径图，而是 软图 + 可学习核（attention）。潜在路线：把 attention 当核机器，研究核温度、稀疏度、低秩性如何改变连通与混合；工程直觉是“少量高质量长程边”可能比盲目加数据更有效。

Q3：Off-manifold 鲁棒性：对抗样本在几何上到底是什么？

难点：大量对抗扰动沿法向把点推出薄壳，模型进入未约束区域。潜在路线：切/法向分解的鲁棒训练；用 score 向量场做 detector/regularizer，把“拉回流形”的几何写成训练目标。

Q4：把 compute-optimal scaling（Chinchilla）与几何量统一起来

难点：compute-optimal 牵涉训练动力学 + 数据效率；几何只解释样本复杂度的一半。潜在路线：把覆盖/连通当“数据端瓶颈”，把可实现平滑度当“模型端瓶颈”，在算力约束下耦合两者，解释为什么 token 与参数要均衡扩展。

9. 流形篇结尾：

这里用三句话概括相关的研究结果：

架构不是魔法：它是在流形上选了什么局部算子与连边规则（CNN 预设局部性；Transformer 学核函数并打虫洞）。
涌现不是玄学：它像随机几何图的连通/渗流相变——局部块连成全局图谱后，组合推理才变得可能。
幂律不是巧合：覆盖数/度量熵给出的几何结构；叠加平滑性，自然出现一类下降（外加修正）。

参考文献

这篇文章提及的主要研究论文列在这里，欢迎大家参考以及交流讨论

表征 / 流形正则

Bengio, Courville, Vincent. Representation Learning: A Review and New Perspectives.
Simard et al. Tangent Prop.
Rifai et al. Contractive Auto-Encoders (CAE).
Bengio et al. Manifold Tangent Classifier (MTC).

Score / Diffusion / 流形扩散

Vincent. A Connection Between Score Matching and Denoising Autoencoders.
De Bortoli et al. Riemannian Score-Based Generative Modelling (RSGM).
Huang et al. Riemannian Diffusion Models (RDM).

图拉普拉斯 / 扩散几何

Coifman & Lafon. Diffusion Maps.
Belkin & Niyogi. Laplacian Eigenmaps.
Belkin, Niyogi, Sindhwani. Manifold Regularization.

随机几何图 / 拓扑恢复

Penrose. Random Geometric Graphs (RGG).
Niyogi, Smale, Weinberger. Finding the Homology of Submanifolds with High Confidence from Random Samples.

Scaling Laws / 涌现讨论

Kaplan et al. Scaling Laws for Neural Language Models.
Hoffmann et al. Chinchilla.
Schaeffer et al. Are Emergent Abilities of Large Language Models a Mirage?（关于指标造成“假相变”的提醒）

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-28，如有侵权请联系 cloudcommunity@tencent.com 删除

函数

本文分享自赛博解生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度