大家好,我是赛博解生酱。
在代数篇里,我用“看不清 / 看不全”去引出系统与尺度的语言;到了流形篇,我更想把这句话彻底几何化——学习这件事,本质上是在一个未知的低维几何体上,把“局部可用”的结构一步步推成“全局可组合”的能力。
流形篇的主线我会用两套“几何三件套”逻辑:
- 度量—测度—拓扑:到底怎么定义“近”?数据密度怎么分布?全局结构有没有洞、断裂、相变?
- 覆盖—连通—幂律:规模变大时,点云先铺密(覆盖),再连成路网(连通),最后才有稳定的误差下降机制(幂律)。
0. 一句话结论
深度学习之所以能在高维里工作,往往不是因为它在高维里“直接学函数”,而是因为它把数据当作贴在某个低维流形附近的点云:
- 表征学习在做 atlas(坐标图册):把弯曲的语义空间压平,让任务函数更“平滑可学”;
- 生成学习在学 密度与向量场:尤其是 DAE/score 这条线,把“回到流形薄壳”的方向写成可学习的几何对象;
- 大模型尺度效应可以用 覆盖半径下降 → 邻域图连通相变 → 全局结构可学习来组织;而 loss 的幂律下降常来自 覆盖数/度量熵 + 平滑性。
1. 把“流形假设”写成一个可计算的模型
1.1 除了“数据在低维流形上”,还有哪些假设?
在工程上除了数据在低维流形上,我们往往还需要了解三件更硬的事:
- 局部能不能近似成平面?(决定你是否能用邻域法、核法、图法)
- 哪些地方数据稠密,哪些地方稀疏?(决定训练偏置、OOD、长尾)
- 全局是不是断裂的?有没有洞?有没有多块子流形?(决定“能不能走全局路径”,也决定大语言模型中所谓“涌现”现象)
首先我们从一个“可算”的生成式写法出发:
逐项解释:
- :内在坐标(intrinsic coordinates)。你可以把它想成“语义因素/生成因素”的低维参数。
- :把低维弯成高维的 嵌入/生成映射。它编码了“语义空间怎么在观测空间里卷曲折叠”。
- :薄壳厚度。这句最重要的潜台词是:现实数据几乎从来不是“精确在流形上”,而是“贴着流形的一层薄壳”。 决定“离流形多远算离谱”。
这一个式子把“流形视角”落成了三类对象:几何(由 的雅可比决定)、概率(由 推出测度)、噪声厚度(由 决定)。
1.2 度量不是装饰,而是“潜空间的尺子”
如果 可微,那么潜空间会被 “拉伸/压缩”。最自然的度量是:
解释要从“走一步”开始:
- 在潜空间走一小步 ,到数据空间的位移近似是(这就是雅可比的几何意义:局部线性近似)。
- 于是数据空间里这步的长度平方:
- 所以 的作用就是:告诉你“潜空间的每个方向在数据空间里被拉长多少/压扁多少”。
这不是玄学:它直接解释了为什么“潜空间直线插值”经常离谱——你以为你在欧氏空间走直线,实际上你在一张弯曲的尺子上走错了路;正确的“自然路径”应当是 测地线。
1.3 reach:流形“能不能被数据可靠恢复”,取决于它有没有打死结
很多几何/拓扑恢复定理都需要一个条件:reach(可达半径)。直觉是:
- reach 大:流形弯得不厉害、不易自交,局部摊平范围大,邻域关系稳定;
- reach 小:流形像打了死结,局部邻域“看起来像近邻”的点可能其实隔着一条自交,图结构会乱。
这一步非常关键,因为后面我会把“规模阈值”写成随机几何图阈值,而随机几何图要成立,必须保证你用的半径 在一个“局部欧氏近似仍可信”的尺度上(典型就是 , 是 reach 下界)。这里的 是一个常数因子,通常取一个小于 1 的常数,比如 、,甚至更小——具体取多少取决于想证明/保证什么性质。
2. 表征学习:神经网络在做“坐标图册”(atlas)
2.1 泛化到底依赖什么?
如果数据在流形 附近,那么你做监督学习/自监督学习,其实是在学一个映射:
关键不是“把 映射到 ”这句废话,而是: 是否把流形局部压平、把任务相关方向拉开、把任务无关方向压缩。这种“局部几何整形”由雅可比控制:
解释:
- 告诉你:输入空间的微小扰动 会在表征空间里被怎么放大/抑制;
- 所以“学表征”在几何上就是“学一个好的局部坐标系”:让后续任务函数在这个坐标系下更简单、更平滑、更线性可分。
2.2 切向 vs 法向:把“泛化/鲁棒”拆成两个可操作的方向
在流形上一点 ,小扰动分两类:
- 切向扰动(tangent):沿着流形走——通常对应“语义不变的变化因素”(姿态、光照、同义改写、上下文变形)
- 法向扰动(normal):离开流形——通常对应噪声、对抗、非自然输入
如果“同一语义的样本沿切向变化”,那么理想的分类/预测函数 应当对切向方向不敏感:
这就是 Tangent 扰动最朴素、也最简洁的形式:把几何先验写进损失函数,直接正则化梯度。
更详细的解释和证明可以参考相关文章的结论:
- CAE(见参考文献部分):让编码器对输入扰动更“收缩”,用雅可比范数把局部扰动压下去;
- MTC(见参考文献部分):先无监督估计切空间,再把切空间当作“应当不变的方向”喂给监督分类器。
上述链条从图像上很好解释了泛化的性质,构成流形视角最“硬”的因果闭环:
流形假设 → 切空间代表“同语义变化” → 对切空间扰动不敏感 → 泛化更好。
2.3 Denoising Autoencoder (DAE) 学到的是 score(密度梯度的向量场)
在DAE这篇论文中,最关键的结论涉及以下公式:
从流形角度如何理解?
- 前因:我们故意把样本推离流形薄壳取真实样本 ,加小噪声 。这相当于把点从“高密度薄壳”推到周围更稀疏的地方。
- 训练目标:学一个把点拉回去的重建函数DAE 训练一个重建 。换句话说,它在学习一个向量,告诉你“往哪走能回到数据更可能出现的区域”。
- 关键极限: 很小且模型足够强时,最优拉回方向 = 密度上升最快方向密度上升最快方向就是 (log-density 的梯度)。它像“雾气在山谷里聚集”的直觉:你在雾里走,往 方向走最容易回到雾最浓的谷底。
- 尺度匹配:为什么要除以 噪声越小,拉回位移越小;严格推导会给出“位移与 同阶”,于是 才能稳定逼近一个与密度有关的“有限向量场”。
上述结论的威力在于:它把“流形附近的几何”(薄壳、法向拉回)与“概率建模”(密度梯度)打通了——后面 diffusion / score-based generative models 基本都是从这里长出来的。
3. 架构 = 你在流形上选了什么“局部算子”和“连边规则”
这里我想用一句话概括 CNN/RNN/Transformer:
我们不是在 里乱拟合,而是在未知流形 上定义一种“局部算子”,然后靠堆叠、学习最后连接得到全局的计算模式。
3.1 CNN:把“局部性”硬编码成流形上的局部算子
卷积本质是“局部邻域共享算子”。当数据流形来自某种群作用(平移、旋转等),卷积相当于提前假设:
- 流形在各处局部几何近似平稳;
- 同一个滤波器可复用 → 样本效率高。
但当语义流形是 non-stationary 的(不同区域曲率/结构差异很大),共享权值反而会成为约束。
3.2 RNN:把推理压成轨迹积分,误差容易在弯曲流形上滚雪球
RNN 更新 像沿时间轴走一条轨迹。问题在于:
- 历史被压进固定维度状态,相当于把复杂轨迹投影到低维;
- 轨迹一长,局部误差会在弯曲表面累积成“滚雪球”。
所以长程依赖不仅是优化问题,也是几何问题。
3.3 Transformer:自注意力把邻域做成“可学习核函数”,并允许虫洞连边
自注意力机制的公式如下:
这串公式的几何解释拆开如下:
- 是相似度打分(“点 看点 有多近”);
- softmax 把打分归一成概率分布 → 每一行是从 出发“走向各点”的转移概率;
- 是对邻域的加权平均 → 核平滑/核回归(Nadaraya–Watson 视角)。
于是,一层 attention 可以看成:在 token 点云上构造一个核 ,把它行归一化得到 Markov 矩阵 ,做一次“随机游走/扩散”。多层堆叠就是多步扩散。
此外,Transformer 的注意力图里会出现“远距离的强连接”,这些连接像在几何/图论意义上开了近路(即“虫洞”):
- 在传统流形学习里,你通常只连近邻(-图/kNN 图);
- Transformer 允许直接给远处点一个高权重边(内容相似即可)——相当于在图上加“长程边”,显著降低图直径、提升混合效率。
3.4 多头与门控:并行学习多种几何关系 + 抑制法向噪声
- 多头注意力可以理解成:并行学习多个核 ,再线性组合形成更复杂核族;它对应一种“把大流形近似成子流形乘积”的工程比喻,但关键点在于:不同头可以在不同“切向子空间”里建邻域。
- Gated Attention像是把更新向量做“切向/法向”分解:门控抑制离开任务子流形的法向噪声,提高有效信噪比,避免把噪声扩散成全局污染。
4. 生成学习:为什么 diffusion/score 在“流形数据”上更稳?
4.1 很多生成模型的坑,不是调参问题,是“支撑维度”问题
一句话解释:如果数据分布本质上支撑在低维集合上,你硬用高维欧氏似然去做,会遇到结构性不适定(密度退化、数值不稳定)。
4.2 为什么扩散能救:把“低维支撑”变成“处处有密度”
扩散(加噪)做了一件极其关键的几何事:
- 原始数据:集中在流形薄壳上(“高维里几乎处处没概率”)
- 加噪后:分布被“吹起来”,在高维里变得处处有密度
于是 score 变得可学,逆过程(把噪声拉回薄壳)也变得可定义。
更进一步,如果数据天生就在已知流形上(球面、、双曲空间等),在欧氏空间乱加噪会破坏结构,所以出现把扩散推广到一般黎曼流形的路线(RSGM/RDM,见参考文献部分):核心就是把欧氏布朗运动换成流形上的布朗运动,把拉普拉斯换成 Laplace–Beltrami。
5. 大模型:残差流上的“几何演化”(深度 = 时间)
5.1 为什么“深度”可以看成“时间”?
因为残差结构:
在层数深、步长小的极限下,会趋近 ODE:
这就是 Neural ODE 的连续深度视角:网络不是在堆函数,而是在学一个向量场,让表示沿时间演化到任务需要的区域。
一旦你接受“向量场/轨迹”这套语言,你就会自然地问出更几何的问题:
- 轨迹在表示空间里是否会被吸入某些“能量盆地”?(测度/密度)
- 轨迹是否沿着某些低维结构收缩?(内在维度、各向异性)
- 轨迹能否跨越语义断裂区?(拓扑、连通、虫洞边)
6. 流形版 Scaling Law:随机几何图阈值串联“规模—涌现—幂律”
这一节是全文的第二套“流形主线”,首先我们明确地区分三层概念:
- 几何采样层:数据量 决定你在流形上“看得多细”(覆盖半径)。
- 图连通层:局部邻域能否串成全局路径(推理/组合的必要前提)。
- 误差幂律层:一旦连通且目标足够平滑,误差才会随 出现幂律下降。
6.1 假设条件
设 是紧致 的 -维流形(即流形(更准确:它的嵌入/参数化)至少二次连续可微),样本 i.i.d. 采自 上的密度 。我们需要三条典型前提条件:
- (A1) reach 下界:。 含义:曲率与自交受控,局部摊平可信。
- (A2) 密度下界: 在 上成立。 含义:不存在“永远采不到”的区域,否则覆盖/连通会被局部黑洞支配。
- (A3) 用足够小的半径建图:取 (比如 ),保证欧氏距离与测地距离局部等价。 含义:你连的是“真实局部邻域”,不是跨自交的假近邻。
这三条合起来一句话:
流形不打死结、数据不出现永久空洞、我们只用可信的局部邻域来建图。
6.2 随机几何图(RGG,见参考文献)连通阈值:为什么是 ?
6.2.1 建图:-图 / 半径图
对样本点集 ,建半径图(RGG):
问:当 ,多大的 能让图“几乎必然连通”?
经典结论(忽略常数与边界修正)是:
6.2.2 简单推导
第一步:把“连通”拆成更容易分析的必要条件——“没有孤点”。
如果存在孤点(某个节点度为 0),图必不连通。所以我们先控制:
第二步:估计“一个点成为孤点”的概率。
固定一个点 。它在半径 内的邻居数 服从二项分布近似:
- 每个其他点落入半径球的概率
- 在密度下界 与 reach 保障的局部体积近似下,存在常数 ,使得对足够小的 :
直觉:在 维里,小球体积 ,reach 保证局部像欧氏球, 就是“弯曲与测地/欧氏差异”的常数损失。
于是期望邻居数
若近似用 Poisson(随机几何图常用近似),孤点概率约为
第三步:用 union bound 控制“存在孤点”。
要让右边 ,需要:
也就是
这就是 的来源:“每个点平均得有 量级的邻居,才足以把所有孤点概率压到 0。”
更严谨的随机几何图定理会区分“无孤点”和“全连通”,并出现 修正项与边界效应项;
6.2.3 图像化理解
- 图在小 时像“碎岛”
- 大到阈值附近时,桥梁突然变多,巨型连通分量出现
- 越大,阈值下降越慢 → 维数灾难
6.3 “连通阈值”即是“大模型涌现阈值”
到这里我们就可以提到“涌现”。
因为在流形语言里,“多步推理”可以被非常具体地翻译成一句必要条件:
多步推理 ≈ 在“概念/语义图”上走路径。 如果这张图在你关心的尺度上是分裂的(很多连通分量),你不可能稳定地做跨分量组合。
于是,“能力突然出现”的一种几何解释是:
- 小规模:点云覆盖不够,邻域图断裂,局部知识无法拼成全局路径;
- 过阈值:连通性相变,跨域路径突然可用 → 组合能力看起来像“突然能了”。
而 Transformer 的“虫洞”机制,是把这个阈值用另一条路往前推:
- 不必等“纯近邻图”在小 下自然连通;
- 通过 attention 学出少量高质量长程边,降低图直径、提高混合效率。
6.4 幂律从哪来:覆盖半径 + 平滑性 ⇒
连通只是“能走路”。loss 为什么会像 Kaplan 那样幂律下降?这里必须引入第二个核心条件:你学的目标在流形上得足够平滑。
6.4.1 平滑性假设:Hölder 条件到底在说什么?
设目标函数 定义在流形 上(你可以把它理解成:logits、value、下一 token 条件分布的某种参数化)。假设目标函数 -Hölder 平滑:
解释:
- :流形上的测地距离(沿着曲面走的距离)
- :平滑度指数。
- 类似 Lipschitz:走得越远,函数变化最多线性增长
- 更平滑
- 更“粗糙”
这条假设的作用是:它把“局部看得更细”直接转成“误差能降多少”。
6.4.2 局部平均/核回归的 bias 为什么是 ?
如果你用邻域半径 做局部平均(或核回归),则等价于用邻域里点的平均来估计中心点的函数值。误差主导项常是 bias:
- 你平均的是一个半径 的邻域;
- 平滑性告诉你:邻域内函数变化幅度 ;
- 所以误差尺度 。
6.4.3 把 换成“采样覆盖半径”就得到幂律
随机采样下,覆盖半径的典型尺度与连通阈值同阶,于是:
这就是“几何驱动的幂律”。
把它翻译成 scaling law 语言,你会得到一个长得很像经验公式的形状:
这里 表示有效维度:真实语义空间往往是多子流形拼接、分层、各向异性——“有效维度”才是工程上该追的量。
7. 工程实践:把“几何三件套”变成可监控指标
LLM训练过程可以看作“在表示空间里不断重建一张图”,除了loss外,还可以监控这些量:
| | |
|---|
| | |
| | |
| 图拉普拉斯谱隙(spectral gap)/混合时间 | |
| | |
| | |
我想强调的是这句“工程化”判断:
训练不是只盯 loss,而是盯“几何结构是否已经具备推理所需的连通与扩散条件”。
8. 一些待解决问题与潜在方法
Q1:LLM 的 到底是什么?它随任务/层数/训练阶段怎么变?
难点:语义空间很可能是 union of manifolds / stratified manifolds,单一维度不够。 潜在路线:做“局部维数谱”(近邻 PCA 奇异值衰减)、随层追踪,再把 这类关系做分 regime 拟合验证。
Q2:涌现阈值能不能预测?能不能根据架构/数据构成预测?
难点:现实不是硬半径图,而是 软图 + 可学习核(attention)。 潜在路线:把 attention 当核机器,研究核温度、稀疏度、低秩性如何改变连通与混合;工程直觉是“少量高质量长程边”可能比盲目加数据更有效。
Q3:Off-manifold 鲁棒性:对抗样本在几何上到底是什么?
难点:大量对抗扰动沿法向把点推出薄壳,模型进入未约束区域。 潜在路线:切/法向分解的鲁棒训练;用 score 向量场做 detector/regularizer,把“拉回流形”的几何写成训练目标。
Q4:把 compute-optimal scaling(Chinchilla)与几何量统一起来
难点:compute-optimal 牵涉训练动力学 + 数据效率;几何只解释样本复杂度的一半。 潜在路线:把覆盖/连通当“数据端瓶颈”,把可实现平滑度 当“模型端瓶颈”,在算力约束下耦合两者,解释为什么 token 与参数要均衡扩展。
9. 流形篇结尾:
这里用三句话概括相关的研究结果:
- 架构不是魔法:它是在流形上选了什么局部算子与连边规则(CNN 预设局部性;Transformer 学核函数并打虫洞)。
- 涌现不是玄学:它像随机几何图的连通/渗流相变——局部块连成全局图谱后,组合推理才变得可能。
- 幂律不是巧合:覆盖数/度量熵给出 的几何结构;叠加平滑性 ,自然出现 一类下降(外加 修正)。
参考文献
这篇文章提及的主要研究论文列在这里,欢迎大家参考以及交流讨论
表征 / 流形正则
- Bengio, Courville, Vincent. Representation Learning: A Review and New Perspectives.
- Simard et al. Tangent Prop.
- Rifai et al. Contractive Auto-Encoders (CAE).
- Bengio et al. Manifold Tangent Classifier (MTC).
Score / Diffusion / 流形扩散
- Vincent. A Connection Between Score Matching and Denoising Autoencoders.
- De Bortoli et al. Riemannian Score-Based Generative Modelling (RSGM).
- Huang et al. Riemannian Diffusion Models (RDM).
图拉普拉斯 / 扩散几何
- Coifman & Lafon. Diffusion Maps.
- Belkin & Niyogi. Laplacian Eigenmaps.
- Belkin, Niyogi, Sindhwani. Manifold Regularization.
随机几何图 / 拓扑恢复
- Penrose. Random Geometric Graphs (RGG).
- Niyogi, Smale, Weinberger. Finding the Homology of Submanifolds with High Confidence from Random Samples.
Scaling Laws / 涌现讨论
- Kaplan et al. Scaling Laws for Neural Language Models.
- Hoffmann et al. Chinchilla.
- Schaeffer et al. Are Emergent Abilities of Large Language Models a Mirage?(关于指标造成“假相变”的提醒)