首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型原理三部曲-流形篇:从“点云”到“几何有效理论”,以及流形版Scaling Law

大模型原理三部曲-流形篇:从“点云”到“几何有效理论”,以及流形版Scaling Law

作者头像
赛博解生
发布2026-04-09 13:16:12
发布2026-04-09 13:16:12
600
举报

大家好,我是赛博解生酱。

在代数篇里,我用“看不清 / 看不全”去引出系统与尺度的语言;到了流形篇,我更想把这句话彻底几何化——学习这件事,本质上是在一个未知的低维几何体上,把“局部可用”的结构一步步推成“全局可组合”的能力

流形篇的主线我会用两套“几何三件套”逻辑:

  • 度量—测度—拓扑:到底怎么定义“近”?数据密度怎么分布?全局结构有没有洞、断裂、相变?
  • 覆盖—连通—幂律:规模变大时,点云先铺密(覆盖),再连成路网(连通),最后才有稳定的误差下降机制(幂律)。

0. 一句话结论

深度学习之所以能在高维里工作,往往不是因为它在高维里“直接学函数”,而是因为它把数据当作贴在某个低维流形附近的点云:

  1. 表征学习在做 atlas(坐标图册):把弯曲的语义空间压平,让任务函数更“平滑可学”;
  2. 生成学习在学 密度与向量场:尤其是 DAE/score 这条线,把“回到流形薄壳”的方向写成可学习的几何对象;
  3. 大模型尺度效应可以用 覆盖半径下降 → 邻域图连通相变 → 全局结构可学习来组织;而 loss 的幂律下降常来自 覆盖数/度量熵 + 平滑性

1. 把“流形假设”写成一个可计算的模型

1.1 除了“数据在低维流形上”,还有哪些假设?

在工程上除了数据在低维流形上,我们往往还需要了解三件更硬的事:

  • 局部能不能近似成平面?(决定你是否能用邻域法、核法、图法)
  • 哪些地方数据稠密,哪些地方稀疏?(决定训练偏置、OOD、长尾)
  • 全局是不是断裂的?有没有洞?有没有多块子流形?(决定“能不能走全局路径”,也决定大语言模型中所谓“涌现”现象)

首先我们从一个“可算”的生成式写法出发:

逐项解释:

  • 内在坐标(intrinsic coordinates)。你可以把它想成“语义因素/生成因素”的低维参数。
  • :把低维弯成高维的 嵌入/生成映射。它编码了“语义空间怎么在观测空间里卷曲折叠”。
  • 薄壳厚度。这句最重要的潜台词是:现实数据几乎从来不是“精确在流形上”,而是“贴着流形的一层薄壳”。 决定“离流形多远算离谱”。

这一个式子把“流形视角”落成了三类对象:几何(由 的雅可比决定)、概率(由 推出测度)、噪声厚度(由 决定)


1.2 度量不是装饰,而是“潜空间的尺子”

如果 可微,那么潜空间会被 “拉伸/压缩”。最自然的度量是:

解释要从“走一步”开始:

  • 在潜空间走一小步 ,到数据空间的位移近似是(这就是雅可比的几何意义:局部线性近似)。
  • 于是数据空间里这步的长度平方:
  • 所以 的作用就是:告诉你“潜空间的每个方向在数据空间里被拉长多少/压扁多少”。

这不是玄学:它直接解释了为什么“潜空间直线插值”经常离谱——你以为你在欧氏空间走直线,实际上你在一张弯曲的尺子上走错了路;正确的“自然路径”应当是 测地线


1.3 reach:流形“能不能被数据可靠恢复”,取决于它有没有打死结

很多几何/拓扑恢复定理都需要一个条件:reach(可达半径)。直觉是:

  • reach 大:流形弯得不厉害、不易自交,局部摊平范围大,邻域关系稳定;
  • reach 小:流形像打了死结,局部邻域“看起来像近邻”的点可能其实隔着一条自交,图结构会乱。

这一步非常关键,因为后面我会把“规模阈值”写成随机几何图阈值,而随机几何图要成立,必须保证你用的半径 在一个“局部欧氏近似仍可信”的尺度上(典型就是 , 是 reach 下界)。这里的 是一个常数因子,通常取一个小于 1 的常数,比如 、,甚至更小——具体取多少取决于想证明/保证什么性质。


2. 表征学习:神经网络在做“坐标图册”(atlas)

2.1 泛化到底依赖什么?

如果数据在流形 附近,那么你做监督学习/自监督学习,其实是在学一个映射:

关键不是“把 映射到 ”这句废话,而是: 是否把流形局部压平、把任务相关方向拉开、把任务无关方向压缩。这种“局部几何整形”由雅可比控制:

解释:

  • 告诉你:输入空间的微小扰动 会在表征空间里被怎么放大/抑制;
  • 所以“学表征”在几何上就是“学一个好的局部坐标系”:让后续任务函数在这个坐标系下更简单、更平滑、更线性可分。

2.2 切向 vs 法向:把“泛化/鲁棒”拆成两个可操作的方向

在流形上一点 ,小扰动分两类:

  • 切向扰动(tangent):沿着流形走——通常对应“语义不变的变化因素”(姿态、光照、同义改写、上下文变形)
  • 法向扰动(normal):离开流形——通常对应噪声、对抗、非自然输入

如果“同一语义的样本沿切向变化”,那么理想的分类/预测函数 应当对切向方向不敏感:

这就是 Tangent 扰动最朴素、也最简洁的形式:把几何先验写进损失函数,直接正则化梯度

更详细的解释和证明可以参考相关文章的结论:

  • CAE(见参考文献部分):让编码器对输入扰动更“收缩”,用雅可比范数把局部扰动压下去;
  • MTC(见参考文献部分):先无监督估计切空间,再把切空间当作“应当不变的方向”喂给监督分类器。

上述链条从图像上很好解释了泛化的性质,构成流形视角最“硬”的因果闭环:

流形假设 → 切空间代表“同语义变化” → 对切空间扰动不敏感 → 泛化更好


2.3 Denoising Autoencoder (DAE) 学到的是 score(密度梯度的向量场)

在DAE这篇论文中,最关键的结论涉及以下公式:

从流形角度如何理解?

  1. 前因:我们故意把样本推离流形薄壳取真实样本 ,加小噪声 。这相当于把点从“高密度薄壳”推到周围更稀疏的地方。
  2. 训练目标:学一个把点拉回去的重建函数DAE 训练一个重建 。换句话说,它在学习一个向量,告诉你“往哪走能回到数据更可能出现的区域”。
  3. 关键极限: 很小且模型足够强时,最优拉回方向 = 密度上升最快方向密度上升最快方向就是 (log-density 的梯度)。它像“雾气在山谷里聚集”的直觉:你在雾里走,往 方向走最容易回到雾最浓的谷底。
  4. 尺度匹配:为什么要除以 噪声越小,拉回位移越小;严格推导会给出“位移与 同阶”,于是 才能稳定逼近一个与密度有关的“有限向量场”。

上述结论的威力在于:它把“流形附近的几何”(薄壳、法向拉回)与“概率建模”(密度梯度)打通了——后面 diffusion / score-based generative models 基本都是从这里长出来的。


3. 架构 = 你在流形上选了什么“局部算子”和“连边规则”

这里我想用一句话概括 CNN/RNN/Transformer:

我们不是在 里乱拟合,而是在未知流形 上定义一种“局部算子”,然后靠堆叠、学习最后连接得到全局的计算模式。


3.1 CNN:把“局部性”硬编码成流形上的局部算子

卷积本质是“局部邻域共享算子”。当数据流形来自某种群作用(平移、旋转等),卷积相当于提前假设:

  • 流形在各处局部几何近似平稳;
  • 同一个滤波器可复用 → 样本效率高。

但当语义流形是 non-stationary 的(不同区域曲率/结构差异很大),共享权值反而会成为约束。


3.2 RNN:把推理压成轨迹积分,误差容易在弯曲流形上滚雪球

RNN 更新 像沿时间轴走一条轨迹。问题在于:

  • 历史被压进固定维度状态,相当于把复杂轨迹投影到低维;
  • 轨迹一长,局部误差会在弯曲表面累积成“滚雪球”。

所以长程依赖不仅是优化问题,也是几何问题。


3.3 Transformer:自注意力把邻域做成“可学习核函数”,并允许虫洞连边

自注意力机制的公式如下:

这串公式的几何解释拆开如下:

  • 是相似度打分(“点 看点 有多近”);
  • softmax 把打分归一成概率分布 → 每一行是从 出发“走向各点”的转移概率;
  • 是对邻域的加权平均 → 核平滑/核回归(Nadaraya–Watson 视角)。

于是,一层 attention 可以看成:在 token 点云上构造一个核 ,把它行归一化得到 Markov 矩阵 ,做一次“随机游走/扩散”。多层堆叠就是多步扩散。

此外,Transformer 的注意力图里会出现“远距离的强连接”,这些连接像在几何/图论意义上开了近路(即“虫洞”):

  • 在传统流形学习里,你通常只连近邻(-图/kNN 图);
  • Transformer 允许直接给远处点一个高权重边(内容相似即可)——相当于在图上加“长程边”,显著降低图直径、提升混合效率。

3.4 多头与门控:并行学习多种几何关系 + 抑制法向噪声

  • 多头注意力可以理解成:并行学习多个核 ,再线性组合形成更复杂核族;它对应一种“把大流形近似成子流形乘积”的工程比喻,但关键点在于:不同头可以在不同“切向子空间”里建邻域。
  • Gated Attention像是把更新向量做“切向/法向”分解:门控抑制离开任务子流形的法向噪声,提高有效信噪比,避免把噪声扩散成全局污染。

4. 生成学习:为什么 diffusion/score 在“流形数据”上更稳?

4.1 很多生成模型的坑,不是调参问题,是“支撑维度”问题

一句话解释:如果数据分布本质上支撑在低维集合上,你硬用高维欧氏似然去做,会遇到结构性不适定(密度退化、数值不稳定)。

4.2 为什么扩散能救:把“低维支撑”变成“处处有密度”

扩散(加噪)做了一件极其关键的几何事:

  • 原始数据:集中在流形薄壳上(“高维里几乎处处没概率”)
  • 加噪后:分布被“吹起来”,在高维里变得处处有密度

于是 score 变得可学,逆过程(把噪声拉回薄壳)也变得可定义。

更进一步,如果数据天生就在已知流形上(球面、、双曲空间等),在欧氏空间乱加噪会破坏结构,所以出现把扩散推广到一般黎曼流形的路线(RSGM/RDM,见参考文献部分):核心就是把欧氏布朗运动换成流形上的布朗运动,把拉普拉斯换成 Laplace–Beltrami。


5. 大模型:残差流上的“几何演化”(深度 = 时间)

5.1 为什么“深度”可以看成“时间”?

因为残差结构:

在层数深、步长小的极限下,会趋近 ODE:

这就是 Neural ODE 的连续深度视角:网络不是在堆函数,而是在学一个向量场,让表示沿时间演化到任务需要的区域。

一旦你接受“向量场/轨迹”这套语言,你就会自然地问出更几何的问题:

  • 轨迹在表示空间里是否会被吸入某些“能量盆地”?(测度/密度)
  • 轨迹是否沿着某些低维结构收缩?(内在维度、各向异性)
  • 轨迹能否跨越语义断裂区?(拓扑、连通、虫洞边)

6. 流形版 Scaling Law:随机几何图阈值串联“规模—涌现—幂律”

这一节是全文的第二套“流形主线”,首先我们明确地区分三层概念:

  1. 几何采样层:数据量 决定你在流形上“看得多细”(覆盖半径)。
  2. 图连通层:局部邻域能否串成全局路径(推理/组合的必要前提)。
  3. 误差幂律层:一旦连通且目标足够平滑,误差才会随 出现幂律下降。

6.1 假设条件

设 是紧致 的 -维流形(即流形(更准确:它的嵌入/参数化)至少二次连续可微),样本 i.i.d. 采自 上的密度 。我们需要三条典型前提条件:

  • (A1) reach 下界:。 含义:曲率与自交受控,局部摊平可信。
  • (A2) 密度下界: 在 上成立。 含义:不存在“永远采不到”的区域,否则覆盖/连通会被局部黑洞支配。
  • (A3) 用足够小的半径建图:取 (比如 ),保证欧氏距离与测地距离局部等价。 含义:你连的是“真实局部邻域”,不是跨自交的假近邻。

这三条合起来一句话:

流形不打死结、数据不出现永久空洞、我们只用可信的局部邻域来建图。


6.2 随机几何图(RGG,见参考文献)连通阈值:为什么是 ?

6.2.1 建图:-图 / 半径图

对样本点集 ,建半径图(RGG):

  • 若 则连边。

问:当 ,多大的 能让图“几乎必然连通”?

经典结论(忽略常数与边界修正)是:


6.2.2 简单推导

第一步:把“连通”拆成更容易分析的必要条件——“没有孤点”。

如果存在孤点(某个节点度为 0),图必不连通。所以我们先控制:

第二步:估计“一个点成为孤点”的概率。

固定一个点 。它在半径 内的邻居数 服从二项分布近似:

  • 每个其他点落入半径球的概率
  • 在密度下界 与 reach 保障的局部体积近似下,存在常数 ,使得对足够小的 :

直觉:在 维里,小球体积 ,reach 保证局部像欧氏球, 就是“弯曲与测地/欧氏差异”的常数损失。

于是期望邻居数

若近似用 Poisson(随机几何图常用近似),孤点概率约为

第三步:用 union bound 控制“存在孤点”。

要让右边 ,需要:

也就是

这就是 的来源:“每个点平均得有 量级的邻居,才足以把所有孤点概率压到 0。”

更严谨的随机几何图定理会区分“无孤点”和“全连通”,并出现 修正项与边界效应项;

6.2.3 图像化理解
  • 图在小 时像“碎岛”
  • 大到阈值附近时,桥梁突然变多,巨型连通分量出现
  • 越大,阈值下降越慢 → 维数灾难

6.3 “连通阈值”即是“大模型涌现阈值”

到这里我们就可以提到“涌现”。

因为在流形语言里,“多步推理”可以被非常具体地翻译成一句必要条件:

多步推理 ≈ 在“概念/语义图”上走路径。 如果这张图在你关心的尺度上是分裂的(很多连通分量),你不可能稳定地做跨分量组合。

于是,“能力突然出现”的一种几何解释是:

  • 小规模:点云覆盖不够,邻域图断裂,局部知识无法拼成全局路径;
  • 过阈值:连通性相变,跨域路径突然可用 → 组合能力看起来像“突然能了”。

而 Transformer 的“虫洞”机制,是把这个阈值用另一条路往前推:

  • 不必等“纯近邻图”在小 下自然连通;
  • 通过 attention 学出少量高质量长程边,降低图直径、提高混合效率。

6.4 幂律从哪来:覆盖半径 + 平滑性 ⇒

连通只是“能走路”。loss 为什么会像 Kaplan 那样幂律下降?这里必须引入第二个核心条件:你学的目标在流形上得足够平滑。

6.4.1 平滑性假设:Hölder 条件到底在说什么?

设目标函数 定义在流形 上(你可以把它理解成:logits、value、下一 token 条件分布的某种参数化)。假设目标函数 -Hölder 平滑:

解释:

  • :流形上的测地距离(沿着曲面走的距离)
  • :平滑度指数。
    • 类似 Lipschitz:走得越远,函数变化最多线性增长
    • 更平滑
    • 更“粗糙”

这条假设的作用是:它把“局部看得更细”直接转成“误差能降多少”。

6.4.2 局部平均/核回归的 bias 为什么是 ?

如果你用邻域半径 做局部平均(或核回归),则等价于用邻域里点的平均来估计中心点的函数值。误差主导项常是 bias:

  • 你平均的是一个半径 的邻域;
  • 平滑性告诉你:邻域内函数变化幅度 ;
  • 所以误差尺度 。
6.4.3 把 换成“采样覆盖半径”就得到幂律

随机采样下,覆盖半径的典型尺度与连通阈值同阶,于是:

这就是“几何驱动的幂律”。

把它翻译成 scaling law 语言,你会得到一个长得很像经验公式的形状:

这里 表示有效维度:真实语义空间往往是多子流形拼接、分层、各向异性——“有效维度”才是工程上该追的量。


7. 工程实践:把“几何三件套”变成可监控指标

LLM训练过程可以看作“在表示空间里不断重建一张图”,除了loss外,还可以监控这些量:

目标

可观测指标(用 embedding 做)

你希望看到什么

覆盖(coverage)

kNN 距离分布分位数(p90/p99)

随数据/训练推进下降

连通(connectivity)

最大连通分量占比、孤点比例

过阈值后快速变好

可扩散(mixing)

图拉普拉斯谱隙(spectral gap)/混合时间

谱隙变大=扩散更快

子流形解耦

多头注意力“头间相似度”下降、子空间分化

多头在学不同几何因子

噪声抑制

gate 稀疏度、更新向量“法向分量能量”

抑制离开子流形的分量

我想强调的是这句“工程化”判断:

训练不是只盯 loss,而是盯“几何结构是否已经具备推理所需的连通与扩散条件”。


8. 一些待解决问题与潜在方法

Q1:LLM 的 到底是什么?它随任务/层数/训练阶段怎么变?

难点:语义空间很可能是 union of manifolds / stratified manifolds,单一维度不够。 潜在路线:做“局部维数谱”(近邻 PCA 奇异值衰减)、随层追踪,再把 这类关系做分 regime 拟合验证。

Q2:涌现阈值能不能预测?能不能根据架构/数据构成预测?

难点:现实不是硬半径图,而是 软图 + 可学习核(attention)。 潜在路线:把 attention 当核机器,研究核温度、稀疏度、低秩性如何改变连通与混合;工程直觉是“少量高质量长程边”可能比盲目加数据更有效。

Q3:Off-manifold 鲁棒性:对抗样本在几何上到底是什么?

难点:大量对抗扰动沿法向把点推出薄壳,模型进入未约束区域。 潜在路线:切/法向分解的鲁棒训练;用 score 向量场做 detector/regularizer,把“拉回流形”的几何写成训练目标。

Q4:把 compute-optimal scaling(Chinchilla)与几何量统一起来

难点:compute-optimal 牵涉训练动力学 + 数据效率;几何只解释样本复杂度的一半。 潜在路线:把覆盖/连通当“数据端瓶颈”,把可实现平滑度 当“模型端瓶颈”,在算力约束下耦合两者,解释为什么 token 与参数要均衡扩展。


9. 流形篇结尾:

这里用三句话概括相关的研究结果:

  1. 架构不是魔法:它是在流形上选了什么局部算子与连边规则(CNN 预设局部性;Transformer 学核函数并打虫洞)。
  2. 涌现不是玄学:它像随机几何图的连通/渗流相变——局部块连成全局图谱后,组合推理才变得可能。
  3. 幂律不是巧合:覆盖数/度量熵给出 的几何结构;叠加平滑性 ,自然出现 一类下降(外加 修正)。

参考文献

这篇文章提及的主要研究论文列在这里,欢迎大家参考以及交流讨论

表征 / 流形正则

  • Bengio, Courville, Vincent. Representation Learning: A Review and New Perspectives.
  • Simard et al. Tangent Prop.
  • Rifai et al. Contractive Auto-Encoders (CAE).
  • Bengio et al. Manifold Tangent Classifier (MTC).

Score / Diffusion / 流形扩散

  • Vincent. A Connection Between Score Matching and Denoising Autoencoders.
  • De Bortoli et al. Riemannian Score-Based Generative Modelling (RSGM).
  • Huang et al. Riemannian Diffusion Models (RDM).

图拉普拉斯 / 扩散几何

  • Coifman & Lafon. Diffusion Maps.
  • Belkin & Niyogi. Laplacian Eigenmaps.
  • Belkin, Niyogi, Sindhwani. Manifold Regularization.

随机几何图 / 拓扑恢复

  • Penrose. Random Geometric Graphs (RGG).
  • Niyogi, Smale, Weinberger. Finding the Homology of Submanifolds with High Confidence from Random Samples.

Scaling Laws / 涌现讨论

  • Kaplan et al. Scaling Laws for Neural Language Models.
  • Hoffmann et al. Chinchilla.
  • Schaeffer et al. Are Emergent Abilities of Large Language Models a Mirage?(关于指标造成“假相变”的提醒)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赛博解生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大家好,我是赛博解生酱。
    • 0. 一句话结论
    • 1. 把“流形假设”写成一个可计算的模型
      • 1.1 除了“数据在低维流形上”,还有哪些假设?
      • 1.2 度量不是装饰,而是“潜空间的尺子”
      • 1.3 reach:流形“能不能被数据可靠恢复”,取决于它有没有打死结
    • 2. 表征学习:神经网络在做“坐标图册”(atlas)
      • 2.1 泛化到底依赖什么?
      • 2.2 切向 vs 法向:把“泛化/鲁棒”拆成两个可操作的方向
      • 2.3 Denoising Autoencoder (DAE) 学到的是 score(密度梯度的向量场)
    • 3. 架构 = 你在流形上选了什么“局部算子”和“连边规则”
      • 3.1 CNN:把“局部性”硬编码成流形上的局部算子
      • 3.2 RNN:把推理压成轨迹积分,误差容易在弯曲流形上滚雪球
      • 3.3 Transformer:自注意力把邻域做成“可学习核函数”,并允许虫洞连边
      • 3.4 多头与门控:并行学习多种几何关系 + 抑制法向噪声
    • 4. 生成学习:为什么 diffusion/score 在“流形数据”上更稳?
      • 4.1 很多生成模型的坑,不是调参问题,是“支撑维度”问题
      • 4.2 为什么扩散能救:把“低维支撑”变成“处处有密度”
    • 5. 大模型:残差流上的“几何演化”(深度 = 时间)
      • 5.1 为什么“深度”可以看成“时间”?
    • 6. 流形版 Scaling Law:随机几何图阈值串联“规模—涌现—幂律”
      • 6.1 假设条件
      • 6.2 随机几何图(RGG,见参考文献)连通阈值:为什么是 ?
      • 6.3 “连通阈值”即是“大模型涌现阈值”
      • 6.4 幂律从哪来:覆盖半径 + 平滑性 ⇒
    • 7. 工程实践:把“几何三件套”变成可监控指标
    • 8. 一些待解决问题与潜在方法
      • Q1:LLM 的 到底是什么?它随任务/层数/训练阶段怎么变?
      • Q2:涌现阈值能不能预测?能不能根据架构/数据构成预测?
      • Q3:Off-manifold 鲁棒性:对抗样本在几何上到底是什么?
      • Q4:把 compute-optimal scaling(Chinchilla)与几何量统一起来
    • 9. 流形篇结尾:
    • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档