前言
大家好,我是赛博解生酱。邻近年底工作繁忙,从事LLM工作近一年来,个人大部分工作时间都忙于数据构造清洗以及结果分析。在年底换了新的业务方向后,整理汇报材料也占据了一部分时间,虽然逐步摆脱脏活累活,但却比之前更加繁忙,需要花费更多时间沟通对齐以及向上汇报。在工业界,部门往往更关注保障某个能力效果或者任务指标,对于前沿探索虽然鼓励,但更多情况则是时间紧迫无暇顾及。细细想来,长此以往不由会担心落后前沿,丢失技术丧失竞争力。因此,在繁忙的工作之余,能否做出好的成果以保持竞争力?这个想法逐步在脑海中形成。
大多数AI从业者身处学术界或中小型机构(赛博酱亦是如此),往往无法access到大厂动辄数千GPU的算力集群,也无法承担训练千亿乃至万亿参数模型的时间成本与空间成本。因此,通常只能在小模型的研究上投入精力。在scaling law逐步放缓边际效应递减的今天,深入的研究能力其实变得越来越重要,可以考虑主动去寻找 “小而美” 的方向。这里 小 指的是模型尺寸(例如7B以下),美 指的则是研究的意义以及潜在影响。
结合入坑后阅读的大量文献,赛博酱系统地将了解到的 “小而美” 方向做了一个总结,包括“数据研究深化、高效架构、训练动力学、模型可解释性以及推理能力”等五方面,希望与大家一同探讨。具体内容包括数据合成与过滤、Mamba/DeltaNet等高效架构的数学机理、训练过程中的相变现象、推理时的深度思考机制,以及构建可解释电路的具体方法。此外,我也对每项技术进行了优劣分析,希望能给一同渴望在AI领域有所建树却又受限于计算资源的研究者,带来一些启发与思考。
第一部分:数据中心化革命
“数据质量优于数量”已从经验法则转变为一门精密工程学科。传统的Web-scale数据虽然规模庞大,但充斥着噪声、冗余与逻辑断裂。当前的各种研究表明,通过合成数据生成与高级过滤技术,可以构建出信息密度极高的“教科书级”语料,从而在小参数规模下实现惊人的推理能力。
1.1 Phi系列:重定义小模型的缩放极限
微软研究院提出的“Textbooks Are All You Need”假设,是这一领域的里程碑。Phi系列模型(Phi-1, Phi-1.5, Phi-3)的迭代证明,模型的推理能力在很大程度上取决于训练数据的逻辑连贯性与信息密度,而非单纯的参数堆叠。
1.1.1 Phi-1:代码领域的专才
Phi-1是一个仅有13亿参数的模型,但在代码生成任务上表现出了超越大模型的性能。其核心在于极其精简的训练数据策略:仅使用了60亿token的“教科书级”网络数据和10亿token的GPT-3.5生成的合成教科书数据,总计70亿token,在8张A100 GPU上仅需训练4天 。
- 性能突破:在HumanEval基准测试中,Phi-1达到了50.6%的pass@1准确率,在MBPP上达到55.5%,不仅超越了同等规模模型,甚至击败了参数量大得多的竞争对手 。
- 涌现能力:尽管规模极小,Phi-1展现出了通常被认为只有大模型才具备的“涌现”属性。这表明所谓的涌现可能并非参数规模的函数,而是数据质量达到临界阈值后的产物 。
1.1.2 Phi-1.5:向通用常识推理的跨越
Phi-1.5将“教科书”方法扩展到了自然语言与常识推理领域。该模型完全摒弃了传统的网络爬取数据,转而使用专门生成的合成数据,专注于培养常识推理与逻辑能力 。
- 思维链能力:Phi-1.5展现了执行“逐步思考”(Step-by-step thinking)的能力,处理小学数学和基本编码任务的能力超越了多数非前沿大模型 。
- 安全性与幻觉:由于未使用嘈杂的网络数据,Phi-1.5在生成有毒或有偏见内容方面的倾向显著降低。然而,研究也发现,幻觉问题(Hallucination)依然存在,这表明幻觉可能与架构本身的概率性质有关,而不仅仅源于数据噪声 。
1.1.3 Phi-3与“数据最优”体制
Phi-3技术报告正式提出了“数据最优”(Data Optimal)体制的概念,区别于DeepMind提出的Chinchilla“计算最优”体制。Phi-3-mini(3.8B)通过在3.3万亿token的极高质量过滤数据上训练,性能匹敌Mixtral 8x7B和GPT-3.5 。
- 架构细节:采用标准的解码器架构,32层,32个注意力头,隐藏层维度3072。为了支持长上下文(最高128k),引入了**块稀疏注意力(Block-Sparse Attention)**和LongRope技术,在保持长距离检索能力的同时显著降低了KV Cache的显存占用 。
- 多阶段训练:训练分为两个阶段。第一阶段专注于通用知识与语言理解;第二阶段使用更加严格过滤的Web数据与合成数据,专门强化逻辑推理与特定技能。这种课程学习(Curriculum Learning)的策略是其成功的关键 。
1.2 数据剪枝算法:从去重到语义选择
实现“教科书质量”需要超越简单的规则过滤。新一代算法正在利用嵌入空间(Embedding Space)的几何特性和信息论原理进行数据筛选。
1.2.1 SemDeDup:语义去重
传统的去重方法(如MinHash)只能去除文本层面的重复,但无法处理语义重复(Semantic Duplicates)。SemDeDup利用预训练模型(如CLIP或BERT)的嵌入向量,通过聚类算法识别语义冗余 。
- 算法流程:首先对数据进行K-means聚类,然后在簇内计算余弦相似度。如果数据对的相似度超过阈值,则视为语义重复并去除冗余样本 。
- 实验结果:在LAION数据集上,SemDeDup去除了50%的数据,但在训练CLIP模型时并未造成性能损失,甚至在部分分布外(OOD)任务上性能有所提升。这表明大规模数据集中的语义冗余不仅浪费计算资源,还可能导致模型过拟合于高频模式 。
1.2.2 Epiplexity:计算受限观察者的信息度量
在数据选择理论上,Epiplexity(表观复杂度)作为一个新概念被提出,旨在解决香农熵(Entropy)在机器学习数据评估中的悖论 。
- 熵的局限:高熵通常意味着高随机性,但对于学习算法而言,纯随机噪声(高熵)是无价值的。相反,完全可预测的数据(低熵)也缺乏信息量。
- Epiplexity定义:Epiplexity度量的是在给定计算资源约束下,观察者(模型)能从数据中提取的结构化信息量。它区分了“不可预测的随机性”(Time-bounded Entropy)和“可学习的模式” 。
- 应用价值:实验表明,基于最大化Epiplexity进行数据选择,比单纯基于困惑度(Perplexity)能带来更好的OOD泛化能力。这为合成数据的生成与筛选提供了坚实的理论依据——即使数据看起来“简单”,只要其包含模型尚未掌握的结构化模式,其Epiplexity就很高 。
1.2.3 超越神经缩放定律:打破幂律
Sorscher等人的研究从理论上挑战了现有的缩放定律。他们证明,如果能够依据某种“难度指标”(如预测误差或边缘距离)对训练样本进行完美排序并剪枝,模型的测试误差随数据量的下降关系可以从幂律(Power Law, )转变为指数律(Exponential Law, )。
- 实践意义:这意味着通过极高质量的数据筛选,达到同样性能所需的数据量可以呈指数级减少。Phi系列的成功正是这一理论的工程验证:通过在数据管线上投入大量算力进行筛选(Data Pruning),换取了训练阶段的极大加速和模型的高效能 。
1.3 1-Bit革命:BitNet与极端量化架构
随着模型规模的增长,内存带宽(Memory Bandwidth)和能耗已成为比算力更严峻的瓶颈。BitNet架构提出了一种激进的假设:高精度的浮点数对于大语言模型并非必要,1.58比特足以支撑高性能智能。
1.3.1 BitNet b1.58:三元权重的数学与实现
BitNet b1.58将每一个权重参数限制为三个值之一: 。在信息论中,这对应于 比特 。
1.3.1.1 量化公式与Absmean
BitNet采用了Absmean量化函数,确保权重在训练过程中能够被有效地约束到三元集合中。对于权重矩阵 :
- 缩放因子(Scaling Factor, ):计算权重矩阵绝对值的平均值。
- 舍入与截断(RoundClip):将权重除以缩放因子后进行四舍五入,并截断到 区间。
其中 。 3. 激活量化:为了配合1-bit权重,激活值也被量化到8-bit,从而确保整个矩阵乘法流水线无需高精度浮点运算。
1.3.1.2 从乘法到加法:计算范式的转移
三元权重最深远的影响在于它消除了矩阵乘法(MatMul)中的浮点乘法操作。由于权重只有 ,计算 实际上退化为浮点加法与减法(Accumulation)。
- 能效飞跃:在7nm工艺下,这种整数加法逻辑比浮点乘法逻辑的能耗降低了71.4倍 。
- 显存优势:3B参数的BitNet模型仅需FP16基线模型 3.55分之一 的显存 。
1.3.2 性能平价与新缩放定律
尽管进行了极端的量化,BitNet b1.58在3B参数规模以上展现出了与全精度LLaMA模型相当的困惑度(Perplexity)和任务性能 。
- 特征过滤(Feature Filtering):引入
0 值是关键。与二值网络(Binary Neural Networks, )不同,0 允许模型显式地切断某些连接,进行特征选择,这大大增强了模型的表达能力 。 - 帕累托最优:研究者提出了一种新的缩放定律——在给定的计算预算下,使用更大的1.58-bit模型比使用较小的FP16模型更高效。例如,70B的BitNet在推理延迟和能耗上均优于13B的FP16模型,但性能却强得多 。这标志着硬件设计的重心可能从优化FLOPS转向优化整数OPS和内存带宽。
第二部分:高效架构的复兴——超越Transformer的霸权
为了在“小而美”的尺寸下实现高性能,研究界正在打破Transformer的二次方复杂度瓶颈,通过引入连续状态空间和几何控制理论,构建线性复杂度的新型架构。
2.1 状态空间模型(SSM)与Mamba的架构革命
Mamba架构标志着SSM从理论探索走向实际应用的关键转折点。它通过引入“选择机制”,解决了传统线性时不变(LTI)系统无法根据内容动态调整权重的缺陷。
2.1.1 方法细节与数学原理
Mamba的核心是将连续系统的参数离散化,并使其成为输入的函数。
- 连续系统:
- 选择性离散化(Selective Discretization): 引入步长 ,利用零阶保持(ZOH)公式进行离散化:
关键创新在于 不再是常数,而是输入 的线性投影:
这使得模型能够根据当前token的信息量,动态控制遗忘门(通过 )和输入门(通过 )。
2.1.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 线性推理成本: 推理时状态大小固定,显存占用为 ,无需KV Cache,适合边缘端长文本处理。
- 动态压缩: 选择机制允许模型在有限状态内“挑选”关键信息存储,而非无脑记忆。
- 缺点 (Cons):
- 召回精度不足: 由于状态空间大小固定,对于极长序列中的细粒度信息(如“大海捞针”任务),Mamba存在信息压缩损耗,无法像Transformer那样通过Attention矩阵精确回溯。
- 训练硬件门槛: 依赖Parallel Scan算法,虽然理论上可并行,但对CUDA内核优化要求极高,生态兼容性不如Transformer。
2.2 深度Delta学习(Deep Delta Learning)与几何控制
针对ResNet单纯加性更新的局限,Deep Delta Learning (DDL) [Paper 11] 引入了基于Householder变换的几何更新机制。
2.2.1 方法细节
DDL将残差更新改为通过“Delta算子”进行几何变换:
其中Delta算子利用Householder矩阵 来构造。这允许网络不仅进行加法更新,还能执行反射(Reflection)和投影(Projection)。这使得网络能够动态调节信号的范数(Norm)和特征值的符号,实现非单调的信号传播。
2.2.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 极深网络稳定性: 通过控制信号的光谱特性(Spectral Control),可以在不使用BatchNorm的情况下训练数千层的网络,适合构建“瘦而深”的小模型。
- 表达能力增强: 引入负特征值和反射操作,丰富了模型的动力学行为,能更高效地模拟复杂函数。
- 缺点 (Cons):
- 计算开销: Householder变换涉及向量外积,比简单的加法残差计算量略大。
- 理论复杂性: 几何动力学的分析比标准ResNet更晦涩,增加了调试难度。
第三部分:智能的物理学——训练动力学与理论极限
本部分聚焦于模型如何“学习”以及能力的边界在哪里。结合论文列表中的《Scan and Snap》、《Grokking Explained》以及《On the origin of neural scaling laws》。
3.1 Scan and Snap:注意力机制的微观动力学
论文《Scan and Snap》[Paper 3] 揭示了单层Transformer在训练过程中如何通过梯度下降自发形成注意力模式。
3.1.1 方法细节:两阶段相变
研究发现注意力权重的演化遵循严格的动力学方程。假设输入序列包含“关键Token” 和“查询Token” :
- Scan阶段 (Scanning): 初始阶段,注意力权重均匀分布。模型通过梯度下降,逐渐增加对那些与 具有高共现(Co-occurrence)概率的 的关注。此时模型表现为“扫描”整个上下文。
- Snap阶段 (Snapping): 当权重的累积达到临界阈值,系统发生相变。注意力权重迅速坍缩(Snap),集中在**最相关且最独特(Distinct)**的Token上,忽略高频停用词。
- 公式启示: 梯度的更新方向主要由 项主导,导致“富者越富”的正反馈循环,最终形成稀疏的注意力分布。
3.1.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 解释稀疏性: 证明了Transformer的稀疏注意力并非人为设计,而是优化过程的必然产物(归纳偏差)。
- 初始化指导: 暗示了如果能直接初始化在Snap点附近,可以大幅加速收敛。
- 缺点 (Cons):
- 理论局限: 当前证明主要基于单层Transformer和简化数据分布,推广到多层深层网络的非线性交互尚有难度。
3.2 Grokking:电路竞争与泛化延迟
《Grokking Explained》[Paper 5] 和相关研究指出,泛化是一种延迟发生的相变。
3.2.1 方法细节:电路效率分析
Grokking现象(训练准确率早已100%,验证准确率很久后才突然上升)被解释为**“记忆电路”与“泛化电路”的竞争**。
- 记忆电路: 复杂度低,容易快速学习,但权重范数(Norm)大(需要死记硬背每个样本)。
- 泛化电路: 结构精巧,学习慢,但权重范数小(规则是压缩的)。
- 机制: 在权重衰减(Weight Decay, )的持续压力下,优化器最终会发现,虽然记忆电路能降低Loss,但泛化电路能最小化正则项。只有当记忆电路被正则化“惩罚”到一定程度后,泛化电路才会主导网络。
3.2.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 训练策略启示: 对于小模型,过早停止(Early Stopping)可能是有害的。必须给予足够的步数让模型从记忆态坍缩到泛化态。
- 数据效率新解: 解释了为什么小数据量下难以泛化——因为没有足够的数据压力迫使模型放弃记忆电路。
- 缺点 (Cons):
- 计算成本高: Grokking通常需要数万甚至数十万步的额外训练,对于资源受限的场景是巨大的浪费。
3.3 神经缩放定律的起源:随机图视角
论文《On the origin of neural scaling laws: from random graphs to natural language》[Paper 12] 提出了一个颠覆性的观点。
3.3.1 方法细节
研究者在随机图(Random Graphs)生成的随机游走序列上训练Transformer,发现这些数据完全没有自然语言的幂律分布特征,但模型依然展现出了标准的Scaling Laws(Loss随参数量幂律下降)。
- 结论: Scaling Laws 不是数据统计特性的产物,而是Transformer架构本身在处理序列预测任务时的固有属性。
3.3.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 去魅化: 打破了“只有高质量/特定分布数据才有Scaling”的迷信,表明小模型在任何序列任务上都有可预测的提升空间。
- 缺点 (Cons):
- 指导意义模糊: 虽然知道了Scaling是架构属性,但对于如何打破Scaling Law、实现超线性提升,该研究未给出具体方法(仅指出了普遍性)。
第四部分:推理时智能——小模型的“系统2”思维
本部分探讨如何在模型参数固定的情况下,通过增加推理时的计算量或改变推理模式来提升性能。涵盖论文 1, 2, 4, 6, 8, 10, 13。
4.1 采样推理:Power Sampling
论文《Reasoning with Sampling: Your Base Model is Smarter Than You Think》[Paper 1] 提出了一种无需训练即可提升推理能力的方法。
4.1.1 方法细节:分布锐化
该方法基于一个假设:基座模型已经包含了正确答案,但被低质量的概率分布掩盖了。
- Power Distribution: 不直接从 采样,而是从锐化后的分布 采样( )。
- Metropolis-Hastings 采样: 由于无法直接计算归一化常数,使用MCMC方法在推理时进行采样。对于生成的序列,通过接受/拒绝机制来逼近 分布。
4.1.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 无需训练(Training-free): 可以在任何现成的Base Model上直接使用,无需昂贵的RLHF或SFT。
- 效果显著: 实验显示在数学推理任务上能匹敌经过RL微调的模型。
- 缺点 (Cons):
- 推理延迟: MCMC采样需要多次迭代和拒绝,显著增加了单次推理的时间成本。
4.2 组合技能与强化学习
论文《FROM f(x) AND g(x) TO f(g(x))》[Paper 2] 探讨了小模型如何在RL过程中学会技能组合。
4.2.1 方法细节
研究设置了一个合成环境,模型预先学会了原子技能 和 。
- 发现: 标准的SFT很难让模型泛化到 。但使用PPO等RL算法,只要奖励函数鼓励最终结果正确,模型会自发地学会组合调用原子技能。
- 机制: RL探索过程中偶然的组合成功会被强化,从而在神经网络内部形成通过“组合”而非“记忆”的路径。
4.2.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 涌现性: 证明了小模型不需要显式教导每一种组合,只要具备基础能力和正确的激励,就能涌现出组合推理能力。
- 缺点 (Cons):
- 探索难度: 如果组合空间太大,RL可能永远无法探索到第一次成功的组合(稀疏奖励问题)。
4.3 思维链(CoT)的理论威力
论文《CHAIN OF THOUGHT EMPOWERS TRANSFORMERS TO SOLVE INHERENTLY SERIAL PROBLEMS》[Paper 8] 和 《When Can Transformers Count to n?》[Paper 6] 从计算复杂性理论界定了能力的边界。
4.3.1 方法细节与理论
- Paper 8 (CoT的力量): 证明了固定深度的Transformer(属于 复杂度类)无法解决串行问题(如模运算、置换组合,属于 类)。但引入 步的CoT后,Transformer的表达能力扩展到能模拟深度为 的电路,从而解决串行问题。
- Paper 6 (计数的极限): 证明了如果Transformer的嵌入维度 小于 ( 为词表或长度),它甚至无法完成简单的计数任务。
4.3.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 设计指导: 明确指出了小模型在处理逻辑任务时,必须强制使用CoT来换取计算深度,不能指望其通过直觉(单次Forward)解决复杂问题。
- 架构避坑: 警告设计者不要过分压缩Embedding维度,否则会导致基础计数能力的丧失。
- 缺点 (Cons):
- CoT的退化: 在小模型上,CoT容易产生幻觉或逻辑断裂(Faithfulness问题),理论上的可行性不代表工程上的稳定性。
4.4 递归架构:URM 与 Recursive LMs
论文《Universal Reasoning Model》[Paper 4] 和 《RECURSIVE LANGUAGE MODELS》[Paper 13] 提出了打破固定层数限制的方案。
4.4.1 方法细节
- URM (Universal Reasoning Model): 采用通用层循环(Layer Sharing)。模型由一个通用的Transformer层构成,推理时循环调用该层 次。利用ACT(Adaptive Computation Time)机制动态决定 。
- Recursive LMs: 将长上下文任务分解。模型生成代码调用自身处理子片段:
summary_A = self.forward(chunk_A)summary_B = self.forward(chunk_B)final = self.forward(summary_A + summary_B)
4.4.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 参数效率极致: URM用一套参数实现任意深度推理;Recursive LMs用有限上下文处理无限流数据。
- 逻辑深度: 允许模型在难样本上“思考”更久(更多循环),符合人类思维模式。
- 缺点 (Cons):
- 训练困难: 循环网络面临梯度爆炸/消失问题,URM需要使用截断反向传播(TBPTL)等技巧。
- 上下文碎片化: Recursive LMs在递归过程中可能丢失全局上下文的隐式联系。
4.5 CompressARC:推理即训练
论文《ARC-AGI WITHOUT PRETRAINING》[Paper 10] 提出了极端的推理时适应。
4.5.1 方法细节
- 核心思想: 不使用预训练模型。对于每个ARC测试任务(包含少量示例),初始化一个小型的神经网络。
- 训练目标: 在测试时的几个示例上进行梯度下降,目标是无损压缩这些示例(即找到能生成这些示例的最短程序/模型参数)。
- 结果: 训练好的模型直接用于预测测试样本。
4.5.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 零泛化误差: 针对特定任务专门优化,不存在分布外(OOD)问题。
- 小模型奇迹: 证明了解决AGI级别问题不一定需要万亿参数的大模型,专门的小模型+测试时优化同样可行。
- 缺点 (Cons):
- 极慢的推理: 每个问题都要重新训练一个网络,推理时间以分钟/小时计,无法实时交互。
第五部分:机械可解释性与数据新视角
涵盖论文 7, 9, 14, 15。
5.1 权重稀疏性与L0正则化
论文《Weight-sparse transformers have interpretable circuits》[Paper 7] 提出了一种构建原生可解释模型的方法。
5.1.1 方法细节
- L0 正则化: 在训练时,对权重矩阵施加 范数约束(或其连续松弛代理),强迫绝大多数权重为零。
- 结果: 训练出的模型通过极度稀疏的子图(Circuits)处理任务,每个神经元的功能变得单一且清晰。
5.1.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 原生可解释: 不需要事后分析工具(如SAE),模型本身就是透明的电路图。
- 缺点 (Cons):
- 性能折损: 稀疏性往往以牺牲一定的预测精度为代价(性能-可解释性权衡)。
- 硬件不友好: 现有的GPU对稀疏矩阵计算支持有限,难以加速。
5.2 信息的单射性与信息论
论文《LANGUAGE MODELS ARE INJECTIVE》[Paper 9] 和 《UNDERSTANDING COT... THROUGH INFORMATION THEORY》[Paper 5.5 in list/Paper 6 in standard count]。
5.2.1 方法细节
- 单射性证明: 证明了Transformer作为连续函数,在参数随机初始化下几乎处处是单射的(Injective)。这意味着 。
- 推论: 我们可以通过梯度优化 ,使得 ,从而从隐状态 无损恢复出输入 。
- 信息增益(Information Gain): 在CoT中,定义第 步的信息增益为 。这用于衡量每一步推理是否真的减少了答案的不确定性。
5.2.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 理论基石: 证明了模型内部并没有“丢失”信息,任何提取失败都是探测器的问题,而非模型的问题。
- CoT诊断: 信息增益提供了一种量化指标,可以自动检测CoT中的无效步骤或幻觉步骤。
- 缺点 (Cons):
- 计算复杂度: 计算互信息或进行逆向恢复需要大量的计算资源,难以实时进行。
5.3 新数据范式:Epiplexity与SPICE
论文《From Entropy to Epiplexity》[Paper 15] 和 《IN-CONTEXT RL... SPICE》[Paper 14]。
5.3.1 方法细节
- Epiplexity (认知困惑度): 传统的熵 衡量信息的随机性,Epiplexity 衡量生成该信息所需的计算复杂度。
- 观点: 对于模型训练,最佳数据不是高熵的(随机噪声),也不是低熵的(简单重复),而是高Epiplexity的(如数学证明、代码执行轨迹——规则简单但生成过程复杂)。
- SPICE (Bayesian ICRL): 解决小模型在In-Context RL中数据利用率低的问题。
- 方法: 预先学习一个Value Prior(先验Q值),推理时利用贝叶斯规则结合Context中的Evidence更新Q值。
- 公式: 。
5.3.2 批判性分析 (Pros & Cons)
- 优点 (Pros):
- 数据筛选: Epiplexity 为“合成数据”提供了理论指导——我们需要生成那些计算密度大的数据来训练小模型。
- 鲁棒性: SPICE 让小模型在只有次优演示数据时,也能通过贝叶斯先验推导出最优策略。
- 缺点 (Cons):
- 难以度量: Epiplexity 的具体数值计算通常是不可解的(类似Kolmogorov复杂度),只能近似估算。
第六部分:总结与研究路线图
6.1 领域当前重要问题 (Open Problems)
- Recall-Efficiency Trade-off (召回与效率的博弈):
- 问题: SSM/Mamba 为了效率牺牲了精确的 Token 召回能力。
- 潜在方案:混合架构 (Hybrid Architectures)。如 Based 架构,结合局部滑动窗口 Attention (精确召回) 和 全局线性 Attention/SSM (长程概括)。寻找最佳的混合比例是关键。
- System 2 Efficiency (慢思考的效率):
- 问题: Power Sampling 和 CompressARC 虽然有效,但推理成本太高(时间/算力)。
- 潜在方案:轻量级验证器 (Lightweight Verifiers)。训练一个小型的专门模型来快速评估采样质量,代替昂贵的 MCMC 接受步骤。或者开发摊销推理 (Amortized Inference) 算法,让模型学会“跳过”不必要的思考步骤。
- From Memorization to Generalization (如何稳定复现Grokking):
- 问题: Grokking 需要极长的训练步数,且难以预测何时发生。
- 潜在方案:相变催化 (Phase Transition Catalysis)。利用《Scan and Snap》的理论,通过特殊的初始化或正则化调度(如在特定时间点突然增加 Weight Decay),人为诱导模型快速从记忆态坍缩到泛化态。
- Data Efficiency via Epiplexity (高密度数据合成):
- 问题: 小模型容量有限,不能浪费在低效数据上。
- 潜在方案: 开发可计算的 Epiplexity 近似指标。用它来筛选或生成训练数据,只喂给小模型那些“生成规则简单但表现形式复杂”的高价值数据(如程序执行流、逻辑推导链)。
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
本文涉及的部分论文列表如下:
1. Reasoning with Sampling: Your Base Model is Smarter Than You Think
2. FROM f(x) AND g(x) TO f(g(x)): LLMS LEARN NEW SKILLS IN RL BY COMPOSING OLD ONES
3. Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer
4. Universal Reasoning Model
5. Grokking Explained: A Statistical Phenomenon
5. UNDERSTANDING CHAIN-OF-THOUGHT IN LLMS THROUGH INFORMATION THEORY
6. When Can Transformers Count to n?
7. Weight-sparse transformers have interpretable circuits
8. CHAIN OF THOUGHT EMPOWERS TRANSFORMERS TO SOLVE INHERENTLY SERIAL PROBLEMS
9. LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE
10. ARC-AGI WITHOUT PRETRAINING
11. Deep Delta Learning
12. On the origin of neural scaling laws: from random graphs to natural language
13. RECURSIVE LANGUAGE MODELS
14. IN-CONTEXT REINFORCEMENT LEARNING THROUGH BAYESIAN FUSION OF CONTEXT AND VALUE PRIOR
15. From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence