作者:Jinlai Liu等
解读:AI生成未来

文章链接:https://arxiv.org/pdf/2511.04675 开源链接:https://github.com/FoundationVision/InfinityStar
🌟 亮点直击
当前视觉生成领域面临三大核心矛盾:
InfinityStar 的目标是构建一个:高保真、高效率、长序列、多任务通用的统一生成引擎。

图 1:InfinityStar 的时空金字塔模型。InfinityStar 采用统一的自回归管道,能够在一个模型中完成文本到图像、文本到视频、图像到视频、视频外推等任务。
本文的解决方案是构建时空金字塔自回归建模框架(Spacetime Pyramid Modeling),其核心思想是显式解耦空间结构与时间动态。
该设计首次在离散自回归框架中,实现了生成行为与任务类型之间的无缝切换。
为实现上述方案,本文设计并整合了四项关键技术:
技术名称 | 机制 | 目的 |
|---|---|---|
从连续视频VAE继承知识 | 在预训练的连续视频VAE编码器和解码器之间插入二元球形量化器(Binary Spherical Quantization),不引入新参数或码本,直接复用VAE的视觉表征能力。 | 解决离散分词器“冷启动”问题,使离散表示快速逼近连续空间的语义,训练收敛速度显著提升,VT质量PSNR从29.1提升至33.4。 |
随机量化器深度(Stochastic Quantizer Depth, SQD) | 在训练分词器时,以概率 p 随机丢弃最后 N 个量化尺度。训练中形成 种不同深度的尺度组合。 | 强制模型在低分辨率早期尺度中存储更多语义信息,缓解“信息集中在最后几层”的不平衡问题,提升整体重建质量与Transformer优化稳定性。 |
语义尺度重复(Semantic Scale Repetition, SSR) | 对前 个低分辨率、高语义性的尺度,在生成过程中重复预测 次,使这些“关键层级”获得多次迭代优化。 | 大幅提升生成图像的结构稳定性与复杂运动一致性(如人物动作、物体变形),是VBench得分提升5.56分的关键。 |
时空稀疏注意力(Spacetime Sparse Attention, SSA) | Transformer 解码时,每个新片段仅关注前一片段的最后一个尺度(而非全部历史或全部体素),形成高度稀疏的注意力图。 | 将上下文长度压缩至原长度的1/10以上,削减显存消耗40%以上,避免长视频生成的OOM问题,同时保持时序一致性,并实现推理速度提升1.5–2倍。 |
下表为本文在关键任务上达到的性能与效率成果,全面领先于现有方法:
任务 | 基准测试 | InfinityStar 结果 | 优势对比(对比对象) | 显著提升 |
|---|---|---|---|---|
文本到图像 | GenEval | 0.79 | 比 Infinity (0.73) ↑6% | ✅ 当前最高 |
DPG | 86.55 | 比 Infinity (83.46) ↑3.1% | ✅ 当前最高 | |
文本到视频 | VBench | 83.74 | 比 HunyuanVideo (83.24) ↑0.5 pt | ✅ 超越扩散模型 |
人类偏好 (vs. HunyuanVideo) | 全面胜出 | 在总体质量、运动流畅、提示遵循、细节还原四维度均获更高评分 | ✅ 主观评估不虚 | |
推理速度 | 5s, 720p | 58 秒 | 比 Wan-2.1 (1864s) ⚡ 提速 32×比 Nova (354s) ⚡ 提速 6× | ✅ 工业级效率 |
零样本生成 | 图像→视频、视频外推 | 无需微调 | 生成结果保持强时空一致性,语义忠于输入 | ✅ 新能力开通 |
Infinity将图像分解为一系列层级化的 token 块,由一个视觉自回归 Transformer(VAR Transformer)建模其依赖关系。为支持多尺度图像,Infinity 预定义了一个尺度表 ₁₁,其分辨率随索引 i 增大,构成图像金字塔。生成过程分为两阶段:
推理时,模型自回归运行 K 次,合并所有预测块,经分词器解码器重建图像。
将空间维度的“下一尺度预测”扩展至视频,关键挑战在于如何有效建模时间维度。直接让时间与空间同步增长(即从 到 )会导致卡顿;若固定时间尺度(伪时空金字塔)则会耦合外观与运动,使 T2V 学习无法共享 T2I 知识。
本文提出时空金字塔建模框架:每一视频被分解为一组序列片段 。首帧 被设为 T=1,构建图像金字塔,用于编码静态内容;其余片段共享固定时长 T>1,分别构建片段金字塔。每个片段内,空间尺度从 增至 ,存在 K 个残差 token 块 。所有尺度仅在空间维度扩展,时间维度保持恒定。
第一个片段内的token自回归生成为:

整个视频序列的自回归概率为:

通过此设计,模型可理论无限生成视频,并实现 T2I、T2V、I2V 的统一原生支持。
视频分词器训练面临两大挑战:计算成本高(压缩数十帧)、信息分布严重不均衡(末层聚集大部分信息)。
知识继承:本文不从零训练,而是继承预训练连续视频 VAE 的编码器与解码器结构,在其间插入无参数二元球形量化器。此操作不引入额外参数(如VQ-VAE的码本),直接复现 VAE 的结构与语义表征。如图2所示,即使无微调,重建质量已显著优于从零训练或继承图像VAE的方案。微调时,将原始VAE的KL损失替换为“承诺损失+熵惩罚”,联合优化图像与视频数据,显著加速收敛。

图 2:预训练权重对重建和收敛的影响。左侧子图显示了在未进行微调的情况下使用不同预训练权重重建的帧。加载连续视频标记符的权重能达到最佳效果。右侧子图显示,使用预训练视频标记器进行训练的收敛速度明显快于其他两种策略。
随机量化器深度(SQD):在训练中,以概率 随机丢弃最后 个量化尺度,形成 种训练路径。此举强制模型在早期尺度中编码更多信息,缓解“末层滥用”问题。如图3所示,SQD下的早期尺度重建质量显著改善,为后续Transformer输入提供更均质的语义。

图 3:随机量化器深度的影响。子图 表示使用图像金字塔中的所有标记加上剪辑金字塔中前 i 个尺度的标记重建的帧 nt。SQD 能显著提高早期尺度的重建质量。此外,早期尺度对应的是全局语义,而后期尺度负责的是局部视觉细节。
为适应时空维度,提升质量与效率,本文对VAR Transformer进行三项改进。
语义尺度重复(SSR):观察到早期尺度(如前 个)承载了场景布局、主体身份等高语义信息。为此,将这 个尺度在生成序列中重复预测 次,实现结构精细化。由于其token占比极低,额外开销可忽略,但显著提升细节与动态真实感。
时空稀疏注意力(SSA):为解决长序列计算爆炸,本文设计一种稀疏注意力模式:每个片段仅关注前一片段的最后一层 Token(及其对应尺度位置)。如图4所示,该方法将注意力跨度压缩至仅“当前与前一帧最后层”,有效降低自注意力复杂度,避免OOM,在192p-161帧下实现 1.5× 速度提升,并在480p下可运行(全注意内存溢出)。

本文模型在四个阶段训练:T2I预训练 → 192p/480p/720p T2V逐步微调。训练数据包括1.3亿+7000万+500万图像对,以及1600万个视频片段(其中192p为13M,480p为3M,720p为50K用于fine-tuning)。





SSR、SQD、时空金字塔、SSA四项技术均被证实不可或缺,尤其SSR的移除导致VBench下降5.56分,显见其关键作用。SSA解决了长视频训练的内存瓶颈,是工业应用的工程基石。
模型变体 | VBench 总分 | 相对损失 |
|---|---|---|
完整 InfinityStar (SSR + SSA + SQD + 时空金字塔) | 81.28 | — |
移除 SSR | 75.72 | −5.56 |
移除 时空金字塔(使用伪时空) | 80.30 | −0.98 |
移除 SQD | 81.07 | −0.21 |
使用全注意力(非SSA) | 80.77 | −0.51 |
全注意力 + 192p 161帧 | — | ❌ OOM (内存溢出) |




InfinityStar,一个统一的时空自回归框架,能够合成高分辨率图像和动态、高运动性的视频。通过在纯离散架构中无缝整合空间与时间的预测,InfinityStar 支持多样化的视觉生成任务,同时保持最先进的质量与卓越的效率。广泛评估表明,InfinityStar 的性能超越了以往所有的自回归视频模型,并匹配甚至超越了领先扩散模型;在生成5秒720p视频时,其推理速度仅为扩散方法的十分之一。此外,本文将 InfinityStar 扩展至支持长时间交互式视频生成。作为首个实现工业级720p视频合成的离散自回归模型,期待InfinityStar能够推动高效、长时视频生成领域的未来研究。
[1] InfinityStar: Unified Spacetime AutoRegressive Modeling for Visual Generation