IJCAI 2025 | 文本到时序：用扩散模型生成高分辨率时间序列

时空探索之旅

发布于 2025-05-23 13:19:51

8040

论文标题：T2S: High-resolution Time Series Generation with Text-to-Series Diffusion Models

作者： Yunfeng Ge (葛云峰), Jiawei Li (李佳蔚), Yiji Zhao (赵苡积), Haomin Wen (温浩珉), Zhao Li (李朝), Meikang Qiu, Hongyan Li (李红艳), Ming Jin (金明), Shirui Pan (潘世瑞)

机构：格里菲斯大学 (Griffith University)，西安电子科技大学，云南大学，卡内基梅隆大学 (CMU)，浙江大学，奥古斯塔大学 (Augusta University)，香港科技大学（广州）

论文链接：https://arxiv.org/abs/2505.02417

代码：https://github.com/WinfredGe/T2S

TL; DR: 本文提出 Text-to-Series（T2S）模型，一个仅使用文本场景描述生成任意长度时间序列的多模态时间序列生成模型。探索了 T2S 模型在 13 个数据集上从文本生成时序的能力；突破了现有时序生成模型无法生成任意长度时间序列的问题。此外，系统性构建了一个包含 60 多万个高分辨率时序-文本样本的文本-时序多模态数据集。相关代码和数据集已开源。

关键词：多模态时间序列生成，扩散模型，多模态时序数据集

时序人：IJCAI 2025 | T2S：基于文本到序列扩散模型的高分辨时间序列生成

点击文末阅读原文跳转本文arXiv链接

摘要

文本到时间序列生成（Text-to-Time Series Generation）在解决数据稀缺、数据不平衡以及跨领域多模态时间序列数据集有限等挑战方面具有重要潜力。尽管扩散模型在 Text-to- X 范式（如视觉和音频数据）生成方面取得了显著成功，但其在时间序列生成中的应用仍处于非常初步的阶段。现有方法面临两个关键限制：（1）缺乏对通用时间序列描述的系统性探索，现有的描述通常是领域特定的，且在跨领域泛化时存在困难；（2）无法生成任意长度的时间序列，这限制了其在实际场景中的应用。本文首先将时间序列描述分为三类：点级、片段级和实例级。此外，本文还引入了一个片段级时序-文本多模态数据集 TSFragment-600K，包含超过 60 万个高分辨率时间序列-文本对。其次，本文提出了 Text-to-Series（T2S)，一种基于扩散模型的框架，旨在以领域无关的方式弥合自然语言与时间序列之间的鸿沟。T2S 采用长度自适应变分自编码器，将不同长度的时间序列编码为一致的潜在嵌入。此外，T2S 通过 Flow Matching 对齐文本嵌入与潜在时序嵌入，并使用 Diffusion Transformer 作为去噪器。本文以跨多种长度交替训练的范式训练 T2S，使其能够生成任何所需长度的序列。大量实验结果表明，T2S 在 12 个领域的 13 个数据集上实现了最先进的性能。

Q: 这篇论文试图解决什么问题？

从文本生成时间序列：从文本直接生成时间序列是一个尚未充分探索的时序研究方向。T2S 通过建模丰富的多模态时序动力关系，可以实现：开放式文本-时序数据交互、为专家提供快速原型验证、极端场景的压力测试。
任意长度的时间序列生成：目前，时间序列生成模型的生成性能令人印象深刻，但他们通常需要在预先设定的窗口长度上进行训练和推理，无法满足用户在推理时需要可变长度时间序列的需求。
稀少的文本-时序多模态数据集：当前处于时序多模态研究的早期阶段，缺少文本与时间序列细粒度对齐的数据集。本文构建了片段级的时序文本多模态数据集 TSFragment-600K，包含了 ETT、Electricity、Traffic 等多达 60 万的样本量。

Q: 有哪些相关研究？

针对多模态时间序列任务，本文全面总结了时间序列数据集和时间序列生成任务。

文本-时间序列数据集

现有的文本-时间序列配对的数据集可以根据文本和时间序列在时间维度的对齐方式分为三种类型：点级（point-level）、片段级（fragment-level）和实例级（instance-level）。

点级：每一个点与相应的文本描述相关联，通常见于金融新闻和诊断病历领域。这两个领域早有近似的研究，目前对点级数据的最新全面总结工作是 Time-MMD
实例级：通常见于仿真数据集，利用时间序列的特征，如上升趋势、峰值作为字典文本的条目。这一工作主要集中在早期(2021)年尝试将文本与规则信号数据相结合 TRUCESUSHI
片段级：通常用于描述时间序列的片段的局部的特征，相关工作集中在时间序列推理任务 Context is Key、Towards Time-Series Reasoning with LLMs。依然缺少大规模、细粒度、通用目的的文本-时间序列数据集。

文本-时间序列生成 (Text-TimeSeries Generation)

通过对比学习的文本到时序：通用的文本到时间序列范式可以通过对比学习（contrastive learning）或生成建模（generative modeling）来实现。最近，对比学习已被用于文本到时间序列的映射。CLaSPAstroM主要侧重于检索任务，不能直接应用于时间序列生成。

基于条件扩散模型的时间序列生成：相比之下，生成建模，如变分自编码器（VAEs）、扩散模型（diffusion models）和大型语言模型（LLMs）为基于文本描述生成时间序列提供了更通用的框架。其中，条件扩散模型（conditional diffusion models）[Diffusion-TS 、TimeDiT和 Time Weaver 在文本到时间序列生成方面显示出潜力，因为它们能够对复杂的时间动态进行建模并生成时间上连贯的序列。

特定领域的文本到时序生成：例如，研究人员已经探索了基于医疗健康元数据(2301.08227DiffuSETS)和传感器元数据(2306.052852404.00525)条件下的时间序列生成。然而，这些方法通常是领域特定的，未能解决时间序列与其对应文本之间更普遍的对齐问题，从而限制了它们的广泛适用性。

注：本文的数字编号文献为arXiv编号，https://arxiv.org/abs/+编号即可找到原文。

Q: 论文如何解决这个问题？

为了实现任意长度的时间序列生成，本文设计了T2S模型，该模型包括T2S-DiT和长度适应的变分自编码器 LA-VAE，此外，为了统一训练不同长度的时间序列，本文提出了跨多种长度交替训练的范式 Interleaved Training。

长度适应的变分自编码器 LA-VAE: 为了将时间序列的特征与文本描述进行细粒度对齐，论文提出了LA-VAE，这是一种可以将任意长度时间序列编码为统一大小嵌入的编码器。
Flow Matching：相关理论2210.02747以及系列Text-X的应用如Movie GenStable Diffusion 3MusicFlow和本文的实验经验发现，flow matching在处理多模态数据对齐方面相比diffusion方法具有训练效率、推理效率以及性能上的优势2407.03648、2306.15687
T2S-DiT：受到视觉模型在解决时序任务的显著性能的启发Time-VLMVisionTS，基于DiT（Diffusion Transformer）能够捕捉细粒度的嵌入特征，本文使用DiT提取潜在时间序列模式，从而实现精确的跨模态对齐。
Interleaved Training: 传统的序列训练范式通常会导致灾难性遗忘。为了在一个统一的框架内有效地训练处理不同长度数据集的模型，本文提出了一种新颖的交错训练范式Interleaved Training
度量文本-时序的评估指标：现有生成模型的评估指标主要基于分布、距离等，难以度量时序和文本的对齐能力。为了度量文本描述的趋势与时序相符程度，本文使用范围不敏感的重构指标 WAPE 以及基于查询的排序指标 MRR 等。
稀少的文本-时序多模态数据集：当前处于时序多模态研究的早期阶段，缺少文本与时间序列细粒度对齐的数据集。本文构建了片段级的时序文本多模态数据集 TSFragment-600K，包含了 ETT、Electricity、Traffic 等多达 60 万的样本量。

Q: 论文做了哪些实验？

1.在三种对齐方式：点级、片段级和实例级下，T2S从文本到时序的生成性能。对比模型包括基于Diffusion架构和VAE架构的生成模型以及开源大模型Llama3.1-8b和闭源大模型GPT-4o-mini。

2.T2S的各个关键模块对模型最终的性能影响。探究了文本、建模理论和去噪模块对模型最终性能的影响。

3.T2S的性能与其关键参数的敏感性。探究了在多模态生成任务中，扩散步数和文本引导分数CFG对模型推理性能的影响。

4.在有限的数据上，T2S模型的有效性。探究了不同数据集比例对T2S性能的影响，通过比较不同数据比例情况下的T2S模型生成能力。

Q: 总结一下论文的主要内容

本文提出了TSFragment-600K，这是一个用于文本到时间序列生成任务的高分辨率片段级多模态数据集。同时，本文还提出了T2S，这是第一个用于通用文本到时间序列生成的领域无关模型。T2S利用LA-VAE和T2S-DiT，能够高保真地生成语义对齐且任意长度的时间序列。在12个不同领域的全面验证表明，T2S具有卓越的性能，为文本到时间序列生成奠定了坚实的基础。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-05-21，如有侵权请联系 cloudcommunity@tencent.com 删除

数据