深度学习在多变量时间序列预测(MTSF)领域取得了显著进展。尽管现有的方法大多依赖于单一模态的时间序列输入进行训练,但近期基于大语言模型(LLMs)的跨模态时间序列预测方法在数据有限的情况下展示了卓越的性能。然而,现有的 LLM-based MTSF 方法通常忽略了文本和时间序列输入之间的分布差异,导致性能次优。
本文介绍一篇来自清华大学和深圳大学开展的时间序列预测研究工作。研究者提出了一种新的跨模态大语言模型微调框架(CALF),旨在减少文本与时间序列数据之间的分布差异。CALF 主要包括时间序列目标分支和文本源分支,通过跨模态匹配模块、特征正则化损失和输出一致性损失,实现了两种模态之间的高效对齐。实验结果表明,CALF 在长短期预测任务中均取得了最新的性能,并展示了与大语言模型类似的优越少样本和零样本能力。
这种方法通过对时间序列数据和文本数据进行跨模态对齐,显著提升了预测性能,并为时间序列预测提供了新的思路和方法。CALF 框架的提出,不仅扩展了大语言模型在时间序列预测中的应用,还展示了在低计算复杂度下实现高效预测的潜力。这一研究工作为未来在多领域数据中动态建模现实世界时间现象提供了重要的参考。
【论文标题】CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning
【论文地址】https://arxiv.org/pdf/2403.07300
【论文源码】https://github.com/Hank0626/CALF
论文概述
现有的时间序列预测方法在处理多变量时间序列预测(MTSF)方面取得了显著的进展。传统的单模态时间序列预测方法通常仅依赖时间序列输入进行训练,这些方法虽然取得了一定的成功,但也面临着由于训练数据有限导致的过拟合问题,从而限制了其在实际应用中的效果。
近年来,大型语言模型(LLMs)由于其强大的上下文建模能力,被引入到时间序列预测领域,以缓解上述问题。尽管现有的基于 LLMs 的方法在时间序列预测中展示了优越性,但它们通常忽略了文本和时间序列输入之间的分布差异(如下图),从而导致次优的性能。
为了应对这一问题,本文提出了一种新颖的跨模态 LLM 微调框架(CALF),通过减少文本和时间序列数据之间的分布差异来提升时间序列预测的性能。
具体而言,CALF 框架包括两个主要部分:处理时间序列输入的时间目标分支和处理文本输入的文本源分支。为了减少这两个分支之间的分布差异,研究者设计了跨模态匹配模块(Cross-modal Match Module)、特征正则化损失(Feature Regulariztion Loss)和输出一致性(Output Consistency Loss)损失。
跨模态微调技术的概念性图解
本文的主要贡献点包括:
模型介绍
本文提出的跨模态微调框架图
本文旨在使用跨模态微调的技术来解决将 LLM 应用到时序预测任务中的域适应问题,使得语言和时序更好地对齐,从而提升时序预测模型的准确性和泛化能力。
模型的整体框架如上图所示,所提出的 CALF 由两个分支组成:文本源域分支和时序目标域分支。两个分支均由预训练的 GPT2 模型的若干层组成。不同的是,文本源域分支的输入是文本模态数据,而时序目标域的输入则是时间序列数据,为了使得两个分支的输入是对齐的,本文提出了三个对应的模块来促进文本和时序的不同角度对齐。下面将分别介绍这三个模块。
01、跨模态匹配模块
研究者受之前 LLM 相关工作的启发,注意到 LLM 的文本嵌入层实际上包含了丰富的 token 之间的相关性知识,例如向量之间的夹角可以表示对应语义的相似度。为此,本文首次提出使用包含在 LLM 的嵌入层的知识来帮助时序预测模型学习和更好的上下文依赖。具体来说,给定多元时间序列
作为输入,本文首先将其经过嵌入层以及多头自注意力机制来得到映射后的输出:
之后,考虑来自时序模态的
与本文模态的嵌入层字典
进行对齐匹配。考虑到字典大小
通常是很大的,例如 GPT2 中为 50257 。因此直接使用交叉注意力来对齐文本和时序模态将会带来不可忽略的计算代价。为了实现高效的对齐,研究者提出首先使用主成分分析来将原始的语言字典的条目个数进行降维来得到更加紧凑的字典表示
,即:
其中
是人为定义好的超参数,满足
。在得到降维后的字典,本文使用交叉注意力来对齐文本和时序模态的输入数据:
02、特征正则化损失
LLM 中的预训练权重基于其原始文本模态数据。为了更有效地将这些预先训练好的权重适应时间序列数据,本文将时序目标域分支中每个中间层的输出与文本源域分支的输出进行了对齐。在特征正则化损失的帮助下,这种对齐过程可以匹配两个分支之间的中间特征,从而更有效地引导每个中间层的梯度,实现更好的权重更新。
形式上来说,给定文本源域分支和时序目标域分支中第
个 Tranformer 模块输出的
和
,本文的特征正则化损失定义为:
其中
是控制每一层重要性的超参数,sim表示特征相似度度量,例如
相似度。此外,参考对比学习中的相关工作,本文在计算损失时引入了额外的映射层
和
来将两个模态的中间特征映射到公共的表示空间。
03
输出一致性损失
在特征正则化损失的基础上,本文进一步确保文本模态和时序模态之间语义上下文的一致性。为此,本文进一步提出了输出一致性损失,通过确保输出分布有效对齐,从而解决了不同模态表征空间的差异。
具体来说,给定分别来自文本源分支和时间目标分支的输出
和
,输出一致性损失定义为:
其中,sim 为给定的特征相似性度量。
04、参数高效训练
为了避免在微调下游任务时出现灾难性遗忘,同时提高训练效率,本文采用了参数高效训练技术来微调预训练 LLM。
具体来说,对于时序目标域分支,本文引入了LoRA,并对位置编码权重进行了微调。总的来说,训练期间的总损失是监督损失
、特征正则化损失
和输出一致性损失
的加权总和:
在推理阶段,本文使用时序目标域分支的输出作为最终结果。
实验结果
长时预测:对比了基于 LLM 的时序预测模型,Transformer 模型,CNN 模型和 MLP 模型。输入长度均固定在 96,结果为 {96, 192, 336, 720} 的平均。从下表中可以看出,本文提出的模型在MSE和MAE指标上都取得了比较显著的提升。
短时预测:相较于之前的 SOTA 方法 TimesNet 有着明显提升。
少样本/零样本预测:CALF 优于其他基线方法,凸显了其在少量学习设置下的鲁棒性。与 GPT4TS 和 PatchTST 相比,本文方法分别实现了平均 8% 和 9% 的减少,比 GPT4TS 和 PatchTST 高出 4% 和 9% 。这表明 CALF 显著增强了模型在不同领域之间进行有效学习迁移的能力。
微调 loss 和 PCA 降维维度的 ablation 分析:
研究者还从概率论的角度对框架进行了解释,具体内容可查阅论文原文附录B。
总结
本文介绍了一种用于长期时间序列预测的高效跨模态 LLM 微调框架(CALF)。CALF 通过跨模态匹配模块、特征正则化损失和输出一致性损失,减少文本和时间序列数据之间的分布差异,显著提升了时间序列预测的性能。与之前单模态时间序列预测的方法相比,CALF 框架通过全方位对齐和利用文本与时间序列数据,在多个时间序列数据集上的预测性能和计算效率方面均表现出色,尤其在少样本和零样本学习能力方面展示了显著的提升。CALF 的提出为时间序列预测领域提供了一种新的高效工具,有望在实际应用中得到广泛推广。