前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >VLDB2024 |TFB: 全面且公平的时间序列预测方法评测基准

VLDB2024 |TFB: 全面且公平的时间序列预测方法评测基准

作者头像
时空探索之旅
发布于 2024-11-19 08:48:06
发布于 2024-11-19 08:48:06
36400
代码可运行
举报
文章被收录于专栏:时空探索之旅时空探索之旅
运行总次数:0
代码可运行

论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods作者:邱翔飞, 胡吉林, 周乐夔, 吴行健, 杜骏扬, 张布昂, 郭晨娟, 周傲英, Christian S.Jensen, 盛镇醴, 杨彬机构:华东师范大学,华为云算法创新实验室, 奥尔堡大学论文发表:50th International Conference on Very Large Data Bases (VLDB 2024)关键词:时间序列预测, 基准测试, 数据集论文链接:https://arxiv.org/abs/2403.20150VLDB论文链接:https://www.vldb.org/pvldb/vol17/p2363-hu.pdf代码链接:https://github.com/decisionintelligence/TFB

摘要:时间序列出现在经济、交通、健康和能源等多个领域,对未来值的预测具有许多重要应用。因此,人们提出了许多预测方法。为了确保研究的进展,有必要以全面和可靠的方式对这些方法进行研究和比较。为了实现这一目标,我们提出了TFB,这是一个用于时间序列预测方法的自动化基准。TFB通过解决与数据集、比较方法和评估流程相关的缺陷来推动最新技术的发展:1)数据领域覆盖不足,2)对传统方法的陈规偏见,3)流程不一致且不灵活。为了获得更好的数据集的领域覆盖率,我们包括来自10个不同领域的数据集:交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。我们还提供了时间序列特征化,以确保所选数据集是全面的。为了消除对某些方法的偏见,我们包括了各种方法,包括统计学习、机器学习深度学习方法,并支持多种评估策略和指标,以确保对不同方法进行更全面的评估。为了支持不同方法集成到基准中并实现公平比较,TFB具有灵活和可扩展的流程,消除了偏见。接下来,我们利用TFB对21种单变量时间序列预测方法在8,068个单变量时间序列上进行了评估,并在25个数据集上对14种多变量时间序列预测方法进行了评估。评估结果深入分析了预测方法,使我们能够更好地选择适合特定数据集和设置的方法。总体而言,TFB为研究人员提供了开发新的时间序列预测方法的手段。

1. 引言

随着数字化进程的不断推进,时间序列出现在经济、交通、健康、能源和物联网等各个领域。时间序列预测(TSF)在这些领域的关键应用中至关重要。根据历史观察结果,如果我们能提前知道未来的值,这将非常有价值。因此,TSF已经成为一个活跃的研究领域,目睹了许多方法的提出。时间序列按时间顺序组织数据点,根据每个数据点中的变量数量,它们可以是单变量的或多变量的。相应地,预测方法分为单变量预测方法和多变量预测方法。在早期方法中,ARIMA和VAR分别是最受欢迎的单变量和多变量预测方法。之后机器学习方法,如XGBoost和Random Forest比早期方法表现出更好的性能。最近,基于深度学习的方法已经在各种数据集上展示了最先进的预测性能。

随着针对不同数据集和设置提出越来越多的方法,对方法的公平和全面的评估的需求也日益增加。为了实现这一目标,我们识别并解决了现有评估框架中的三个问题,从而提高了我们的评估能力。

图 1:具有不同特征的数据的可视化。

问题1. 数据领域覆盖不足。来自不同领域的时间序列可能具有各种不同的特征。图1a展示了来自环境领域的名为AQShunyi的时间序列,记录了每小时的温度信息,呈现出明显的季节性模式。在这种情况下,这种模式是合理的,因为自然界的温度往往在一年内循环变化。图1b显示了来自经济领域的FRED-MD的时间序列,描述了来自114个地区、国家和国际来源的月度宏观经济数据,呈现出明显的增长趋势。这可能归因于整体经济稳定,波动较小,反映了宏观经济指标的持续增长。图1c描述了来自电力领域的一个时间序列,在某个时间点上数据发生了显著变化,这可能表明发生了突发事件等。然而,这些简单的模式只是冰山一角,来自不同领域的时间序列可能具有更复杂的模式,既可能结合上述特征,也可能完全不同。因此,仅使用有限的领域数据集会导致对时间序列特征的覆盖有限,无法提供完整的画像。

图 2:现有多变量时间序列预测基准中使用的多变量数据领域情况。

图 3:描述TFB和TSlib中多变量数据集的归一化特征值变化的箱线图。

然而,很少有实证研究和基准涵盖广泛的数据领域。图2总结了现有多变量时间序列预测基准中使用的多变量数据情况。我们观察到,TSlib、LTSF-Linear、BasicTS 和BasicTS+ 仅包括大约10个数据集,涵盖不到或等于5个领域。由于TSlib中的多变量时间序列数据集是最常用的,我们研究了TSlib和TFB中多变量数据集的特征值的分布情况---参见图3。我们观察到,与TSlib相比,TFB数据集在六个特征上展示出更多样化的分布。我们认为,扩大数据集的领域覆盖范围是有益的,可以实现对方法性能的更广泛评估。

问题2. 对传统方法的刻板影响。单个方法很难在所有数据集上表现出最佳性能。方法在不同数据集上表现出不同的性能。为了说明这个问题,我们在来自不同领域(股票市场、能源、健康)的三个数据集(NASDAQ、Wind和ILI)上对VAR、PatchTST、LinearRegression(LR)、NLinear、FEDformer和Crossformer方法进行实验。结果如表1所示。令人惊讶的是,VAR在NASDAQ上的表现优于所有最近提出的SOTA方法,并且在ILI上优于FEDformer和Crossformer。此外,LR在Wind上的表现优于最近提出的SOTA方法。然而,这些方法在它们的原始论文中并未将VAR和LR纳入基准方法中,并且更倾向于认为传统方法无法获得竞争性能。从表2可以看出,目前没有任何现有的多变量时间序列预测基准评估了统计方法。此外,由于统计方法的训练机制与基于深度学习的方法不同,现有的基准难以评测统计方法。我们认为,通过比较广泛的方法,消除对传统方法的刻板印象是有益的。

表 1:VAR、LR与其他方法的比较,使用平均绝对误差(MAE)作为评估指标,预测步长为24。

问题3. 缺乏一致和灵活的流程。不同方法的性能随着实验设置的变化而变化,例如,在训练/验证/测试数据之间的划分、归一化方法的选择和超参数设置的选择。例如,现有方法的实现通常在测试阶段使用“删除最后一个批次的数据”的技巧。为了加速测试,通常将数据分成批次。然而,如果我们丢弃最后一个不完整批次:其中包含的样本数量少于批次大小,这会导致不公平的比较。例如,在图4中,ETTh2具有长度为2,880的测试序列长度,我们使用大小为512的回溯窗口预测336个未来时间步。如果我们选择批次大小为32、64和128,那么最后一个批次中的样本数量分别为17、49和113。除非所有方法都使用相同的测试策略,否则丢弃这些最后一个批次的测试样本是不合适的。图4显示了在ETTh2上使用不同批次大小和“删除最后一个批次”技巧的PatchTST、DLinear和FEDformer的测试结果。我们观察到,在变化批次大小时,方法的性能会发生变化。此外,大多数测试基准流程不灵活,无法支持统计学习、机器学习和深度学习方法的同时评估。我们认为,确保一致和灵活的流程至关重要,以便在相同的设置下评估方法,从而提高研究结果的公平性。

图 4:左边:“Drop last” 情况说明。 右边:使用“Drop last”时批量大小对实验结果影响。

健壮且广泛的基准可以使研究人员更加严格地评估新方法,这对推动技术发展至关重要。例如,ImageNet涵盖了大量数据集,对于确保计算机视觉的进展起到了重要作用。由于其支持严格评估,ImageNet已经成为评估图像处理方法的标准。表2根据七个属性比较了时间序列预测(TSF)的现有基准。没有任何一个现有的基准同时具备所有属性。

表 2:时间序列预测基准比较。

我们提出了时间序列预测基准(TFB),更全面地对TSF方法进行实证评估和比较,并提高评估的公平性。TFB提供了一系列具有挑战性和现实性的数据集,并提供了用户友好、灵活和可扩展的评估流程,提供了强大的评估支持。TFB具有以下关键特性:

  • 根据数据集特征分类方法进行全面的数据集收集(解决问题1):收集的数据集提供了多样化的特征,涵盖了来自多个领域和复杂设置的时间序列。这有助于确保更加健壮和广泛的评估。
  • 广泛覆盖现有方法并扩展对评估策略和指标的支持(解决问题2):TFB涵盖了各种方法,包括统计学习、机器学习和深度学习方法,配备了各种评估策略和指标。这种丰富性使得能够更全面地评估各种方法和评估设置。
  • 灵活和可扩展的流程(解决问题3):TFB通过其设计提高了方法比较的公平性。方法使用统一的流程进行评估,采用一致和标准化的评估策略和数据集,消除了偏见,使得性能比较更加准确。这使得能够更公平和有意义地得出关于方法有效性和效率的结论。

根据在TFB上进行的大量实验,我们得出以下关键观察结果:(1) 在某些数据集中,统计方法VAR和LinearRegression的表现优于最近提出的SOTA方法,如表8所示。(2) 当数据集呈现增长趋势或明显漂移时,基于线性的方法表现良好。(3) 基于Transformer的方法在具有明显季节性、非线性模式以及更明显模式或强内部相关性的数据集上优于基于线性的方法。(4) 考虑通道之间依赖关系的方法,与假设通道独立性的方法相比,可以显著提高多变量时间序列预测的性能,特别是在具有强相关性的数据集上。

特别是,我们的主要贡献如下。

  • 我们提出了TFB,这是一个专门设计用于进一步提高时间序列预测(TSF)方法公平比较的基准,包括单变量时间序列预测(UTSF)和多变量时间序列预测(MTSF)。TFB在8,068个单变量时间序列上测评了超过20种UTSF方法以及在25个多变量数据集上对14种MTSF方法进行了测评。
  • 我们确定、收集和处理先前提出的TSF数据集,以确定涵盖不同领域和特征的全面的数据集,并以标准化格式组织它们。然后,我们设计实验来研究不同方法在不同特征数据集上的表现。
  • TFB提供了一个自动化的端到端流程,用于评估预测方法,简化和标准化加载时间序列数据集、配置实验和评估方法的步骤。这简化了研究人员的评估过程。此外,所有数据集和代码都可在https://github.com/decisionintelligence/TFB上获得。
  • 我们使用TFB评估和比较了一系列方法,涵盖了统计学习、机器学习和深度学习方法以及丰富多样的评估任务和策略。我们将评估结果总结为一些关键发现。

2. 准备工作

我们提供了时间序列和时间序列预测的定义,并涵盖了关键的数据集特征,包括趋势性、季节性、平稳性、漂移性、转移和相关性。

时间序列: 时间序列

X\in\mathbb{R}^{T \times N}

是一个面向时间的N维时间点序列,其中

T

是时间点的数量,

N

是变量的数量。当

N=1

时,时间序列称为单变量。当

N>1

时,它被称为多变量。

时间序列预测: 给定

H

个时间点的历史时间序列

X\in\mathbb{R}^{H\times N}

,时间序列预测旨在预测

F

个未来时间点,即

Y\in\mathbb{R}^{F\times N}

。其中

F

称为预测步长。

趋势性(Trend):趋势性是指时间序列随着时间的推移而发生的长期变化或模式。直观地说,它代表了数据漂移的大致方向。

季节性(Seasonality):季节性是指时间序列中的变化以特定的间隔重复的现象。

平稳性(Stationarity):平稳性是指时间序列的各阶统计特征(如均值、方差)不随时间的变化而变化。

漂移性(Shifting):漂移性是指时间序列的概率分布随时间变化的现象。这种行为可能源于系统内部的结构变化、外部影响或随机事件的发生。

转移(Transition):转移捕捉了时间序列中存在的规律性和可识别的固定特征,例如趋势、周期性的明确表现,或者季节性和趋势同时存在。

相关性(Correlation):相关性是指多变量时间序列中不同变量可能共享的可能性共同的趋势或模式,表明它们受到相似的因素或具有某种潜在的关系。

这些特征的公式可从原论文中获取。

3. TFB:基准细节

3.1 数据集

我们为TFB配备了25个多变量和8,068个单变量数据集,具有以下理想特性。所有数据集都格式一致。数据集收集全面,涵盖了多种领域和特性。多变量和单变量数据集的特性值,以及基于特性值的分类情况,可以在我们的代码存储库中找到。这标志着一项改进,解决了不同格式、文档不同和数据集收集耗时的挑战。

3.1.1 数据集概要

单变量时间序列。这些单变量数据集是从16个开源数据集中精心筛选出来的,涵盖了数十个领域。为了充分反映现实世界时间序列的复杂性,我们采用了模式频率分析(PFA),这是主成分分析(PCA)的一种变体。PFA保留了单个时间序列数据点的原始值。我们采用解释方差的概念,表示单个时间序列的方差与所有单个时间序列方差之和之比。解释方差的阈值t设定为0.9。这意味着对于每个数据集合,我们选择保留最少时间序列数量,以涵盖剩余时间序列贡献的90%方差。因此,所选出的数据表现出明显的异质性。与具有强烈同质性的数据集相比,它可以更好地反映方法的性能。最终,我们选择了8,068个时间序列,使得筛选出的数据集能够捕获现实世界时间序列的多样性。表3报告了统计信息。

表 3:单变量数据集的统计数据。

多变量时间序列。表4列出了25个多变量时间序列数据集的统计信息,涵盖了10个领域。频率从5分钟到1个月不等,维度范围从5到2,000,序列长度从728到57,600不等。这些数据集的巨大多样性使得可以对预测方法进行全面的研究。为了确保公平比较,我们为每个数据集选择了一个固定的数据切分比例,即7:1:2或6:2:2,用于训练、验证和测试。

表 4:多变量数据集的统计数据。

3.1.2 数据集全面性

单变量时间序列。由于时间序列长度不同,我们首先将时间序列表示为一个向量,包含五个特征值:趋势性、季节性、平稳性、漂移性和转移。为了便于可视化,我们采用PCA将维度从五维降低到二维,并在六边形网格中可视化了分布最广的八个单变量时间序列数据集——见图5。我们观察到,TFB和M4覆盖的单元格最多,而其他所有基准相对于TFB都较小。这强调了我们数据集在特征分布多样性方面的覆盖范围。此外,与M4相比,我们的数据集涵盖了更广泛的领域。此外,我们需要注意的是,与我们的数据集仅包含8,068个时间序列相比,M4数据集的样本量要大得多,总计为100,000。我们认为,在不同数据集上进行测试对于更好地反映方法的实际性能至关重要。此外,我们可以在TFB上运行的实验比M4数据集要少得多,即约为8%。

图 5:描述通过主成分分析生成的趋势、季节性、平稳性、漂移性和转移的9个单变量数据集的低维特征空间的归一化密度值的六边形图。

多变量时间序列。图2显示了TFB和现有多变量时间序列基准在数据集领域分布方面的对比情况。我们观察到,我们的基准包含更多数量和领域的多样化数据集。接下来,我们选择TSlib,其多变量时间序列数据集是最常用的,用来与TFB进行数据集特征分布方面的比较,如图3所示。我们可以观察到,TFB中的数据集代表了更多样化的特征分布。

3.2 对比方法

为了调查不同预测方法的优势和局限性,我们包括了22种方法,可以分为统计学习、机器学习和深度学习方法。在统计学习方法方面,我们包括ARIMA、ETS、 Kalman Filter (KF) 和VAR。在机器学习方法中,我们包括XGBModel (XGB)、LinearRegression (LR) 和Random Forest (RF)。最后,我们将深度学习方法进一步分为基于RNN的模型 (RNN)、基于CNN的模型 (MICN、TimesNet和TCN)、基于MLP的模型 (NLinear、DLinear、TiDE、N-HiTS和N-BEATS)、基于Transformer的模型 (PatchTST、Crossformer、FEDformer、Non-stationary Transformer (Stationary)、Informer和Triformer)以及模型无关的模型 (FiLM)。图6概述了基准涵盖的方法的多样化技术方法。这种广泛选择的比较方法旨在提供对不同方法的技术细微差别和性能变化的深入理解。

图 6:比较方法的分类。

3.3 评估设定

3.3.1 评价策略

为了评估方法的预测准确性,TFB实现了两种不同的评估策略:1) 固定预测;和2) 滚动预测。

固定预测。给定长度为n的时间序列,从n-f个历史时间点预测f个未来时间点,如图7a所示。

滚动预测。如图7b所示,在滚动预测中,蓝色方块表示历史数据,绿色方块表示预测步长,白色方块表示时间序列中的剩余数据。在滚动预测过程中,除了最后一次迭代外,在每次迭代中历史数据都会以固定步长(称为步幅)扩展。在最后一次迭代中,历史数据被扩展以覆盖整个时间序列以及预测步长。在推断过程的每次迭代中,根据历史数据应用预测模型来预测指定的预测步长。然后,我们计算每次迭代的评价指标的平均值。在统计学习方法(例如ARIMA、ETS)中,通常使用整个或部分历史数据进行训练,然后在每次迭代期间进行推理预测。相反,在深度学习或机器学习方法中,每次迭代通常只涉及使用历史数据的最后一部分,其长度等于回溯窗口大小,用于推断和预测。当前的时间序列预测的评估策略,例如TimesNet,与我们定义的标准一致。

从实际角度来看,尽管统计学习方法在泛化能力方面存在一些局限性,但其相对较短的运行时间促使我们采用重新训练然后进行推断预测的方法来支持滚动预测。然而,在深度学习和机器学习方法中,每次重新训练的迭代通常需要更长的时间。因此,为了平衡时间性能和预测准确性,机器学习和深度学习方法选择了在滚动预测的每次迭代中重新推断的策略。

图 7:时间序列预测评估策略。

3.3.2 评价指标

为了对预测性能进行全面评估,我们采用了八个误差度量指标,即平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)、对称平均绝对百分比误差(SMAPE)、加权绝对百分比误差(WAPE)、平均绝对比例误差(MASE)和修改的对称平均绝对百分比误差(MSMAPE)。

3.4 统一的流程

如第1节所述,小的实现差异可能会严重影响评估结果。为了实现方法的公平和全面比较,我们引入了一个统一的评估流程,分为数据层、方法层、评估层和报告层——见图8。各个组件的详细信息如下:

  • 数据层是一个包含来自不同领域的单变量和多变量时间序列的仓库,根据它们的不同特征、频率和序列长度进行结构化。数据按照标准化格式统一处理。当一个新数据集变得可用时,这一层可以评估现有数据集在这六个特征上的分布是否可以扩展。如果可以,它将被接受为新的数据集。
  • 方法层支持嵌入统计学习、机器学习和深度学习方法。然而,其他基准没有实现这一点,它们大多数只能嵌入深度学习方法。此外,TFB被设计为与任何第三方时间序列预测库兼容,例如Darts、TSlib。用户可以通过编写一个简单的通用接口,轻松地将第三方库中实现的预测方法集成到TFB中,从而便于公平比较。TFB不仅支持直接多步(DMS)预测,还支持迭代多步(IMS)预测。因此,方法层通过支持广泛的方法,为TFB的适用性做出了贡献。
  • 评估层支持多样化的评估策略和评价指标。它支持固定和滚动预测策略,再次增加了基准对更广泛方法和应用的适用性。该层还涵盖了其他研究中的评价指标,并支持使用定制指标对方法性能进行更全面的评估。此外,对于每种评估策略,TFB提供了标准化的数据集处理、分割和归一化。此外,它提供了一个可以由用户定制的标准配置文件。这旨在促进对不同设置下方法性能的深入理解。
  • 报告层包括一个日志系统,用于跟踪信息,实现实验设置的捕获,以实现可追溯性。此外,它包含一个可视化模块,以便清晰地了解方法的性能。这种设计旨在通过整个评估过程提供全面支持和透明度。

用户只需在方法层部署他们的方法架构,并选择或配置配置文件,然后TFB就可以自动运行图8中的流程。

TFB流程具备可扩展特性。与CPU和GPU硬件兼容性使得在不同的计算环境中进行评估成为可能。TFB还支持顺序和并行程序执行,为用户提供多种选择。

总之,TFB是一个统一、灵活、可扩展且用户友好的时间序列预测方法基准工具。它能够帮助用户更好地了解、比较和选择适用于特定应用场景的时间序列预测方法。

图 8:TFB pipeline。

4. 实验

4.1 实验设定

数据集:我们利用了TFB中包含的所有数据集,包括25个多变量数据集和8,068个单变量时间序列。多变量数据集的详细数据切分见表4,单变量数据集的预测步长见表3。

对比方法:为了减少对比方法上的刻板印象,我们包含了第4.2节中提到的所有方法,进行全面比较。

实施细节:对于多变量预测,我们采用滚动预测策略。对于FredMd、NASDAQ、NYSE、NN5、ILI、Covid-19和Wike2000等数据集,我们考虑了四个预测步长:24、36、48和60;对于其他长度更长的数据集,我们使用另外四个预测步长:96、192、336和720。回看窗口长度H 在FredMd、NASDAQ、NYSE、NN5、ILI、Covid-19和Wike2000等数据集上分别为36和104;对于其他所有数据集,为96、336和512。对于单变量预测,我们采用固定预测策略,以保持与M4竞赛设置的一致性,预测步长从6到48,回看窗口长度H 设置为预测步长F 的1.25倍。

对于每种方法,我们坚持使用其原始论文中指定的超参数。此外,我们在多组参数集合上进行超参数搜索,限制为8组。然后从这些评估中选择最佳结果,为每种方法的性能提供全面和无偏见的评估。由于篇幅限制,我们只在论文中报告了部分指标的结果。

所有实验均在Python 3.8中使用PyTorch进行,并在NVIDIA Tesla-A800 GPU上执行。训练过程采用L2损失进行指导,使用ADAM优化器。初始批量大小设置为32,如果出现内存不足(OOM)情况,可以将其减半(最小为8)。在测试过程中,我们不使用“丢弃最后一个批次”操作。

4.2 实验结果

4.2.1 单变量时间序列预测

表5报告了UTSF在MASE、MSMAPE和MSMAPE排名方面的结果,后者表示在数据集上达到最佳性能的次数。我们观察到,包括TimesNet、PatchTST和N-HiTS在内的最近提出的深度学习方法,在MASE和MSMAPE方面在单变量数据集上表现出明显更好的平均性能。然而,考虑到排名,(非深度)机器学习方法LinearRegression (LR)和RandomForest (RF)胜过所有竞争对手。这表明在特定情景下,机器学习方法可能更合适。在我们的评估设定下,每个单独的单变量时间序列被采用来训练一个单独的模型,而深度学习方法需要大量的训练数据才能有效。因此,深度学习方法的性能不佳。接下来,我们可以观察到LR在具有季节性、趋势性和漂移特征的时间序列上表现更好,而在这些模式不存在时,RF表现更好。此外,我们注意到LR对于没有平稳性的数据更合适。最后,LR和RF对转移特征很敏感:特征越强,表现越好。这些结果为选择特定设置下的正确方法提供了指导。

表 5:单变量预测结果。

4.2.2 多变量时间序列预测

由于结果数量庞大,我们将它们分成两个表格——表6和表7。这些表格中的数据集按其趋势特征排序,其中具有较弱趋势的数据集排在前面。在这两个表格中,我们报告了在每个数据集上考虑四个不同预测步长时标准化数据的MAE和MSE。"nan"表示方法无法生成有效预测,而"inf"表示无限结果。我们看到没有单一方法在所有数据集上都表现最佳。我们还看到基于Transformer的方法通常在具有较弱趋势的数据集上表现优于其他方法。接下来,基于线性的方法在具有强趋势的数据集上往往表现略好。令人惊讶的是,我们观察到最近的方法并不一定在所有数据集上表现优于较早的研究,如Informer、LR和VAR。这一发现突显了在不同数据集上评估方法性能的必要性。在相对较少的数据集上评估方法使得准确评估它们的普遍性和整体性能变得困难。因此,扩展评估中使用的数据集范围至关重要。

表 6:多变量预测结果 I。

表 7:多变量预测结果 II。

4.2.3 不同特征上的性能

我们继续研究不同深度学习方法在不同特征下的表现。首先,我们计算出多变量时间序列数据六个特征对应的特征值。然后,我们选择每个特征中得分最高的数据集,这些数据集分别是趋势特征下的FRED-MD,季节性特征下的Electricity,转移特征下的PEMS08,漂移特征下的NYSE,相关性特征下的PEMS-BAY,以及稳定性特征下的Solar。接下来,我们在雷达图中展示了各个方法的结果,见图9。我们看到没有一种深度学习方法在所有数据集上表现突出。特别是,Crossformer在转移特征高度明显(PEMS08)的数据集、数据最稳定(Solar)的数据集和相关性最高(PEMS-BAY)的数据集上表现异常出色。然而,在具有其他特征的时间序列数据集上,Crossformer的表现明显不及其他方法。接下来,PatchTST在具有强烈季节性(Electricity)的数据集上实现了最佳表现。类似地,NLinear在具有最显著趋势(FRED-MD)和严重漂移(NYSE)的时间序列数据上取得了出色的结果。PatchTST和NLinear的表现一直很好,没有任何明显糟糕的结果。

这些观察结果表明,不同的深度学习方法在具有不同特征的数据集上具有不同的能力,没有一种方法被认为是最佳方法。因此,指导新方法设计的深入分析非常重要。

图 9:方法在六个特征上的平均绝对误差(MAE)结果。

4.3 方法设计提示

4.3.1 Transformers vs. linear 方法

为了研究不同数据特征对这两种类型方法的影响,我们考虑了CNN、Linear和Transformer的最佳MAE结果。NASDAQ, NYSE, and NN5的预测步长为24,而所有其他数据集的预测步长为96。见图10。我们选择CNN作为参考,以更全面地了解Transformer和Linear的性能。我们有以下观察结果。首先,每种方法在具有不同特征的数据集上都表现出不同的优势。其次,线性模型在数据集呈增长趋势或具有显著漂移时表现出色。这可以归因于线性模型的线性建模能力,使其能够很好地捕捉线性趋势和漂移。第三,Transformer方法在展现明显季节性、平稳性和非线性模式,以及更明显模式或内在相似性的数据集上优于线性方法。这种优越性可能源于Transformer方法增强的非线性建模能力,使其能够灵活地适应复杂的时间序列模式和内在相关性。

因此,观察到的现象强调了Transformer方法和线性方法在处理时间序列的不同特征时的固有差异。为了实现最佳性能,我们建议根据相关时间序列的特征选择合适的方法,使方法能够充分发挥其优势。

图 10:基于Transformer、基于CNN和基于线性的方法之间的比较。红色三角形表示具有最佳准确性(最小MAE)的方法。

4.3.2 通道独立性与通道依赖性

在多变量数据集中,变量有时被称为通道。为了研究多变量时间序列中通道依赖性的影响,我们比较了数据集相关性从弱到强的十个数据集上的PatchTST和Crossformer的性能。我们报告了预测步长F为96的MAE,如图11所示。我们观察到随着数据集内部相关性的增加,Crossformer的性能逐渐超过了PatchTST,这表明在相关性较强时考虑通道依赖性更好。然而,当变量之间的相关性不明显时,不考虑通道依赖性的PatchTST表现更好。这一观察结果表明,在多变量时间序列预测中引入通道间依赖性考虑可以显著提高性能,特别是在具有较强相关性的数据集上,与假设通道独立性的方法相比。这表明在设计新的预测方法时,应注意利用和充分利用变量之间的关系,从而更准确地捕捉数据集中的潜在结构和模式。然而,当数据集内部的相关性不明显时,考虑通道依赖性的Crossformer方法的性能可能不会超过PatchTST。因此,寻找更好的方法来有效利用通道依赖性具有重要意义。这种对通道依赖性的深入探讨和平衡为新方法的设计和现有方法的性能优化提供了指导。

图 11:数据集内相关性强度变化时方法性能比较。

4.3.3 运行时间和参数

我们研究了深度学习方法在多变量时间序列预测(MTSF)中的推理时间和参数数量的表现。由于篇幅限制,我们选择了三个具有不同规模的数据集,分别是Traffic(大型)、Weather(中型)和ILI(小型)。ILI的预测步长为24,而交通和天气的预测步长则为96, 结果如图12所示,其中横轴表示参数数量(对数刻度),纵轴表示每个样本(测试数据集中的窗口)的推理时间(毫秒,也是对数刻度)。报告的参数数量和推理时间是指方法在数据集上表现最佳的情况。我们观察到随着参数数量的增加,推理时间呈现出一般性上升的趋势,这是直观的。在考虑运行时间和参数数量时,基于线性的方法优于基于CNN和Transformer的方法。此外,CNN方法往往具有更多的参数。在基于Transformer的方法中,我们还观察到PatchTST在运行时间上明显优于Triformer和Crossformer。

图 12:深度学习方法的参数数量和推断时间比较。

5. 总结

我们提出了TFB时间序列预测基准,以解决三个问题,实现对TSF方法的全面和可靠比较。为了缓解数据领域不足的问题,TFB包括来自10个不同领域的数据集,涵盖交通、电力、能源、环境、自然、经济、股票、银行、健康和网络。我们还进行了时间序列特征分析,以确保所选数据集在不同特征上分布均匀。为了消除对传统方法的偏见,TFB涵盖了各种方法,包括统计学习、机器学习和深度学习方法,配以多种评估策略和指标。因此,TFB可以全面评估不同方法的性能。为了解决不一致和不灵活的流程问题,TFB提供了一个新的灵活和可扩展的流程,消除了偏见,并为算法性能比较提供了更好的基础。总的来说,TFB是一个更全面、更公平的基准,旨在推动新TSF方法的发展。

6. Citation

如果你觉得这篇论文对你有所帮助,请引用我们的论文。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@article{qiu2024tfb,
  title={TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods},
  author={Qiu, Xiangfei and Hu, Jilin and Zhou, Lekui and Wu, Xingjian and Du, Junyang and Zhang, Buang and Guo, Chenjuan and Zhou, Aoying and Jensen, Christian S and Sheng, Zhenli and Bin Yang},
  journal={Proc. {VLDB} Endow.},
  year={2024}
}

欢迎大家关注华东师范大学数据科学与工程学院决策智能实验室公众号 (DI DaSE ECNU) 和官网 (decisionintelligence.github.io)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods作者:邱翔飞, 胡吉林, 周乐夔, 吴行健, 杜骏扬, 张布昂, 郭晨娟, 周傲英, Christian S.Jensen, 盛镇醴, 杨彬机构:华东师范大学,华为云算法创新实验室, 奥尔堡大学论文发表:50th International Conference on Very Large Data Bases (VLDB 2024)关键词:时间序列预测, 基准测试, 数据集论文链接:https://arxiv.org/abs/2403.20150VLDB论文链接:https://www.vldb.org/pvldb/vol17/p2363-hu.pdf代码链接:https://github.com/decisionintelligence/TFB
  • 1. 引言
  • 2. 准备工作
  • 3. TFB:基准细节
    • 3.1 数据集
      • 3.1.1 数据集概要
    • 3.2 对比方法
    • 3.3 评估设定
      • 3.3.1 评价策略
      • 3.3.2 评价指标
    • 3.4 统一的流程
  • 4. 实验
    • 4.1 实验设定
    • 4.2 实验结果
      • 4.2.1 单变量时间序列预测
      • 4.2.2 多变量时间序列预测
      • 4.2.3 不同特征上的性能
    • 4.3 方法设计提示
      • 4.3.1 Transformers vs. linear 方法
      • 4.3.2 通道独立性与通道依赖性
      • 4.3.3 运行时间和参数
  • 5. 总结
  • 6. Citation
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档