前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AAAI 2024 | U-Mixer:用于时序预测的稳态校正 Mixer 结构

AAAI 2024 | U-Mixer:用于时序预测的稳态校正 Mixer 结构

作者头像
VachelHu
发布2024-02-29 14:13:11
5790
发布2024-02-29 14:13:11
举报
文章被收录于专栏:时序人时序人

时间序列预测是许多领域中的关键任务,例如金融、天气预报和传感器数据分析等。然而,时间序列经常受到趋势、季节性或不规则波动等因素的影响,表现出非平稳性。这种非平稳性会阻碍特征在深层网络中的稳定传播,破坏特征分布,并使学习数据分布变化变得复杂。因此,许多现有模型难以捕捉底层模式,导致预测性能下降。

本文介绍一篇由山东大学、山东省未来智能金融工程实验室联合发表的论文,旨在解决时间序列预测中的非平稳性挑战,通过提出一个名为U-Mixer的框架来实现。目前该工作已被AAAI 2024接收。

论文标题:U-Mixer: An Unet-Mixer Architecture with Stationarity Correction for Time Series Forecasting

论文地址:https://arxiv.org/abs/2401.02236

论文源码:XiangMa-Shaun/UMixer

论文概述

近年,最初为视觉任务引入的Mixer架构因其能够建模顺序数据内复杂关系的能力而受到关注。然而,将Mixer应用于时间序列预测也面临挑战。时间序列数据经常表现出由趋势、季节性或不规则波动等因素引起的非平稳性。这种特性可能会阻碍准确的建模和预测,从而限制Mixer架构的有效性。

为解决Mixer在处理非平稳性中存在的问题,研究者提出了U-Mixer,这是一个新的时间序列预测框架。

通过结合Unet和Mixer,U-Mixer有效地分别捕捉不同片段和通道之间的局部时间依赖关系,避免受到通道间分布变化的影响,并合并低级和高级特征以获取全面的数据表示。其关键贡献是引入一种新颖的平稳性校正方法,通过明确限制模型处理前后数据平稳性的差异,恢复非平稳性信息,同时确保保留时间依赖性。在多个真实世界的时间序列数据集上进行了广泛实验证明了U-Mixer的有效性和鲁棒性,相较于最先进的方法取得了14.5%和7.7%的改进。

模型框架

U-Mixer的架构由每个块的嵌入(per-patch embeddings)、Unet编码器-解码器(Unet encoder-decoder)、平稳性校正(stationarity correction)和预测头(forecasting head)组成。

01

归一化与块嵌入

输入数据

首先经过一个标准化过程,通过这个过程,数据的变化范围被调整到一个更合适的尺度,有助于提高模型的稳定性和性能。

标准化之后,

被划分为重叠或非重叠的补丁。定义补丁长度为

,两个连续补丁之间的步长为

。我们在X的最后一列重复

次,并在补丁化之前将其填充到原始序列。

补丁被映射到嵌入

,其中

是潜在空间的维度。我们使用一个线性投影

来学习映射关系,以及一个加性位置编码

来提供关于补丁相对位置的信息。因此,

。然后,

将被送入Unet的编码器-解码器,以捕获不同补丁和通道之间的依赖关系。由于模型处理会导致补丁中的分布发生变化,因此在这里我们还需要记录

的均值

、方差

和自相关矩阵

,以便在后续的平稳性校正操作中恢复模型的输出分布。

02

Unet 编码器-解码器

如下图所示,U-Mixer引入了一种新颖的时间序列预测网络,该网络将Unet架构与Mixer架构相结合。

U-Mixer采用了Unet的多层级编码器-解码器结构。编码器采用分层结构,逐步从嵌入

中提取低级别和高级别的特征。每个编码器负责将输入嵌入转换为高维表示,该表示捕获关键特征和上下文信息。编码器的输入定义为:

其中,

表示第i级编码器的输入,M是层数。编码器的输出可以表示为:

解码器也采用分层结构,逐步分析编码器生成的表示。每个解码器负责通过分析前一个解码器的输出表示来生成解析后的表示。在解析过程中,每个解码器还需要考虑同一层级编码器的输出来保留和利用同一层级的特征。这一过程是通过相应层级的跳跃连接来实现的。

03

MLP 模块

编码器和解码器都是由MLP模块构成的,如上图(a)所示。MLP模块包含两个MLP层,分别用于实现时间交互和通道交互。

首先,一个MLP层用于在时间维度上对输入数据进行交互,它包含几个MLP,这些MLP独立地处理每个通道。这个过程在不同通道之间没有交互,以避免因通道间分布差异而影响时间交互。经过层归一化后,输出被转置。

另一个MLP层用于在通道维度上进行交互。经过层归一化后,输出被转置回其原始形状。在交互过程中,采用了跳跃连接来连接MLP层的输入和输出特征,以减少特征变换引起的信息损失,并提供更全面的特征表示。

MLP由两个线性层、一个GELU激活函数和一个dropout组成,如上图(b)所示。作为MLP的核心组件,线性层对输入进行线性变换,以学习特征的线性组合。GELU通过对输入应用高斯误差线性变换来实现非线性映射,这在时间序列预测中得到了广泛应用。Dropout通过减少网络对特定特征或输入模式的敏感性来提高模型的鲁棒性。

04

平稳性校正

由于从输入中移除了非平稳信息,数据的分布发生了显著的变化。现有的恢复数据分布的方法主要集中在统计量上,如均值和方差,而没有考虑数据内的时间依赖性。因此,原始数据中的重要特征,如趋势和季节性,可能会受到影响。为此,研究者引入了一种新颖的平稳性校正方法,该方法通过约束模型处理前后时间序列的平稳性之间的关系,来纠正数据分布,同时保持数据依赖性。

时间序列的平稳性主要由两个方面来表征:均值和协方差。均值主要负责从统计学的角度约束分布,而协方差则从时间依赖性的角度约束分布。数据分布均值的变化通常是通过全局加法或减法操作来实现的,这不会影响协方差。但是,调整协方差可能会导致数据分布均值的变化。因此,我们首先调整数据的协方差。

协方差

可以表示序列

与其i滞后序列之间的依赖性,但这不足以完全描述整个时间序列的时间依赖性。因此,研究者引入自相关矩阵来为时间序列依赖性提供更全面的约束。

05

实例归一化与学习目标

首先,将预测输出

展平为一个二维张量

,这是通过一个线性层实现的。接着,使用实例归一化来减轻输入X与预测结果之间的分布偏移效应。

为了衡量预测值与真实值之间的差异,研究者选择了

损失函数。损失值从输出端传播至整个模型。与传统的用于时间序列预测任务的均方误差(MSE)损失函数相比,

损失函数对异常值不太敏感,这使得模型能够表现出更稳健的性能。模型损失函数定义如下:

实验效果

在数据集方面,研究者采用六个大规模的真实时间序列数据集进行长期预测,以评估U-Mixer的性能。这些数据集包括:电力变压器温度(ETT)、电力消耗负载(ECL)、交通数据、汇率数据(Exchange)、天气数据、M4。

根据研究者的实验结果显示,U-Mixer在短期和长期预测之间取得了良好的平衡,并实现了最佳的短期和长期预测性能。在8个数据集上的64次长期预测中,U-Mixer在56个案例中取得了最佳结果,并在MSE/MAE上对现有最佳结果分别提高了14.5%/7.7%。对于M4数据集的短期预测,几乎实现了所有最优结果。

表1 在大规模真实世界时间序列数据集上的长期预测中,将U-Mixer与SOTA基准进行比较

表2 在M4数据集的短期预测中将U-Mixer与SOTA基准进行比较

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时序人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档