Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >革新Transformer!清华大学提出全新Autoformer骨干网络

革新Transformer!清华大学提出全新Autoformer骨干网络

作者头像
数据派THU
发布于 2023-03-29 05:14:07
发布于 2023-03-29 05:14:07
1.7K00
代码可运行
举报
文章被收录于专栏:数据派THU数据派THU
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
来源:深度学习技术前沿
本文约2500字,建议阅读9分钟 全新Autoformer骨干网络,长时序预测达到SOTA
[ 导读 ]近日,清华大学软件学院机器学习实验室另辟蹊径,基于随机过程经典理论,提出全新Autoformer架构,包括深度分解架构及全新自相关机制,长序预测性能平均提升38%。

尽可能延长预测时效是时序预测的核心难题,对于能源、交通、经济的长期规划,气象灾害、疾病的早期预警等具有重要意义。

清华大学软件学院机器学习实验室的研究人员近日发表了一篇论文,探究了在信息有限的情况下预测更长期未来的这个难题。

针对上述问题,作者大刀阔斧革新Transformer,提出全新的Autoformer模型,在长时序预测方面达到SOTA,在效率性能上均超过Transformer及其变体

论文链接:https://arxiv.org/abs/2106.13008

研究背景

虽然近期基于Transformer的模型在时序预测上取得了一系列进展,但是Transformer的固有设计,使得在应对长期序列时仍存在不足:

  • 随着预测时效的延长,直接使用自注意力(self-attention)机制难以从复杂时间模式中找到可靠的时序依赖。
  • 由于自注意力的二次复杂度问题,模型不得不使用其稀疏版本,但会限制信息利用效率,影响预测效果。

作者受到时序分析经典方法和随机过程经典理论的启发,重新设计模型,打破Transformer原有架构,得到Autoformer模型:

  • 深度分解架构:突破将时序分解作为预处理的传统方法,设计序列分解单元以嵌入深度模型,实现渐进式地(progressively)预测,逐步得到可预测性更强的组分。
  • 自相关(Auto-Correlation)机制:基于随机过程理论,丢弃点向(point-wise)连接的自注意力机制,实现序列级(series-wise)连接的自相关机制,且具有的复杂度,打破信息利用瓶颈。
  • 应对长期预测问题,Autoformer在能源、交通、经济、气象、疾病五大领域取得了38%的大幅效果提升

方法介绍

作者提出了Autoformer模型,其中包括内部的序列分解单元、自相关机制以及对应的编码器、解码器。

(1)深度分解架构

Autoformer架构

时间序列分解是时序分析的经典方法,可以将时间序列分解为几类潜在的时间模式,如周期项,趋势项等。

在预测任务中,由于未来的不可知性,通常先对输入进行分解,再每个组分分别预测。

但这样使得预测结果受限于分解效果,并且忽视了长期未来中各个组分之间的相互作用。

针对上述问题,作者提出深度分解架构,在预测过程中,逐步从隐变量中分离趋势项与周期项,实现渐进式(progressive)分解

并且模型交替进行预测结果优化序列分解,可以实现两者的相互促进。

A. 序列分解单元

基于滑动平均思想,平滑时间序列,分离周期项与趋势项:

其中,为待分解的隐变量,分别为趋势项和周期项,将上述公式记为

B. 编解码器

编码器:通过上述分解单元,模型可以分离出周期项,。而基于这种周期性,进一步使用自相关机制(),聚合不同周期的相似子过程:

解码器:对趋势项与周期项分别预测。

  • 对于周期项,使用自相关机制,基于序列的周期性质来进行依赖挖掘,并聚合具有相似过程的子序列;
  • 对于趋势项,使用累积的方式,逐步从预测的隐变量中提取出趋势信息。

(2)自相关机制

观察到,不同周期的相似相位之间通常表现出相似的子过程,利用这种序列固有的周期性来设计自相关机制,实现高效的序列级连接。

自相关机制包含基于周期的依赖发现(Period-based dependencies)和时延信息聚合(Time delay aggregation)。

自相关机制,右侧为时延信息聚合

A. 基于周期的依赖发现

基于上述观察,为找到相似子过程,需要估计序列的周期。基于随机过程理论,对于实离散时间过程,可以如下计算其自相关系数:

其中,自相关系数表示序列与它的延迟之间的相似性。

在自相关机制中,将这种时延相似性看作未归一化的周期估计的置信度,即周期长度为的置信度为。

实际上,基于Wiener-Khinchin理论,自相关系数可以使用快速傅立叶变换(FFT)得到,其计算过程如下:

其中,和分别表示FFT和其逆变换。因此,复杂度为。

B. 时延信息聚合

为了实现序列级连接,还需要将相似的子序列信息进行聚合。自相关机制依据估计出的周期长度,首先使用操作进行信息对齐,再进行信息聚合:

这里,依然使用query、key、value的多头形式,从而可以无缝替换自注意力机制。

同时,挑选最有可能的个周期长度,用于避免融合无关、甚至相反的相位。整个自相关机制的复杂度仍为。

C. 对比分析

自相关机制与自注意力机制对比

相比于之前的点向连接的注意力机制或者其稀疏变体,自注意力(Auto-Correlation)机制实现了序列级的高效连接,从而可以更好的进行信息聚合,打破了信息利用瓶颈。

实验

作者在6个数据集上进行了测试,涵盖能源、交通、经济、气象、疾病五大主流领域。

(1) 主要结果

整体实验结果

Autoformer在多个领域的数据集、各种输入-输出长度的设置下,取得了一致的最优(SOTA)结果。

在input-96-predict-336设置下,相比于之前的SOTA结果,Autoformer实现了ETT能源数据集74%的MSE提升,Electricity能源数据集MSE提升24%,Exchange经济数据集提升64%,Traffic交通数据集提升14%,Weather气象数据集提升26%,在input-24-predict-60设置下,ILI疾病数据集提升30%。

在上述6个数据集,Autoformer在MSE指标上平均提升38%

(2) 对比实验

深度分解架构的通用性:将提出的深度分解架构应用于其他基于Transformer的模型,均可以得到明显提升,验证了架构的通用性。

同时随着预测时效的延长,提升效果更加明显,这也印证了复杂时间模式是长期预测的核心问题。

ETT数据集上的MSE指标对比,Origin表示直接预测,Sep表示先分解后预测,Ours表示深度分解架构。

自相关机制 vs. 自注意力机制:同样基于深度分解架构,在众多输入-输出设置下,自相关机制一致优于自注意力机制及其变体,比如经典Transformer中的Full Attention,Informer中的PropSparse Attention等。

ETT数据集上对比实验,将Autoformer中的自相关机制替换为其他自注意力机制,得到上述结果。

(3) 模型分析

时序依赖可视化:

对于序列的最后一个时间点,各模型学到的时序依赖可视化,图(a)中红色线表示学习到的过程的位置。

通过上图可以验证,Autoformer中自相关机制可以正确发掘出每个周期中的下降过程,并且没有误识别和漏识别,而其他注意力机制存在缺漏甚至错误的情况。

效率分析:

效率对比,红色线为自相关机制

在显存占用和运行时间两个指标上,自相关机制均表现出了优秀的空间、时间效率,两个层面均超过自注意力机制及其稀疏变体,表现出高效的复杂度。

总结

针对长时序列预测中的问题,作者基于时序分析的经典方法和随机过程的经典理论,提出了基于深度分解架构和自相关机制的Autoformer模型。

Autoformer通过渐进式分解和序列级连接,应对复杂时间模式以及信息利用瓶颈,大幅提高了长时预测效果。

同时,Autoformer在五大主流领域均表现出了优秀的长时预测结果,模型具有良好的效果鲁棒性,具有很强的应用落地价值。

参考资料:

https://arxiv.org/abs/2106.13008

编辑:黄继彦

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【论文复现】基于深度学习的高效时序预测
2022年,清华大学软件学院的学者提出了Autoformer:用于长期时间序列预测的自相关分解Transformer延长预测时间是实际应用的关键需求,如极端天气预警和长期能耗规划。本文研究了时间序列的长期预测问题。先前的基于 Transformer 的模型采用各种自注意力机制来发现长期依赖关系。然而,长期未来复杂的时间模式禁止模型找到可靠的依赖关系。本文通过对Transformer进行改进,通过序列分解和全新的自相关机制对时序数据进行建模,在各种公开的数据集上达到了很好的效果 代码转载自 Autoformer
Eternity._
2024/12/30
2860
【论文复现】基于深度学习的高效时序预测
阿⾥达摩院最新FEDformer,⻓程时序预测全⾯超越SOTA|ICML 2022
---- 新智元报道   编辑:好困 LRS 【新智元导读】阿里巴巴达摩院最近发布了一个新模型FEDformer模型,不光计算复杂度降为线性,预测精度还比SOTA高22.6% 时间序列预测在众多领域中(例如电力、能源、天气、交通等)都有广泛的应用。时间序列预测问题极具挑战性,尤其是长程时间序列预测(long-term series forecasting)。 在长程时间序列预测中,需要根据现有的数据对未来做出较长时段的预测。在部分场景中,模型输出的长度可以达到1000以上,覆盖若干周期。 该问题对预测
新智元
2022/06/27
1.3K0
阿⾥达摩院最新FEDformer,⻓程时序预测全⾯超越SOTA|ICML 2022
时序预测双飞轮,全面超越Transformer,纯MLP模型实现性能效能齐飞
本文作者简介:王世宇,蚂蚁集团算法专家,在AI创新技术部NextEvo主要负责时序算法研究方向,主导时序预测平台建设和时序算法创新研发和架构工作,推动预测与决策联动的双引擎能力。在ICLR, IJCAI, KDD, AAAI, WSDM, ICDM, DASFAA等顶级会议发表多篇论文。
可信AI进展
2024/07/01
3160
北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer
本文的通讯作者为北京大学计算机学院长聘副教授杨仝和香港理工大学助理教授王淑君。第一作者为香港理工大学 24 级博士生余国齐,以及联合作者北京大学 21 级软微学院博士生、每因智能创始人郭潇宇等。研究工作在北京大学计算机学院数据结构实验室和每因智能发起的研究课题中完成。
机器之心
2025/02/03
1090
北大、港理工革新性LiNo框架:线性与非线性模式有效分离,性能全面超越Transformer
TimeMixer++:用于通用预测分析的通用时序特征机器
论文标题:TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis
时空探索之旅
2024/11/19
2070
TimeMixer++:用于通用预测分析的通用时序特征机器
Salesforce | Transformer变体!用于时间序列预测的指数平滑Transformer(含源码)
 近年来,Transformer在时间序列预测方面得到了快速的发展。但是在设计上并没有充分利用时间序列数据的特性,因此存在一些基本的局限性(不可分解、低效)。为此本文提出了一种新的时间序列Transformer结构,其中,用模块化分解块重新设计了Transformer体系结构,以便它能够学会将时间序列数据分解为可解释的时间序列组受;经典指数平滑方法的启发,提出了新的指数平滑注意(ESA)和频率注意(FA)来取代vanilla Transformer中的自注意机制,从而提高了精度和效率。
ShuYini
2022/12/06
1.1K0
Salesforce | Transformer变体!用于时间序列预测的指数平滑Transformer(含源码)
干货 | 深度多元时序模型在携程关键指标预测场景下的探索应用
doublering,携程高级算法工程师,关注自然语言处理、LLMs、时序预测等领域。
携程技术
2023/10/27
1.7K1
干货 | 深度多元时序模型在携程关键指标预测场景下的探索应用
时间序列+Transformer!
Transformer在自然语言处理和计算机视觉领域表现优秀,但在时间序列预测方面不如线性模型。
算法进阶
2024/02/29
1.5K0
时间序列+Transformer!
深度时间序列预测和基础模型的研究进展
本文综述了深度学习在时间序列预测中的应用,特别是在流行病预测领域。尽管深度学习在时间序列预测中表现出显著优势,但仍面临挑战,如时间序列不够长、无法利用积累的科学知识以及模型的解释性。
算法进阶
2024/07/10
3510
深度时间序列预测和基础模型的研究进展
AI论文速读 | TimeXer:让 Transformer能够利用外部变量进行时间序列预测
题目:TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables
时空探索之旅
2024/11/19
4350
AI论文速读 | TimeXer:让 Transformer能够利用外部变量进行时间序列预测
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
---- 新智元报道   编辑:LRS 好困 【新智元导读】时间序列分析在现实世界中的应用非常广泛,覆盖气象、工业、医疗等众多领域。近期,清华大学软件学院机器学习实验室提出了时序基础模型TimesNet,在长时、短时预测、缺失值填补、异常检测、分类五大任务上实现了全面领先。 实现任务通用是深度学习基础模型研究的核心问题,也是近期大模型方向的主要关注点之一。 然而,在时间序列领域,各类分析任务的差别较大,既有需要细粒度建模的预测任务,也有需要提取高层语义信息的分类任务。如何构建统一的深度基础模型高效地完
新智元
2023/02/24
4K0
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
时序必读论文12|ICML22 FEDformer基于周期分解的长时序预测transformer架构
论文标题:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting
科学最Top
2024/09/18
3590
时序必读论文12|ICML22 FEDformer基于周期分解的长时序预测transformer架构
如何搭建适合时间序列预测的Transformer模型?
今天又是一篇Transformer梳理文章,这次应用场景是时间序列预测。Transformer的序列建模能力,让其天然就比较适合时间序列这种也是序列类型的数据结构。但是,时间序列相比文本序列也有很多特点,例如时间序列具有自相关性或周期性、时间序列的预测经常涉及到周期非常长的序列预测任务等。这些都给Transformer在时间序列预测场景中的应用带来了新的挑战,也使业内出现了一批针对时间序列任务的Transformer改造。下面就给大家介绍7篇Transformer在时间序列预测中的应用。
圆圆的算法笔记
2022/09/22
3.2K0
如何搭建适合时间序列预测的Transformer模型?
Transformer在量化投资中的应用
深度学习的发展为我们创建下一代时间序列预测模型提供了强大的工具。深度人工神经网络,作为一种完全以数据驱动的方式学习时间动态的方法,特别适合寻找输入和输出之间复杂的非线性关系的挑战。最初,循环神经网络及其扩展的LSTM网络被设计用于处理时间序列中的顺序信息。然后,卷积神经网络被用于预测时间序列,因为它们在图像分析任务中的成功。
量化投资与机器学习微信公众号
2023/04/20
2.6K0
Transformer在量化投资中的应用
时序论文24|TSLANet:重新思考用于时间序列表示学习的Transformers
代码链接:https://github.com/ emadeldeen24/TSLANet.
科学最Top
2024/09/18
4620
时序论文24|TSLANet:重新思考用于时间序列表示学习的Transformers
时序预测的深度学习算法介绍
深度学习方法是一种利用神经网络模型进行高级模式识别和自动特征提取的机器学习方法,近年来在时序预测领域取得了很好的成果。常用的深度学习模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)、注意力机制(Attention)和混合模型(Mix )等,与机器学习需要经过复杂的特征工程相比,这些模型通常只需要经数据预处理、网络结构设计和超参数调整等,即可端到端输出时序预测结果。深度学习算法能够自动学习时间序列数据中的模式和趋势,神经网络涉及隐藏层数、神经元数、学习率和激活函数等重要参数,对于复杂的非线性模式,深度学习模型有很好的表达能力。在应用深度学习方法进行时序预测时,需要考虑数据的平稳性和周期性,选择合适的模型和参数,进行训练和测试,并进行模型的调优和验证。来源:轮回路上打碟的小年轻(侵删)
数据STUDIO
2023/09/04
1.8K0
时序预测的深度学习算法介绍
Transformer时间序列预测!
【导读】大家好,我是泳鱼。一个乐于探索和分享AI知识的码农!今天带来的这篇文章,提出了一种基于Transformer的用于长期时间序列预测的新方法PatchTST,取得了非常显著的效果。希望这篇文章能对你有所帮助,让你在学习和应用AI技术的道路上更进一步!
算法进阶
2023/08/28
1.8K1
Transformer时间序列预测!
AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
题目:Timer: Transformers for Time Series Analysis at Scale
时空探索之旅
2024/11/19
3280
AI论文速读 | 计时器(Timer):用于大规模时间序列分析的Transformer
推荐阅读
相关推荐
【论文复现】基于深度学习的高效时序预测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验