前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >时序论文31|NIPS24自注意力机制真的对时序预测任务有效吗?

时序论文31|NIPS24自注意力机制真的对时序预测任务有效吗?

作者头像
科学最Top
发布于 2024-12-09 02:52:11
发布于 2024-12-09 02:52:11
3370
举报
文章被收录于专栏:科学最Top科学最Top

论文标题:Are Self-Attentions Effective for Time Series Forecasting?

论文链接:https://arxiv.org/pdf/2409.18696

代码链接:https://github.com/dongbeank/CATS

前言

本文将重点转向探究自注意力机制在其中的有效性,提出仅含交叉注意力的CATS架构。

当前时间序列预测还是以Transformer为backbone的模型占据主导,但其有效性一直存争议,比如各类线性模型Dlinear、FITS等表现都比很多Transformer架构好。那么问题到底出在哪?其实一个关键问题是评估 Transformer 中哪些元素对于时间序列建模是必要的,哪些是不必要的。

Dlinear也提到了这个问题,但他们的分析仅限于用线性层替代注意力层。但是, Transformer架构时间信息丢失的问题(即自注意力机制的置换不变性和反序特性)主要是由自注意力机制的使用导致的,那么作者想到先讨论和评估自注意力机制是否对时序预测有正面作用。

本文工作

本文提出了仅含交叉注意力的时间序列 Transformer(CATS)这一新颖预测架构,通过去除自注意力机制并挖掘交叉注意力潜力简化原始架构,将未来预测范围相关参数设为查询项、过去时间序列数据作键值对以增强参数共享与长时预测性能,实验表明其对长输入序列均方误差最低、参数更少,还能借特定预测范围注意力图清晰呈现预测推导过程,且在多时间序列数据集上较之前的 Transformer 模型性能更优、参数和内存消耗更低。

01 为什要去除自注意力机制

这一部分,作者基于PatchTST的三组模型实验来进行论证:一是原始的 PatchTST,它采用长度为 16、步长为 8 的重叠块(图 a);二是经过修改的 PatchTST,其使用长度为 24 的非重叠块(图 b);三是将自注意力机制替换为线性嵌入层的版本,同样采用长度为 24 的非重叠块(图 c)。这样的设置能够在控制块重叠影响的同时,分离出自注意力机制对时间信息保留的影响。

其中带有线性嵌入的版本(图 c)对时间信息的捕捉最为清晰,这表明自注意力机制本身对于捕捉时间信息而言可能并非是必要的,用线性层替代自注意力机制不仅能够捕捉清晰的时间模式,另一个好处是能提升性能,尤其是在较长的预测周期。

02 重新思考Transformer设计

下图展示了现有几种建模架构。图a和图b是传统的Transformer架构,图b仅含编码器模块,结合上面的实验可以发现Transformer架构很大程度上依赖自注意力机制,而这可能会导致时间信息丢失。图c是线性模型,尽管这种做法减少了计算量,并有可能避免一些时间信息丢失的问题,但它可能难以捕捉复杂的时间依赖关系。

那么读到这里,作者的意图也就很明了了:提出仅含交叉注意力的时间序列Transformer(CATS),如图d所示,去除了所有自注意力层。

03 本文模型

CATS架构含三个关键组件:以未来为查询的交叉注意力机制、跨预测范围的参数共享与查询自适应掩码

通过未来作为查询的交叉注意力(Cross-Attention via Future as Query):CATS摒弃自注意力机制,聚焦交叉注意力。将未来预测范围相关参数设为查询,过去时间序列数据作键值对。如预测未来 H 步,将未来 H 步预测参数设查询 Q,输入时间序列 X 拆分成键 K 与值 V,经线性投影处理后用于交叉注意力计算。

跨预测范围的参数共享(Parameter Sharing across Horizons):为充分利用交叉注意力提升参数共享,CATS在不同预测范围共享参数。在预测未来 H 步时,对查询 Q 处理并与键 K、值 V 计算交叉注意力得分,经 softmax 与线性投影得预测值。

查询自适应掩码(Query-Adaptive Masking):这是 CATS提升性能的创新点。预测未来值时,切断输入时间序列信息,仅查询影响预测,通过掩码实现。掩码依概率 p 决定是否掩盖输入序列元素,输入序列 X 与掩码 M 逐元素相乘得新输入序列。掩码用于各层交叉注意力机制前,处理后的输入聚焦预测查询,避免干扰。

本文实验

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科学最Top 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
完美解决丨1. **`SyntaxError: invalid syntax`**
SyntaxError: invalid syntax 因为没有符合语法要求,导致报错。 解决办法: 语法错误的原因主要是代码的风格,例如: 左括号或者右括号没有配对; 左括号或者右括号没有放在语句的正确位置; 缺少冒号:在 if,for,class 后面必须要有冒号; 双引号或者单引号没有配对; 变量名称,函数名称,类名称,模块名称,函数参数名称不能与关键字冲突; 某些关键字后面必须要有括号,例如 return; TypeError: 'int' object is not callable
不吃西红柿
2023/04/21
1.6K0
Python基础知识点总结
   学了一年多的Python,去年做了一段时间的爬虫项目,近来在做数据分析和机器学习的东西,抽空整理一下以前学的Python基础知识点,有借鉴与总结。具体知识点后续会分段展开深入。
py3study
2020/01/08
8640
一种绝对提高开发水平的方法
AntConc 使用工具软件可以把一本电子档中的单词全部提取出来,并分析其出现频率
IT小马哥
2020/03/18
5450
快速学习-综合案例RESTRUL_CRUD
发起请求,无法执行,因为delete请求必须通过post请求转换为delete请求,借助:HiddenHttpMethodFilter过滤器
cwl_java
2020/02/19
1.9K0
快速学习-综合案例RESTRUL_CRUD
鸿蒙应用开发从入门到入行 - 篇3:ArkUI布局基础与制作可交互页面
导读:在本篇文章里,您将掌握事件、装饰器、双向绑定等相关知识,并利用所学知识做一个待办列表的案例。
猫林老师
2024/12/23
3280
鸿蒙应用开发从入门到入行 - 篇3:ArkUI布局基础与制作可交互页面
0CTF/TCTF2018 Final Web Writeup
这是一道tomato师傅出的不完整的java题,java…,java…我恨java┑( ̄Д  ̄)┍
LoRexxar
2023/02/21
5460
软件测试面试中都会问到哪些关于Python的问题?
答:Python是一门语法简洁优美, 功能强大无比, 应用领域非常广泛, 具有强大完备的第三方库,它是一门强类型的可移植、可扩展、可嵌入的解释型编程语言,属于动态语言。
霍格沃兹测试开发
2020/12/17
7840
JavaWeb开发与代码的编写(一)[通俗易懂]
在JavaWeb开发中,常使用绝对路径的方式来引入JavaScript和CSS文件,这样可以避免因为目录变动导致引入文件找不到的情况,常用的做法如下:
全栈程序员站长
2022/09/08
4770
JavaWeb开发与代码的编写(一)[通俗易懂]
[长文] 学Python不用培训班,一篇文章带你入门
最近有许多小伙伴后台联系我,说目前想要学习Python,但是没有一份很好的资料入门。一方面的确现在市面上Python的资料过多,导致新手会不知如何选择,另一个问题很多资料内容也很杂,从1+1到深度学习都包括,纯粹关注Python本身语法的优质教材并不太多。
TechFlow-承志
2020/05/21
9090
[长文] 学Python不用培训班,一篇文章带你入门
Java面试基本知识
Java基本知识 基本知识 服务器:Tomcat 支持Servlet jsp JBoss 开源应用服务器 Apache:最广泛的http服务器,只支持静态网页 String是长度不可变,用+=的时候会
李家酒馆酒保
2017/12/26
7500
Java 面试知识点解析(七)——Web篇
前言: 在遨游了一番 Java Web 的世界之后,发现了自己的一些缺失,所以就着一篇深度好文:知名互联网公司校招 Java 开发岗面试知识点解析 ,来好好的对 Java 知识点进行复习和学习一番,大
我没有三颗心脏
2018/07/09
7530
Java 面试知识点解析(七)——Web篇
在遨游了一番 Java Web 的世界之后,发现了自己的一些缺失,所以就着一篇深度好文:知名互联网公司校招 Java 开发岗面试知识点解析 ,来好好的对 Java 知识点进行复习和学习一番,大部分内容参照自这一篇文章,有一些自己补充的,也算是重新学习一下 Java 吧。
我没有三颗心脏
2018/05/22
1.2K2
Java 面试知识点解析(七)——Web篇
JavaWeb
将CATALINA_HOME/conf/logging.properties文件中的内容修改如下:
星辰xc
2022/05/11
6.4K0
JavaWeb
C/C++常见gcc编译链接错误解决方法
用“-Wl,-Bstatic”指定链接静态库,使用“-Wl,-Bdynamic”指定链接共享库,使用示例: -Wl,-Bstatic -lmysqlclient_r -lssl -lcrypto -Wl,-Bdynamic -lrt -Wl,-Bdynamic -pthread -Wl,-Bstatic -lgtest ("-Wl"表示是传递给链接器ld的参数,而不是编译器gcc/g++的参数。) 1) 下面是因为没有指定链接参数-lz(/usr/lib/libz.so,/usr/lib/libz.a ) /usr/local/mysql/lib/mysql/libmysqlclient.a(my_compress.c.o): In function `my_uncompress': /home/software/mysql-5.5.24/mysys/my_compress.c:122: undefined reference to `uncompress' /usr/local/mysql/lib/mysql/libmysqlclient.a(my_compress.c.o): In function `my_compress_alloc': /home/software/mysql-5.5.24/mysys/my_compress.c:71: undefined reference to `compress' 2) 下面是因为没有指定编译链接参数-pthread(注意不仅仅是-lpthraed) /usr/local/mysql/lib/mysql/libmysqlclient.a(charset.c.o): In function `get_charset_name': /home/zhangsan/mysql-5.5.24/mysys/charset.c:533: undefined reference to `pthread_once' 3) 下面这个是因为没有指定链接参数-lrt /usr/local/thirdparty/curl/lib/libcurl.a(libcurl_la-timeval.o): In function `curlx_tvnow': timeval.c:(.text+0xe9): undefined reference to `clock_gettime' 4) 下面这个是因为没有指定链接参数-ldl /usr/local/thirdparty/openssl/lib/libcrypto.a(dso_dlfcn.o): In function `dlfcn_globallookup': dso_dlfcn.c:(.text+0x4c): undefined reference to `dlopen' dso_dlfcn.c:(.text+0x62): undefined reference to `dlsym' dso_dlfcn.c:(.text+0x6c): undefined reference to `dlclose' 5) 下面这个是因为指定了链接参数-static,它的存在,要求链接的必须是静态库,而不能是共享库 ld: attempted static link of dynamic object 如果是以-L加-l方式指定,则目录下必须有.a文件存在,否则会报-l的库文件找不到:ld: cannot find -lACE 6) GCC编译遇到如下的错误,可能是因为在编译时没有指定-fPIC,记住:-fPIC即是编译参数,也是链接参数 relocation R_x86_64_32S against `vtable for CMyClass` can not be used when making a shared object 7) 下面的错误表示gcc编译时需要定义宏__STDC_FORMAT_MACROS,并且必须包含头文件inttypes.h test.cpp:35: error: expected `)' before 'PRIu64' 8) 下面是因为在x86机器(32位)上编译没有指定编译参数-march=pentium4 ../../src/common/libmooon.a(logger.o): In function `atomic_dec_and_test': ../../include/mooon/sys/atomic_gcc.h:103: undefined reference to `__sync_sub_and_fetch_4' 9) 下列错误可能是因为多了个“}” error: expected d
一见
2018/08/10
8K0
Spring MVC 学习总结(七)——FreeMarker模板引擎与动态页面静态化
模板引擎可以让程序实现界面与数据分离,业务代码与逻辑代码的分离,这就提升了开发效率,良好的设计也使得代码复用变得更加容易。一般的模板引擎都包含一个模板解析器和一套标记语言,好的模板引擎有简洁的语法规则、强大的功能、高效的渲染效率、详尽的帮助说明与不断的更新与维护。常见的前端模板引擎有:
张果
2022/05/09
4.1K0
Spring MVC 学习总结(七)——FreeMarker模板引擎与动态页面静态化
一文弄懂Jupyter的配置与使用(呕心沥血版)
安装 Python。从 Python 官方网站[1]下载最新版本的 Python。
MinChess
2023/05/01
22.5K0
一文弄懂Jupyter的配置与使用(呕心沥血版)
笨办法学 Java(一)
我已经教了超过 15 年的初学者如何编码。超过 2000 名学生参加了我的课程,离开时知道如何编写简单的程序。有些人只学会了一点,而其他人在短短几年内获得了令人难以置信的技能。
ApacheCN_飞龙
2024/01/26
4540
渗透测试面试问题合集
b、端口,弱口令,目录等扫描,对响应的端口进行漏洞探测,比如 rsync,心zang出血,mysql,ftp,ssh弱口令等。
行云博客
2022/05/11
2.8K0
谈谈前端面试经常遇到的一些题目
问题描述: 两个块级元素的上外边距和下外边距可能会合并(折叠)为一个外边距,其大小会取其中外边距值大的那个,这种行为就是外边距折叠。需要注意的是,浮动的元素和绝对定位这种脱离文档流的元素的外边距不会折叠。重叠只会出现在垂直方向。
loveX001
2022/09/27
7280
彻夜怒肝!17 个 Docker 常见疑难杂症解决方案汇总!
[问题起因] 今天通过监控系统,发现公司其中一台服务器的磁盘快慢,随即上去看了下,发现 /var/lib/docker 这个目录特别大。由上述原因,我们都知道,在 /var/lib/docker 中存储的都是相关于容器的存储,所以也不能随便的将其删除掉。
杰哥的IT之旅
2021/04/20
6.2K0
相关推荐
完美解决丨1. **`SyntaxError: invalid syntax`**
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档