前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML24最新开源时序基础模型MOMENT

ICML24最新开源时序基础模型MOMENT

作者头像
用户4434621
发布2024-09-18 17:24:36
1100
发布2024-09-18 17:24:36
举报
文章被收录于专栏:科学最Top

论文标题:MOMENT: A Family of Open Time-series Foundation Models

论文链接:https://arxiv.org/pdf/2402.03885

前言

当前时间序列数据上预训练大型模型面临以下挑战:(1) 缺乏大型且统一的公共时间序列数据集,(2) 时间序列特征的多样性使得多数据集训练十分繁重。(3) 用于评估这些模型的实验基准仍处于起步阶段,尤其是在资源、时间和监督有限的情况下。

本文提出MOMENT,一个用于通用时间序列分析的开源基础模型家族。该模型家族中的模型:(1)处理多样化时间序列分析任务(如预测、分类、异常检测和插补等)的基础模块,(2) 可以即插即用,无需或仅需少量特定任务示例(实现零样本预测、少样本分类等),(3) 通过使用任务相关的数据进行微调,可以进一步提高性能。

本文贡献

  • 数据集构建开源:编制了一个名为“The Time series Pile”的大型公共时间序列数据集合,涵盖了从医疗保健到工程、金融等多个领域的数据。The Time Series Pile 包含了来自多个不同领域的5个以上的公共时间序列数据库,用于预训练和评估模型,解决缺乏大型且统一的公共时间序列数据集问题。
  • 多数据集预训练:进行大规模混合数据集预训练,探索时间序列在分辨率、通道数量、长度和振幅等方面有所不同、存在缺失值等问题的处理和解决。
  • 评估:对于五种时间序列建模任务:短期和长期预测、分类、异常检测和插补,将MOMENT与(1)最先进的深度学习模型以及统计基线进行比较,(2)使用更具任务针对性的数据集,(3)采用多种评估指标,(4)专门在有限监督设置下进行评估。

本文模型

数据集:时间序列数据集Pile的数据划分。 为了避免数据污染,作者将所有数据集划分为互不重叠的训练集、验证集和测试集,并遵循每个数据集创建者提供的预定义划分方案。如果某些数据集没有预定义的划分方案,会随机抽取60%的数据用于训练,10%用于验证,30%用于测试。在预训练过程中,只使用所有数据集的训练部分。

MOMENT模型: 在MOMENT模型中,时间序列被分解为不重叠的固定长度子序列,称为补丁(patch)。每个补丁被映射为一个D维度的补丁嵌入。在预训练过程中,会随机掩盖这些补丁,将其补丁嵌入替换为一个特殊的掩码嵌入 [MASK]。预训练的目标是学习这些补丁嵌入,以便使用轻量级的重建头来重构输入的时间序列。

模型评估:除了对比分析之外,作者还进行了大量的可视化分析,更多具体细节可看原文。下图显示了对合成生成的正弦波嵌入进行主成分分析(PCA)后的结果,表明MOMENT可以捕捉到微妙的趋势、尺度、频率和相位信息。

下图是MOMENT学习的表示在3个最大的UCR数据集上的PCA和t-SNE可视化结果。 不同的颜色代表不同的类别。即使在没有针对特定数据集进行微调的情况下,MOMENT也能为不同的类别学习到明显不同的表示。

结论

本文提出一个时间序列基础模型MOMENT,构造了(Time Series Pile)大型多样化公共时间序列数据集,并通过从头开始预训练高性能时间序列基础模型,证明了其有效性。然后,还对模型结果进行了大量的可视化分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科学最Top 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 本文贡献
  • 本文模型
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档