全面！深度学习时间序列分类的综述！

算法进阶

发布于 2024-05-02 18:55:29

6940

发布于 2024-05-02 18:55:29

1 介绍

时间序列分析中的时间序列分类（TSC）是关键任务之一，具有广泛的应用，如人体活动识别和系统监测等。近年来，深度学习在TSC领域逐渐受到关注，具有自动从原始时间序列数据中学习并抽取有意义特征的能力。

本文首先介绍了TSC任务，然后概述了经典的非深度学习方法。并从网络架构和应用领域两个角度提出一个用于TSC的新分类法，并总结了基于多层感知器、基于卷积神经网络、基于循环神经网络和基于注意力的深度学习模型架构，以及用于提高性能的改进方法。最后，探讨了深度学习时间序列分类任务中尚未解决的问题并展望了未来的研究方向。

2 背景

2.1 相关定义

时间序列（TS）：时间序列A是有序的n个数据点的集合，分为单变量时间序列（UTS）和多变量时间序列（MTS）。UTS中每个点ai表示一个数值，属于实数集R；MTS中每个点ai表示在同一时间点观测到的多个变量，每个点本身就是长度为d的向量ai属于Rd。

多变量时间序列（MTS）：多变量时间序列A是n个向量的列表，每个向量ai有d个通道。这些通道的观测值被表示为标量ak,i。MTS可以被视为一组d个时间序列，所有ai中的观测值都在同一时间或空间点观察到。

数据集：数据集D包含m个时间序列和一组预定义的离散类标签C。每个时间序列A(i)可以是单变量或多变量，其标签为y(i) ∈ C。表1总结了UCR和UEA数据集的详细信息。

表1 UCR和UEA时间序列数据集详细信息

时间序列分类（TSC）：TSC是一种监督学习任务，通过神经网络学习目标变量与一组时间序列之间的关系。TSC的目标是将时间序列数据归类为有限的类别，并训练神经网络模型将时间序列数据集映射到具有C个类别标签的集合Y。在训练完成后，神经网络输出一个包含C个值的向量，估计了时间序列属于每个类别的概率。通常在神经网络的最后一层使用Softmax激活函数来实现这一目标。

2.2 时间序列数据集

UCR和UEA时间序列存档分别是单变量和多变量时间序列分类基准数据集。UCR数据集于2002年提出，包含46个类别的数据集，2015年更新至85个，2018年扩展至128个，每个数据集样本都带有样本类别标签。UEA数据集于2018年发布，包含30个多变量数据集，例如心电图、运动分类、光谱分类等，这些数据集在维度数量、时间序列数量、时间序列类别数量和时间序列长度等方面各不相同。表1总结了UCR和UEA数据集的详细信息。

2.3 基于深度学习的TSC分类

近年来，深度学习在TSC中的复杂问题上展现出显著的效果。基于深度学习的TSC方法主要分为生成式和判别式两类。生成式方法的目标是在训练分类器前找到合适的时间序列表示，而判别式方法则是直接将原始时间序列映射到类别概率分布。本综述主要关注判别式方法，因为其端到端的特性避免了繁琐的预处理。本文提出了一种基于网络架构和应用领域的分类方法，如图1所示，后续将详细讨论。

图1 基于网络结构和应用领域的深度学习时间序列分类体系结构

3 深度学习模型

3.1 多层感知机

全连接网络（Fully Connected network，FC）是最简单的神经网络架构，也称为多层感知器（MuLtilayer Perceptron，MLP）。如图2所示，FC中，每一层的所有神经元都与下一层的所有神经元连接，权重用于建模连接关系。MLP在处理时间序列数据时，存在的一个主要局限是它们不适合捕捉这种类型数据中的时间依赖关系。为了解决这个问题，一些研究将MLP和其他特征提取器相结合，如动态时间规整(DTW)。动态时间规整神经网络(DTWNN)利用DTW的弹性匹配技术来动态对齐网络层的输入与权重。尽管上述模型尝试解决MLP模型无法捕捉时间依赖关系的问题，但它们在捕捉时间不变特征方面仍存在局限性。此外，MLP模型无法以多尺度方式处理输入数据。许多其他深度学习模型更适合处理时间序列数据，例如循环神经网络(RNNs)和卷积神经网络(CNNs)，这些模型专门设计用于捕捉时间序列数据中的时间依赖性和局部模式。

图2 用于单变量时间序列分类的多层感知

3.2 基于卷积神经网络模型

CNN（卷积神经网络）最初由Fukushima在1982年提出，灵感来自动物视觉皮层。随着GPU技术的发展，Krizhevsky等人实现了高效的基于GPU的深度卷积神经网络架构Alex Net，并在2012年赢得ImageNet竞赛，使CNN重新受到关注。CNN的主要组成部分包括卷积层、池化层和全连接层。卷积层学习输入数据的特征表示，图3显示了t-LeNet网络的架构，池化层降低特征图分辨率并实现平移不变性，全连接层用于高级推理，最后一层常使用Softmax分类器进行分类任务。常用的激活函数包括Sigmoid、tanh和ReLU函数。池化层和全连接层在CNN中起重要作用，帮助减少参数数量、提高鲁棒性并简化模型复杂度。

图3 t-LeNet 时间序列特定版本网络架构

3.2.1 改进卷积神经网络

自2012年AlexNet在计算机视觉领域取得突破以来，CNN在时间序列分类方面经历了多次改进，形成了改进的时间序列分类CNNs。首个模型是多通道深度卷积神经网络（MC-DCNN），针对多变量数据特点对传统深度CNN进行改进。另一种模型是人体活动识别MC-CNN，同时将1D卷积应用于所有输入通道以捕捉时间和空间关系。全卷积网络(FCN)和ResNet也被改进用于端到端的时间序列分类。ResNet被用于单变量时间序列分类，包含3个残差块，后跟1个GAP层和1个Softmax分类器。此外，文献还提出了将ResNet和FCN结合的方法，以充分利用两个网络的优势。一些研究不仅调整网络架构，还专注于修改卷积核以适应时间序列分类任务。扩张卷积神经网络（DCNNs）是卷积神经网络的一种，使用扩张卷积增加感受野而不增加参数数量。分离型卷积神经网络（DisjointCNN）显示将1维卷积核分解为不相交的时间和空间组件，几乎不增加计算成本的情况下提高准确性。

3.2.2 时间序列图像化处理

时间序列分类的常见方法是将其转化为固定长度的表示并输入深度学习模型，但对长度变化或具有复杂时间依赖性的数据具有挑战性。一种解决方法是将时间序列数据表示为图像形式，使模型能学习内部空间关系。Wang等人提出将单变量时间序列数据编码为图像并使用CNN分类的方法。Hatami等人则将时间序列转化为2维图像并用深度CNN分类。此外，Chen等人利用相对位置矩阵和VGGNet对2维图像进行分类。Yang等人使用3种图像编码方法将多变量时间序列数据编码为2维图像。虽然这些方法在某些情况下有效，但将时间序列表示为2维图像可能导致信息损失，影响准确分类。使用特定转换方法（如GASF, GADF和MTF）并没有明显改善预测结果。

3.2.3 多尺度卷积

本节讨论了多尺度卷积神经网络(MCNN)、t-LeNet和多变量卷积神经网络(MVCNN)等模型，这些模型对输入时间序列进行预处理，以在多尺度序列上应用卷积。MCNN结构简单，包括2个卷积层、1个池化层、全连接层和Softmax层，但涉及大量数据预处理。t-LeNet使用窗口切片和窗口扭曲技术进行数据增强，以防止过拟合。受Inception架构启发，Liu等人设计了MVCNN，使用3种尺度的卷积核提取传感器之间的相互作用特征。Inception-ResNet架构包括卷积层、Inception模块和残差块，以提高性能。InceptionTime是一个集成模型，由5个相同结构的深度学习分类器组成，每个分类器由两个级联的Inception模块组成。它在UCR基准测试中达到最先进性能。此外，还介绍了EEGinception、InceptionFCN、MRes-FCN等模型，这些模型在时间序列分类中表现优秀，具有广泛的应用前景。表2总结了基于CNN的时间序列分类模型。

表2 基于CNN的时间序列分类模型总结

3.3 循环神经网络模型

3.3.1 循环神经网络

RNNs是一种专门处理时间序列和其他序列数据的神经网络，可以处理可变长度的输入和输出，通过在不同层之间建立共享参数的有向连接实现。时间序列分类的RNN模型可以分为序列到序列（（图4））和序列到单一输出两种类型。Dennis等人提出了一种用于时间序列分类的双层RNN，以提高模型的并行性。Hermans等人展示了更深层次的循环神经网络可以在复杂的时间任务上执行分层处理，并更有效地捕获时间序列结构。RNNs通常使用通过时间反向传播(BPTT)的迭代训练方法进行训练，但训练过程中可能出现梯度消失或梯度爆炸问题。为了解决该问题，研究者们提出了可用于深层架构的网络，如LSTM和GRU。

图4 两层循环神经网络的架构

3.3.2 长短时记忆网络

LSTM通过引入门控记忆单元，解决了梯度消失/梯度爆炸问题，利用隐藏向量和记忆向量控制状态更新和输出，因此在处理序列数据问题（如语言翻译、视频表示学习和图像字幕生成）中表现出色。在处理时间序列分类问题时，通常采用序列到序列注意力网络 (S2SwA)，该模型结合两个LSTM（编码器和解码器）实现序列到序列学习。编码器LSTM接收任意长度的输入时间序列并提取关键信息，解码器LSTM基于这些信息构建固定长度的序列，这些序列作为自动提取的分类特征，为时间序列的准确分类提供支持。

3.3.3 门控循环单元

GRU是一种备受青睐的循环神经网络变体，尽管其问世时间晚于LSTM，但其架构更为简洁。相较于LSTM，GRU仅包含重置门和更新门，这使其在计算上更为高效，同时对实现泛化的数据需求更少。特别的是，基于GRU的序列自编码器专为处理时间序列分类问题而设计。该模型采用GRU作为编码器和解码器，从而能够处理不同长度的输入并产生固定大小的输出。更值得一提的是，通过在大规模无标签数据上对参数进行预训练，该模型的准确性得到了显著提升。

3.3.4 混合模型

在时间序列分类中，CNN和RNN结合使用以提高模型性能。CNN擅长学习空间关系，如时间序列中不同时间步的通道模式和相关性，而RNN擅长学习时间依赖关系，捕捉时间序列的动态特性。这两种模型的结合可以同时学习空间和时间特征，提高分类性能。然而，RNN在时间序列分类中的应用较少，原因包括：

在长时间序列上训练时，RNN会遇到梯度消失和梯度爆炸问题；
RNN的计算成本较高，训练和并行化困难；
循环架构主要用于预测未来，不适合直接用于时间序列分类；
RNN模型可能无法有效捕捉和利用长序列中的长程依赖关系。

3.4 基于注意力机制模型

CNN在各种应用中是最成功的深度学习框架之一，但无法有效捕获长距离依赖关系和整体顺序。因此，一些研究将RNN与CNN结合使用。然而，RNN的计算代价较高，捕捉长距离依赖性的能力有限。相对而言，注意力模型可以捕捉长距离依赖关系，提供更多上下文信息，提高模型的学习能力。注意力机制旨在关注重要特征并抑制不必要的特征，从而提高网络的表示能力。注意力模型在自然语言处理领域已经获得成功，也有许多研究尝试将其应用于计算机视觉和时间序列分析等领域。

3.4.1 注意力机制

注意力机制最初由Bahdanau等人提出，用于改进神经网络机器翻译中的编码器-解码器模型性能。注意力机制允许解码器通过上下文向量关注源中的每个单词，如图5。已被证明在各种自然语言处理任务中非常有效，能够捕捉文本中的长期依赖关系。注意力模块已被嵌入到编码器-解码器模型中以提高模型性能。在时间序列分类任务中，注意力机制也被证明有效。许多研究尝试在应用注意力之前使用CNN对时间序列进行编码。交叉注意力稳定全卷积神经网络和局部感知可解释卷积注意力网络运用了注意机制长期依赖关系来处理多变量时间序列分类任务。已经提出了几种注意力模型以提高网络性能，包括Squeeze-and-Excitation(SE)和多尺度注意力卷积神经网络(MACNN)。

图5 自注意力机制

3.4.2 Transformers

近年来，Transformer在自然语言处理和计算机视觉任务中取得突破，成为深度学习领域的基础模型。其具有编码器-解码器结构，接受源语言的词序列作为输入，并生成目标语言的翻译文本。Transformer架构基于点积操作来寻找各输入片段之间的关联或相关性。用于分类的Transformer通常采用简单的编码器结构，包括注意力层和前馈层，图6为Transformer的多头注意力模块。一些研究应用多头注意力机制对临床时间序列进行分类。另一项研究使用频率系数和短时傅里叶变换频谱等时频特征作为输入嵌入到transformers中。还有一项研究应用于原始光学卫星时间序列分类，采用高斯过程插值嵌入方法，获得更好的表现。

图6 多头注意力模块

3.4.3 自监督注意力模型

自监督学习是一种使用自动标注而非人工标注的数据集进行模型学习的方法，适用于手动标注困难或成本高的情况，以及有大量可用数据用于训练的场景。在时间序列分类中，可以通过自动生成时间序列数据的标签来应用自监督学习，例如训练模型预测序列中的下一个时间步或某个时间步的时间序列值。基于Transformer的自监督学习模型如BERT已被用于处理时间序列分类问题，如BENDER设计了用于时间序列的编码器替代wav2vec，用于处理时间序列数据。另一项研究引入了一个基于Transformer的框架(TST)，将标准Transformer应用于多变量时间序列领域。然而，由于自动生成的标签可能无法准确反映数据中的真实潜在关系，所学习的特征和预测质量可能不如监督学习产生的好。表3总结了基于注意力的时间序列分类模型。

表3 基于注意力的时间序列分类模型总结

4 应用

时间序列分类技术在人类活动识别、脑电图情绪识别以及股票预测等领域具有广泛应用。本节将重点介绍其在人类活动识别和脑电图情绪识别方面的应用，并概述这些领域的最新进展和所面临的挑战。

4.1 人体活动识别最新进展和挑战

HAR（人类活动识别）通过对传感器或仪器收集的数据进行分析，用于识别或监测人类活动。随着可穿戴技术和物联网的发展，HAR的应用变得更加广泛，包括医疗保健、健身监测、智能家居以及辅助生活等。用于收集HAR数据的设备主要有视觉设备和基于传感器的设备，其中基于传感器的设备又分为对象传感器、环境传感器和可穿戴传感器。大多数HAR研究使用可穿戴传感器或视觉设备的数据。在可穿戴设备中，主要使用的传感器包括加速度计、陀螺仪和磁传感器，这些传感器的数据被分成时间窗口，然后学习一个将每个时间窗口的多元传感器数据映射到一组活动的函数。用于HAR的深度学习方法包括CNN和RNN，以及混合的CNNRNN模型。

4.1.1 卷积神经网络

在HAR（活动识别）中，卷积核的常见类型有k×1核，该核将k个时间步一起卷积，并在每个时间序列上移动。卷积层的输出被展平并通过全连接层处理，然后进行分类。Ronao等人评估了HAR的CNN模型，研究了层数、卷积核数量和大小对模型的影响。Ignatov使用单层CNN并用统计特征增强提取的特征。另一种方法是使用1D-CNN进行特征提取，具有大卷积核尺寸和浅层数。特征被拼接并使用两个全连接层融合。最后，通过softmax进行分类。DCNN使用离散傅立叶变换预处理传感器数据，将IMU数据转换为频率信号，然后使用2D卷积提取组合的时间和频率特征。Lee等人对三轴加速度计数据进行预处理，转换为幅度向量，并使用不同核大小的CNN并行提取不同尺度的特征。Xu等人在2DCNN和ResNet模型中使用可变形卷积，发现这些模型比非可变形模型表现更好。

4.1.2 循环神经网络

在HAR领域，已经提出了多种LSTM模型。Mura设计了3种多层LSTM模型，包括单向LSTM、双向LSTM和级联LSTM。Zeng等人在LSTM中添加了两个注意力层，即传感器注意力层和时间注意力层，还包括了一个称为“连续注意力”的正则化项。Guan通过在每个训练时期保存模型，然后根据验证集的结果选择最佳数量的模型，创建了一个集成LSTM模型，以减少模型的方差。

4.1.3 混合模型

最近的研究主要集中在混合模型上，结合CNN和RNN。包括Deep-ConvLSTM、Singh等人的模型、Challa等人的模型、Nafea等人的模型、Mekruksavanich的模型和Chen等人的模型。其中Deep-ConvLSTM由4个时间卷积层和2个LSTM层组成，性能优于等效的CNN。Singh等人的模型使用CNN对空间数据编码，然后用LSTM对时间数据编码，最后用自注意力层对时间步加权。Challa等人的模型用3个并行1D-CNN和2个双向LSTM层。Nafea等人的模型使用不同核大小和双向LSTMs的1D-CNNs。Mekruksavanich比较了4层的CNN-LSTM模型与小模型，发现额外卷积层可提高性能。Chen等人的模型使用并行1D-CNN，每个有不同卷积核和池化大小，提取与不同类型活动相关的特征。

4.2 脑电图情绪识别最新进展和挑战

情绪在人类决策、规划等心理活动中起着关键作用，可通过面部表情、语言、行为或生理信号识别。脑电图(EEG)是一种非侵入性的生理信号，可直接测量情绪状态下的脑电活动，具有高时间分辨率、快数据采集和传输速度、低成本等优点，是自发和非主观地反映人类情绪状态的信号，广泛应用于情绪识别研究。然而，EEG信号的非平稳性、非线性特性以及伪影影响使得基于脑电图的情绪识别极具挑战性。本综述的研究范围仅提供了使用深度学习进行脑电图情绪识别研究的简要概述。深度学习方法可分为CNN、RNN以及混合的CNN-RNN模型，也有部分研究使用Transformer模型，但目前较少。

4.2.1 卷积神经网络

在情绪识别研究中，EEG信号通常使用1D-CNN架构的卷积层进行处理，识别EEG信号中的模式。针对样本数量不平衡的问题，提出了基于1D-CNN和BorderlineSMOTE数据增强方法的情感识别模型。此外，还提出了具有优先级概念的梯度优先粒子群优化方法，用于选择深度学习模型结构。另一种基于节律选择的1D-CNN模型用于使用多通道EEG信号进行自动情感识别。2D-CNN架构也广泛用于医学数据的分割和分类，包括情绪识别。然而，1D-CNN和2D-CNN在处理复杂且高度变化的数据时可能表现不佳。

4.2.2 循环神经网络

RNN是一种用于时间序列分析的深度学习模型，常用于EEG信号情感识别。Algarni等人提出了一种基于深度学习的EEG信号情感识别方法，包括数据选择、特征提取、特征选择和分类四个阶段。他们使用了统计特征、小波特征和Hurst指数特征，并使用BGWO进行特征选择，以提高模型性能。在分类阶段，采用了堆叠的双向长短时记忆(BiLSTM)模型来识别人类的情感。Sharma等人采用LSTM从经过特征提取和降维处理后的数据中提取情绪变化特征，用于在线情绪识别。R2G-STNN结合了空间和时间神经网络模型，通过分层学习过程来提取空间-时间EEG特征。然而，RNN在EEG信号分类中的一个关键局限是在训练过程中会出现梯度消失问题，这可能导致模型在EEG信号分类任务中整体性能下降。

4.2.3 混合模型

最近的研究主要集中在混合模型，结合了CNN和RNN的优点。这些模型包括Xiao等人的4维空间-频谱-时间表示，Kang等人的CNN LSTM模型，Iyer等人的基于CNN和LSTM的混合模型，Kim等人的具有独立分支的基于注意力机制LSTM网络和CNN，以及Rajpoot等人的新型深度学习框架。这些模型在EEG信号的处理中，通过不同的方式提取特征，并进行分类。此外，还有EEGFuseNet模型，通过集成CNN, RNN和生成对抗网络来整合不同来源EEG的特征信息。

5 基于深度学习的时间序列分类研究趋势

近年来，深度学习在时间序列分类（TSC）领域非常活跃，但尚未出现主导其他方法的模型。待解决的问题和未来研究趋势包括：

如何处理不等长度时间序列：现有模型通常假设所有时间序列具有相同的采样频率，但在实际应用中，时间序列通常具有不等长度。
如何设计最佳的网络架构：深度学习模型需要更适应时间序列数据的特点，以提升时间序列分类模型的性能。
如何提升模型的可解释性：深度学习模型存在“黑盒效应”，决策过程缺乏透明性，这在医学和金融等关键领域可能导致不可接受的错误决策。
如何有效地处理类别不平衡：在许多实际应用场景中，时间序列数据类别不平衡，可能导致模型在训练和评估时出现偏差。
如何利用大语言模型处理时间序列：预训练大型语言模型具有强大的表示学习能力，可以探索如何利用这些大型语言模型来处理时间序列。
构建大型通用标签数据集：时间序列分类领域目前缺乏一个大型通用标签数据集，为了有效评估时间序列分类深度学习模型，迫切需要构建一个时间序列大型通用标签数据集。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-04-26，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习