CN114219027A

CN114219027A - 一种基于离散小波变换的轻量级时间序列预测方法

Info

Publication number: CN114219027A
Application number: CN202111536500.3A
Authority: CN
Inventors: 樊谨; 王则昊; 吉玉祥; 汪森; 孙丹枫
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-22

Abstract

本发明公开了一种基于离散小波变换的轻量级时间序列预测方法，采用波形分解模块，对输入序列进行分解得到低频分量和高频分量，使得两个分量的长度均为输入序列的一半，然后采用基于分层平行提取特征的离散网络的离散特征提取方法来对两个分量分别预测；离散网络针对注意力机制计算复杂度高的缺点，采用了离散注意力机制进行分块计算attention数值，从而降低了模型的计算复杂度。最后采用波形重构模块生成最终预测序列。该方法可以提高资源利用率，更小的模型规模使得其在资源受限制的设备上更具竞争力。

Description

一种基于离散小波变换的轻量级时间序列预测方法

技术领域

本发明属于时间序列预测领域，具体涉及一种基于离散小波变换的轻量级时间序列预测方法。

背景技术

近年来，时间预测技术广泛地用在设备健康预测系统、天气预测、股票预测等各个领域。时间序列预测是时间序列分析领域的一个重要分支，通常时间序列预测方法会对历史中的时间序列不断学习与分析，从而提取出决定该时间序列变化的特征，在该特征的基础上，对未来一段时间内的时间序列变化趋势进行预测。

随着对时间序列预测问题研究的不断深入，以及各种优秀方法的不断出现，使得时间序列预测问题对新方法的要求不断增高，表现在对预测精度等更高要求、预测序列长度的增加、单变量时间序列向多变量时间序列的转变、要求模型规模尽可能缩小从而使其得到更广泛的应用，等等。

近年来，越来越多的时间序列预测方法专注于提升预测精度、增长预测序列长度。随着时间序列预测问题的要求逐渐增高，众多方法在学习时间序列中的长距离依赖关系问题上越来越乏力，难以取得进一步的突破。直到基于注意力机制(Attention,AT)的Transformer方法的提出，一个新的强大的模块带来了新的视野，得益于其在提取距离较长的两个元素之间依赖关系问题上有着突破性的提高。越来越多的方法中将Transformer方法用于时间序列预测问题上，取得了很好的进展。但Transformer有着较高的计算复杂度，模型规模庞大，使得它对内存具有很高的要求，从而无法直接用于更长的预测要求。于是，越来越多用于改善Transformer的计算复杂度的Transformer变体模型被提出，使其在更长时间序列预测中取得更好的效果。在众多变体模型中，离散特征提取方法(Sepformer)有着相当大的提升。

离散特征提取方法(Sepformer)采用分层平行提取全局特征和局部特征的离散网络(Separate Network)，从而提升了整个模型的精度。离散网络(Separate Network)针对注意力(Self-attention)机制的高计算复杂度的缺点，采用了离散注意力(SeparateAttention)机制进行分块计算attention数值，从而降低了模型的计算复杂度至O(C)。该方法可以提高多元时间序列预测的精度、对比已存在的方法降低了计算复杂度以及增加最大预测长度。但该方法依旧具有较大的模型规模，资源利用率较低。

发明内容

本发明要解决的技术问题是在保证预测精度的前提下，尽量降低模型占用内存规模，使得模型在各项技术问题上达到一个平衡(trade-off)。本发明提供一种基于离散小波变换的轻量级时间序列预测方法，经过测试后，在极大程度上保留了离散特征提取方法的高精度、低计算复杂度以及长序列预测能力，并且进一步减小模型规模，提高了资源利用率。

本发明采用的技术方案是：采用波形分解模块，对输入序列进行分解得到低频分量和高频分量，使得两个分量的长度均为输入序列的一半，然后采用离散特征提取方法(Sepformer)来对两个分量分别预测，离散特征提取方法基于分层平行提取特征的离散网络(Separate Network)。离散网络(Separate Network)针对注意力(Self-attention)机制的高计算复杂度的缺点，采用了离散注意力(SeparateAttention)机制进行分块计算attention数值，从而降低了模型的计算复杂度。最后采用波形重构模块生成最终预测序列。该方法可以提高资源利用率，更小的模型规模使得其在资源受限制的设备上更具竞争力。

一种基于离散小波变换的轻量级时间序列预测方法，步骤如下：

步骤1：数据预处理，获得训练数据集和验证数据集。

步骤2：借助于步骤1得到的训练数据集，在设备条件允许的情况下，每次随机选取32组训练数据，将每组数据中的历史序列和起始序列分别输入到两个波形分解(WaveformDecomposition)模块中，将输入的序列分解为低频分量(approximate coefficient)和高频分量(detail coefficient)。

步骤3：将步骤2得到的低频分量和高频分量，将其分别输入到两个离散特征提取模块(Sepformer)中进行特征提取。每个离散特征提取模块中包含两个编码器(Encoder)和一个解码器(Decoder)，将输入的对应分量输入到编码器中的离散网络(SeparateNetwork)进而提取全局特征和局部特征，最终得到对应于两个分量的两组全局局部特征。

步骤4：将步骤3得到的两组特征，分别在编码器后的隐藏层中进行维度对齐，再将维度对齐后的特征进行拼接，最终得到对应高低频分量的两组的全局特征和局部特征。

步骤5：将步骤4得到的两组特征，分别输入各自离散特征提取模块里对应的解码器(Decoder)中，通过解码器中的离散网络(Separate Network)对全局特征与各层局部特征进行重构，生成对应于高频分量和低频分量的生成预测序列。

步骤6:对于步骤5得到的两组对应高低频分量的预测序列，通过波形重构(Waveform Reconstruction)模块进行小波分解的逆过程，对高低频分量进行重组，得到最终的生成预测序列。

步骤7：根据步骤6得到的生成预测序列，通过均方误差(MSE)和平均绝对误差(MAE)公式，计算生成的预测序列与真实序列之间的误差，再通过Adam优化器进行反向传播，更新网络参数。

步骤8：借助于步骤7更新网络参数后的模型与步骤1得到的验证数据集，选取32组验证数据作为输入，执行步骤2至步骤7，其中将步骤2中的验证数据替换成选取的32组测试数据。最终得到基于测试数据的生成预测序列。

步骤9：计算步骤8得到的基于验证数据的生成预测序列与预测序列之间的均方误差(MSE)，求得所有组数据的均方误差(MSE)后求均值，最终得到基于验证数据集生成的预测序列。

步骤10：重复步骤2至步骤9，若借助于步骤9得到的均方误差(MSE)不再减小，说明模型表现无法再变好，则网络参数更新完毕，模型结束训练。

步骤11：将预测任务所给的输入序列输入到步骤10最终得到的训练好的模型中，进行序列预测，输出最终得到的预测序列，完成预测。

进一步的，步骤1具体方法如下：

选取合适的公共时间序列数据集，进行分组与分割以适应模型对数据格式的要求。首先根据需求设定每组数据中的历史序列长度、预测序列长度和起始序列长度，这三个长度分别对应每组数据中的三个部分：历史序列、预测序列和起始序列。采用滑窗机制进行分组，窗口长度为历史序列长度与预测序列长度之和，每次窗口移动一位，即相邻两组数据之间只有一位上的不同。在完成数据分组之后，截取70％组数据作为训练数据集，30％组数据作为验证数据集。

进一步的，在长度上，起始序列长度小于等于历史序列长度，在数值上，起始序列与历史序列的后部分相同。历史序列与预测序列在位置上是前后相接的，每组数据的长度为历史序列长度与预测序列长度之和。

进一步的，所述的波形分解模块基于离散小波变换(Discrete WaveletTransform，DWT)原理，公式如下：

subject.to.x＝0，1，2..，M-1

j＝0，1，2，...，J-1

k＝0，1，2，...，2^j-1

u(x)是尺度函数(Scaling Function)，v(x)是小波函数(Wavelet Function)；W_u(0，k)和W_v(j，k)分别为近似系数(approximate coefficient)和细节系数(detailcoefficient)，二者表示低频分量和高频分量；M为序列长度；j和k用于控制尺度函数的缩放尺度。

进一步的，所述的离散网络采用波形提取模块(Waveform Extraction，WE)和离散注意力机制模块(Separate Attention，SA)层层提取全局特征(global feature)和局部特征(local feature)。波形提取模块会对输入序列进行分解，通过滑窗机制遍历整个输入序列求得窗口内均值，得到输入序列的全局趋势，使用输入序列减去得到的全局趋势，得到输入序列的局部波动。

进一步的，波形提取模块整体公式如下所示：

其中

和

分别表示波形的全局趋势和局部波动，用于作为输入，通过离散注意力机制模块提取全局特征和局部特征；

为第l层WE的输入序列；

为连接符号，用于连接不同的分块；AvgPool函数为均值池化函数，其设定一个滑动窗口，每次滑动一个单元，然后对窗口内的所有元素求均值，将所得数值赋值给当前单元。将进行分块，然后输入AvgPool中，

表示第i个分块。

进一步的，离散注意力机制模块先将输入序列分割成长度相同的块(Block，B)，然后通过共享的注意力机制模块(Attention，AT)提取特征，接着通过前馈网络(Feed-Forward Network，FFN)进行维度变换，按比例缩短每个块的长度，最终拼接后输出。离散注意力机制(Attention，AT)的计算公式如下所示：

其中，

为第l层离散注意力机制模块(SA)的输入序列；B表示输入序列得到的分块(Block)；

分别表示Q、K、V在第l层第i个分块上的可学习权重矩阵；

和

分别表示第l层Q、K、V和B的第i个分块。Q、K和V分别表示分块经过线性变换后得到的问题矩阵(query)、键值矩阵(key)和数值矩阵(value)。其中注意力机制定义为：

其中d_model表示特征维度。

进一步的，离散网络整体函数表达式如下所示：

其中Z^l表示离散网络第l层的全局特征，H^l表示离散网络第l层的局部特征；X_SN表示SN的输入。

本发明的有益效果：

本发明使用基于离散小波变化的波形分解模块(Waveform Decomposition)和波形重构模块(Waveform Reconstruction)对时间序列进行分解与重构，波形分解模块将输入序列分解成低频分量和高频分量，使得两个分量的长度均为输入序列的一半，然后通过离散特征提取模块(Sepformer)进行特征提取，通过波形重构模块对得到预测的分量进行重构，生成最终预测序列。本发明大大降低了模型的规模，提高了资源利用率。

在多元时间序列预测时，预测精度、预测序列长度、对局部细微波动的拟合能力等问题都是影响预测效果的重要因素。本发明采用基于离散小波变换的波形分解和波形重构模块对输入序列进行分解，从而降低模型的规模，提高了资源利用率。采用分层平行提取多元时间序列的全局特征和局部特征机制，提升了预测精度，利用局部特征提高对多元时间序列的局部细微波动的拟合能力，并且增加了模型的预测长度，大大提升了模型在多元时间序列预测上的效果。

附图说明

图1是本发明实施例的整体结构示意图。

图2是本发明实施例的详细结构示意图。

图3是本发明实施例的离散特征提取模块(Sepformer)的结构图

图4是本发明实施例的离散网络(Separate Network)的结构图。

图5是本发明实施例的离散注意力机制(Separate Attention)的结构图。

图6是离散波形分解方法(SWformer)和微型离散波形分解方法(Mini-SWformer)的模型图，其中微型离散波形分解方法丢弃了高频分量从而进一步降低了模型规模。

图7是在五种公开数据集下，离散波形分解方法和微型离散波形分解方法与六个已有的方法在均方误差(MSE)上的比较。

图8是相同条件下，本发明中的SWformer以及含有更小的模型规模的Mini-SWformer和Informer的GPU使用量的比较。

具体实施方式

下面结合附图和具体实施步骤对本发明做了进一步的说明：

一种基于离散小波变换的轻量级时间序列预测方法，包括以下步骤：

步骤1：数据预处理。选取合适的公共时间序列数据集，进行分组与分割以适应模型对数据格式的要求。首先根据需求设定每组数据中的历史序列长度、预测序列长度和起始序列长度，这三个长度分别对应每组数据中的三个部分：历史序列、预测序列和起始序列。在长度上，起始序列长度小于等于历史序列长度，在数值上，起始序列与历史序列后部分相同。历史序列与预测序列在位置上是前后相接的，每组数据的长度为历史序列长度与预测序列长度之和。采用滑窗机制进行分组，窗口长度为历史序列长度与预测序列长度之和，每次窗口移动一位，即相邻两组数据之间只有一位上的不同。在完成数据分组之后，截取70％组数据作为训练数据集，30％组数据作为验证数据集。

如图1所示，展示了本发明的整体结构。数据处理与分割部分在本发明结构的入口处，负责对原始数据做初步处理，形成预测模型所需的数据结构。图2是本发明实施例的详细结构示意图。

步骤2：借助于步骤1得到的训练数据集，在设备条件允许的情况下，每次随机选取32组训练数据，将每组数据中的历史序列和起始序列分别输入到两个波形分解(WaveformDecomposition)模块中，将输入的序列分解为低频分量(approximate coefficient)和高频分量(detail coefficient)。波形分解模块基于离散小波变换(Discrete WaveletTransform，DWT)原理，公式如下：

subject.to.x＝0，1，2...，M-1

j＝0，1，2，...，J-1

k＝0，1，2，...，2^j-1

如图3所示，展示了本发明离散特征提取模块(Sepformer)的整体结构，离散特征提取模块(Sepformer)包含两个编码器(Encoder)和一个解码器(Decoder)。编码器和解码器的核心模块都是离散网络(Separate Network，SN)。

如图4所示，展示了离散网络(Separate Network)的整体结构，离散网络采用波形提取模块(Waveform Extraction，WE)和离散注意力机制模块(Separate Attention，SA)层层提取全局特征(global feature)和局部特征(local feature)。波形提取模块会对输入序列进行分解，通过滑窗机制遍历整个输入序列求得窗口内均值，得到输入序列的全局趋势，使用输入序列减去得到的全局趋势，得到输入序列的局部波动。波形提取模块整体公式如下所示：

其中

和

为第l层WE的输入序列；

表示第i个分块。

如图5所示，展示了离散注意力机制模块(Separate Attention，SA)，该模块用于进行特征提取。离散注意力机制模块先将输入序列分割成长度相同的块(Block，B)，然后通过共享的注意力机制模块(Attention，AT)提取特征，接着通过前馈网络(Feed-ForwardNetwork，FFN)进行维度变换，按比例缩短每个块的长度，最终拼接后输出。离散注意力机制(Attention，AT)的计算公式如下所示：

其中，

分别表示Q、K、V在第l层第i个分块上的可学习权重矩阵；

V_i ^l和

其中d_model表示特征维度。

离散网络整体函数表达式如下所示：

其中Z^l表示离散网络第l层的全局特征，Hl表示离散网络第l层的局部特征；X_SN表示SN的输入。

步骤4：借助于步骤3得到的两组特征，分别在编码器后的隐藏层中进行维度对齐，再将维度对齐后的特征进行拼接，最终得到对应高低频分量的两组的全局特征和局部特征。

如图3所示，真实编码器(True Encoder)和预测编码器(Pred Encoder)输出的全局特征和局部特征分别进行拼接，其中真实编码器(True Encoder)输出的两种特征会经过前馈网络(Feed-Forward Network，FFN)进行纬度变换至与预测编码器(Pred Encoder)具有相同的维度，然后对两种特征各自进行拼接，得到整体的全局特征和局部特征。

步骤7：根据步骤6得到的生成预测序列，通过均方误差(MSE)和平均绝对误差(MAE)公式，计算生成的预测序列与真实序列之间的误差，再通过Adam优化器进行反向传播，更新网络参数。均方误差(MSE)和平均绝对误差(MAE)公式如下所示：

其中，y为预测值；

为真实值；n表示序列的长度。

图6显示了本发明中两个方法：离散波形分解方法(SWformer)和微型离散波形分解方法(Mini-SWformer)。高频分量在时间序列数据中包含的信息量小，适当的减少高频分量可以一定程度上减少模型的计算量，从而降低模型的规模。基于这一理论基础，微型离散波形分解方法将离散波形分解方法中分解出来的高频分量及整个分支删减掉，进一步减小了模型的规模。

图7显示了在相同的实验条件下，本发明中的两个方法和Informer、LogTrans、Reformer、LSTMa和LSTnet等七种方法在ETTh1、ETTh2、ETTm1、Weather和ECL等五种数据集上的实验结果，衡量标准为均方误差(MSE)和平方绝对值(MAE)。在每种实验条件下，表现最好的模型的实验结果在表格中加粗表示。从图6表格中可以看到离散波形分解方法(SWformer)和微型离散波形分解方法(Mini-SWformer)对比其余五种方法均有着较大的提升。对比Informer方法，离散特征提取方法的MSE平均下降了22.53％，离散波形分解方法的MSE平均下降了19.29％，微型离散波形分解方法的MSE平均下降了16.54％。

图8显示了在相同的实验条件下，随着预测序列长度的增加，离散波形分解方法(SWformer)、微型离散波形分解方法(Mini-SWformer)与Informer在内存使用量上的比较和变化。可以看到随着预测序列长度越来越长，离散波形分解方法与微型离散波形分解方法在内存使用量上的优势会越来越大。对比Informer，离散波形分解方法在内存使用量上平均降低了52.62％，微型离散波形分解方法平均降低了68.02％。

Claims

1.一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，步骤如下：

步骤1：数据预处理，获得训练数据集和验证数据集；

步骤2：借助于步骤1得到的训练数据集，在设备条件允许的情况下，每次随机选取32组训练数据，将每组数据中的历史序列和起始序列分别输入到两个波形分解模块中，将输入的序列分解为低频分量和高频分量；

步骤3：将步骤2得到的低频分量和高频分量，将其分别输入到两个离散特征提取模块中进行特征提取；每个离散特征提取模块中包含两个编码器和一个解码器，将输入的对应分量输入到编码器中的离散网络进而提取全局特征和局部特征，最终得到对应于两个分量的两组全局局部特征；

步骤4：将步骤3得到的两组特征，分别在编码器后的隐藏层中进行维度对齐，再将维度对齐后的特征进行拼接，最终得到对应高低频分量的两组的全局特征和局部特征；

步骤5：将步骤4得到的两组特征，分别输入各自离散特征提取模块里对应的解码器中，通过解码器中的离散网络对全局特征与各层局部特征进行重构，生成对应于高频分量和低频分量的生成预测序列；

步骤6:对于步骤5得到的两组对应高低频分量的预测序列，通过波形重构模块进行小波分解的逆过程，对高低频分量进行重组，得到最终的生成预测序列；

步骤7：根据步骤6得到的生成预测序列，通过均方误差MSE和平均绝对误差MAE公式，计算生成的预测序列与真实序列之间的误差，再通过Adam优化器进行反向传播，更新网络参数；

步骤8：借助于步骤7更新网络参数后的模型与步骤1得到的验证数据集，选取32组验证数据作为输入，执行步骤2至步骤7，其中将步骤2中的验证数据替换成选取的32组测试数据；最终得到基于测试数据的生成预测序列；

步骤9：计算步骤8得到的基于验证数据的生成预测序列与预测序列之间的均方误差MSE，求得所有组数据的均方误差MSE后求均值，最终得到基于验证数据集生成的预测序列；

步骤10：重复步骤2至步骤9，若借助于步骤9得到的均方误差MSE不再减小，说明模型表现无法再变好，则网络参数更新完毕，模型结束训练；

2.根据权利要求1所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，步骤1具体方法如下：

选取合适的公共时间序列数据集，进行分组与分割以适应模型对数据格式的要求；首先根据需求设定每组数据中的历史序列长度、预测序列长度和起始序列长度，这三个长度分别对应每组数据中的三个部分：历史序列、预测序列和起始序列；采用滑窗机制进行分组，窗口长度为历史序列长度与预测序列长度之和，每次窗口移动一位，即相邻两组数据之间只有一位上的不同；在完成数据分组之后，截取70％组数据作为训练数据集，30％组数据作为验证数据集。

3.根据权利要求2所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，在长度上，起始序列长度小于等于历史序列长度，在数值上，起始序列与历史序列的后部分相同；历史序列与预测序列在位置上是前后相接的，每组数据的长度为历史序列长度与预测序列长度之和。

4.根据权利要求1所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，所述的波形分解模块基于离散小波变换原理，公式如下：

subject.to.x＝0，1，2...，M-1

j＝0，1，2，...，J-1

k＝0，1，2，...，2^j-1

u(x)是尺度函数，υ(x)是小波函数；W_u(0，k)和W_v(j，k)分别为近似系数和细节系数，二者表示低频分量和高频分量；M为序列长度；j和k用于控制尺度函数的缩放尺度。

5.根据权利要求1所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，所述的离散网络采用波形提取模块和离散注意力机制模块层层提取全局特征和局部特征；波形提取模块会对输入序列进行分解，通过滑窗机制遍历整个输入序列求得窗口内均值，得到输入序列的全局趋势，使用输入序列减去得到的全局趋势，得到输入序列的局部波动。

6.根据权利要求5所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，波形提取模块整体公式如下所示：

其中

和

为第l层WE的输入序列；

为连接符号，用于连接不同的分块；AvgPool函数为均值池化函数，其设定一个滑动窗口，每次滑动一个单元，然后对窗口内的所有元素求均值，将所得数值赋值给当前单元；将进行分块，然后输入AvgPool中，

表示第i个分块。

7.根据权利要求6所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，离散注意力机制模块先将输入序列分割成长度相同的块(Block，B)，然后通过共享的注意力机制模块(Attention，AT)提取特征，接着通过前馈网络(Feed-Forward Network，FFN)进行维度变换，按比例缩短每个块的长度，最终拼接后输出；离散注意力机制(Attention，AT)的计算公式如下所示：

其中，

分别表示Q、K、V在第l层第i个分块上的可学习权重矩阵；

和

分别表示第l层Q、K、V和B的第i个分块；Q、K和V分别表示分块经过线性变换后得到的问题矩阵(query)、键值矩阵(key)和数值矩阵(value)；其中注意力机制定义为：

其中d_model表示特征维度。

8.根据权利要求7所述的一种基于离散小波变换的轻量级时间序列预测方法，其特征在于，离散网络整体函数表达式如下所示：