AAAI 2021最佳论文Informer：效果远超Transformer的长序列预测神器！-技术圈

新智元推荐

来源：炼丹笔记

作者：一元等

在很多实际应用问题中，我们需要对长序列时间序列进行预测，例如用电使用规划。长序列时间序列预测（LSTF）要求模型具有很高的预测能力，即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明，Transformer具有提高预测能力的潜力。

然而，Transformer存在一些严重的问题，如:

二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。

为了解决这些问题，我们设计了一个有效的基于变换器的LSTF模型Informer，

它具有三个显著的特点：

ProbSparse Self-Attention，在时间复杂度和内存使用率上达到了，在序列的依赖对齐上具有相当的性能。

self-attention 提取通过将级联层输入减半来突出控制注意，并有效地处理超长的输入序列。

产生式decoder虽然概念上简单，但在一个正向操作中预测长时间序列，而不是一步一步地进行，这大大提高了长序列预测的推理速度。

在四个大规模数据集上的大量实验表明，Informer的性能明显优于现有的方法，为LSTF问题提供了一种新的解决方案。

背景

Intuition：Transformer是否可以提高计算、内存和架构效率，以及保持更高的预测能力？

原始Transformer的问题

self-attention的二次计算复杂度，self-attention机制的操作，会导致我们模型的时间复杂度为;
长输入的stacking层的内存瓶颈：J个encoder/decoder的stack会导致内存的使用为;
预测长输出的速度骤降：动态的decoding会导致step-by-step的inference非常慢。

本文的重大贡献

本文提出的方案同时解决了上面的三个问题，我们研究了在self-attention机制中的稀疏性问题，本文的贡献有如下几点：

提出Informer来成功地提高LSTF问题的预测能力，这验证了类Transformer模型的潜在价值，以捕捉长序列时间序列输出和输入之间的单个的长期依赖性；
提出了ProbSparse self-attention机制来高效的替换常规的self-attention并且获得了的时间复杂度以及的内存使用率；
提出了self-attention distilling操作全县，它大幅降低了所需的总空间复杂度；
提出了生成式的Decoder来获取长序列的输出，这只需要一步，避免了在inference阶段的累计误差传播；

问题定义

在固定size的窗口下的rolling预测中，我们在时刻的输入为,我们需要预测对应的输出序列,LSTF问题鼓励输出一个更长的输出,特征维度不再依赖于univariate例子().

Encoder-decoder框架：许多流行的模型被设计对输入表示进行编码，将编码为一个隐藏状态表示并且将输出的表示解码.在推理的过程中设计到step-by-step的过程(dynamic decoding),decoder从前一个状态计算一个新的隐藏状态以及第步的输出，然后对个序列进行预测；
输入表示：为了增强时间序列输入的全局位置上下文和局部时间上下文，给出了统一的输入表示。

方法

现有时序方案预测可以被大致分为两类：

高效的Self-Attention机制

self-attention需要的内存以及二次的点积计算代价，这是预测能力的主要缺点。

我们首先对典型自我注意的学习注意模式进行定性评估。“稀疏性” self-attention得分形成长尾分布，即少数点积对主要注意有贡献，其他点积对可以忽略。那么，下一个问题是如何区分它们？

Query Sparsity评估

我们定义第个query sparsity第评估为：

第一项是在所有keys的Log-Sum-Exp(LSE)，第二项是arithmetic均值。

ProbSparse Self-attention

其中是和q相同size的稀疏矩阵，它仅包含稀疏评估下下Top-u的queries，由采样factor 所控制，我们令, 这么做self-attention对于每个query-key lookup就只需要计算的内积，内存的使用包含,但是我们计算的时候需要计算没对的dot-product，即，,同时LSE还会带来潜在的数值问题，受此影响，本文提出了query sparsity 评估的近似，即：