Transformer王者歸來！無需修改任何模組，時序預測全面領先

巴比特_

2023-10-19 08:55:30

原文來源：新智元

圖片來源：由無界 AI生成

近年來，Transformer在自然語言處理以及計算機視覺任務中取得了不斷突破，成為深度學習領域的基礎模型。

受此啟發，眾多Transformer模型變體在時間序列領域中被提出。

然而，最近越來越多的研究發現，使用簡單的基於線性層搭建的預測模型，就能取得比各類魔改Transformer更好的效果。

最近，針對有關Transformer在時序預測領域有效性的質疑，清華大學軟體學院機器學習實驗室和螞蟻集團學者合作發佈了一篇時間序列預測工作，在Reddit等論壇上引發熱烈討論。

其中，作者提出的iTransformer，考慮多維時間序列的數據特性，未修改任何Transformer模組，而是打破常規模型結構，在複雜時序預測任務中取得了全面領先，試圖解決Transformer建模時序數據的痛點。

論文位址：

代碼實現：

在iTransformer的加持下，Transformer完成了在時序預測任務上的全面反超。

問題背景

現實世界的時序數據往往是多維的，除了時間維之外，還包括變數維度。

每個變數可以代表不同的觀測物理量，例如氣象預報中使用的多個氣象指標（風速，溫度，濕度，氣壓等），也可以代表不同的觀測主體，例如發電廠不同設備的每小時發電量等。

一般而言，不同的變數具有完全不同的物理含義，即使語義相同，其測量單位也可能完全不同。

以往基於Transformer的預測模型通常先將同一時刻下的多個變數嵌入到高維特徵表示（Temporal Token），使用前饋網路（Feed-forward Network）編碼每個時刻的特徵，並使用注意力模組（Attention）學習不同時刻之間的相互關聯。

然而，這種方式可能會存在如下問題：

設計思路

不同於自然語言中的每個詞（Token）具有較強的獨立語義資訊，在同為序列的時序數據上，現有Transformer視角下看到的每個「詞」（Temporal Token）往往缺乏語義性，並且面臨時間戳非對齊與感受野過小等問題。

也就是說，傳統Transformer的在時間序列上的建模能力被極大程度地弱化了。

為此，作者提出了一種全新的倒置（Inverted）視角。

如下圖，通過倒置Transformer原本的模組，iTransformer先將同一變數的整條序列映射成高維特徵表示（iate Token），得到的特徵向量以變數為描述的主體，獨立地刻畫了其反映的歷史過程。

此後，注意力模組可天然地建模變數之間的相關性（Mulitiiate Correlation），前饋網路則在時間維上逐層編碼歷史觀測的特徵，並且將學到的特徵映射為未來的預測結果。

相比之下，以往沒有在時序數據上深入探究的層歸一化（LayerNorm），也將在消除變數之間分佈差異上發揮至關重要的作用。

i變壓器

整體結構

不同於以往Transformer預測模型使用的較為複雜的編碼器-解碼器結構，iTransformer僅包含編碼器，包括嵌入層（Embedding），投影層（Projector）和個可堆疊的Transformer模組（TrmBlock）。

建模變數的特徵表示

對於一個時間長度為、變數數為的多維時間序列，文章使用表示同一時刻的所有變數，以及表示同一變數的整條歷史觀測序列。

考慮到比具有更強的語義以及相對一致的測量單位，不同於以往對進行特徵嵌入的方式，該方法使用嵌入層對每個獨立地進行特徵映射，獲得個變數的特徵表示，其中蘊含了變數在過去時間內的時序變化。

該特徵表示將在各層Transformer模組中，首先通過自注意力機制進行變數之間的資訊交互，使用層歸一化統一不同變數的特徵分佈，以及在前饋網路中進行全連接式的特徵編碼。最終通過投影層映射為預測結果。

基於上述流程，整個模型的實現方式非常簡單，計算過程可表示為：

其中即為每個變數對應的預測結果，嵌入層和投影層均基於多層感知機（MLP）實現。

值得注意的是，因為時間點之間的順序已經隱含在神經元的排列順序中，模型不需要引入Transformer中的位置編碼（Position Embedding）。

模組分析

調轉了Transformer模塊處理時序數據的維度后，這篇工作重新審視了各模組在iTransformer中的職責。

**1. 層歸一化：**層歸一化的提出最初是為了提高深度網路的訓練的穩定性與收斂性。

在以往Transformer中，該模組將同一時刻的的多個變數進行歸一化，使每個變數雜糅無法區分。一旦收集到的數據沒有按時間對齊，該操作還將引入非因果或延遲過程之間的交互雜訊。

而在倒置版本中（公式如上），層歸一化應用於每個變數的特徵表示（iate Token），讓所有變數的特徵通道都處於相對統一的分佈下。

這種歸一化的思想在處理時間序列非平穩問題時已經被廣泛證明是有效的，只是在iTransformer中可以自然而然的通過層歸一化實現。

此外，由於所有變數的特徵表示都被歸一化到正態分佈，由變數取值範圍不同造成的差異可以減弱。

相反，在此前的結構中，所有時間戳的特徵表示（Temporal Token）將被統一標準化，導致模型實際看到的是過平滑的時間序列。

**2. 前饋網路：**Transformer利用前饋網路編碼詞向量。

此前模型中形成「詞」向量的是同一時間採集的多個變數，他們的生成時間可能並不一致，並且反映一個時間步的「詞」很難提供足夠的語義。

在倒置版本中，形成「詞」向量的是同一變數的整條序列，基於多層感知機的萬能表示定理，其具備足夠大的模型容量來提取在歷史觀測和未來預測中共用的時間特徵，並使用特徵外推為預測結果。

另一個使用前饋網路建模時間維的依據來自最近的研究，研究發現線性層擅長學習任何時間序列都具備的時間特徵。

對此，作者提出了一種合理的解釋：線性層的神經元可以學習到如何提取任意時間序列的內在屬性，如幅值，週期性，甚至頻率譜（傅立葉變換實質是在原始序列上的全連接映射）。

因此相較以往Transformer使用注意力機制建模時序依賴的做法，使用前饋網路更有可能完成在未見過的序列上的泛化。

**3. 自注意力：**自注意力模組在該模型中用於建模不同變數的相關性，這種相關性在有物理知識驅動的複雜預測場景中（例如氣象預報）是極其重要的。

作者發現自注意力圖（Attention Map）的每個位置滿足如下公式：

其中對應任意兩個變數的Query和Key向量，作者認為整個注意力圖可以在一定程度上揭示變數的相關性，並且在後續基於注意力圖的加權操作中，高度相關的變數將在與其Value向量的交互中獲得更大的權重，因此這種設計對多維時序數據建模更為自然和可解釋。

綜上所述，在iTransformer中，層歸一化，前饋網路以及自注意力模塊考慮了多維時序數據本身的特點，三者系統性互相配合，適應不同維度的建模需求，起到1+1+1 > 3的效果。

實驗分析

作者在六大多維時序預測基準上進行了廣泛的實驗，同時在支付寶交易平臺的線上服務負載預測任務場景的數據（Market）中進行了預測。

實驗部分對比了10種不同的預測模型，包含領域代表性Transformer模型：PatchTST（2023）、Crossformer（2023）、FEDformer（2022）、Stationary（2022）、Autoformer（2021）、Informer（2021）; 線性預測模型：TiDE（2023）、DLinear（2023）; TCN系模型：TimesNet（2023）、SCINet（2022）。

此外，文章分析了模組倒置給眾多Transformer變體帶來的增益，包括通用的效果提升，泛化到未知變數以及更加充分地利用歷史觀測等。

時序預測

如開篇雷達圖所示，iTransformer在六大測試基準中均達到了SOTA，並在Market數據的28/30個場景取得最優效果（詳見論文附錄）。

在長時預測以及多維時間預測這一充滿挑戰的場景中，iTransformer全面地超過了近幾年的預測模型。

iTransformer框架的通用性

在取得最佳效果的同時，作者在Reformer、Informer、Flowformer、Flashformer等Transformer變體模型上進行了倒置前後的對比實驗，證明瞭倒置是更加符合時序數據特點的結構框架。

1. 提升預測效果

通過引入所提出的框架，這些模型在預測效果上均取得了大幅度的提升，證明瞭iTransformer核心思想的通用性，以及受益於高效注意力研究進展的可行性。

2. 泛化到未知變數

通過倒置，模型在推理時可以輸入不同於訓練時的變數數，文中將其與一種泛化策略——通道獨立（Channel Independence）進行了對比，結果表明該框架在僅使用20%的變數時依然能夠儘可能減少泛化誤差。

3. 使用更長歷史觀測

以往Transformer系模型的預測效果不一定隨著歷史觀測的變長而提升，作者發現使用該框架后，模型在歷史觀測增加的情況下展現出了驚人的預測誤差減小趨勢，在一定程度上驗證了模組倒置的合理性。

模型分析

1. 模型消融實驗

作者進行了消融實驗驗證iTransformer模組排布的合理性。

結果表明在變數維使用自注意力，在時間維上使用線性層的建模方式在絕大部分數據集上都取得了最優效果。

2. 特徵表示分析

為了驗證前饋網路能夠更好地提取序列特徵的觀點，作者基於CKA（Centered Kernel Alignment）相似度進行特徵表示分析。 CKA相似度越低，代表模型底層-頂層之間的特徵差異越大。

值得注意的是，此前研究表明，時序預測作為一種細粒度特徵學習任務，往往偏好更高的CKA相似度。

作者對倒置前後的模型分別計算底層-頂層CKA，得到了如下的結果，印證了iTransformer學習到了更好的序列特徵，從而達到了更好的預測效果。

3. 變數相關性分析

如上圖所示，作用在變數維的注意力機制在學習到的注意力圖中展現出更加強的可解釋性。通過對Solar-Energy數據集的樣例進行了可視化，有如下觀察：

在淺層注意模組，學習到的注意力圖與歷史序列的變數相關性更加相似。
當深層注意模組，學習到的注意力圖與待預測序列的變數相關性更加相似。

這說明注意力模組學到了更加可解釋的變數相關性，並且在前饋網路中進行了對歷史觀測的時序特徵編碼，並能夠逐漸解碼為待預測序列。

總結

作者受多維時間序列的本身的數據特性啟發，反思了現有Transformer在建模時序數據的問題，提出了一個通用的時序預測框架iTransformer。

iTransformer框架創新地引入倒置的視角觀察時間序列，使得Transformer模組各司其職，針對性完成時序數據兩個維度的建模難題，展現出優秀的性能和通用性。

面對Transformer在時序預測領域是否有效的質疑，作者的這一發現可能啟發後續相關研究，使Transformer重新回到時間序列預測的主流位置，為時序數據領域的基礎模型研究提供新的思路。

參考資料：

查看原文

本頁面內容僅供參考，非招攬或要約，也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

Transformer王者歸來！ 無需修改任何模組，時序預測全面領先