Raja Transformer kembali! Tanpa memodifikasi modul apa pun, perkiraan waktu mengarah ke seluruh papan

Sumber asli: Shin Ji Yuan

Sumber gambar: Dihasilkan oleh Unbounded AI

Dalam beberapa tahun terakhir, Transformer telah membuat terobosan terus-menerus dalam pemrosesan bahasa alami dan tugas visi komputer, dan telah menjadi model dasar di bidang pembelajaran mendalam.

Terinspirasi oleh ini, banyak varian model Transformer telah diusulkan di bidang deret waktu.

Namun, semakin banyak penelitian terbaru menemukan bahwa menggunakan model prediktif berbasis lapisan linier sederhana dapat mencapai hasil yang lebih baik daripada semua jenis transformator ajaib.

Baru-baru ini, sebagai tanggapan atas pertanyaan tentang efektivitas Transformer di bidang peramalan deret waktu, Laboratorium Pembelajaran Mesin Sekolah Perangkat Lunak Universitas Tsinghua dan para sarjana dari Ant Group bersama-sama merilis pekerjaan peramalan deret waktu, yang memicu diskusi panas di Reddit dan forum lainnya.

Di antara mereka, iTransformer yang diusulkan oleh penulis, mempertimbangkan karakteristik data deret waktu multi-dimensi, tidak memodifikasi modul Transformer apa pun, tetapi merusak struktur model konvensional, dan telah mencapai keunggulan komprehensif dalam tugas prediksi deret waktu yang kompleks, mencoba memecahkan titik nyeri dari data deret waktu pemodelan Transformer.

Alamat kertas:

Implementasi kode:

Dengan restu dari iTransformer, Transformer telah menyelesaikan pembalikan komprehensif dalam tugas prediksi deret waktu.

Latar belakang masalah

Data deret waktu dunia nyata cenderung multidimensi, termasuk dimensi variabel selain dimensi waktu.

Setiap variabel dapat mewakili kuantitas fisik yang diamati berbeda, seperti beberapa indikator meteorologi yang digunakan dalam peramalan cuaca (kecepatan angin, suhu, kelembaban, tekanan udara, dll.), Atau dapat mewakili subjek pengamatan yang berbeda, seperti pembangkit listrik per jam dari peralatan yang berbeda di pembangkit listrik.

Secara umum, variabel yang berbeda memiliki makna fisik yang sama sekali berbeda, dan bahkan jika semantiknya sama, unit pengukurannya mungkin sangat berbeda.

Di masa lalu, model prediktif berbasis Transformer biasanya menanamkan beberapa variabel pada saat yang sama ke dalam Token Temporal, menggunakan jaringan umpan maju untuk menyandikan fitur setiap momen, dan menggunakan modul perhatian untuk mempelajari korelasi antara momen yang berbeda.

Namun, pendekatan ini dapat memiliki masalah berikut:

Ide Desain

Tidak seperti setiap kata (Token) dalam bahasa alami dengan informasi semantik independen yang kuat, setiap "Token Temporal" yang terlihat dalam perspektif Transformer yang ada sering tidak memiliki semantisitas pada urutan data deret waktu yang sama, dan menghadapi masalah seperti ketidakselarasan stempel waktu dan bidang reseptif yang terlalu kecil.

Dengan kata lain, kemampuan pemodelan transformator tradisional pada deret waktu telah sangat melemah.

Untuk tujuan ini, penulis mengusulkan perspektif terbalik yang sama sekali baru.

Seperti yang ditunjukkan pada gambar di bawah ini, dengan membalikkan modul asli Transformer, iTransformer pertama-tama memetakan seluruh urutan variabel yang sama menjadi representasi fitur dimensi tinggi (iate Token), dan vektor fitur yang diperoleh mengambil variabel sebagai badan utama yang dijelaskan dan secara independen menggambarkan proses historis yang dicerminkannya.

Setelah itu, modul perhatian secara alami dapat memodelkan Korelasi Mulitiiate, dan jaringan feedforward mengkodekan fitur pengamatan historis lapis demi lapis dalam dimensi waktu, dan memetakan fitur yang dipelajari ke dalam prediksi masa depan.

Sebaliknya, LayerNorm, yang belum dieksplorasi secara mendalam pada data deret waktu di masa lalu, juga akan memainkan peran penting dalam menghilangkan perbedaan distribusi antar variabel.

iTransformer

Struktur Keseluruhan

Berbeda dengan struktur encoder-decoder yang lebih kompleks yang digunakan dalam model prediksi Transformer sebelumnya, iTransformer hanya berisi encoder, termasuk lapisan Embedding, lapisan proyeksi (Proyektor) dan modul Transformer stackable (TrmBlock).

Representasi fitur variabel pemodelan

Untuk deret waktu multidimensi dengan panjang waktu dan sejumlah variabel, artikel ini menggunakan semua variabel yang mewakili momen waktu yang sama, dan seluruh urutan pengamatan historis yang mewakili variabel yang sama.

Menimbang bahwa selain memiliki semantik yang lebih kuat dan unit pengukuran yang relatif konsisten, berbeda dari cara penyematan fitur sebelumnya, metode ini menggunakan lapisan penyematan untuk memetakan setiap fitur secara independen untuk mendapatkan representasi fitur dari setiap variabel, yang berisi perubahan deret waktu variabel di masa lalu.

Representasi fitur ini pertama-tama akan berinteraksi informasi antar variabel melalui mekanisme perhatian diri di setiap lapisan modul Transformer, menyatukan distribusi fitur variabel yang berbeda menggunakan normalisasi lapisan, dan melakukan pengkodean fitur yang terhubung sepenuhnya di jaringan feedforward. Akhirnya, hasil prediksi dipetakan oleh layer proyeksi.

Berdasarkan proses di atas, implementasi seluruh model sangat sederhana, dan proses perhitungan dapat dinyatakan sebagai:

Diantaranya, hasil prediksi yang sesuai dengan masing-masing variabel, lapisan embedding dan lapisan proyeksi diimplementasikan berdasarkan multilayer perceptron (MLP).

Perlu dicatat bahwa karena urutan antara titik waktu sudah implisit dalam urutan di mana neuron diatur, model tidak perlu memperkenalkan posisi embedding dalam Transformer.

Analisis Modul

Setelah membalikkan dimensi pemrosesan data deret waktu modul Transformer, pekerjaan ini meninjau kembali tanggung jawab setiap modul di iTransformer.

**1. Normalisasi lapisan: ** Normalisasi lapisan pada awalnya diusulkan untuk meningkatkan stabilitas dan konvergensi pelatihan jaringan dalam.

Pada Transformer sebelumnya, modul menormalkan beberapa variabel pada saat yang sama, membuat setiap variabel tidak dapat dibedakan. Setelah data yang dikumpulkan tidak selaras dengan waktu, operasi juga memperkenalkan kebisingan interaksi antara proses acausal atau tertunda.

Dalam versi terbalik (rumusnya seperti di atas), normalisasi lapisan diterapkan pada representasi fitur dari setiap variabel (token iate), sehingga saluran fitur semua variabel berada di bawah distribusi yang relatif seragam.

Ide normalisasi ini telah terbukti efektif secara luas dalam menangani masalah non-stasioner deret waktu, tetapi dapat diimplementasikan secara alami di iTransformer melalui normalisasi lapisan.

Selain itu, karena representasi fitur dari semua variabel dinormalisasi ke distribusi normal, perbedaan yang disebabkan oleh rentang nilai variabel yang berbeda dapat dikurangi.

Sebaliknya, dalam struktur sebelumnya, Token Temporal dari semua stempel waktu akan dinormalisasi secara seragam, sehingga model benar-benar melihat deret waktu yang terlalu mulus.

**2. Jaringan feed-forward: Transformer mengkodekan vektor kata menggunakan jaringan feed-forward.

Vektor "kata" yang terbentuk dalam model sebelumnya adalah beberapa variabel yang dikumpulkan pada saat yang sama, dan waktu generasinya mungkin tidak konsisten, dan sulit bagi "kata-kata" yang mencerminkan langkah waktu untuk memberikan semantik yang cukup.

Dalam versi terbalik, vektor "kata" dibentuk oleh seluruh urutan variabel yang sama, berdasarkan teorema representasi universal dari perceptron multilayer, yang memiliki kapasitas model yang cukup besar untuk mengekstrak fitur temporal yang dibagikan dalam pengamatan historis dan prediksi masa depan, dan menggunakan ekstrapolasi fitur sebagai hasil prediksi.

Dasar lain untuk menggunakan jaringan feedforward untuk memodelkan dimensi waktu berasal dari penelitian terbaru yang menemukan bahwa lapisan linier pandai mempelajari karakteristik temporal yang dimiliki setiap deret waktu.

Para penulis mengusulkan penjelasan yang masuk akal: neuron di lapisan linier dapat belajar bagaimana mengekstrak sifat intrinsik dari deret waktu sewenang-wenang, seperti amplitudo, periodisitas, dan bahkan spektrum frekuensi (transformasi Fourier pada dasarnya adalah peta yang terhubung sepenuhnya di atas urutan asli).

Oleh karena itu, dibandingkan dengan praktik Transformer sebelumnya yang menggunakan mekanisme perhatian untuk memodelkan dependensi deret waktu, penggunaan jaringan feedforward lebih mungkin untuk menyelesaikan generalisasi pada urutan yang tidak terlihat.

**3. Self-Attention: Modul Self-Attention digunakan dalam model ini untuk memodelkan korelasi variabel yang berbeda, yang sangat penting dalam skenario prediksi kompleks yang didorong oleh pengetahuan fisik, seperti ramalan cuaca.

Para penulis menemukan bahwa setiap posisi Peta Perhatian memenuhi rumus berikut:

Sesuai dengan vektor Query dan Key dari dua variabel, penulis percaya bahwa seluruh peta perhatian dapat mengungkapkan korelasi variabel sampai batas tertentu, dan dalam operasi pembobotan berikutnya berdasarkan peta perhatian, variabel yang sangat berkorelasi akan mendapatkan bobot yang lebih besar dalam interaksi dengan vektor Nilai mereka, sehingga desain ini lebih alami dan dapat ditafsirkan untuk pemodelan data deret waktu multidimensi.

Singkatnya, di iTransformer, normalisasi lapisan, jaringan feed-forward dan modul perhatian diri mempertimbangkan karakteristik data deret waktu multi-dimensi itu sendiri, dan ketiganya secara sistematis bekerja sama satu sama lain untuk beradaptasi dengan kebutuhan pemodelan dimensi yang berbeda, dan memainkan efek 1 + 1 + 1 > 3.

Analisis Eksperimental

Para penulis melakukan eksperimen ekstensif pada enam tolok ukur peramalan deret waktu multidimensi, dan membuat prediksi dalam data (Pasar) dari skenario tugas prediksi beban layanan online dari platform perdagangan Alipay.

Bagian eksperimental membandingkan 10 model prediktif yang berbeda, termasuk model transformator perwakilan domain: PatchTST (2023), Crossformer (2023), FEDformer (2022), Stationary (2022), Autoformer (2021), Informer (2021); Model prediksi linier: TiDE (2023), DLinear (2023); Model TCN: TimesNet (2023), SCINet (2022).

Selain itu, artikel ini menganalisis keuntungan yang dibawa oleh inversi modul ke banyak varian Transformer, termasuk peningkatan efek umum, generalisasi ke variabel yang tidak diketahui, dan penggunaan pengamatan historis yang lebih lengkap.

Peramalan Deret Waktu

Seperti yang ditunjukkan pada grafik radar pembuka, iTransformer mencapai SOTA di semua enam tolok ukur pengujian dan mencapai hasil optimal dalam skenario 28/30 data Pasar (lihat lampiran makalah untuk detailnya).

Dalam skenario yang menantang dari peramalan jangka panjang dan peramalan waktu multi-dimensi, iTransformer telah secara komprehensif melampaui model peramalan beberapa tahun terakhir.

Kesamaan kerangka iTransformer

Sambil mencapai hasil terbaik, penulis melakukan eksperimen komparatif sebelum dan sesudah inversi pada model varian Transformer seperti Reformer, Informer, Flowformer, dan Flashformer, yang membuktikan bahwa inversi merupakan kerangka struktural yang lebih sesuai dengan karakteristik data deret waktu.

1. Meningkatkan perkiraan

Dengan memperkenalkan kerangka kerja yang diusulkan, model-model ini telah mencapai peningkatan signifikan dalam efek prediksi, membuktikan fleksibilitas ide-ide inti iTransformer dan kelayakan untuk mendapatkan manfaat dari kemajuan penelitian perhatian yang efisien.

2. Menggeneralisasi ke variabel yang tidak diketahui

Dengan membalikkan, model dapat memasukkan sejumlah variabel yang berbeda dari pelatihan ketika inferensi, dan makalah membandingkannya dengan strategi generalisasi, Channel Independence, dan hasilnya menunjukkan bahwa kerangka kerja masih dapat meminimalkan kesalahan generalisasi ketika menggunakan hanya 20% dari variabel.

3. Gunakan pengamatan sejarah yang lebih panjang

Di masa lalu, efek prediksi model Transformer tidak selalu membaik dengan lamanya pengamatan historis, tetapi penulis menemukan bahwa setelah menggunakan kerangka kerja ini, model menunjukkan tren pengurangan kesalahan prediksi yang luar biasa dalam kasus peningkatan pengamatan historis, yang memverifikasi rasionalitas inversi modul sampai batas tertentu.

Analisis Model

1. Percobaan ablasi model

Para penulis melakukan percobaan ablasi untuk memverifikasi rasionalitas pengaturan modul iTransformer.

Hasil penelitian menunjukkan bahwa metode pemodelan menggunakan perhatian diri dalam dimensi variabel dan lapisan linier dalam dimensi waktu mencapai efek terbaik pada sebagian besar dataset.

2. Analisis Representasi Fitur

Untuk memverifikasi gagasan bahwa jaringan feedforward dapat mengekstrak fitur urutan dengan lebih baik, penulis melakukan analisis representasi fitur berdasarkan kesamaan CKA (Centered Kernel Alignment). Semakin rendah kesamaan CKA, semakin besar perbedaan fitur antara lapisan bawah dan atas model.

Perlu dicatat bahwa penelitian sebelumnya telah menunjukkan bahwa peramalan deret waktu, sebagai tugas pembelajaran fitur berbutir halus, cenderung lebih menyukai kesamaan CKA yang lebih tinggi.

Penulis menghitung CKA tingkat rendah dan tingkat atas model sebelum dan sesudah inversi, dan mendapatkan hasil berikut, yang mengkonfirmasi bahwa iTransformer mempelajari fitur urutan yang lebih baik, sehingga mencapai efek prediksi yang lebih baik.

3. Analisis Korelasi Variabel

Seperti yang ditunjukkan pada gambar di atas, mekanisme perhatian yang bekerja pada dimensi variabel menunjukkan interpretabilitas yang lebih besar dalam peta perhatian yang dipelajari. Dengan memvisualisasikan sampel dataset Solar-Energy, pengamatan berikut dilakukan:

  • Dalam modul perhatian dangkal, grafik perhatian yang dipelajari lebih mirip dengan korelasi variabel urutan historis.
  • Saat membayar modul perhatian mendalam, peta perhatian yang dipelajari lebih mirip dengan korelasi variabel dari urutan yang akan diprediksi.

Ini menunjukkan bahwa modul perhatian mempelajari korelasi variabel yang lebih dapat ditafsirkan, mengkodekan fitur temporal pengamatan historis dalam jaringan feedforward, dan secara bertahap dapat memecahkan kode mereka menjadi urutan yang akan diprediksi.

Ringkasan

Terinspirasi oleh karakteristik data deret waktu multidimensi, penulis merefleksikan masalah transformator yang ada dalam pemodelan data deret waktu, dan mengusulkan kerangka peramalan deret waktu umum iTransformer.

Kerangka kerja iTransformer secara inovatif memperkenalkan perspektif terbalik untuk mengamati deret waktu, sehingga modul Transformer melakukan tugasnya sendiri dan menyelesaikan masalah pemodelan dari dua dimensi data deret waktu, menunjukkan kinerja dan fleksibilitas yang sangat baik.

Dalam menghadapi pertanyaan apakah Transformer efektif di bidang peramalan deret waktu, penemuan penulis ini dapat menginspirasi penelitian terkait berikutnya, membuat Transformer kembali ke posisi arus utama peramalan deret waktu, dan memberikan ide-ide baru untuk penelitian model dasar di bidang data deret waktu.

Sumber daya:

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)