Transformer King geri döndü! Herhangi bir modülü değiştirmeden, zamanlama tahmini her yerde yol gösterir

2023-10-19 08:55:30

Orijinal kaynak: Shin Ji Yuan

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Son yıllarda Transformer, doğal dil işleme ve bilgisayarla görme görevlerinde sürekli atılımlar yaptı ve derin öğrenme alanında temel bir model haline geldi.

Bundan esinlenerek, zaman serileri alanında Transformer modelinin çok sayıda varyantı önerilmiştir.

Bununla birlikte, giderek artan sayıda yeni çalışma, basit bir doğrusal katman tabanlı tahmine dayalı model kullanmanın her türlü sihirli transformatörden daha iyi sonuçlar elde edebileceğini bulmuştur.

Son zamanlarda, Transformer'ın zaman serisi tahmini alanındaki etkinliği hakkındaki sorulara yanıt olarak, Tsinghua Üniversitesi Yazılım Okulu Makine Öğrenimi Laboratuvarı ve Ant Group'tan akademisyenler ortaklaşa bir zaman serisi tahmin çalışması yayınladılar ve bu da Reddit ve diğer forumlarda hararetli tartışmalara yol açtı.

Bunlar arasında, yazar tarafından önerilen iTransformer, çok boyutlu zaman serilerinin veri özelliklerini göz önünde bulundurarak, herhangi bir Transformatör modülünü değiştirmez, ancak geleneksel model yapısını bozar ve karmaşık zaman serisi tahmin görevlerinde kapsamlı bir liderlik elde eder, Transformatör modelleme zaman serisi verilerinin acı noktalarını çözmeye çalışır.

Bildiri Adresi:

Kod uygulaması:

iTransformer'ın kutsamasıyla Transformer, zaman serisi tahmin görevinde kapsamlı bir tersine çevirmeyi tamamladı.

Sorunun arka planı

Gerçek dünya zaman serisi verileri, zaman boyutuna ek olarak değişken boyutlar da dahil olmak üzere çok boyutlu olma eğilimindedir.

Her değişken, hava tahmininde kullanılan çoklu meteorolojik göstergeler (rüzgar hızı, sıcaklık, nem, hava basıncı vb.) gibi farklı gözlemlenen fiziksel bir miktarı temsil edebilir veya bir enerji santralindeki farklı ekipmanların saatlik güç üretimi gibi farklı gözlem konularını temsil edebilir.

Genel olarak, farklı değişkenlerin tamamen farklı fiziksel anlamları vardır ve anlambilim aynı olsa bile, ölçü birimleri tamamen farklı olabilir.

Geçmişte, Transformer tabanlı tahmine dayalı modeller genellikle aynı anda birden fazla değişkeni Temporal Token'a yerleştirir, her anın özelliklerini kodlamak için bir ileri besleme ağı kullanır ve farklı anlar arasındaki korelasyonu öğrenmek için dikkat modülünü kullanırdı.

Ancak, bu yaklaşımda aşağıdaki sorunlar olabilir:

Tasarım Fikirleri

Güçlü bağımsız anlamsal bilgiye sahip doğal dildeki her bir kelimenin (Token) aksine, mevcut Transformer'ın perspektifinde görülen her bir "Temporal Token" genellikle aynı zaman serisi veri dizisinde semantisiteden yoksundur ve zaman damgalarının hizalanmaması ve çok küçük alıcı alanlar gibi sorunlarla karşı karşıyadır.

Başka bir deyişle, geleneksel transformatörlerin zaman serileri üzerindeki modelleme yetenekleri büyük ölçüde zayıflamıştır.

Bu amaçla, yazarlar tamamen yeni bir tersine çevrilmiş bakış açısı önermektedir.

Aşağıdaki şekilde gösterildiği gibi, Transformer'ın orijinal modülünü ters çevirerek, iTransformer önce aynı değişkenin tüm dizisini yüksek boyutlu bir özellik gösterimine (iate Token) eşler ve elde edilen öznitelik vektörü, değişkeni açıklanan ana gövde olarak alır ve yansıttığı tarihsel süreci bağımsız olarak tasvir eder.

Bundan sonra, dikkat modülü doğal olarak Çoklu Korelasyonu modelleyebilir ve ileri besleme ağı, geçmiş gözlemlerin özelliklerini zaman boyutunda katman katman kodlar ve öğrenilen özellikleri gelecekteki tahminlerle eşleştirir.

Buna karşılık, geçmişte zaman serisi verileri üzerinde derinlemesine araştırılmamış olan LayerNorm, değişkenler arasındaki dağılım farklılıklarının ortadan kaldırılmasında da çok önemli bir rol oynayacaktır.

iTransformer

Genel Yapı

Önceki Transformer tahmin modellerinde kullanılan daha karmaşık kodlayıcı-kod çözücü yapısının aksine, iTransformer yalnızca Gömme katmanları, projeksiyon katmanları (Projektör) ve istiflenebilir Transformatör modülleri (TrmBlock) dahil olmak üzere kodlayıcıları içerir.

Modelleme değişkenlerinin özellik gösterimi

Zaman uzunluğuna ve bir dizi değişkene sahip çok boyutlu bir zaman serisi için makale, zaman içinde aynı anı temsil eden tüm değişkenleri ve aynı değişkeni temsil eden tüm bir tarihsel gözlem dizisini kullanır.

Daha güçlü semantiklere ve nispeten tutarlı ölçü birimlerine sahip olduğu göz önüne alındığında, önceki özellikleri gömme yönteminden farklı olarak, bu yöntem, değişkenin geçmiş zamandaki zaman serisi değişikliğini içeren her değişkenin özellik temsilini elde etmek için her bir özelliği bağımsız olarak eşlemek için gömme katmanını kullanır.

Bu özellik gösterimi, önce Transformer modülünün her katmanındaki kendi kendine dikkat mekanizması aracılığıyla değişkenler arasındaki bilgileri etkileşime sokacak, katman normalleştirmesini kullanarak farklı değişkenlerin özellik dağılımını birleştirecek ve ileri besleme ağında tam bağlantılı özellik kodlamasını gerçekleştirecektir. Son olarak, tahmin sonucu bir projeksiyon katmanı tarafından eşlenir.

Yukarıdaki sürece dayanarak, tüm modelin uygulanması çok basittir ve hesaplama süreci şu şekilde ifade edilebilir:

Bunlar arasında, her bir değişkene, gömme katmanına ve projeksiyon katmanına karşılık gelen tahmin sonuçları, çok katmanlı algılayıcıya (MLP) dayalı olarak uygulanır.

Zaman noktaları arasındaki sıra, nöronların düzenlenme sırasına göre zaten örtük olduğundan, modelin Transformatör'e konum yerleştirmesi gerekmediğini belirtmekte fayda var.

Modül Analizi

Transformatör modülünün zaman serisi verilerini işlemesinin boyutlarını tersine çevirdikten sonra, bu çalışma iTransformer'daki her modülün sorumluluklarını yeniden gözden geçirir.

**1. Katman normalleştirme: ** Katman normalleştirmesi başlangıçta derin ağ eğitiminin kararlılığını ve yakınsamasını iyileştirmek için önerildi.

Önceki Transformatörde, modül aynı anda birden fazla değişkeni normalleştirerek her değişkeni ayırt edilemez hale getirdi. Toplanan veriler zamana uygun olmadığında, işlem aynı zamanda nedensel veya gecikmeli süreçler arasında etkileşim gürültüsü de ortaya çıkarır.

Ters çevrilmiş versiyonda (formül yukarıdaki gibidir), katman normalizasyonu her değişkenin özellik gösterimine (iate belirteci) uygulanır, böylece tüm değişkenlerin özellik kanalları nispeten tekdüze bir dağılım altında olur.

Bu normalleştirme fikrinin, zaman serisi durağan olmayan problemlerle başa çıkmada etkili olduğu yaygın olarak kanıtlanmıştır, ancak katman normalizasyonu yoluyla iTransformer'da doğal olarak uygulanabilir.

Ek olarak, tüm değişkenlerin özellik temsilleri normal bir dağılıma normalleştirildiğinden, değişkenlerin farklı değer aralıklarının neden olduğu farklılıklar azaltılabilir.

Bunun yerine, önceki yapıda, tüm zaman damgalarının Zamansal Belirteci tekdüze bir şekilde normalleştirilir ve bu da modelin aslında aşırı düzgün bir zaman serisi görmesine neden olur.

**2. İleri beslemeli ağlar: Transformatör, ileri beslemeli ağları kullanarak kelime vektörlerini kodlar.

Önceki modelde oluşturulan "kelime" vektörü, aynı anda toplanan birden fazla değişkendi ve bunların üretim süreleri tutarlı olmayabilir ve bir zaman adımını yansıtan "kelimelerin" yeterli anlambilim sağlaması zordur.

Ters çevrilmiş versiyonda, "kelime" vektörü, tarihsel gözlemlerde ve gelecekteki tahminlerde paylaşılan zamansal özellikleri çıkarmak için yeterince büyük bir model kapasitesine sahip olan çok katmanlı algılayıcının evrensel temsil teoremine dayalı olarak aynı değişkenin tüm dizisinden oluşur ve tahmin sonuçları olarak özellik ekstrapolasyonunu kullanır.

Zaman boyutunu modellemek için ileri beslemeli ağları kullanmanın bir başka temeli, doğrusal katmanların herhangi bir zaman serisinin sahip olduğu zamansal özellikleri öğrenmede iyi olduğunu bulan son araştırmalardan gelmektedir.

Yazarlar makul bir açıklama önermektedir: doğrusal katmandaki nöronlar, genlik, periyodiklik ve hatta frekans spektrumları gibi rastgele zaman serilerinin içsel özelliklerini nasıl çıkaracaklarını öğrenebilirler (Fourier dönüşümü esasen orijinal dizi üzerinde tamamen bağlı bir haritadır).

Bu nedenle, zaman serisi bağımlılıklarını modellemek için dikkat mekanizmasını kullanan önceki Transformer uygulamasıyla karşılaştırıldığında, ileri beslemeli ağların kullanımının görünmeyen diziler üzerinde genellemeyi tamamlama olasılığı daha yüksektir.

**3. Kendi Kendine Dikkat: Bu modelde, hava tahmini gibi fiziksel bilgiye dayalı karmaşık tahmin senaryolarında son derece önemli olan farklı değişkenlerin korelasyonunu modellemek için Öz Dikkat Modülü kullanılır.

Yazarlar, Dikkat Haritasının her pozisyonunun aşağıdaki formülü karşıladığını bulmuşlardır:

Yazar, herhangi iki değişkenin Sorgu ve Anahtar vektörlerine karşılık gelen tüm dikkat haritasının değişkenlerin korelasyonunu bir dereceye kadar ortaya çıkarabileceğine ve dikkat haritalarına dayalı sonraki ağırlıklandırma işlemlerinde, yüksek korelasyonlu değişkenlerin Değer vektörleri ile etkileşimde daha fazla ağırlık kazanacağına, bu nedenle bu tasarımın çok boyutlu zaman serisi veri modellemesi için daha doğal ve yorumlanabilir olduğuna inanmaktadır.

Özetle, iTransformer'da katman normalleştirme, ileri besleme ağı ve kendi kendine dikkat modülü, çok boyutlu zaman serisi verilerinin özelliklerini göz önünde bulundurur ve üçü, farklı boyutların modelleme ihtiyaçlarına uyum sağlamak için sistematik olarak birbirleriyle işbirliği yapar ve 1 + 1 + 1 > 3.

Deneysel Analiz

Yazarlar, altı çok boyutlu zaman serisi tahmin kıyaslaması üzerinde kapsamlı deneyler yaptılar ve Alipay ticaret platformunun çevrimiçi hizmet yükü tahmin görev senaryosunun verilerinde (Piyasa) tahminlerde bulundular.

Deneysel bölüm, alan temsilcisi transformatör modelleri de dahil olmak üzere 10 farklı tahmin modelini karşılaştırır: PatchTST (2023), Crossformer (2023), FEDformer (2022), Sabit (2022), Autoformer (2021), Informer (2021); Doğrusal tahmin modelleri: TiDE (2023), DLinear (2023); TCN modelleri: TimesNet (2023), SCINet (2022).

Ek olarak, makale, genel etki iyileştirmesi, bilinmeyen değişkenlere genelleme ve tarihsel gözlemlerin daha tam kullanımı dahil olmak üzere birçok Transformatör varyantına modül ters çevirme ile getirilen kazanımları analiz etmektedir.

Zaman Serisi Tahmini

Açılış radar tablosunda gösterildiği gibi, iTransformer altı test karşılaştırmasının hepsinde SOTA'ya ulaştı ve Piyasa verilerinin 28/30 senaryolarında en iyi sonuçları elde etti (ayrıntılar için makalenin ekine bakın).

Uzun vadeli tahmin ve çok boyutlu zaman tahmininin zorlu senaryosunda, iTransformer son yılların tahmin modellerini kapsamlı bir şekilde aştı.

iTransformer çerçevesinin ortaklığı

Yazar, en iyi sonuçları elde ederken, Reformer, Informer, Flowformer ve Flashformer gibi Transformer varyant modelleri üzerinde ters çevirmeden önce ve sonra karşılaştırmalı deneyler gerçekleştirdi ve bu da ters çevirmenin zaman serisi verilerinin özellikleriyle daha uyumlu yapısal bir çerçeve olduğunu kanıtladı.

1. Tahminleri iyileştirin

Önerilen çerçeveyi tanıtarak, bu modeller tahmin etkilerinde önemli gelişmeler elde ederek, iTransformer'ın temel fikirlerinin çok yönlülüğünü ve verimli dikkat araştırmasının ilerlemesinden yararlanmanın fizibilitesini kanıtladı.

2. Bilinmeyen değişkenlere genelleme

Tersine çevirerek, model, çıkarım sırasında eğitimden farklı sayıda değişken girebilir ve makale bunu bir genelleme stratejisi olan Kanal Bağımsızlığı ile karşılaştırır ve sonuçlar, çerçevenin değişkenlerin yalnızca %20'sini kullanırken genelleme hatalarını en aza indirebileceğini gösterir.

3. Daha uzun geçmiş gözlemler kullanın

Geçmişte, Transformer modelinin tahmin etkisi, tarihsel gözlemin uzunluğu ile mutlaka iyileşmedi, ancak yazarlar, bu çerçeveyi kullandıktan sonra, modelin, modül ters çevirme rasyonelliğini bir dereceye kadar doğrulayan artan tarihsel gözlem durumunda inanılmaz bir tahmin hatası azaltma eğilimi gösterdiğini buldular.

Model Analizi

1. Model ablasyon deneyi

Yazarlar, iTransformer modül düzenlemesinin rasyonelliğini doğrulamak için ablasyon deneyleri yaptılar.

Sonuçlar, değişken boyutta kendi kendine dikkati ve zaman boyutunda doğrusal katmanı kullanan modelleme yönteminin çoğu veri kümesi üzerinde en iyi etkiyi elde ettiğini göstermektedir.

2. Özellik Gösterim Analizi

İleri beslemeli ağların dizi özelliklerini daha iyi çıkarabileceği fikrini doğrulamak için yazarlar, CKA (Ortalanmış Çekirdek Hizalaması) benzerliğine dayalı özellik gösterimi analizi gerçekleştirir. CKA'nın benzerliği ne kadar düşükse, modelin alt ve üst katmanları arasındaki özellik farkı o kadar büyük olur.

Önceki çalışmaların, ayrıntılı bir özellik öğrenme görevi olarak zaman serisi tahmininin daha yüksek CKA benzerliğini tercih etme eğiliminde olduğunu gösterdiğini belirtmekte fayda var.

Yazarlar, ters çevirmeden önce ve sonra modelin düşük seviyeli ve üst seviyeli CKA'sını hesaplar ve iTransformer'ın daha iyi dizi özelliklerini öğrendiğini ve böylece daha iyi tahmin etkileri elde ettiğini doğrulayan aşağıdaki sonuçları elde eder.

3. Değişken Korelasyon Analizi

Yukarıdaki şekilde gösterildiği gibi, değişken boyuta etki eden dikkat mekanizması, öğrenilen dikkat haritasında daha fazla yorumlanabilirlik göstermektedir. Güneş Enerjisi veri setinin bir örneğini görselleştirerek aşağıdaki gözlemler yapılır:

Sığ dikkat modülünde, öğrenilen dikkat grafiği, geçmiş dizilerin değişken korelasyonuna daha çok benzer.
Derin dikkat modülüne dikkat ederken, öğrenilen dikkat haritası, tahmin edilecek dizinin değişken korelasyonuna daha çok benzer.

Bu, dikkat modülünün daha yorumlanabilir değişken korelasyonları öğrendiğini, ileri besleme ağındaki geçmiş gözlemlerin zamansal özelliklerini kodladığını ve bunları kademeli olarak tahmin edilecek dizilere dönüştürebildiğini gösterir.

Özet

Yazar, çok boyutlu zaman serilerinin veri özelliklerinden esinlenerek, zaman serisi verilerinin modellenmesinde mevcut transformatörler sorunu üzerine düşünmekte ve genel bir zaman serisi tahmin çerçevesi iTransformer önermektedir.

iTransformer çerçevesi, zaman serilerini gözlemlemek için yenilikçi bir şekilde tersine çevrilmiş bir bakış açısı sunar, böylece Transformer modülü kendi görevlerini yerine getirir ve zaman serisi verilerinin iki boyutunun modelleme problemlerini tamamlayarak mükemmel performans ve çok yönlülük gösterir.

Transformer'ın zaman serisi tahmini alanında etkili olup olmadığı sorusu karşısında, yazarın bu keşfi daha sonraki ilgili araştırmalara ilham verebilir, Transformer'ın zaman serisi tahmininin ana akım konumuna geri dönmesini sağlayabilir ve zaman serisi verileri alanında temel model araştırmaları için yeni fikirler sağlayabilir.

Kaynaklar:

View Original

The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.

Reward
like
Comment
Share

Comment

0/400

No comments

Topic
Top 3 CEXs: A Moment of Transformation
30k Popularity
Kevin Lee Joins Gate Square
45k Popularity
Hong Kong Digital Asset Policy 2.0
11k Popularity
4BTC
29763k Popularity
5contentstar
10717k Popularity
6NADA
11184k Popularity
7BOME
11561k Popularity
8BTC
29763k Popularity
9SMILE
9060k Popularity
10比特币
13145k Popularity

sitemap