مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
في السنوات الأخيرة ، حققت Transformer اختراقات مستمرة في معالجة اللغة الطبيعية ومهام رؤية الكمبيوتر ، وأصبحت نموذجا أساسيا في مجال التعلم العميق.
مستوحاة من هذا ، تم اقتراح العديد من المتغيرات لنموذج المحولات في مجال السلاسل الزمنية.
ومع ذلك ، فقد وجد عدد متزايد من الدراسات الحديثة أن استخدام نموذج تنبؤي بسيط قائم على الطبقة الخطية يمكن أن يحقق نتائج أفضل من جميع أنواع المحولات السحرية.
في الآونة الأخيرة ، ردا على أسئلة حول فعالية المحولات في مجال التنبؤ بالسلاسل الزمنية ، أصدر مختبر التعلم الآلي التابع لكلية البرمجيات بجامعة تسينغهوا وعلماء من مجموعة Ant Group بشكل مشترك عمل تنبؤ بالسلاسل الزمنية ، مما أثار مناقشات ساخنة على Reddit والمنتديات الأخرى.
من بينها ، iTransformer الذي اقترحه المؤلف ، مع الأخذ في الاعتبار خصائص البيانات للسلاسل الزمنية متعددة الأبعاد ، لا يعدل أي وحدة محول ، ولكنه يكسر هيكل النموذج التقليدي ، وقد حقق قيادة شاملة في مهام التنبؤ بالسلاسل الزمنية المعقدة ، في محاولة لحل نقاط الألم في بيانات السلاسل الزمنية لنمذجة المحولات.
عنوان الورقة:
تنفيذ الكود:
بمباركة iTransformer ، أكمل Transformer انعكاسا شاملا في مهمة التنبؤ بالسلاسل الزمنية.
خلفية القضية
تميل بيانات السلاسل الزمنية في العالم الحقيقي إلى أن تكون متعددة الأبعاد ، بما في ذلك الأبعاد المتغيرة بالإضافة إلى البعد الزمني.
يمكن أن يمثل كل متغير كمية مادية مختلفة مرصودة ، مثل مؤشرات الأرصاد الجوية المتعددة المستخدمة في التنبؤ بالطقس (سرعة الرياح ، ودرجة الحرارة ، والرطوبة ، وضغط الهواء ، وما إلى ذلك) ، أو يمكن أن يمثل مواضيع مراقبة مختلفة ، مثل توليد الطاقة كل ساعة من المعدات المختلفة في محطة توليد الكهرباء.
بشكل عام ، المتغيرات المختلفة لها معاني مادية مختلفة تماما ، وحتى إذا كانت الدلالات هي نفسها ، فقد تكون وحدات قياسها مختلفة تماما.
في الماضي ، عادة ما تقوم النماذج التنبؤية القائمة على المحولات بتضمين متغيرات متعددة في نفس اللحظة في الرمز الزمني ، وتستخدم شبكة تغذية أمامية لتشفير ميزات كل لحظة ، وتستخدم وحدة الانتباه لمعرفة العلاقة بين اللحظات المختلفة.
ومع ذلك ، يمكن أن يواجه هذا النهج المشكلات التالية:
أفكار التصميم
على عكس كل كلمة (رمز) في اللغة الطبيعية مع معلومات دلالية مستقلة قوية ، فإن كل "رمز زمني" ينظر إليه في منظور المحول الحالي غالبا ما يفتقر إلى الدلالة على نفس تسلسل بيانات السلاسل الزمنية ، ويواجه مشاكل مثل عدم محاذاة الطوابع الزمنية وحقول الاستقبال الصغيرة جدا.
بمعنى آخر ، ضعفت قدرات النمذجة للمحولات التقليدية على السلاسل الزمنية بشكل كبير.
تحقيقا لهذه الغاية ، يقترح المؤلفون منظورا جديدا تماما للمقلوب.
كما هو موضح في الشكل أدناه ، من خلال عكس الوحدة الأصلية للمحول ، يقوم iTransformer أولا بتعيين التسلسل الكامل لنفس المتغير في تمثيل ميزة عالي الأبعاد (iate Token) ، ويأخذ متجه الميزة الذي تم الحصول عليه المتغير كما هو موضح في الجسم الرئيسي ويصور بشكل مستقل العملية التاريخية التي يعكسها.
بعد ذلك ، يمكن لوحدة الانتباه بشكل طبيعي نمذجة الارتباط المتعدد ، وتقوم شبكة التغذية الأمامية بتشفير ميزات الملاحظات التاريخية طبقة تلو الأخرى في البعد الزمني ، وتعيين الميزات المستفادة في التنبؤات المستقبلية.
في المقابل ، ستلعب LayerNorm ، التي لم يتم استكشافها بعمق في بيانات السلاسل الزمنية في الماضي ، دورا حاسما في القضاء على اختلافات التوزيع بين المتغيرات.
آي ترانسفورمر
الهيكل العام
على عكس بنية وحدة فك التشفير الأكثر تعقيدا المستخدمة في نماذج التنبؤ بالمحولات السابقة ، يحتوي iTransformer فقط على أجهزة تشفير ، بما في ذلك طبقات التضمين وطبقات الإسقاط (جهاز العرض) ووحدات المحولات القابلة للتكديس (TrmBlock).
تمثيل معلم متغيرات النمذجة
بالنسبة لسلسلة زمنية متعددة الأبعاد بطول زمني وعدد من المتغيرات ، تستخدم المقالة جميع المتغيرات التي تمثل نفس اللحظة الزمنية ، وتسلسل ملاحظة تاريخي كامل يمثل نفس المتغير.
بالنظر إلى أنه من لديه دلالات أقوى ووحدات قياس متسقة نسبيا ، تختلف عن الطريقة السابقة لتضمين المعالم ، تستخدم هذه الطريقة طبقة التضمين لتعيين كل معلم بشكل مستقل للحصول على تمثيل المعلم لكل متغير ، والذي يحتوي على تغيير السلاسل الزمنية للمتغير في الوقت الماضي.
سيتفاعل تمثيل الميزة هذا أولا مع المعلومات بين المتغيرات من خلال آلية الانتباه الذاتي في كل طبقة من وحدة المحولات ، وتوحيد توزيع الميزات للمتغيرات المختلفة باستخدام تطبيع الطبقة ، وتنفيذ ترميز الميزات المتصلة بالكامل في شبكة التغذية الأمامية. أخيرا ، يتم تعيين نتيجة التنبؤ بواسطة طبقة إسقاط.
بناء على العملية المذكورة أعلاه ، يكون تنفيذ النموذج بأكمله بسيطا للغاية ، ويمكن التعبير عن عملية الحساب على النحو التالي:
من بينها ، يتم تنفيذ نتائج التنبؤ المقابلة لكل متغير ، وطبقة التضمين وطبقة الإسقاط بناء على المستقبل متعدد الطبقات (MLP).
تجدر الإشارة إلى أنه نظرا لأن الترتيب بين النقاط الزمنية ضمني بالفعل بالترتيب الذي يتم به ترتيب الخلايا العصبية ، فإن النموذج لا يحتاج إلى إدخال تضمين الموضع في المحول.
تحليل الوحدة
بعد عكس أبعاد معالجة وحدة المحول لبيانات السلاسل الزمنية، يعيد هذا العمل النظر في مسؤوليات كل وحدة في iTransformer.
**1. تطبيع الطبقة: ** تم اقتراح تطبيع الطبقة في الأصل لتحسين استقرار وتقارب التدريب العميق للشبكة.
في المحول السابق ، قامت الوحدة بتطبيع متغيرات متعددة في نفس الوقت ، مما يجعل كل متغير غير قابل للتمييز. بمجرد عدم محاذاة البيانات التي تم جمعها زمنيا ، تقدم العملية أيضا ضوضاء تفاعل بين العمليات السببية أو المتأخرة.
في الإصدار المقلوب (الصيغة على النحو الوارد أعلاه) ، يتم تطبيق تسوية الطبقة على تمثيل الميزة لكل متغير (رمز iate) ، بحيث تكون قنوات المعالم لجميع المتغيرات تحت توزيع موحد نسبيا.
أثبتت فكرة التطبيع هذه فعاليتها على نطاق واسع في التعامل مع مشاكل السلاسل الزمنية غير الثابتة ، ولكن يمكن تنفيذها بشكل طبيعي في iTransformer من خلال تطبيع الطبقة.
بالإضافة إلى ذلك ، نظرا لأن تمثيلات الميزات لجميع المتغيرات يتم تسويتها إلى توزيع طبيعي ، يمكن تقليل الاختلافات الناتجة عن نطاقات مختلفة من قيم المتغيرات.
بدلا من ذلك ، في الهيكل السابق ، سيتم تطبيع الرمز الزمني لجميع الطوابع الزمنية بشكل موحد ، مما يؤدي إلى رؤية النموذج بالفعل سلسلة زمنية سلسة للغاية.
**2. شبكات التغذية الأمامية: يقوم المحول بتشفير متجهات الكلمات باستخدام شبكات التغذية الأمامية.
كان متجه "الكلمة" الذي تم تشكيله في النموذج السابق عبارة عن متغيرات متعددة تم جمعها في نفس الوقت ، وقد لا يكون وقت توليدها متسقا ، ومن الصعب على "الكلمات" التي تعكس خطوة زمنية توفير دلالات كافية.
في النسخة المقلوبة ، يتم تشكيل متجه "الكلمة" من خلال التسلسل الكامل لنفس المتغير ، بناء على نظرية التمثيل العالمي للمستقبل متعدد الطبقات ، والذي يتمتع بقدرة نموذج كبيرة بما يكفي لاستخراج الميزات الزمنية المشتركة في الملاحظات التاريخية والتنبؤات المستقبلية ، ويستخدم استقراء الميزة كنتائج تنبؤ.
أساس آخر لاستخدام شبكات التغذية الأمامية لنمذجة البعد الزمني يأتي من الأبحاث الحديثة التي وجدت أن الطبقات الخطية جيدة في تعلم الخصائص الزمنية التي تمتلكها أي سلسلة زمنية.
يقترح المؤلفون تفسيرا معقولا: يمكن للخلايا العصبية في الطبقة الخطية أن تتعلم كيفية استخراج الخصائص الجوهرية للسلاسل الزمنية التعسفية ، مثل السعة والدورية وحتى أطياف التردد (تحويل فورييه هو في الأساس خريطة متصلة بالكامل على التسلسل الأصلي).
لذلك ، بالمقارنة مع الممارسة السابقة للمحول باستخدام آلية الانتباه لنمذجة تبعيات السلاسل الزمنية ، من المرجح أن يؤدي استخدام شبكات التغذية الأمامية إلى إكمال التعميم على التسلسلات غير المرئية.
**3. الانتباه الذاتي: تستخدم وحدة الانتباه الذاتي في هذا النموذج لنمذجة الارتباط بين المتغيرات المختلفة ، وهو أمر مهم للغاية في سيناريوهات التنبؤ المعقدة المدفوعة بالمعرفة المادية ، مثل التنبؤ بالطقس.
وجد المؤلفون أن كل موضع من خريطة الانتباه يفي بالصيغة التالية:
بالمقابلة للاستعلام والمتجهات الرئيسية لأي متغيرين ، يعتقد المؤلف أن خريطة الانتباه بأكملها يمكن أن تكشف عن ارتباط المتغيرات إلى حد ما ، وفي عمليات الترجيح اللاحقة القائمة على خرائط الانتباه ، ستكتسب المتغيرات شديدة الارتباط وزنا أكبر في التفاعل مع متجهات القيمة الخاصة بها ، لذلك هذا التصميم أكثر طبيعية وقابلية للتفسير لنمذجة بيانات السلاسل الزمنية متعددة الأبعاد.
باختصار ، في iTransformer ، تأخذ تسوية الطبقة وشبكة التغذية الأمامية ووحدة الاهتمام الذاتي في الاعتبار خصائص بيانات السلاسل الزمنية متعددة الأبعاد نفسها ، ويتعاون الثلاثة بشكل منهجي مع بعضهم البعض للتكيف مع احتياجات النمذجة ذات الأبعاد المختلفة ، ولعب تأثير 1 + 1 + 1 > 3.
التحليل التجريبي
أجرى المؤلفون تجارب مكثفة على ستة معايير للتنبؤ بالسلاسل الزمنية متعددة الأبعاد ، وقاموا بتنبؤات في البيانات (السوق) لسيناريو مهمة التنبؤ بحمل الخدمة عبر الإنترنت لمنصة التداول Alipay.
يقارن الجزء التجريبي 10 نماذج تنبؤية مختلفة ، بما في ذلك نماذج المحولات الممثلة للمجال: PatchTST (2023) ، Crossformer (2023) ، FEDformer (2022) ، ثابت (2022) ، Autoformer (2021) ، مخبر (2021) ؛ نماذج التنبؤ الخطي: TiDE (2023) ، DLinear (2023) ؛ نماذج TCN: تايمز نت (2023) ، SCINet (2022).
بالإضافة إلى ذلك ، تحلل المقالة المكاسب التي جلبها انعكاس الوحدة النمطية للعديد من متغيرات المحولات ، بما في ذلك تحسين التأثير العام ، والتعميم على المتغيرات غير المعروفة ، والاستخدام الكامل للملاحظات التاريخية.
التنبؤ بالسلاسل الزمنية
كما هو موضح في مخطط الرادار الافتتاحي ، حققت iTransformer SOTA في جميع معايير الاختبار الستة وحققت النتائج المثلى في سيناريوهات 28/30 لبيانات السوق (انظر ملحق الورقة للحصول على التفاصيل).
في السيناريو الصعب المتمثل في التنبؤ طويل الأجل والتنبؤ بالوقت متعدد الأبعاد ، تجاوزت iTransformer بشكل شامل نماذج التنبؤ في السنوات الأخيرة.
**شيوع إطار عمل iTransformer **
أثناء تحقيق أفضل النتائج ، أجرى المؤلف تجارب مقارنة قبل وبعد الانقلاب على نماذج متغيرات المحولات مثل Reformer و Informer و Flowformer و Flashformer ، والتي أثبتت أن الانعكاس هو إطار هيكلي أكثر انسجاما مع خصائص بيانات السلاسل الزمنية.
1. تحسين التنبؤ
من خلال تقديم الإطار المقترح ، حققت هذه النماذج تحسينات كبيرة في تأثيرات التنبؤ ، مما يثبت تنوع الأفكار الأساسية ل iTransformer وجدوى الاستفادة من تقدم أبحاث الانتباه الفعالة.
2. التعميم على متغيرات غير معروفة
من خلال الانعكاس ، يمكن للنموذج إدخال عدد مختلف من المتغيرات عن التدريب عند الاستدلال ، وتقارنه الورقة باستراتيجية التعميم ، استقلالية القناة ، وتظهر النتائج أن الإطار لا يزال بإمكانه تقليل أخطاء التعميم عند استخدام 20٪ فقط من المتغيرات.
**3. استخدم ملاحظات تاريخية أطول **
في الماضي ، لم يتحسن تأثير التنبؤ لنموذج المحول بالضرورة مع طول الملاحظة التاريخية ، لكن المؤلفين وجدوا أنه بعد استخدام هذا الإطار ، أظهر النموذج اتجاها مذهلا لتقليل خطأ التنبؤ في حالة زيادة الملاحظة التاريخية ، والتي تحققت من عقلانية انعكاس الوحدة إلى حد ما.
تحليل النموذج
1. تجربة الاجتثاث النموذجية
أجرى المؤلفون تجارب الاجتثاث للتحقق من عقلانية ترتيب وحدة iTransformer .
أظهرت النتائج أن طريقة النمذجة لاستخدام الانتباه الذاتي في البعد المتغير والطبقة الخطية في البعد الزمني تحقق أفضل تأثير على معظم مجموعات البيانات.
2. تحليل تمثيل الميزة
من أجل التحقق من فكرة أن شبكات التغذية الأمامية يمكنها استخراج ميزات التسلسل بشكل أفضل ، يقوم المؤلفون بإجراء تحليل تمثيل الميزة بناء على تشابه CKA (محاذاة النواة المركزية). كلما انخفض تشابه CKA ، زاد الاختلاف في الميزات بين الطبقات السفلية والعليا من النموذج.
تجدر الإشارة إلى أن الدراسات السابقة أظهرت أن التنبؤ بالسلاسل الزمنية ، كمهمة تعلم ميزة دقيقة ، يميل إلى تفضيل تشابه CKA أعلى.
يحسب المؤلفون CKA منخفض المستوى والمستوى الأعلى للنموذج قبل وبعد الانعكاس ، ويحصلون على النتائج التالية ، والتي تؤكد أن iTransformer يتعلم ميزات تسلسل أفضل ، وبالتالي يحقق تأثيرات تنبؤ أفضل.
3. تحليل الارتباط المتغير
كما هو موضح في الشكل أعلاه ، تظهر آلية الانتباه التي تعمل على البعد المتغير قابلية تفسير أكبر في خريطة الانتباه المستفادة. من خلال تصور عينة من مجموعة بيانات الطاقة الشمسية ، يتم إجراء الملاحظات التالية:
في وحدة الانتباه الضحل ، يكون الرسم البياني للانتباه المكتسب أكثر تشابها مع الارتباط المتغير للتسلسلات التاريخية.
عند إيلاء وحدة الانتباه العميق ، تكون خريطة الانتباه المكتسبة أكثر تشابها مع الارتباط المتغير للتسلسل المراد التنبؤ به.
هذا يدل على أن وحدة الانتباه تتعلم ارتباطات متغيرة أكثر قابلية للتفسير ، وتشفر السمات الزمنية للملاحظات التاريخية في شبكة التغذية الأمامية ، ويمكنها فك تشفيرها تدريجيا إلى تسلسلات يتم التنبؤ بها.
ملخص
مستوحى من خصائص البيانات للسلاسل الزمنية متعددة الأبعاد ، يعكس المؤلف مشكلة المحولات الموجودة في نمذجة بيانات السلاسل الزمنية ، ويقترح إطارا عاما للتنبؤ بالسلاسل الزمنية iTransformer.
يقدم إطار عمل iTransformer بشكل مبتكر منظورا مقلوبا لمراقبة السلاسل الزمنية ، بحيث تؤدي وحدة Transformer واجباتها الخاصة وتكمل مشاكل النمذجة لبعدي بيانات السلاسل الزمنية ، مما يدل على أداء ممتاز وتعدد الاستخدامات.
في مواجهة مسألة ما إذا كان المحول فعالا في مجال التنبؤ بالسلاسل الزمنية ، قد يلهم اكتشاف المؤلف هذا الأبحاث اللاحقة ذات الصلة ، ويجعل المحول يعود إلى الموقف السائد للتنبؤ بالسلاسل الزمنية ، ويقدم أفكارا جديدة لأبحاث النماذج الأساسية في مجال بيانات السلاسل الزمنية.
موارد:
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
عاد ملك المحولات! بدون تعديل أي وحدات ، يؤدي التنبؤ بالتوقيت في جميع المجالات
المصدر الأصلي: شين جي يوان
في السنوات الأخيرة ، حققت Transformer اختراقات مستمرة في معالجة اللغة الطبيعية ومهام رؤية الكمبيوتر ، وأصبحت نموذجا أساسيا في مجال التعلم العميق.
مستوحاة من هذا ، تم اقتراح العديد من المتغيرات لنموذج المحولات في مجال السلاسل الزمنية.
ومع ذلك ، فقد وجد عدد متزايد من الدراسات الحديثة أن استخدام نموذج تنبؤي بسيط قائم على الطبقة الخطية يمكن أن يحقق نتائج أفضل من جميع أنواع المحولات السحرية.
من بينها ، iTransformer الذي اقترحه المؤلف ، مع الأخذ في الاعتبار خصائص البيانات للسلاسل الزمنية متعددة الأبعاد ، لا يعدل أي وحدة محول ، ولكنه يكسر هيكل النموذج التقليدي ، وقد حقق قيادة شاملة في مهام التنبؤ بالسلاسل الزمنية المعقدة ، في محاولة لحل نقاط الألم في بيانات السلاسل الزمنية لنمذجة المحولات.
تنفيذ الكود:
بمباركة iTransformer ، أكمل Transformer انعكاسا شاملا في مهمة التنبؤ بالسلاسل الزمنية.
خلفية القضية
تميل بيانات السلاسل الزمنية في العالم الحقيقي إلى أن تكون متعددة الأبعاد ، بما في ذلك الأبعاد المتغيرة بالإضافة إلى البعد الزمني.
يمكن أن يمثل كل متغير كمية مادية مختلفة مرصودة ، مثل مؤشرات الأرصاد الجوية المتعددة المستخدمة في التنبؤ بالطقس (سرعة الرياح ، ودرجة الحرارة ، والرطوبة ، وضغط الهواء ، وما إلى ذلك) ، أو يمكن أن يمثل مواضيع مراقبة مختلفة ، مثل توليد الطاقة كل ساعة من المعدات المختلفة في محطة توليد الكهرباء.
بشكل عام ، المتغيرات المختلفة لها معاني مادية مختلفة تماما ، وحتى إذا كانت الدلالات هي نفسها ، فقد تكون وحدات قياسها مختلفة تماما.
في الماضي ، عادة ما تقوم النماذج التنبؤية القائمة على المحولات بتضمين متغيرات متعددة في نفس اللحظة في الرمز الزمني ، وتستخدم شبكة تغذية أمامية لتشفير ميزات كل لحظة ، وتستخدم وحدة الانتباه لمعرفة العلاقة بين اللحظات المختلفة.
ومع ذلك ، يمكن أن يواجه هذا النهج المشكلات التالية:
أفكار التصميم
على عكس كل كلمة (رمز) في اللغة الطبيعية مع معلومات دلالية مستقلة قوية ، فإن كل "رمز زمني" ينظر إليه في منظور المحول الحالي غالبا ما يفتقر إلى الدلالة على نفس تسلسل بيانات السلاسل الزمنية ، ويواجه مشاكل مثل عدم محاذاة الطوابع الزمنية وحقول الاستقبال الصغيرة جدا.
بمعنى آخر ، ضعفت قدرات النمذجة للمحولات التقليدية على السلاسل الزمنية بشكل كبير.
تحقيقا لهذه الغاية ، يقترح المؤلفون منظورا جديدا تماما للمقلوب.
كما هو موضح في الشكل أدناه ، من خلال عكس الوحدة الأصلية للمحول ، يقوم iTransformer أولا بتعيين التسلسل الكامل لنفس المتغير في تمثيل ميزة عالي الأبعاد (iate Token) ، ويأخذ متجه الميزة الذي تم الحصول عليه المتغير كما هو موضح في الجسم الرئيسي ويصور بشكل مستقل العملية التاريخية التي يعكسها.
بعد ذلك ، يمكن لوحدة الانتباه بشكل طبيعي نمذجة الارتباط المتعدد ، وتقوم شبكة التغذية الأمامية بتشفير ميزات الملاحظات التاريخية طبقة تلو الأخرى في البعد الزمني ، وتعيين الميزات المستفادة في التنبؤات المستقبلية.
في المقابل ، ستلعب LayerNorm ، التي لم يتم استكشافها بعمق في بيانات السلاسل الزمنية في الماضي ، دورا حاسما في القضاء على اختلافات التوزيع بين المتغيرات.
آي ترانسفورمر
الهيكل العام
على عكس بنية وحدة فك التشفير الأكثر تعقيدا المستخدمة في نماذج التنبؤ بالمحولات السابقة ، يحتوي iTransformer فقط على أجهزة تشفير ، بما في ذلك طبقات التضمين وطبقات الإسقاط (جهاز العرض) ووحدات المحولات القابلة للتكديس (TrmBlock).
بالنسبة لسلسلة زمنية متعددة الأبعاد بطول زمني وعدد من المتغيرات ، تستخدم المقالة جميع المتغيرات التي تمثل نفس اللحظة الزمنية ، وتسلسل ملاحظة تاريخي كامل يمثل نفس المتغير.
بالنظر إلى أنه من لديه دلالات أقوى ووحدات قياس متسقة نسبيا ، تختلف عن الطريقة السابقة لتضمين المعالم ، تستخدم هذه الطريقة طبقة التضمين لتعيين كل معلم بشكل مستقل للحصول على تمثيل المعلم لكل متغير ، والذي يحتوي على تغيير السلاسل الزمنية للمتغير في الوقت الماضي.
سيتفاعل تمثيل الميزة هذا أولا مع المعلومات بين المتغيرات من خلال آلية الانتباه الذاتي في كل طبقة من وحدة المحولات ، وتوحيد توزيع الميزات للمتغيرات المختلفة باستخدام تطبيع الطبقة ، وتنفيذ ترميز الميزات المتصلة بالكامل في شبكة التغذية الأمامية. أخيرا ، يتم تعيين نتيجة التنبؤ بواسطة طبقة إسقاط.
بناء على العملية المذكورة أعلاه ، يكون تنفيذ النموذج بأكمله بسيطا للغاية ، ويمكن التعبير عن عملية الحساب على النحو التالي:
تجدر الإشارة إلى أنه نظرا لأن الترتيب بين النقاط الزمنية ضمني بالفعل بالترتيب الذي يتم به ترتيب الخلايا العصبية ، فإن النموذج لا يحتاج إلى إدخال تضمين الموضع في المحول.
تحليل الوحدة
بعد عكس أبعاد معالجة وحدة المحول لبيانات السلاسل الزمنية، يعيد هذا العمل النظر في مسؤوليات كل وحدة في iTransformer.
**1. تطبيع الطبقة: ** تم اقتراح تطبيع الطبقة في الأصل لتحسين استقرار وتقارب التدريب العميق للشبكة.
في المحول السابق ، قامت الوحدة بتطبيع متغيرات متعددة في نفس الوقت ، مما يجعل كل متغير غير قابل للتمييز. بمجرد عدم محاذاة البيانات التي تم جمعها زمنيا ، تقدم العملية أيضا ضوضاء تفاعل بين العمليات السببية أو المتأخرة.
أثبتت فكرة التطبيع هذه فعاليتها على نطاق واسع في التعامل مع مشاكل السلاسل الزمنية غير الثابتة ، ولكن يمكن تنفيذها بشكل طبيعي في iTransformer من خلال تطبيع الطبقة.
بالإضافة إلى ذلك ، نظرا لأن تمثيلات الميزات لجميع المتغيرات يتم تسويتها إلى توزيع طبيعي ، يمكن تقليل الاختلافات الناتجة عن نطاقات مختلفة من قيم المتغيرات.
بدلا من ذلك ، في الهيكل السابق ، سيتم تطبيع الرمز الزمني لجميع الطوابع الزمنية بشكل موحد ، مما يؤدي إلى رؤية النموذج بالفعل سلسلة زمنية سلسة للغاية.
**2. شبكات التغذية الأمامية: يقوم المحول بتشفير متجهات الكلمات باستخدام شبكات التغذية الأمامية.
كان متجه "الكلمة" الذي تم تشكيله في النموذج السابق عبارة عن متغيرات متعددة تم جمعها في نفس الوقت ، وقد لا يكون وقت توليدها متسقا ، ومن الصعب على "الكلمات" التي تعكس خطوة زمنية توفير دلالات كافية.
في النسخة المقلوبة ، يتم تشكيل متجه "الكلمة" من خلال التسلسل الكامل لنفس المتغير ، بناء على نظرية التمثيل العالمي للمستقبل متعدد الطبقات ، والذي يتمتع بقدرة نموذج كبيرة بما يكفي لاستخراج الميزات الزمنية المشتركة في الملاحظات التاريخية والتنبؤات المستقبلية ، ويستخدم استقراء الميزة كنتائج تنبؤ.
أساس آخر لاستخدام شبكات التغذية الأمامية لنمذجة البعد الزمني يأتي من الأبحاث الحديثة التي وجدت أن الطبقات الخطية جيدة في تعلم الخصائص الزمنية التي تمتلكها أي سلسلة زمنية.
يقترح المؤلفون تفسيرا معقولا: يمكن للخلايا العصبية في الطبقة الخطية أن تتعلم كيفية استخراج الخصائص الجوهرية للسلاسل الزمنية التعسفية ، مثل السعة والدورية وحتى أطياف التردد (تحويل فورييه هو في الأساس خريطة متصلة بالكامل على التسلسل الأصلي).
لذلك ، بالمقارنة مع الممارسة السابقة للمحول باستخدام آلية الانتباه لنمذجة تبعيات السلاسل الزمنية ، من المرجح أن يؤدي استخدام شبكات التغذية الأمامية إلى إكمال التعميم على التسلسلات غير المرئية.
**3. الانتباه الذاتي: تستخدم وحدة الانتباه الذاتي في هذا النموذج لنمذجة الارتباط بين المتغيرات المختلفة ، وهو أمر مهم للغاية في سيناريوهات التنبؤ المعقدة المدفوعة بالمعرفة المادية ، مثل التنبؤ بالطقس.
وجد المؤلفون أن كل موضع من خريطة الانتباه يفي بالصيغة التالية:
باختصار ، في iTransformer ، تأخذ تسوية الطبقة وشبكة التغذية الأمامية ووحدة الاهتمام الذاتي في الاعتبار خصائص بيانات السلاسل الزمنية متعددة الأبعاد نفسها ، ويتعاون الثلاثة بشكل منهجي مع بعضهم البعض للتكيف مع احتياجات النمذجة ذات الأبعاد المختلفة ، ولعب تأثير 1 + 1 + 1 > 3.
التحليل التجريبي
أجرى المؤلفون تجارب مكثفة على ستة معايير للتنبؤ بالسلاسل الزمنية متعددة الأبعاد ، وقاموا بتنبؤات في البيانات (السوق) لسيناريو مهمة التنبؤ بحمل الخدمة عبر الإنترنت لمنصة التداول Alipay.
بالإضافة إلى ذلك ، تحلل المقالة المكاسب التي جلبها انعكاس الوحدة النمطية للعديد من متغيرات المحولات ، بما في ذلك تحسين التأثير العام ، والتعميم على المتغيرات غير المعروفة ، والاستخدام الكامل للملاحظات التاريخية.
التنبؤ بالسلاسل الزمنية
كما هو موضح في مخطط الرادار الافتتاحي ، حققت iTransformer SOTA في جميع معايير الاختبار الستة وحققت النتائج المثلى في سيناريوهات 28/30 لبيانات السوق (انظر ملحق الورقة للحصول على التفاصيل).
**شيوع إطار عمل iTransformer **
أثناء تحقيق أفضل النتائج ، أجرى المؤلف تجارب مقارنة قبل وبعد الانقلاب على نماذج متغيرات المحولات مثل Reformer و Informer و Flowformer و Flashformer ، والتي أثبتت أن الانعكاس هو إطار هيكلي أكثر انسجاما مع خصائص بيانات السلاسل الزمنية.
1. تحسين التنبؤ
من خلال تقديم الإطار المقترح ، حققت هذه النماذج تحسينات كبيرة في تأثيرات التنبؤ ، مما يثبت تنوع الأفكار الأساسية ل iTransformer وجدوى الاستفادة من تقدم أبحاث الانتباه الفعالة.
من خلال الانعكاس ، يمكن للنموذج إدخال عدد مختلف من المتغيرات عن التدريب عند الاستدلال ، وتقارنه الورقة باستراتيجية التعميم ، استقلالية القناة ، وتظهر النتائج أن الإطار لا يزال بإمكانه تقليل أخطاء التعميم عند استخدام 20٪ فقط من المتغيرات.
في الماضي ، لم يتحسن تأثير التنبؤ لنموذج المحول بالضرورة مع طول الملاحظة التاريخية ، لكن المؤلفين وجدوا أنه بعد استخدام هذا الإطار ، أظهر النموذج اتجاها مذهلا لتقليل خطأ التنبؤ في حالة زيادة الملاحظة التاريخية ، والتي تحققت من عقلانية انعكاس الوحدة إلى حد ما.
1. تجربة الاجتثاث النموذجية
أجرى المؤلفون تجارب الاجتثاث للتحقق من عقلانية ترتيب وحدة iTransformer .
أظهرت النتائج أن طريقة النمذجة لاستخدام الانتباه الذاتي في البعد المتغير والطبقة الخطية في البعد الزمني تحقق أفضل تأثير على معظم مجموعات البيانات.
من أجل التحقق من فكرة أن شبكات التغذية الأمامية يمكنها استخراج ميزات التسلسل بشكل أفضل ، يقوم المؤلفون بإجراء تحليل تمثيل الميزة بناء على تشابه CKA (محاذاة النواة المركزية). كلما انخفض تشابه CKA ، زاد الاختلاف في الميزات بين الطبقات السفلية والعليا من النموذج.
تجدر الإشارة إلى أن الدراسات السابقة أظهرت أن التنبؤ بالسلاسل الزمنية ، كمهمة تعلم ميزة دقيقة ، يميل إلى تفضيل تشابه CKA أعلى.
يحسب المؤلفون CKA منخفض المستوى والمستوى الأعلى للنموذج قبل وبعد الانعكاس ، ويحصلون على النتائج التالية ، والتي تؤكد أن iTransformer يتعلم ميزات تسلسل أفضل ، وبالتالي يحقق تأثيرات تنبؤ أفضل.
كما هو موضح في الشكل أعلاه ، تظهر آلية الانتباه التي تعمل على البعد المتغير قابلية تفسير أكبر في خريطة الانتباه المستفادة. من خلال تصور عينة من مجموعة بيانات الطاقة الشمسية ، يتم إجراء الملاحظات التالية:
هذا يدل على أن وحدة الانتباه تتعلم ارتباطات متغيرة أكثر قابلية للتفسير ، وتشفر السمات الزمنية للملاحظات التاريخية في شبكة التغذية الأمامية ، ويمكنها فك تشفيرها تدريجيا إلى تسلسلات يتم التنبؤ بها.
ملخص
مستوحى من خصائص البيانات للسلاسل الزمنية متعددة الأبعاد ، يعكس المؤلف مشكلة المحولات الموجودة في نمذجة بيانات السلاسل الزمنية ، ويقترح إطارا عاما للتنبؤ بالسلاسل الزمنية iTransformer.
يقدم إطار عمل iTransformer بشكل مبتكر منظورا مقلوبا لمراقبة السلاسل الزمنية ، بحيث تؤدي وحدة Transformer واجباتها الخاصة وتكمل مشاكل النمذجة لبعدي بيانات السلاسل الزمنية ، مما يدل على أداء ممتاز وتعدد الاستخدامات.
في مواجهة مسألة ما إذا كان المحول فعالا في مجال التنبؤ بالسلاسل الزمنية ، قد يلهم اكتشاف المؤلف هذا الأبحاث اللاحقة ذات الصلة ، ويجعل المحول يعود إلى الموقف السائد للتنبؤ بالسلاسل الزمنية ، ويقدم أفكارا جديدة لأبحاث النماذج الأساسية في مجال بيانات السلاسل الزمنية.
موارد: