شبكة الع residual تعتبر كإزالة ضوضاء متقطعة، والتطابق الكسري ينجح في تدريب الكتل، بدون الحاجة إلى اتصال بين الكتل، مما يقلل بشكل كبير من ضغط الذاكرة.

شاهد النسخة الأصلية
MeNews
تدريب تقسيمات DiffusionBlocks يمكن أن يخفض ذاكرة الشبكة العصبية إلى 1/B، مع التحقق من الأداء عبر هياكل متعددة
DiffusionBlocks ستقسم الشبكة المعتمدة على Transformer إلى كتل مستقلة قابلة للتدريب، وتعتبر الشبكة العصبونية المتبقية كخطوة إزالة الضوضاء المنفصلة، وتستخدم مطابقة النسبة لتحقيق تدريب على مستوى الكتلة دون الحاجة إلى اتصال بين الكتل، مما يقلل بشكل كبير من ذاكرة التدريب. أظهرت التجارب فعاليتها على العديد من الهياكل، حيث يتم تنشيط كتلة واحدة فقط في كل خطوة أثناء الاستنتاج، وتقليل حسابات 12 طبقة من DiT (B=3) إلى ثلثها الأصلي. تنطبق هذه الطريقة على ViT/DiT/MDM/AR Transformer وغيرها، ولكنها تتطلب تطابق أبعاد الإدخال والإخراج، ولا يمكن استخدامها مع U-Net.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت