سكانا AI قامت بكسر عنق الزجاجة في ذاكرة الفيديو للنماذج العميقة، يمكنها تدريب شبكات كبيرة باستخدام 1/8 من ذاكرة الفيديو، والتجارب تتفوق حتى على النهج من النهاية إلى النهاية

شاهد النسخة الأصلية
MeNews
أطلقت ساكانا إيه آي DiffusionBlocks، التدريب المستقل على الكتل يقلل من استهلاك الذاكرة إلى واحد على B
في ICLR 2026، اقترحت Sakana AI وجامعة طوكيو DiffusionBlocks، التي تقسم الشبكة إلى أجزاء وتحوّل تحديثات الأجزاء إلى استعادة الضوضاء العكسي لنموذج الانتشار، مما يحقق تدريبًا مستقلًا على مستوى الأجزاء. أثناء التدريب، يتم تحميل جزء واحد فقط، ولا يتم تحميل باقي الأجزاء في الذاكرة، مما يقلل استهلاك الذاكرة إلى 1/B من الأصل، متجاوزًا قيود الذاكرة الناتجة عن العمق. أظهرت التجارب أن التدريب على الأجزاء في مهام Transformer البصري، وتوليد الصور باستخدام DiT، وتوليد النصوص يمكن أن ينافس أو يتفوق على التدريب الشامل؛ كما يمكن استخدام تحديث أحادي الاتجاه لـ Looped Transformer، مما يقلل بشكل كبير من حسابات التدريب.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت