تدريب تقسيمات DiffusionBlocks يمكن أن يخفض ذاكرة الشبكة العصبية إلى 1/B، مع التحقق من الأداء عبر هياكل متعددة
DiffusionBlocks ستقسم الشبكة المعتمدة على Transformer إلى كتل مستقلة قابلة للتدريب، وتعتبر الشبكة العصبونية المتبقية كخطوة إزالة الضوضاء المنفصلة، وتستخدم مطابقة النسبة لتحقيق تدريب على مستوى الكتلة دون الحاجة إلى اتصال بين الكتل، مما يقلل بشكل كبير من ذاكرة التدريب. أظهرت التجارب فعاليتها على العديد من الهياكل، حيث يتم تنشيط كتلة واحدة فقط في كل خطوة أثناء الاستنتاج، وتقليل حسابات 12 طبقة من DiT (B=3) إلى ثلثها الأصلي. تنطبق هذه الطريقة على ViT/DiT/MDM/AR Transformer وغيرها، ولكنها تتطلب تطابق أبعاد الإدخال والإخراج، ولا يمكن استخدامها مع U-Net.