DiffusionBlocks розбиття на блоки дозволяє зменшити пам’ять нейронної мережі до 1/B, перевіряючи продуктивність на різних архітектурах
DiffusionBlocks розділяє мережу на основі трансформера на незалежні треновані блоки, розглядає залишкову мережу як дискретизований крок шумозаглушення, використовує співвідношення для досягнення тренування на рівні блоків без обміну між блоками, значно знижуючи пам’ять для тренування. Експерименти показали ефективність на різних архітектурах, під час етапу виведення кожен крок активує лише один блок, обчислювальна потужність 12-слойного DiT (B=3) зменшується до третини від початкової. Цей метод підходить для ViT/DiT/MDM/AR Transformer та інших, але вимагає відповідності вхідних та вихідних розмірів, не може використовуватися з U-Net.