La formation par blocs de DiffusionBlocks peut réduire la mémoire du réseau neuronal à 1/B, avec diverses architectures validant la performance
DiffusionBlocks divise le réseau basé sur Transformer en blocs indépendants et entraînables, considère le réseau résiduel comme une étape de débruitage discrétisée, utilise la correspondance de scores pour réaliser un entraînement au niveau des blocs sans communication entre blocs, réduisant ainsi considérablement la mémoire d'entraînement. Les expériences montrent son efficacité sur plusieurs architectures, lors de la phase d'inférence, un seul bloc est activé à chaque étape, et la puissance de calcul d’un DiT à 12 couches (B=3) est réduite à un tiers de l’original. Cette méthode convient à ViT/DiT/MDM/AR Transformer, mais nécessite une correspondance des dimensions d’entrée et de sortie, et ne peut pas être utilisée avec U-Net.