El entrenamiento por bloques de DiffusionBlocks puede reducir la memoria de la red neuronal a 1/B, validando el rendimiento con varias arquitecturas
DiffusionBlocks dividirá la red basada en Transformer en bloques entrenables independientes, considerando la red residual como pasos discretos de eliminación de ruido, utilizando coincidencia de fracciones para entrenar a nivel de bloques sin necesidad de comunicación entre bloques, reduciendo significativamente la memoria de entrenamiento. Las pruebas demuestran que es efectivo en múltiples arquitecturas, y durante la inferencia, cada paso activa solo un bloque, reduciendo la potencia computacional de 12 capas de DiT (B=3) a una tercera parte de la original. Este método es aplicable a ViT/DiT/MDM/AR Transformer, pero requiere que las dimensiones de entrada y salida coincidan, y no puede usarse con U-Net.