La red residual se considera como eliminación de ruido discreta, la coincidencia de puntuaciones resuelve el entrenamiento a nivel de bloque, sin necesidad de comunicación entre bloques, y el uso de memoria es mucho menor.

Ver original
MeNews
El entrenamiento por bloques de DiffusionBlocks puede reducir la memoria de la red neuronal a 1/B, validando el rendimiento con varias arquitecturas
DiffusionBlocks dividirá la red basada en Transformer en bloques entrenables independientes, considerando la red residual como pasos discretos de eliminación de ruido, utilizando coincidencia de fracciones para entrenar a nivel de bloques sin necesidad de comunicación entre bloques, reduciendo significativamente la memoria de entrenamiento. Las pruebas demuestran que es efectivo en múltiples arquitecturas, y durante la inferencia, cada paso activa solo un bloque, reduciendo la potencia computacional de 12 capas de DiT (B=3) a una tercera parte de la original. Este método es aplicable a ViT/DiT/MDM/AR Transformer, pero requiere que las dimensiones de entrada y salida coincidan, y no puede usarse con U-Net.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado