Sakana AI esta vez ha superado el cuello de botella de memoria de los modelos profundos, con solo 1/B de memoria se puede entrenar redes grandes, y los experimentos incluso superan a los métodos de extremo a extremo.

Ver original
MeNews
Sakana AI lanza DiffusionBlocks, el entrenamiento en bloques independientes reduce la memoria de video a una fracción de B
En ICLR 2026, Sakana AI y la Universidad de Tokio propusieron DiffusionBlocks, que divide la red en bloques y mapea la actualización de bloques como la denoising inverso de un modelo de difusión, logrando un entrenamiento independiente a nivel de bloque. Durante el entrenamiento, solo se carga un bloque, los otros bloques no ocupan memoria de la GPU, reduciendo el uso de memoria a 1/B del original, superando el cuello de botella de memoria causado por la profundidad. Los experimentos muestran que en tareas de generación de imágenes con Transformer visual, DiT y generación de texto, el entrenamiento por bloques puede igualar o incluso superar al entrenamiento end-to-end; para Looped Transformer también se puede usar una actualización unidireccional hacia adelante, reduciendo significativamente el cálculo de entrenamiento.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado