RAEv2 de código abierto: velocidad de convergencia aumentada 10 veces, entrenamiento de 80 rondas supera el récord anterior de 800 rondas

robot
Generación de resúmenes en curso
Noticias de CoinWorld, el proyecto de código abierto RAEv2 fue lanzado conjuntamente por Adobe Research, la Universidad Nacional de Australia (ANU) y el equipo de Xie Saining de la Universidad de Nueva York (NYU), logrando una mejora de 10 veces en la velocidad de convergencia, superando el récord de 800 rondas de entrenamiento anterior en 80 rondas. La nueva versión, como una solución de reconstrucción de imágenes basada en modelos de difusión que reemplaza a los tradicionales autoencoders variacionales (VAE), resuelve problemas como la baja calidad de reconstrucción en la primera generación, la imposibilidad de usar guías sin clasificador estándar (CFG) y la convergencia extremadamente lenta. En ImageNet, solo se necesitan 80 rondas de entrenamiento para alcanzar un puntaje GFID (FID global) de 1.06. El equipo de investigación implementó tres optimizaciones clave en el diseño de la arquitectura, utilizando un esquema de representación multinivel, sumando directamente la salida de las últimas K capas del codificador, preservando la estructura del subespacio inferior. La nueva arquitectura también clarifica el mecanismo complementario entre autoencoders de representación y alineación de representación (REPA), lo que mejora el rendimiento en tareas de generación. Las pruebas muestran que, para lograr un GFID menor a 2, el modelo de primera generación requiere 177 rondas, mientras que la nueva arquitectura solo necesita 35 rondas.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 9
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-b6d80ba0
· hace2h
La suma de las últimas K capas del codificador tiene un toque de conexión de salto tipo ResNet, pero aplicada en el espacio latente
Ver originalResponder0
NeonVortexInTheSmog
· hace3h
Reestructuración de difusión + compatibilidad con CFG, liquidación única de la deuda técnica
Ver originalResponder0
CyberBridgeDeepPerspective
· hace3h
35 rondas GFID<2, este eficiencia hace que los alquimistas estén locos de alegría
Ver originalResponder0
RevokingPermissionsOnARainy
· hace3h
Finalmente alguien que toma en serio el problema de la borrosidad en la reconstrucción de VAE, emocionado
Ver originalResponder0
HoldingPositionsIsLikeTending
· hace3h
Adobe+ANU+NYU tres instituciones unidas, los recursos están al máximo
Ver originalResponder0
CandleAfterTheRain
· hace3h
La representación en múltiples capas mantiene la estructura subyacente, este diseño es muy detallado, no simplemente apilar en profundidad.
Ver originalResponder0
BitByBitBenny
· hace3h
GFID 1.06 solo 80 rondas, la generación anterior 177 rondas fue cortada abruptamente, la velocidad de convergencia se dispara
Ver originalResponder0
GateUser-0f8d377b
· hace3h
El equipo de Xie Saining ha conectado la reconstrucción y la generación, el mecanismo complementario de REPA tiene algo interesante.
Ver originalResponder0
Salt-BakedSentimentChart
· hace3h
El modelo de difusión como VAE, la idea es realmente audaz
Ver originalResponder0
Ver más
  • Fijado