Noticias de CoinWorld, el proyecto de código abierto RAEv2 fue lanzado conjuntamente por Adobe Research, la Universidad Nacional de Australia (ANU) y el equipo de Xie Saining de la Universidad de Nueva York (NYU), logrando una mejora de 10 veces en la velocidad de convergencia, superando el récord de 800 rondas de entrenamiento anterior en 80 rondas. La nueva versión, como una solución de reconstrucción de imágenes basada en modelos de difusión que reemplaza a los tradicionales autoencoders variacionales (VAE), resuelve problemas como la baja calidad de reconstrucción en la primera generación, la imposibilidad de usar guías sin clasificador estándar (CFG) y la convergencia extremadamente lenta. En ImageNet, solo se necesitan 80 rondas de entrenamiento para alcanzar un puntaje GFID (FID global) de 1.06. El equipo de investigación implementó tres optimizaciones clave en el diseño de la arquitectura, utilizando un esquema de representación multinivel, sumando directamente la salida de las últimas K capas del codificador, preservando la estructura del subespacio inferior. La nueva arquitectura también clarifica el mecanismo complementario entre autoencoders de representación y alineación de representación (REPA), lo que mejora el rendimiento en tareas de generación. Las pruebas muestran que, para lograr un GFID menor a 2, el modelo de primera generación requiere 177 rondas, mientras que la nueva arquitectura solo necesita 35 rondas.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

11 me gusta

Recompensa
11
9
Republicar
Compartir

Comentar

Añadir un comentario

GateUser-b6d80ba0

· hace2h

La suma de las últimas K capas del codificador tiene un toque de conexión de salto tipo ResNet, pero aplicada en el espacio latente

Ver originalResponder0

NeonVortexInTheSmog

· hace3h

Reestructuración de difusión + compatibilidad con CFG, liquidación única de la deuda técnica

Ver originalResponder0

CyberBridgeDeepPerspective

· hace3h

35 rondas GFID<2, este eficiencia hace que los alquimistas estén locos de alegría

Ver originalResponder0

RevokingPermissionsOnARainy

· hace3h

Finalmente alguien que toma en serio el problema de la borrosidad en la reconstrucción de VAE, emocionado

Ver originalResponder0

HoldingPositionsIsLikeTending

· hace3h

Adobe+ANU+NYU tres instituciones unidas, los recursos están al máximo

Ver originalResponder0

CandleAfterTheRain

· hace3h

La representación en múltiples capas mantiene la estructura subyacente, este diseño es muy detallado, no simplemente apilar en profundidad.

Ver originalResponder0

BitByBitBenny

· hace3h

GFID 1.06 solo 80 rondas, la generación anterior 177 rondas fue cortada abruptamente, la velocidad de convergencia se dispara

Ver originalResponder0

GateUser-0f8d377b

· hace3h

El equipo de Xie Saining ha conectado la reconstrucción y la generación, el mecanismo complementario de REPA tiene algo interesante.

Ver originalResponder0

Salt-BakedSentimentChart

· hace3h

El modelo de difusión como VAE, la idea es realmente audaz

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
259.96K Popularidad
#
PlatinumCardCreatorExclusive
70.51K Popularidad
#
IsraelStrikesIranBTCPlunges
48.62K Popularidad
#
#DailyPolymarketHotspot
1.03M Popularidad
#
GateSquarePizzaDay
1.73M Popularidad

Fijado

RAEv2 de código abierto: velocidad de convergencia aumentada 10 veces, entrenamiento de 80 rondas supera el récord anterior de 800 rondas

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado