RAEv2, développé conjointement par Adobe Research, l'équipe de l'ANU et celle de NYU Shesaining, utilise un modèle de diffusion à la place du VAE pour la reconstruction d'images, résolvant les problèmes de mauvaise reconstruction initiale, d'impossibilité de CFG et de convergence lente. ImageNet 80 tours GFID 1,06, seulement 35 tours pour un GFID inférieur à 2, contre 177 tours pour la génération précédente. Les innovations clés incluent une représentation multilayer : additionner les sorties des K dernières couches de l'encodeur pour préserver la structure de base, et introduire un mécanisme complémentaire REPA pour améliorer la capacité de génération.

CoinNetwork

2026-05-22 11:11:50

Création du résumé en cours

Le site Web de CoinWorld annonce que le projet open source RAEv2, lancé conjointement par Adobe Research, l'Université nationale d'Australie (ANU) et l'équipe de Xie Saining de l'Université de New York (NYU), a amélioré la vitesse de convergence de 10 fois, avec plus de 80 cycles d'entraînement surpassant le record de 800 cycles de la génération précédente. La nouvelle version, en tant que solution de reconstruction d'image basée sur un modèle de diffusion remplaçant le traditionnel autoencodeur variationnel (VAE), résout les problèmes de mauvaise qualité de reconstruction, l'impossibilité d'utiliser un guideur sans classificateur standard (CFG) et la convergence extrêmement lente. Sur ImageNet, il ne faut que 80 cycles d'entraînement pour atteindre un score GFID (FID global) de 1,06. L'équipe de recherche a réalisé trois optimisations clés dans la conception de l'architecture, utilisant une approche à plusieurs couches, en additionnant directement la sortie des K dernières couches de l'encodeur, tout en conservant la structure de l'espace sous-jacent. La nouvelle architecture clarifie également le mécanisme complémentaire entre l'autoencodeur de représentation et l'alignement de représentation (REPA), améliorant la performance dans les tâches de génération. Les tests montrent qu'il faut 177 cycles pour que le modèle initial atteigne un GFID inférieur à 2, tandis que la nouvelle architecture n'en nécessite que 35.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

11 J'aime

Récompense
11
9
Reposter
Partager

Commentaire

Ajouter un commentaire

GateUser-b6d80ba0

· Il y a 8h

L'addition des dernières K couches de l'encodeur a un petit goût de connexion de saut ResNet mais utilisée dans l'espace latent

Voir l'originalRépondre0

NeonVortexInTheSmog

· Il y a 8h

Reconstruction par diffusion + compatibilité CFG, la dette technique remboursée en une seule fois

Voir l'originalRépondre0

CyberBridgeDeepPerspective

· Il y a 8h

35 tours GFID<2, cette efficacité rend le maître alchimiste fou de joie

Voir l'originalRépondre0

RevokingPermissionsOnARainy

· Il y a 8h

Enfin quelqu'un qui prend au sérieux le problème de flou de reconstruction du VAE, les larmes aux yeux

Voir l'originalRépondre0

HoldingPositionsIsLikeTending

· Il y a 8h

Adobe+ANU+NYU, trois institutions en collaboration, les ressources sont maximisées

Voir l'originalRépondre0

CandleAfterTheRain

· Il y a 8h

La conception de la représentation multilayer qui conserve la structure sous-jacente est très détaillée, ce n'est pas simplement une profondeur d'empilement.

Voir l'originalRépondre0

BitByBitBenny

· Il y a 8h

GFID 1.06 seulement 80 tours, la génération précédente 177 tours a été directement interrompue, la vitesse de convergence décolle

Voir l'originalRépondre0

GateUser-0f8d377b

· Il y a 8h

L'équipe de Xie Saining a cette fois connecté la reconstruction et la génération, le mécanisme complémentaire de REPA a du potentiel

Voir l'originalRépondre0

Salt-BakedSentimentChart

· Il y a 8h

Le modèle de diffusion utilisé comme VAE, l'idée est vraiment audacieuse

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
268.85K Popularité
#
PlatinumCardCreatorExclusive
79.76K Popularité
#
IsraelStrikesIranBTCPlunges
48.62K Popularité
#
#DailyPolymarketHotspot
1.03M Popularité
#
GateSquarePizzaDay
609.93K Popularité

Épinglé

RAEv2 open source : vitesse de convergence augmentée de 10 fois, 80 cycles d'entraînement surpassant le record précédent de 800 cycles

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé