RAEv2 open source : vitesse de convergence augmentée de 10 fois, 80 cycles d'entraînement surpassant le record précédent de 800 cycles

robot
Création du résumé en cours
Le site Web de CoinWorld annonce que le projet open source RAEv2, lancé conjointement par Adobe Research, l'Université nationale d'Australie (ANU) et l'équipe de Xie Saining de l'Université de New York (NYU), a amélioré la vitesse de convergence de 10 fois, avec plus de 80 cycles d'entraînement surpassant le record de 800 cycles de la génération précédente. La nouvelle version, en tant que solution de reconstruction d'image basée sur un modèle de diffusion remplaçant le traditionnel autoencodeur variationnel (VAE), résout les problèmes de mauvaise qualité de reconstruction, l'impossibilité d'utiliser un guideur sans classificateur standard (CFG) et la convergence extrêmement lente. Sur ImageNet, il ne faut que 80 cycles d'entraînement pour atteindre un score GFID (FID global) de 1,06. L'équipe de recherche a réalisé trois optimisations clés dans la conception de l'architecture, utilisant une approche à plusieurs couches, en additionnant directement la sortie des K dernières couches de l'encodeur, tout en conservant la structure de l'espace sous-jacent. La nouvelle architecture clarifie également le mécanisme complémentaire entre l'autoencodeur de représentation et l'alignement de représentation (REPA), améliorant la performance dans les tâches de génération. Les tests montrent qu'il faut 177 cycles pour que le modèle initial atteigne un GFID inférieur à 2, tandis que la nouvelle architecture n'en nécessite que 35.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-b6d80ba0
· Il y a 8h
L'addition des dernières K couches de l'encodeur a un petit goût de connexion de saut ResNet mais utilisée dans l'espace latent
Voir l'originalRépondre0
NeonVortexInTheSmog
· Il y a 8h
Reconstruction par diffusion + compatibilité CFG, la dette technique remboursée en une seule fois
Voir l'originalRépondre0
CyberBridgeDeepPerspective
· Il y a 8h
35 tours GFID<2, cette efficacité rend le maître alchimiste fou de joie
Voir l'originalRépondre0
RevokingPermissionsOnARainy
· Il y a 8h
Enfin quelqu'un qui prend au sérieux le problème de flou de reconstruction du VAE, les larmes aux yeux
Voir l'originalRépondre0
HoldingPositionsIsLikeTending
· Il y a 8h
Adobe+ANU+NYU, trois institutions en collaboration, les ressources sont maximisées
Voir l'originalRépondre0
CandleAfterTheRain
· Il y a 8h
La conception de la représentation multilayer qui conserve la structure sous-jacente est très détaillée, ce n'est pas simplement une profondeur d'empilement.
Voir l'originalRépondre0
BitByBitBenny
· Il y a 8h
GFID 1.06 seulement 80 tours, la génération précédente 177 tours a été directement interrompue, la vitesse de convergence décolle
Voir l'originalRépondre0
GateUser-0f8d377b
· Il y a 8h
L'équipe de Xie Saining a cette fois connecté la reconstruction et la génération, le mécanisme complémentaire de REPA a du potentiel
Voir l'originalRépondre0
Salt-BakedSentimentChart
· Il y a 8h
Le modèle de diffusion utilisé comme VAE, l'idée est vraiment audacieuse
Voir l'originalRépondre0
Afficher plus
  • Épinglé