Les réseaux résiduels considérés comme une débruitage discret, la correspondance de scores gère l'entraînement par blocs, sans communication entre blocs, ce qui réduit énormément la pression mémoire.

Voir l'original
MeNews
La formation par blocs de DiffusionBlocks peut réduire la mémoire du réseau neuronal à 1/B, avec diverses architectures validant la performance
DiffusionBlocks divise le réseau basé sur Transformer en blocs indépendants et entraînables, considère le réseau résiduel comme une étape de débruitage discrétisée, utilise la correspondance de scores pour réaliser un entraînement au niveau des blocs sans communication entre blocs, réduisant ainsi considérablement la mémoire d'entraînement. Les expériences montrent son efficacité sur plusieurs architectures, lors de la phase d'inférence, un seul bloc est activé à chaque étape, et la puissance de calcul d’un DiT à 12 couches (B=3) est réduite à un tiers de l’original. Cette méthode convient à ViT/DiT/MDM/AR Transformer, mais nécessite une correspondance des dimensions d’entrée et de sortie, et ne peut pas être utilisée avec U-Net.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé