L'architecture TwoTower de NVIDIA améliore l'efficacité des grands modèles avec des modèles parallèles de 30B.

Selon une surveillance de Beating, NVIDIA a open-sourcé l'architecture de diffusion de texte discret Nemotron-Labs-TwoTower, visant à résoudre le goulot d'étranglement de vitesse de génération des grands modèles qui ne peuvent produire qu'un mot à la fois. Les modèles de diffusion de texte antérieurs forçaient un seul réseau à équilibrer la compréhension unidirectionnelle du contexte avec la correction d'erreur parallèle bidirectionnelle pour obtenir une sortie parallèle, entraînant une baisse significative de la capacité cognitive du modèle. L'architecture TwoTower adopte une conception découplée : d'une part, elle gèle complètement un grand modèle autorégressif pré-entraîné comme « tour de contexte en lecture seule » pour conserver toutes les capacités de raisonnement et de bon sens ; d'autre part, elle entraîne séparément une « tour d'écriture débruitante » qui lit les informations contextuelles via une attention croisée au niveau des couches. La tour d'écriture utilise un mécanisme de « démasquage de confiance » : elle écrit en priorité les mots à haute confiance lors de la prédiction d'un bloc, puis remplit progressivement les espaces restants pour obtenir une écriture parallèle du plus facile au plus difficile. Cette conception s'adapte sur un modèle d'architecture mixte de niveau 30B (Mamba-Transformer MoE) en utilisant seulement 1/12 des données de pré-entraînement du modèle de base (2,1T tokens), conservant 98,7 % de la qualité tout en améliorant la vitesse de génération réelle de 2,42 fois, sans ajouter de surcharge supplémentaire de cache mémoire. Cependant, en raison de la nécessité de garder les deux tours en mémoire, l'utilisation mémoire statique du modèle a augmenté, et il existe encore une légère dégradation de précision dans les raisonnements mathématiques et les codes extrêmement complexes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé