Zyphra lance le premier modèle de langage diffusion de l'écosystème AMD, avec une accélération maximale de 7,7 fois

robot
Création du résumé en cours
AIMPACT message, le 15 mai (UTC+8), selon la surveillance de Beatting de Dongcha, Zyphra a publié le modèle de diffusion hybride expert (MoE) ZAYA1-8B-Diffusion-Preview, transformé à partir d’un grand modèle de langage autoregressif. Bien que l’équipe officielle se proclame « la première » à réaliser cette architecture, cette voie a été initialement explorée par des équipes telles que SDAR et LLaDA 2.0 à la fin de l’année dernière. La véritable singularité de ZAYA1 réside dans le fait qu’il s’agit du premier modèle de langage par diffusion entraîné dans l’écosystème matériel AMD. En dehors du discours marketing, ce modèle a toujours validé la valeur d’amélioration de l’efficacité de l’architecture de diffusion. Les modèles autoregressifs traditionnels, limités par la génération sérielle mot par mot, voient leur vitesse de génération atteindre des limites physiques en accumulant le cache KV. Comme l’a récemment révélé l’équipe de He Kaiming avec le modèle ELF purement basé sur la diffusion, la débruitation parallèle est la clé pour briser ce goulot d’étranglement. ZAYA1 utilise la solution TiDAR pour sauter la phase de pré-entraînement complet, permettant de débruiter simultanément 16 candidats de tokens lors d’une seule propagation avant, transformant ainsi le goulot d’étranglement de la bande passante de la mémoire vidéo en un goulot d’étranglement computationnel. Les tests montrent qu’en combinant le mécanisme d’attention CCA dédié à ZAYA1, l’utilisation d’un échantillonneur sans perte standard peut atteindre un rapport d’accélération de 4,6 fois sans réduire la qualité de génération. En passant à un échantillonneur logit hybride, le rapport d’accélération grimpe à 7,7 fois, offrant un espace substantiel de réduction des coûts pour les tâches d’inférence à grande échelle à forte consommation de temps. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-9008328f
· Il y a 8h
Les coûts de pré-entraînement économisés par TiDAR suffisent à entraîner combien de tâches en aval
Voir l'originalRépondre0
CrystalBallForSentiment
· Il y a 8h
Le modèle de langage diffusion n'a enfin plus besoin de regarder le visage de NV, bonne nouvelle
Voir l'originalRépondre0
GateUser-eccf92a1
· Il y a 8h
TiDAR sauter la pré-formation, c'est vraiment économe, l'écosystème AMD a enfin un modèle de diffusion compétitif.
Voir l'originalRépondre0
GateUser-4aa73916
· Il y a 9h
Une seule passe avant peut gérer 16 tokens, scène sensible à la latence, joie extrême
Voir l'originalRépondre0
Semi-MeltedIceCream
· Il y a 9h
CCA attention échantillonnage sans perte 4.6x, détails techniques pour un blog technique
Voir l'originalRépondre0
MosaicButterfly
· Il y a 9h
16 jetons débruitage simultané, la conversion de mémoire vidéo en puissance de calcul est une approche très favorable pour les cartes grand public
Voir l'originalRépondre0
LookingAtTheCandlestickChart
· Il y a 9h
Formerly trained on AMD instead of ported, the ecological discourse power has begun to change
Voir l'originalRépondre0
  • Épinglé