Zyphra publie ZAYA1-8B-Diffusion-Preview, transformant le grand modèle de langage autoregressif en un modèle de diffusion à experts hybrides, devenant le premier modèle de diffusion linguistique entraîné dans l'écosystème matériel AMD. En sautant la pré-formation à partir de TiDAR, il peut débruiter simultanément 16 tokens lors d'une seule passe, transformant le goulot d'étranglement de la mémoire vidéo en un goulot d'étranglement de puissance de calcul. Les tests montrent une accélération de 4,6x avec l'attention CCA + échantillonnage sans perte, atteignant 7,7x après passage à un échantillonneur logit hybride.

MeNews

2026-05-23 09:07:37

Création du résumé en cours

AIMPACT message, le 15 mai (UTC+8), selon la surveillance de Beatting de Dongcha, Zyphra a publié le modèle de diffusion hybride expert (MoE) ZAYA1-8B-Diffusion-Preview, transformé à partir d’un grand modèle de langage autoregressif. Bien que l’équipe officielle se proclame « la première » à réaliser cette architecture, cette voie a été initialement explorée par des équipes telles que SDAR et LLaDA 2.0 à la fin de l’année dernière. La véritable singularité de ZAYA1 réside dans le fait qu’il s’agit du premier modèle de langage par diffusion entraîné dans l’écosystème matériel AMD. En dehors du discours marketing, ce modèle a toujours validé la valeur d’amélioration de l’efficacité de l’architecture de diffusion. Les modèles autoregressifs traditionnels, limités par la génération sérielle mot par mot, voient leur vitesse de génération atteindre des limites physiques en accumulant le cache KV. Comme l’a récemment révélé l’équipe de He Kaiming avec le modèle ELF purement basé sur la diffusion, la débruitation parallèle est la clé pour briser ce goulot d’étranglement. ZAYA1 utilise la solution TiDAR pour sauter la phase de pré-entraînement complet, permettant de débruiter simultanément 16 candidats de tokens lors d’une seule propagation avant, transformant ainsi le goulot d’étranglement de la bande passante de la mémoire vidéo en un goulot d’étranglement computationnel. Les tests montrent qu’en combinant le mécanisme d’attention CCA dédié à ZAYA1, l’utilisation d’un échantillonneur sans perte standard peut atteindre un rapport d’accélération de 4,6 fois sans réduire la qualité de génération. En passant à un échantillonneur logit hybride, le rapport d’accélération grimpe à 7,7 fois, offrant un espace substantiel de réduction des coûts pour les tâches d’inférence à grande échelle à forte consommation de temps. (Source : BlockBeats)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

8 J'aime

Récompense
8
7
2
Partager

Commentaire

Ajouter un commentaire

GateUser-9008328f

· Il y a 8h

Les coûts de pré-entraînement économisés par TiDAR suffisent à entraîner combien de tâches en aval

Voir l'originalRépondre0

CrystalBallForSentiment

· Il y a 8h

Le modèle de langage diffusion n'a enfin plus besoin de regarder le visage de NV, bonne nouvelle

Voir l'originalRépondre0

GateUser-eccf92a1

· Il y a 8h

TiDAR sauter la pré-formation, c'est vraiment économe, l'écosystème AMD a enfin un modèle de diffusion compétitif.

Voir l'originalRépondre0

GateUser-4aa73916

· Il y a 9h

Une seule passe avant peut gérer 16 tokens, scène sensible à la latence, joie extrême

Voir l'originalRépondre0

Semi-MeltedIceCream

· Il y a 9h

CCA attention échantillonnage sans perte 4.6x, détails techniques pour un blog technique

Voir l'originalRépondre0

MosaicButterfly

· Il y a 9h

16 jetons débruitage simultané, la conversion de mémoire vidéo en puissance de calcul est une approche très favorable pour les cartes grand public

Voir l'originalRépondre0

LookingAtTheCandlestickChart

· Il y a 9h

Formerly trained on AMD instead of ported, the ecological discourse power has begun to change

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
310.09K Popularité
#
PlatinumCardCreatorExclusive
94.52K Popularité
#
IsraelStrikesIranBTCPlunges
48.83K Popularité
#
#DailyPolymarketHotspot
1.04M Popularité
#
GateSquarePizzaDay
1.77M Popularité

Épinglé

Zyphra lance le premier modèle de langage diffusion de l'écosystème AMD, avec une accélération maximale de 7,7 fois

Sujets populaires

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Épinglé