Zhipu publie GLM-5.1 API haute vitesse, établissant un record mondial de vitesse à 400 jetons/sec

Selon la surveillance de Dongcha Beating, Zhipu a lancé l'API haute vitesse GLM-5.1 pour certains clients d'entreprise, atteignant une vitesse de sortie du modèle de 400 tokens/sec, établissant un nouveau record mondial pour la limite de vitesse de bout en bout des interfaces officielles de grands modèles. Cette version haute vitesse conserve les capacités du modèle phare original tout en étant alimentée par un moteur d'inférence haute performance développé conjointement par Zhipu et l'équipe TileRT. Ce moteur a complètement restructuré le mécanisme de planification opérationnelle du GPU, organisant statiquement le modèle en un noyau de moteur persistant qui réside sur le GPU pendant la phase de compilation. Lors de l'inférence sur une seule carte, le calcul, l'E/S asynchrone et la communication sont tous décomposés en micro-tâches au niveau des tuiles, n'initialisant le noyau qu'une seule fois. Les résultats intermédiaires entre les opérateurs sont transmis directement via des registres et des caches partagés, éliminant la latence causée par les démarrages fréquents du noyau et la lecture/écriture mémoire dans l'inférence traditionnelle. Lorsqu'il est étendu à une configuration multi-cartes, TileRT étend davantage l'approche de parallélisme spécialisé à travers une topologie NVL à 8 cartes, transformant les nœuds GPU initialement homogènes en Workers hétérogènes responsables de différentes tâches. En traitant les calculs de la couche d'attention de GLM-5.1, le système assigne le GPU 0 à l'exécution d'un Worker d'index sparse dédié à la construction d'index sparse et aux décisions de routage, tandis que les GPU 1 à 7 exécutent des MLA Workers responsables des phases intensives en calcul, intégrant complètement la communication dans le pipeline de tâches au niveau des tuiles, réalisant un chevauchement profond entre le calcul et la communication inter-cartes. Ce service haute vitesse est actuellement disponible pour certains clients d'entreprise sur la plateforme Zhipu MaaS. À l'avenir, cette technologie optimisera davantage l'inférence FP8 et les environnements de production de contexte ultra-long, offrant un support de performance plus déterministe pour des scénarios sensibles à la faible latence tels que la programmation AI, l'interaction en temps réel et la voix en temps réel.
ZHIPU-5,76%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé