Zhipu lanza GLM-5.1 API de alta velocidad, estableciendo un récord mundial de velocidad de 400 tokens/segundo

Según la monitorización de Dongcha Beating, Zhipu ha lanzado la API de alta velocidad GLM-5.1 para clientes empresariales selectos, logrando una velocidad de salida del modelo de 400 tokens/seg, estableciendo un nuevo récord mundial para el límite de velocidad de extremo a extremo de las interfaces oficiales de modelos grandes. Esta versión de alta velocidad mantiene las capacidades del modelo insignia original y está impulsada por un motor de inferencia de alto rendimiento desarrollado conjuntamente por Zhipu y el equipo TileRT. Este motor reestructuró completamente el mecanismo de programación operativa de la GPU, organizando estáticamente el modelo en un Núcleo de Motor persistente que reside en la GPU durante la fase de compilación. Durante la inferencia en una sola tarjeta, el cálculo, la E/S asíncrona y la comunicación se descomponen en micro-tareas a nivel de mosaico, iniciando el núcleo solo una vez. Los resultados intermedios entre operadores se transmiten directamente a través de registros y cachés compartidos, eliminando la latencia causada por el inicio frecuente de núcleos y la lectura/escritura de memoria en la inferencia tradicional. Cuando se escala a una configuración de múltiples tarjetas, TileRT extiende aún más el enfoque de paralelismo especializado a través de una topología NVL de 8 tarjetas, transformando los nodos GPU originalmente homogéneos en Trabajadores heterogéneos responsables de diferentes tareas. Al manejar los cálculos de la capa de atención de GLM-5.1, el sistema asigna la GPU 0 para ejecutar un Trabajador de índice disperso dedicado a la construcción de índices dispersos y decisiones de enrutamiento, mientras que las GPUs 1 a 7 ejecutan Trabajadores MLA responsables de fases intensivas en cálculo, integrando completamente la comunicación en la canalización de tareas a nivel de mosaico, logrando una superposición profunda entre cálculo y comunicación entre tarjetas. Este servicio de alta velocidad está actualmente disponible para clientes empresariales selectos en la plataforma Zhipu MaaS. En el futuro, esta tecnología optimizará aún más la inferencia FP8 y los entornos de producción de contexto ultra largo, proporcionando un soporte de rendimiento más determinista para escenarios sensibles a la baja latencia, como programación de IA, interacción en tiempo real y voz en tiempo real.
ZHIPU26,55%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado