Desde el paper hasta la producción de calorías en el terreno, esta velocidad no parece de academia

Ver original
CoinNetwork
La noticia de Coinjie.com informa que Zhipu, en colaboración con Yuxun Network y la Universidad de Tsinghua, ha propuesto la arquitectura de red de inferencia de modelos de próxima generación ZCube, con el objetivo de resolver el creciente problema de congestión estructural en la implementación separada de PD (prellenado-descifrado) en grandes modelos. La arquitectura ZCube ya se ha implementado en el entorno de producción en línea de GLM-5.1 coding Kcal. Esta arquitectura elimina los conmutadores de la capa spine, adopta una topología de red plana en toda la red (diámetro de red de 2 saltos), y combina mecanismos de acceso híbrido de una/múltiples vías, logrando un equilibrio de carga de tráfico entre conmutadores en toda la red entre nodos. En las pruebas de referencia, la arquitectura ZCube reduce en un 33% los gastos en hardware de conmutadores y módulos ópticos en comparación con las arquitecturas tradicionales, mientras que la tasa de inferencia promedio de GPU aumenta un 15%, y la latencia del primer token (TTFT) en el percentil P99 disminuye un 40.6%.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado