La GPU universal ejecutando 1T MoE rompe los mil tokens, esta colaboración en diseño tiene algo interesante

Ver original
CoinNetwork
La noticia de Coinjie.com, el equipo de Xiaomi Mimo y el grupo de optimización de compilación AI Tilert han anunciado el lanzamiento del modo de inferencia Mimo-v2.5-pro-ultraspeed.
En un nodo estándar de GPU de 8 tarjetas de uso general, lograron en un modelo híbrido de expertos (MoE) de 1 billón de parámetros superar la velocidad límite de generación de más de 1,000 tokens/segundo, alcanzando un pico de aproximadamente 1,200 tokens/segundo.
Esto marca que, sin necesidad de utilizar hardware no convencional como integración a nivel de oblea o chips dedicados de SRAM en chip puro, solo con hardware estándar y un diseño colaborativo de modelo-sistema, se ha logrado por primera vez superar la velocidad de generación de 1 billón de tokens por modelo.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado