Kimi desacopló Prefill/Decode y lo llevó a través de múltiples centros de datos, ¿la limitación de transmisión de la caché KV se rompió, realmente puede reducir el costo de inferencia? Esto tiene algo interesante.

Ver original
MeNews
Moonshot AI extiende la tecnología de desacoplamiento de Prefill/Decode a centros de datos cruzados y hardware heterogéneo
ME News Noticias, 18 de abril (UTC+8), el equipo de Moonshot AI anunció recientemente que su tecnología de desacoplamiento de Prefill (prellenado) y Decode (decodificación) se ha expandido con éxito desde un solo clúster a entornos de múltiples centros de datos y hardware heterogéneo. Según el artículo, esta medida podría reducir significativamente el costo de inferencia por cada token. Anteriormente, la expansión de esta tecnología se vio obstaculizada por los costos de transmisión de la caché KV. La implementación de este avance dependió crucialmente de su modelo híbrido Kimi.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado