Moonshot AI extiende la tecnología de desacoplamiento Prefill/Decode a centros de datos cruzados y hardware heterogéneo

ME News Noticias, 18 de abril (UTC+8), el equipo de Moonshot AI anunció recientemente que su tecnología de desacoplamiento de Prefill (prellenado) y Decode (decodificación) se ha expandido con éxito desde un único clúster a entornos de múltiples centros de datos y hardware heterogéneo. Según el artículo, esta medida podría reducir significativamente el costo de inferencia por token. Anteriormente, la expansión de esta tecnología se vio obstaculizada por los costos de transmisión de la caché KV. La implementación de esta ruptura clave dependió de su modelo híbrido Kimi Linear. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
PublicBlockchainUnderTheAurora
· hace15h
Me pregunto cómo se maneja la latencia entre DC, no se explica en detalle en el texto.
Ver originalResponder0
ExitLiquidityIntern
· hace15h
La arquitectura del modelo híbrido parece ser una variable clave, esperando los detalles técnicos de primera mano.
Ver originalResponder0
GateUser-c1cab702
· hace15h
De un clúster único a múltiples DC, la complejidad del proyecto da solo pensarlo, ya es abrumadora
Ver originalResponder0
  • Fijado