Moonshot AI extiende la tecnología de desacoplamiento de Prefill/Decode a centros de datos cruzados y hardware heterogéneo

ME News Noticias, 18 de abril (UTC+8), el equipo de Moonshot AI anunció recientemente que su tecnología de desacoplamiento de Prefill (prellenado) y Decode (decodificación) se ha expandido con éxito desde un único clúster a entornos de múltiples centros de datos y hardware heterogéneo. Según el artículo, esta medida podría reducir significativamente el costo de inferencia por token. Anteriormente, la expansión de esta tecnología se vio obstaculizada por los costos de transmisión de la caché KV. La implementación de esta ruptura clave dependió de su modelo híbrido Kimi Linear. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
EchoOfL2
· hace6h
¿De un solo clúster a múltiples centros de datos, este paso es lo suficientemente grande, se ha comprobado la estabilidad?
Ver originalResponder0
AirdropSideQuest
· hace10h
La adaptación a hardware heterogéneo es la parte más difícil, que Moonshot pueda resolverlo demuestra que el equipo de infraestructura tiene habilidades en línea
Ver originalResponder0
SugarAirdropDream
· hace10h
El costo es la clave para la implementación de la IA, esta idea de desacoplar Prefill y Decode, probablemente ya esté siendo investigada por otros equipos de grandes modelos durante la noche.
Ver originalResponder0
GlitchOrchard
· hace10h
Kimi, este avance técnico es realmente impresionante, puede mantener baja latencia incluso entre centros de datos, los costos han bajado, y la capa de aplicación tiene un espacio de imaginación aún mayor
Ver originalResponder0
MoonlightMineralWater
· hace10h
Cada reducción en el costo por token significa que los desarrolladores pequeños y medianos también podrán usar contextos largos, lo cual es bueno.
Ver originalResponder0
  • Fijado