Moonshot AI extiende la tecnología de desacoplamiento de Prefill/Decode a centros de datos cruzados y hardware heterogéneo

ME News Noticias, 18 de abril (UTC+8), el equipo de Moonshot AI anunció recientemente que su tecnología de desacoplamiento de Prefill (prellenado) y Decode (decodificación) se ha expandido con éxito desde un único clúster a entornos de múltiples centros de datos y hardware heterogéneo. Según el artículo, esta medida podría reducir significativamente el costo de inferencia por token. Anteriormente, la expansión de esta tecnología se vio obstaculizada por los costos de transmisión de la caché KV. La implementación de esta ruptura clave dependió de su modelo híbrido Kimi Linear. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-ad8b77bd
· hace10h
De un solo clúster a múltiples DC, la dificultad del proyecto no es de la misma magnitud
Ver originalResponder0
CheckTheBlockchainBefore
· hace20h
¿Cómo se mezcla exactamente el modelo híbrido? ¿Es MOE o alguna otra arquitectura?
Ver originalResponder0
FeeTakerPhD
· hace21h
Finalmente llegó la implementación entre DC, ¿realmente se puede reducir el costo tras superar la barrera de transmisión de caché KV?
Ver originalResponder0
PopFruitCollage
· hace21h
Multi-centro de datos + heterogéneo, ¿la complejidad de operaciones se dispara?
Ver originalResponder0
ExitLiqNow
· hace21h
Antes, la transmisión de la caché KV se limitaba, ahora se ha alcanzado un hito importante
Ver originalResponder0
OwlAuthorizationMonitor
· hace21h
Cada token es un poco más barato, cuanto mayor sea la cantidad, más dinero en efectivo verdadero
Ver originalResponder0
TheStoneBehindTheVolcano
· hace21h
Moonshot, esta ola de deuda técnica todavía tiene que lucir bastante bien
Ver originalResponder0
ButterStop-LossLine
· hace21h
Reducir costos es la verdadera clave, esperar datos de pruebas reales
Ver originalResponder0
LatencyLullaby
· hace21h
¿Separar la prellenado y el desacoplamiento, hará que la latencia en realidad aumente?
Ver originalResponder0
MechanicalHummingbirdGlass
· hace21h
El modelo híbrido de Kimi tiene algo, puede ejecutarse en hardware heterogéneo
Ver originalResponder0
Ver más
  • Fijado