La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según la monitorización de Beating de Dongcha, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado "Prefill-as-a-Service", que propone ejecutar la fase de prellenado (prefill) para inferencia de grandes modelos en diferentes centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce el resultado carácter por carácter basándose en esa caché. Los requisitos de hardware para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode requiere memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas estén conectadas en el mismo centro de datos mediante RDMA, ya que la caché KV de modelos de atención intensiva puede generar decenas de Gbps por segundo, y si la transmisión es lenta, la GPU queda inactiva. La innovación proviene de los nuevos modelos de atención híbrida. Los experimentos del artículo muestran que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, combinando unas pocas capas completas de atención con muchas capas lineales, reducen aproximadamente en un orden de magnitud el rendimiento de la caché KV, alcanzando un ratio de compresión total de 36 veces en Ring-2.5-1T. Esto permite mover la caché KV de una red dedicada RDMA a una red Ethernet común para su transmisión. La implementación de PrfaaS consiste en crear un "clúster de prellenado" independiente, que solo enruta solicitudes de contextos largos, prefijos no encontrados y solicitudes de caché no hit, dejando las solicitudes cortas en el clúster PD local; tras completar el prellenado, la caché KV se transmite de vuelta al clúster local mediante Ethernet para realizar el decode. Además, se introducen enrutamiento por umbral de longitud, planificadores sensibles al ancho de banda y un pool de caché de prefijos híbridos. El artículo realizó pruebas con un modelo híbrido de 1T parámetros interno (basado en la arquitectura Kimi Linear), logrando un rendimiento total un 54% superior a una implementación PD homóloga, y un 32% superior a una solución heterogénea simple, usando solo un ancho de banda moderado para la transferencia entre centros de datos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
ExitLiquidityPoet
· hace2h
Solo se realiza una consulta remota cuando no se detecta un contexto largo, las solicitudes cortas se manejan localmente, esta estrategia de enrutamiento es muy detallada.
Ver originalResponder0
MetalReliefRoboticArm
· hace3h
PD homógeno vs heterógeno vs PrfaaS, este experimento comparativo está bastante bien diseñado.
Ver originalResponder0
StopMessingAroundWithGasFees.
· hace3h
Modelo de 1T parámetros probado en la práctica, atreverse a usar un modelo tan grande, tiene suficiente confianza
Ver originalResponder0
GateUser-4590f4c6
· hace3h
¿Vender la prellenado como un servicio, en el futuro no aparecerá un prellenado que sea plug-and-play?
Ver originalResponder0
MoonlightDisconnectSwitch
· hace4h
Al leer todo el artículo, lo que más quiero saber es cuál es la tolerancia a la tasa de pérdida de paquetes en la implementación real.
Ver originalResponder0
GlassDomeRoaming
· hace4h
Programación consciente del ancho de banda, en pocas palabras, cuando se es pobre hay que buscar soluciones, si la red es cara hay que administrar cuidadosamente los recursos
Ver originalResponder0
GlassFishTankArbitrage
· hace4h
Transmitiendo caché KV en Ethernet, antes pensaba que era una locura, ahora resulta que se ha convertido en un artículo académico
Ver originalResponder0
  • Fijado