La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según la monitorización de 动察 Beating, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado «Prefill-as-a-Service», que propone que la fase de prellenado (prefill) para la inferencia de grandes modelos se ejecute entre centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce el resultado carácter por carácter basándose en esa caché. Los requisitos de hardware para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode necesita memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas partes estén conectadas en el mismo centro de datos mediante RDMA, ya que la caché KV de modelos de atención intensiva genera decenas de Gbps por segundo, y si la transmisión es lenta, la GPU queda inactiva. La innovación proviene de un nuevo modelo de atención híbrida de última generación. El artículo informa que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre otros, combinan unas pocas capas completas de atención con muchas capas lineales, reduciendo aproximadamente en un orden de magnitud la capacidad de transmisión de la caché KV, alcanzando un ratio de compresión total de 36 veces en Ring-2.5-1T. Esto permite que la caché KV pase de una red RDMA dedicada a una red Ethernet común para su transferencia. La implementación de PrfaaS consiste en crear un «clúster de prellenado» independiente, que solo enruta solicitudes de contextos largos, prefijos no encontrados y solicitudes de caché, dejando las solicitudes cortas en el clúster PD local; tras completar el prellenado, la caché KV se transmite de vuelta al clúster local mediante Ethernet para realizar el decode. Además, se introducen rutas con umbrales de longitud, planificadores sensibles al ancho de banda y un pool de caché de prefijos híbridos. El artículo presenta pruebas con un modelo híbrido interno de 1T parámetros (basado en la arquitectura Kimi Linear), que muestra que el rendimiento total del servicio es un 54% superior a una implementación PD homóloga, y un 32% superior a una solución heterogénea simple, utilizando solo un ancho de banda moderado entre centros de datos por máquina. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
DewdropSapling
· Hace27m
PrfaaS este nombre, ¿habrá en el futuro un Decode-as-a-Service?
Ver originalResponder0
InstantNoodle-LevelResearcher
· hace1h
Tsinghua + la cara oculta de la luna, la infraestructura de grandes modelos nacionales comienza a competir en nuevas direcciones
Ver originalResponder0
LateBlockLarry
· hace1h
El aumento del 54% suena bien, pero en la implementación real se deben considerar el aislamiento multitenant y la recuperación ante fallos
Ver originalResponder0
MempoolMaggie
· hace1h
¿El almacenamiento en caché KV transmitido por Ethernet, el costo de ancho de banda, es más caro que la potencia de cálculo?
Ver originalResponder0
MintLiquidationWarning
· hace2h
Solo enrutamiento, el contexto largo no se encontró, las solicitudes cortas se mantienen localmente, esta estrategia de jerarquía es bastante práctica.
Ver originalResponder0
GateUser-2100b43b
· hace2h
El modelo de atención híbrido reduce el rendimiento del caché KV, esta idea me recuerda algunos trucos del entrenamiento distribuido temprano.
Ver originalResponder0
  • Fijado