La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%

robot
Generación de resúmenes en curso
ME News Noticias, 18 de abril (UTC+8), según la monitorización de Beating de Dongcha, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado «Prefill-as-a-Service», que propone que la fase de prellenado (prefill) para la inferencia de grandes modelos se ejecute entre centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce el resultado carácter por carácter basándose en esa caché. Las características de hardware necesarias para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode requiere memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas partes estén conectadas en el mismo centro de datos mediante RDMA, ya que la caché KV de modelos de atención intensiva puede generar decenas de Gbps por segundo, y si la transmisión es lenta, la GPU queda inactiva. La innovación proviene de un nuevo modelo de atención híbrida de última generación. El artículo informa que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre otros, combinan unas pocas capas completas de atención con muchas capas lineales, reduciendo aproximadamente en un orden de magnitud la capacidad de transmisión de la caché KV; el ratio de compresión total de Ring-2.5-1T alcanza 36 veces. En ese momento, la caché KV puede trasladarse de una red RDMA dedicada a una red Ethernet común para su transmisión. La implementación específica de PrfaaS consiste en crear un «clúster de prellenado» independiente, que solo enruta solicitudes de contexto largo y prefijos no encontrados, dejando las solicitudes cortas en el clúster PD local; tras completar el prellenado, la caché KV se transmite de vuelta al clúster local mediante Ethernet para realizar el decode. Además, se introducen enrutamiento por umbral de longitud, planificadores sensibles al ancho de banda y un pool de caché de prefijos híbridos. El artículo presenta pruebas con un modelo híbrido de 1T parámetros interno (basado en la arquitectura Kimi Linear), logrando un rendimiento total un 54% superior a una implementación PD homóloga, y un 32% superior a una solución heterogénea simple, utilizando solo un ancho de banda moderado para la transferencia entre centros de datos. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
RocksUnderTheAurora
· hace1h
Tsinghua + la cara oculta de la luna, la infraestructura del gran modelo nacional ha llegado a las conferencias internacionales de élite
Ver originalResponder0
YieldNotYell
· hace5h
El diseño de enrutamiento con umbral de longitud es muy detallado, separar las solicitudes largas y cortas para su procesamiento es la verdadera optimización.
Ver originalResponder0
CircuitDaydreamer
· hace8h
Lectura detallada de artículos sobre modelos de atención híbrida que reducen el rendimiento del caché KV, detalles técnicos y otros aspectos
Ver originalResponder0
AirdropCartographer
· hace9h
Un aumento del 54% es realmente atractivo, pero al usar Ethernet entre centros de datos, ¿cómo manejar la fluctuación?
Ver originalResponder0
DeepSeaColdStart
· hace9h
Solo las solicitudes no enrutadas alcanzan el destino, la tasa de acierto de caché se convierte en un cuello de botella clave
Ver originalResponder0
UnderTheGlassDome
· hace9h
PD isomórfico vs PD heterogéneo vs PrfaaS, esta comparación en dimensiones está bastante bien pensada
Ver originalResponder0
BluePeonyCalmingAgent
· hace10h
1T parámetros del modelo, prueba esto, no me atrevo a imaginar el costo de hardware
Ver originalResponder0
GateUser-fb035825
· hace10h
Despliegue independiente de clústeres con prellenado, la complejidad de operaciones y mantenimiento aumenta, ¿vale la pena el beneficio?
Ver originalResponder0
IdleFishDaoMember
· hace10h
La programación consciente del ancho de banda suena sencilla, pero en la práctica probablemente haya muchas trampas en su implementación.
Ver originalResponder0
GateUser-aa277334
· hace10h
Esta idea es interesante, ¿puede la latencia soportar lanzar el prellenado al servidor remoto y centrarse en decodificar localmente?
Ver originalResponder0
Ver más
  • Fijado