ME News Noticias, 18 de abril (UTC+8), según la monitorización de Beating de Dongcha, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado «Prefill-as-a-Service», que propone que la fase de prellenado (prefill) para la inferencia de grandes modelos se ejecute entre centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce el resultado carácter por carácter basándose en esa caché. Las características de hardware necesarias para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode requiere memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas partes estén conectadas en el mismo centro de datos mediante RDMA, ya que la caché KV de modelos de atención intensiva puede generar decenas de Gbps por segundo, y si la transmisión es lenta, la GPU queda inactiva. La innovación proviene de un nuevo modelo de atención híbrida de última generación. El artículo informa que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre otros, combinan unas pocas capas completas de atención con muchas capas lineales, reduciendo aproximadamente en un orden de magnitud la capacidad de transmisión de la caché KV; el ratio de compresión total de Ring-2.5-1T alcanza 36 veces. En ese momento, la caché KV puede trasladarse de una red RDMA dedicada a una red Ethernet común para su transmisión. La implementación específica de PrfaaS consiste en crear un «clúster de prellenado» independiente, que solo enruta solicitudes de contexto largo y prefijos no encontrados, dejando las solicitudes cortas en el clúster PD local; tras completar el prellenado, la caché KV se transmite de vuelta al clúster local mediante Ethernet para realizar el decode. Además, se introducen enrutamiento por umbral de longitud, planificadores sensibles al ancho de banda y un pool de caché de prefijos híbridos. El artículo presenta pruebas con un modelo híbrido de 1T parámetros interno (basado en la arquitectura Kimi Linear), logrando un rendimiento total un 54% superior a una implementación PD homóloga, y un 32% superior a una solución heterogénea simple, utilizando solo un ancho de banda moderado para la transferencia entre centros de datos. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
10
2
Compartir

Comentar

Añadir un comentario

RocksUnderTheAurora

· hace1h

Tsinghua + la cara oculta de la luna, la infraestructura del gran modelo nacional ha llegado a las conferencias internacionales de élite

Ver originalResponder0

YieldNotYell

· hace5h

El diseño de enrutamiento con umbral de longitud es muy detallado, separar las solicitudes largas y cortas para su procesamiento es la verdadera optimización.

Ver originalResponder0

CircuitDaydreamer

· hace8h

Lectura detallada de artículos sobre modelos de atención híbrida que reducen el rendimiento del caché KV, detalles técnicos y otros aspectos

Ver originalResponder0

AirdropCartographer

· hace9h

Un aumento del 54% es realmente atractivo, pero al usar Ethernet entre centros de datos, ¿cómo manejar la fluctuación?

Ver originalResponder0

DeepSeaColdStart

· hace9h

Solo las solicitudes no enrutadas alcanzan el destino, la tasa de acierto de caché se convierte en un cuello de botella clave

Ver originalResponder0

UnderTheGlassDome

· hace9h

PD isomórfico vs PD heterogéneo vs PrfaaS, esta comparación en dimensiones está bastante bien pensada

Ver originalResponder0

BluePeonyCalmingAgent

· hace10h

1T parámetros del modelo, prueba esto, no me atrevo a imaginar el costo de hardware

Ver originalResponder0

GateUser-fb035825

· hace10h

Despliegue independiente de clústeres con prellenado, la complejidad de operaciones y mantenimiento aumenta, ¿vale la pena el beneficio?

Ver originalResponder0

IdleFishDaoMember

· hace10h

La programación consciente del ancho de banda suena sencilla, pero en la práctica probablemente haya muchas trampas en su implementación.

Ver originalResponder0

GateUser-aa277334

· hace10h

Esta idea es interesante, ¿puede la latencia soportar lanzar el prellenado al servidor remoto y centrarse en decodificar localmente?

Ver originalResponder0

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.21M Popularidad
#
WTICrudeFallsBelow90Dollars
1.17M Popularidad
#
IsraelStrikesIranBTCPlunges
51.3K Popularidad
#
StockTradingChallengeUpTo17000U
179.25K Popularidad
#
USIranNegotiationGame
9.41M Popularidad

Fijado

La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%

Temas de actualidad

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fijado