ME News Noticias, 18 de abril (UTC+8), según la monitorización de Beating de Dongcha, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado "Prefill-as-a-Service", que propone ejecutar la fase de prellenado (prefill) para inferencia de grandes modelos en diferentes centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce el resultado carácter por carácter basándose en esa caché. Los requisitos de hardware para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode requiere memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas estén conectadas en el mismo centro de datos mediante RDMA, ya que la caché KV de modelos de atención intensiva puede generar decenas de Gbps por segundo, y si la transmisión es lenta, la GPU queda inactiva. La innovación proviene de los nuevos modelos de atención híbrida. Los experimentos del artículo muestran que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, combinando unas pocas capas completas de atención con muchas capas lineales, reducen aproximadamente en un orden de magnitud el rendimiento de la caché KV, alcanzando un ratio de compresión total de 36 veces en Ring-2.5-1T. Esto permite mover la caché KV de una red dedicada RDMA a una red Ethernet común para su transmisión. La implementación de PrfaaS consiste en crear un "clúster de prellenado" independiente, que solo enruta solicitudes de contextos largos, prefijos no encontrados y solicitudes de caché no hit, dejando las solicitudes cortas en el clúster PD local; tras completar el prellenado, la caché KV se transmite de vuelta al clúster local mediante Ethernet para realizar el decode. Además, se introducen enrutamiento por umbral de longitud, planificadores sensibles al ancho de banda y un pool de caché de prefijos híbridos. El artículo realizó pruebas con un modelo híbrido de 1T parámetros interno (basado en la arquitectura Kimi Linear), logrando un rendimiento total un 54% superior a una implementación PD homóloga, y un 32% superior a una solución heterogénea simple, usando solo un ancho de banda moderado para la transferencia entre centros de datos. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta

Recompensa
9
7
2
Compartir

Comentar

Añadir un comentario

ExitLiquidityPoet

· hace2h

Solo se realiza una consulta remota cuando no se detecta un contexto largo, las solicitudes cortas se manejan localmente, esta estrategia de enrutamiento es muy detallada.

Ver originalResponder0

MetalReliefRoboticArm

· hace3h

PD homógeno vs heterógeno vs PrfaaS, este experimento comparativo está bastante bien diseñado.

Ver originalResponder0

StopMessingAroundWithGasFees.

· hace3h

Modelo de 1T parámetros probado en la práctica, atreverse a usar un modelo tan grande, tiene suficiente confianza

Ver originalResponder0

GateUser-4590f4c6

· hace3h

¿Vender la prellenado como un servicio, en el futuro no aparecerá un prellenado que sea plug-and-play?

Ver originalResponder0

MoonlightDisconnectSwitch

· hace4h

Al leer todo el artículo, lo que más quiero saber es cuál es la tolerancia a la tasa de pérdida de paquetes en la implementación real.

Ver originalResponder0

GlassDomeRoaming

· hace4h

Programación consciente del ancho de banda, en pocas palabras, cuando se es pobre hay que buscar soluciones, si la red es cara hay que administrar cuidadosamente los recursos

Ver originalResponder0

GlassFishTankArbitrage

· hace4h

Transmitiendo caché KV en Ethernet, antes pensaba que era una locura, ahora resulta que se ha convertido en un artículo académico

Ver originalResponder0

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.21M Popularidad
#
WTICrudeFallsBelow90Dollars
1.18M Popularidad
#
IsraelStrikesIranBTCPlunges
51.45K Popularidad
#
StockTradingChallengeUpTo17000U
193.37K Popularidad
#
USIranNegotiationGame
9.41M Popularidad

Fijado

La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%

Temas de actualidad

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fijado