ME News Noticias, 18 de abril (UTC+8), según la monitorización de Beating de Dongcha, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado «Prefill-as-a-Service», que propone que la fase de prellenado (prefill) para la inferencia de grandes modelos se ejecute entre centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce los resultados carácter por carácter basándose en esa caché. Los requisitos de hardware para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode necesita memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas partes estén conectadas en el mismo centro de datos mediante RDMA, ya que la caché KV de modelos de atención intensiva genera decenas de Gbps por segundo, y si la transmisión es lenta, la GPU queda inactiva. La innovación proviene de un nuevo modelo de atención híbrida de última generación. El artículo informa que modelos como Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T, entre otros, combinan unas pocas capas completas de atención con muchas capas lineales, reduciendo aproximadamente en un orden de magnitud la capacidad de transmisión de la caché KV; Ring-2.5-1T logra una compresión total de 36 veces. Con esto, la caché KV puede trasladarse de una red RDMA dedicada a una red Ethernet común para su transmisión. La implementación de PrfaaS consiste en crear un «clúster de prellenado» independiente, que solo enruta solicitudes de contextos largos, prefijos no encontrados y solicitudes de caché no hit, dejando las solicitudes cortas en el clúster PD local; tras completar el prellenado, la caché KV se transmite de vuelta al clúster local mediante Ethernet para realizar el decode. Además, se introducen rutas con umbrales de longitud, programadores sensibles al ancho de banda y un pool de caché de prefijos híbridos. El artículo presenta pruebas con un modelo híbrido de 1T parámetros interno (basado en la arquitectura Kimi Linear), que muestra que el rendimiento total del servicio es un 54% superior a una implementación PD homóloga, y un 32% superior a una solución heterogénea simple, utilizando solo un ancho de banda moderado entre centros de datos. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
9
2
Compartir

Comentar

Añadir un comentario

VolatilityOfToastingBread

· hace7h

Solicitar mantener el PD local es muy razonable, después de todo, es sensible a la latencia, solo vale la pena complicarse con contextos largos.

Ver originalResponder0

DustCollector

· hace8h

El aumento heterogéneo simple fue del 32%, el aumento PD homogéneo del 54%, la configuración del grupo de comparación está bastante sólida.

Ver originalResponder0

Glass-HeartMarketMaker

· hace9h

Tsinghua + la cara oculta de la luna, la infraestructura de grandes modelos nacionales ha comenzado a competir por estar en el primer nivel mundial

Ver originalResponder0

StainedGlassSolarArray

· hace9h

La jugada de Yue An es bastante interesante, tira la pre-carga, concéntrate en decodificar localmente, ganando en retraso y costo al mismo tiempo.

Ver originalResponder0

MirrorBallReflection

· hace9h

El modelo de atención híbrido es fundamental, ¿y el caché KV puede transmitirse por Ethernet? ¿Qué tan alta sería esa tasa de compresión?

Ver originalResponder0

PineNeedlesAndColdWind

· hace9h

La programación consciente del ancho de banda suena sencilla, pero en la práctica está llena de trampas, y ellos realmente lo lograron.

Ver originalResponder0

GoldfishUnderTheIce

· hace9h

El modelo de 1 billón de parámetros ya funciona, lo que indica que esta arquitectura no tiene problemas de escalabilidad, no es algo trivial.

Ver originalResponder0

MarginMoth

· hace9h

PrfaaS, este nombre, Prefill as a Service, la infraestructura de computación en la nube se ha trasladado a la inferencia de grandes modelos

Ver originalResponder0

GateUser-78acf617

· hace9h

54% de aumento en el rendimiento, estos datos se ven muy bien, la arquitectura heterogénea finalmente deja de ser solo teoría

Ver originalResponder0

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.23M Popularidad
#
WTICrudeFallsBelow90Dollars
1.19M Popularidad
#
IsraelStrikesIranBTCPlunges
51.51K Popularidad
#
StockTradingChallengeUpTo17000U
198.21K Popularidad
#
USIranNegotiationGame
9.42M Popularidad

Fijado

La cara oculta de la luna y un nuevo artículo de Tsinghua: la prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%

Temas de actualidad

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Fijado