Tsinghua + La cara oculta de la luna, esta vez separando la pre-carga, la caché KV puede soportar la red de Ethereum, la mejora del 54% en el rendimiento realmente es impresionante, la estructura de costos para el razonamiento en contextos largos va a cambiar.

Ver original
MeNews
La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el rendimiento del modelo de 1T aumenta un 54%
ME News reporta que la cara oculta de la luna y Tsinghua presentaron en arXiv Prefill-as-a-Service, que ejecuta la fase de prellenado de inferencia de grandes modelos entre centros de datos. A través de un modelo de atención híbrido, se reduce significativamente el rendimiento del caché KV, permitiendo que el caché se transmita por Ethernet y se devuelva al clúster local para decodificación. La arquitectura PrfaaS construye un clúster de prellenado independiente, que solo enruta solicitudes de contexto largo no atendidas, dejando las solicitudes cortas en el PD local; además, introduce enrutamiento por umbral de longitud y programación sensible al ancho de banda. Las pruebas con un modelo híbrido de 1T parámetros muestran un aumento del 54% en rendimiento en comparación con un PD homomorfo, y un 32% en comparación con un enfoque heterogéneo simple.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado