La idea de esta arquitectura de PrfaaS es bastante audaz—llevar la separación de PD al extremo, prellenado independiente como servicio, enrutamiento según umbral de longitud, y las pruebas muestran que incluso en comparación con la heterogeneidad simple, se puede obtener un 32% más de rendimiento. La innovación en la capa de infraestructura ya está empezando a intensificarse.

Ver original
MeNews
La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el rendimiento del modelo de 1T aumenta un 54%
ME News informa que la cara oculta de la luna y Tsinghua propusieron en arXiv Prefill-as-a-Service, que ejecuta la fase de prellenado de inferencia de grandes modelos entre centros de datos. A través de un modelo de atención híbrido, se reduce significativamente el rendimiento del caché KV, permitiendo que el caché se transmita por Ethernet y se devuelva al clúster local para decodificación. La arquitectura PrfaaS construye un clúster de prellenado independiente, que solo enruta solicitudes de contexto largo no atendidas, dejando las solicitudes cortas en el PD local; además, introduce enrutamiento por umbral de longitud y programación sensible al ancho de banda. Las pruebas con un modelo híbrido de 1T parámetros muestran un aumento del 54% en el rendimiento en comparación con un PD homomorfo, y un 32% en comparación con un enfoque heterogéneo simple.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado