La arquitectura de PrfaaS es interesante, solo enruta a clústeres prellenados independientes cuando no se detecta contexto largo, las solicitudes cortas se atienden localmente con PD, y la programación sensible al ancho de banda evita congestiones innecesarias.

Ver original
MeNews
La cara oculta de la luna y un nuevo artículo de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%
ME News informa que la cara oculta de la luna y Tsinghua propusieron en arXiv Prefill-as-a-Service, que ejecuta la fase de prellenado de inferencia de grandes modelos entre centros de datos. A través de un modelo de atención híbrido, se reduce significativamente el rendimiento del caché KV, permitiendo que el caché se transmita por Ethernet y se devuelva al clúster local para decodificación. La arquitectura PrfaaS construye un clúster de prellenado independiente, que solo enruta solicitudes de contexto largo no atendidas, dejando las solicitudes cortas en el PD local; además, introduce enrutamiento por umbral de longitud y programación sensible al ancho de banda. Las pruebas con un modelo híbrido de 1T parámetros muestran un aumento del 54% en el rendimiento en comparación con un PD homomorfo, y un 32% en comparación con un enfoque heterogéneo simple.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado