Tsinghua + la cara oculta de la luna, esta combinación es interesante, envía el prellenado al centro de datos remoto, las cadenas de RDMA finalmente se han soltado.

Ver original
MeNews
La cara oculta de la luna y la nueva publicación de Tsinghua: La prellenado de LLM puede cruzar centros de datos, el modelo de 1T aumenta el rendimiento en un 54%
ME News Noticias, 18 de abril (UTC+8), según la monitorización de Beating de Dongcha, Moonshot AI y la Universidad de Tsinghua publicaron el 16 de abril en arXiv un nuevo artículo titulado "Prefill-as-a-Service", proponiendo que la fase de prellenado (prefill) para la inferencia de grandes modelos se ejecute entre centros de datos. La inferencia de grandes modelos consta de dos pasos: prefill, que lee toda la entrada de una vez y genera una caché KV; y decode, que produce la salida carácter por carácter basándose en esa caché. Los requisitos de hardware para ambos pasos son completamente diferentes: prefill requiere potencia de cálculo, mientras que decode requiere memoria de vídeo y ancho de banda. La práctica principal en la industria es separar estos dos pasos en diferentes máquinas (separación PD), pero esto requiere que ambas partes estén en el mismo centro de datos conectadas mediante RDMA, ya que la comunicación intensiva
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado