Red Hat colabora con ingenieros de Tesla para optimizar el rendimiento de inferencia de Llama 3.1 70B.

robot
Generación de resúmenes en curso
Noticias de ME, 23 de abril (UTC+8), los ingenieros de Red Hat y Tesla colaboraron recientemente para optimizar problemas en entornos de producción real. Mediante el uso combinado de los proyectos KServe, LLM-D y vLLM, lograron una mejora significativa en el rendimiento de inferencia en el modelo Llama 3.1 70B, con un aumento de 3 veces en los tokens de salida por segundo y una mejora de 2 veces en el tiempo hasta el primer token. Durante la colaboración, las correcciones relacionadas se enviaron al proyecto KServe aguas arriba. El artículo considera esto como un ejemplo de colaboración de código abierto. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado