Red Hat et les ingénieurs de Tesla collaborent pour optimiser les performances d'inférence de Llama 3.1 70B.

robot
Création du résumé en cours
ME News rapport, le 23 avril (UTC+8), les ingénieurs de Red Hat et de Tesla ont récemment collaboré pour optimiser les problèmes rencontrés dans les environnements de production réels. En combinant les projets KServe, LLM-D et vLLM, ils ont considérablement amélioré les performances d'inférence du modèle Llama 3.1 70B, avec une multiplication par 3 du nombre de tokens générés par seconde et une multiplication par 2 du temps d'obtention du premier token. Au cours de cette collaboration, les correctifs correspondants ont été poussés en amont vers le projet KServe. L'article considère cela comme un exemple de collaboration open source. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé