OpenAI découvre une nouvelle méthode pour réduire de moitié les coûts d'inférence.

robot
Création du résumé en cours
Selon une source proche des discussions, il y a une nouvelle auparavant non divulguée : plus tôt ce mois-ci, des ingénieurs d'OpenAI ont informé certains collègues que, grâce à plusieurs technologies d'optimisation nouvellement développées, ils ont trouvé une solution permettant de réduire de plus de moitié les coûts d'inférence des modèles. Après avoir appliqué cette nouvelle technologie à des scénarios où des visiteurs utilisant des comptes gratuits/payants se servent de ChatGPT, le nombre d'unités de traitement graphique (GPU) Nvidia nécessaires a été réduit à seulement quelques centaines — un chiffre remarquablement bas. Il n'est actuellement pas clair quels moyens techniques spécifiques OpenAI a utilisés pour atteindre cette amélioration significative de l'efficacité de calcul. Les méthodes d'optimisation courantes dans l'industrie incluent généralement : la compression par quantification, la mise en cache des clés-valeurs, le traitement par lots des requêtes des utilisateurs au lieu de les calculer individuellement, et la redirection de certaines demandes vers des modèles légers ou des fragments de modèles de moindre puissance pour les réponses.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé