Un projet open source très intéressant, AirLLM


Optimise l'utilisation de la mémoire lors de l'inférence, permettant à un grand modèle de 70B de fonctionner sur une seule carte graphique avec 4G de mémoire vidéo
Sans quantification, distillation ni pruning.
Faire fonctionner un Llama3.1 de 405B sur 8G de mémoire vidéo
Je veux encore plus GLM 5.2. N'est-ce pas que ma mémoire partagée de plus de 40G pourrait aussi faire tourner un modèle de plus de 700B ?
Star🌟 21.3k
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire