Le goulot d'étranglement de la mémoire dans l'inférence en ligne a enfin été résolu, cette technique de stockage incrémental me fait penser à git diff, utiliser la différence d'information pour échanger de l'espace, intelligent.

Voir l'original
MeNews
Δ-Mem : Mémoire en ligne efficace pour les grands modèles de langage
La recherche propose Δ-Mem, un système de mémoire en ligne destiné aux grands modèles de langage. En ne stockant que les changements incrémentiels liés à l'activation et en abandonnant l'état d'activation complet, cela réduit considérablement l'utilisation de la mémoire. Les expériences montrent que la consommation de mémoire peut diminuer jusqu'à 70 %, tout en maintenant une qualité de sortie quasi inchangée, améliorant ainsi la capacité de raisonnement en ligne et d'apprentissage continu dans des environnements à ressources limitées.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé