Δ-Mem : Mémoire en ligne efficace pour les grands modèles de langage

robot
Création du résumé en cours
ME News Actualités, le 16 mai (UTC+8), des chercheurs ont proposé Δ-Mem, un système de mémoire en ligne efficace conçu spécifiquement pour les grands modèles de langage. Ce système réduit considérablement l'utilisation de la mémoire en ne stockant et en mettant à jour que les changements incrémentiels dans l'activation du modèle, plutôt que l'état complet de l'activation. Les expériences montrent que Δ-Mem peut réduire l'utilisation de la mémoire jusqu'à 70 %, tout en maintenant la qualité de sortie du modèle pratiquement inchangée. Cette méthode contribue à déployer et exécuter des modèles de langage à grande échelle dans des environnements à ressources limitées, améliorant leur faisabilité dans les scénarios d'inférence en ligne et d'apprentissage continu. (Source : AiHot)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 10
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
DeltaSmile
· Il y a 1h
La qualité de sortie sans perte est la plus importante, de nombreux schémas de compression sacrifient trop de précision.
Voir l'originalRépondre0
PickingUpAirdropsInTheFog
· Il y a 7h
L'amélioration de la capacité d'apprentissage continu est sous-estimée, elle est très importante pour les modèles personnalisés.
Voir l'originalRépondre0
InvisibleMarketMaker
· Il y a 7h
Une réduction de 70 % de la mémoire est effectivement impressionnante, mais dans un scénario en ligne, le coût de calcul pour les mises à jour incrémentielles ne risque-t-il pas de devenir un nouveau goulot d'étranglement ?
Voir l'originalRépondre0
ColdStartUnderTheAurora
· Il y a 7h
Enfin quelqu'un qui prend au sérieux le problème du mur de mémoire des LLM, j'attends la suite du travail.
Voir l'originalRépondre0
HotAirBalloonCrossingMountains
· Il y a 7h
On peut combiner la sensation et l'attention dispersée, une compression double.
Voir l'originalRépondre0
PettyLp
· Il y a 7h
Le positionnement du système de mémoire en ligne est très précis, il comble le vide dans la phase de raisonnement.
Voir l'originalRépondre0
CheckTheBlockchainBefore
· Il y a 7h
Quelle est la compatibilité des méthodes de fine-tuning efficaces en paramètres comme la curiosité et LoRA.
Voir l'originalRépondre0
ProtocolPaladin
· Il y a 7h
Si cette direction devient open source, la communauté pourra expérimenter de nombreuses variantes.
Voir l'originalRépondre0
PerpPessimist
· Il y a 7h
Quel ensemble de test est utilisé pour l'expérimentation ? GLUE ou des tâches de raisonnement plus complexes.
Voir l'originalRépondre0
TokenomicsMechanic
· Il y a 7h
70 % est-ce la limite ou la moyenne ? La différence de performance entre différentes tailles de modèles est-elle importante ?
Voir l'originalRépondre0
Afficher plus
  • Épinglé