ME News Actualités, le 16 mai (UTC+8), des chercheurs ont proposé Δ-Mem, un système de mémoire en ligne efficace conçu spécifiquement pour les grands modèles de langage. Ce système réduit considérablement l'utilisation de la mémoire en ne stockant et en mettant à jour que les changements incrémentiels dans l'activation du modèle, plutôt que l'état complet de l'activation. Les expériences montrent que Δ-Mem peut réduire l'utilisation de la mémoire jusqu'à 70 %, tout en maintenant la qualité de sortie du modèle pratiquement inchangée. Cette méthode contribue à déployer et exécuter des modèles de langage à grande échelle dans des environnements à ressources limitées, améliorant leur faisabilité dans les scénarios d'inférence en ligne et d'apprentissage continu. (Source : AiHot)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

12 J'aime

Récompense
12
10
2
Partager

Commentaire

Ajouter un commentaire

DeltaSmile

· Il y a 1h

La qualité de sortie sans perte est la plus importante, de nombreux schémas de compression sacrifient trop de précision.

Voir l'originalRépondre0

PickingUpAirdropsInTheFog

· Il y a 7h

L'amélioration de la capacité d'apprentissage continu est sous-estimée, elle est très importante pour les modèles personnalisés.

Voir l'originalRépondre0

InvisibleMarketMaker

· Il y a 7h

Une réduction de 70 % de la mémoire est effectivement impressionnante, mais dans un scénario en ligne, le coût de calcul pour les mises à jour incrémentielles ne risque-t-il pas de devenir un nouveau goulot d'étranglement ?

Voir l'originalRépondre0

ColdStartUnderTheAurora

· Il y a 7h

Enfin quelqu'un qui prend au sérieux le problème du mur de mémoire des LLM, j'attends la suite du travail.

Voir l'originalRépondre0

HotAirBalloonCrossingMountains

· Il y a 7h

On peut combiner la sensation et l'attention dispersée, une compression double.

Voir l'originalRépondre0

PettyLp

· Il y a 7h

Le positionnement du système de mémoire en ligne est très précis, il comble le vide dans la phase de raisonnement.

Voir l'originalRépondre0

CheckTheBlockchainBefore

· Il y a 7h

Quelle est la compatibilité des méthodes de fine-tuning efficaces en paramètres comme la curiosité et LoRA.

Voir l'originalRépondre0

ProtocolPaladin

· Il y a 7h

Si cette direction devient open source, la communauté pourra expérimenter de nombreuses variantes.

Voir l'originalRépondre0

PerpPessimist

· Il y a 7h

Quel ensemble de test est utilisé pour l'expérimentation ? GLUE ou des tâches de raisonnement plus complexes.

Voir l'originalRépondre0

TokenomicsMechanic

· Il y a 7h

70 % est-ce la limite ou la moyenne ? La différence de performance entre différentes tailles de modèles est-elle importante ?

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
IntroducingGateStocks
20.83K Popularité
#
WinGoldBarsWithGrowthPoints
1.26M Popularité
#
IsraelStrikesIranBTCPlunges
51.69K Popularité
#
ArthurHayesSeesHYPEOvertakingSOL
18.18M Popularité
#
USIranNegotiationGame
9.57M Popularité

Épinglé

Δ-Mem : Mémoire en ligne efficace pour les grands modèles de langage

Sujets populaires

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

ArthurHayesSeesHYPEOvertakingSOL

USIranNegotiationGame

Épinglé