Soutenir la révolution de la mémoire open source en Chine, l'IA possède enfin une mémoire à long terme de niveau humain !


Contextes de 100 millions de tokens, le petit modèle de 4 milliards surpasse le RAG de 235 milliards ! EverMind a fait exploser l'open source MSA.
Vous êtes-vous déjà demandé : la capacité de mémoire d'une vie humaine est d'environ 200 à 300 millions de tokens, et aujourd'hui GPT, Claude tiennent à peine jusqu'à 200K-1M, au-delà ils plantent ? Même avec plus de bases de données vectorielles en pile, le RAG ne peut rien y faire. La recherche est toujours une extension, une inférence multi-sauts oublie tout dès qu'elle se coupe ; entraîner un modèle à long contexte consomme des GPU hors de prix, et l'inférence est un cauchemar.
EverMind-AI frappe fort, brisant directement le plafond. Ils ont open source MSA (Memory Sparse Attention), une architecture de mémoire à long terme véritablement native, intégrée, et entraînable en end-to-end, portant la capacité de mémoire des LLM à 100 millions de tokens, avec une dégradation de précision inférieure à 9 % !
Ce n’est pas un simple truc de contexte long artificiel, c’est une révolution qui intègre directement l’hippocampe dans le Transformer.
//
Pourquoi MSA est-il si puissant ? Trois techniques pour surpasser tous les prédécesseurs
1. Attention sparse + Document-wise RoPE
Le RoPE traditionnel dérive dès que le contexte devient très long, MSA réinitialise indépendamment le comptage de position pour chaque document, permettant de passer de 64K à 100M sans couture lors de l’entraînement. La complexité passe de O(n²) à environ O(n), rendant l’entraînement et l’inférence linéairement évolutifs.
2. Compression hiérarchique du cache KV + Memory Parallel
Les clés routées (version ultra-compressée) résident en permanence sur GPU, les KV complets sont stockés dans la mémoire CPU. Lors de l’inférence, seules les documents nécessaires sont récupérés via Top-k, avec deux A800 capables de traiter 100M de tokens ! Tests officiels : le débit explose.
3. Mécanisme Memory Interleave (interconnexion de mémoire)
Ce n’est plus une recherche unique, mais un processus où le modèle réfléchit en boucle : générer → rechercher → générer à nouveau → rechercher encore. La décision dynamique du nombre de documents, la capacité de multi-saut (HotpotQA, 2Wiki, etc.) redonnent vie à ces tâches, et les expériences d’ablation montrent qu’en l’enlevant, la précision chute de plus de 19 %.
En résumé : MSA fusionne mémoire et réflexion en un boucle différentiable, ce n’est plus « chercher des infos puis répondre », mais « réfléchir tout en se rappelant ». C’est la véritable façon dont une AGI doit avoir une mémoire. Les données ne mentent pas : un modèle de 4 milliards de paramètres bat tout.
L’équipe d’EverMind utilise Qwen3-4B-Instruct comme backbone, et compare avec des RAG de même taille, des stacks RAG de haut niveau, HippoRAG2, etc. :
• Score moyen en QA à contexte long : MSA devance le RAG avec le même backbone de 16 %, et le stack RAG le plus puissant de 11,5 %.
• MS MARCO (plus de 70 millions de tokens) : MSA 4,141 points, bien au-dessus de la série RAG.
• Dataset multi-sauts (HotpotQA, 2Wiki) : avantage encore plus marqué.
• NIAH (pointe dans la botte) 1M de tokens : les modèles traditionnels chutent à moins de 25 %, MSA maintient >94 % de précision.
• De 16K à 100M tokens en tout : dégradation de précision <9 %, alors que d’autres solutions ont déjà chuté brutalement.
Plus incroyable encore : un modèle MSA de 4 milliards de paramètres dépasse en performance un système RAG avec 60 fois plus de paramètres. Cela signifie que, à l’avenir, les agents n’auront plus besoin de modèles monstrueux de 200 milliards+ ; avec MSA, ils auront une mémoire proche de celle d’une vie humaine.
L’équipe d’EverMind a clairement fait de donner une mémoire personnelle à l’agent leur mission principale, et MSA est leur premier grand cadeau au monde.
Open source sur GitHub :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler