Apoyando la revolución de memoria de código abierto en China, ¡la IA finalmente tiene memoria a largo plazo a nivel humano!


Contexto de 100 millones de tokens, un pequeño modelo de 4B supera con creces a RAG de 235B ¡EverMind ha abierto el código de MSA y ha revolucionado el campo!
¿Alguna vez has pensado: la capacidad de memoria de un humano en toda su vida es aproximadamente 200-300 millones de tokens, y hoy en día GPT, Claude apenas aguantan hasta 200K-1M, ¿exceder eso hace que se colapsen? No importa cuántos vectores en RAG añadas, no puede salvarlo. La recuperación siempre es un complemento externo, con múltiples saltos de razonamiento se olvida todo; entrenar modelos con contexto largo consume una fortuna en memoria de video, y la inferencia sigue siendo lenta y problemática.
EverMind-AI lanza un golpe directo, rompiendo el techo de cristal. Han abierto el código de MSA (Memory Sparse Attention), una arquitectura de memoria a largo plazo verdaderamente nativa, incorporada y entrenable de extremo a extremo, que lleva la capacidad de memoria de los LLM a 100 millones de tokens, ¡con una pérdida de precisión de menos del 9%!
Esto no es otro truco de contexto largo falso, sino una revolución que fusiona directamente el hipocampo en el Transformer.
//
¿En qué es realmente sobresaliente MSA? Tres trucos que derrotan a todos los predecesores en segundos
1. Atención dispersa + RoPE basado en documentos
El RoPE tradicional sufre desplazamiento de posición en contextos ultra largos, MSA reinicia la cuenta de posición de forma independiente para cada documento, entrenando con 64K y extendiendo sin problemas hasta 100M. La complejidad pasa de O(n²) a aproximadamente O(n), haciendo que el entrenamiento y la inferencia sean linealmente escalables.
2. Caché KV jerárquico comprimido + Memoria paralela
Las claves de enrutamiento (versión ultra comprimida) permanecen en GPU, mientras que los KV completos se almacenan en la memoria CPU. Durante la inferencia, solo se recuperan los documentos necesarios con Top-k, con 2 tarjetas A800 se puede manejar 100M de tokens. Pruebas oficiales: el rendimiento se dispara.
3. Mecanismo de entrelazado de memoria (Memory Interleave)
Ya no se trata solo de recuperar una vez, sino de que el modelo piense de forma iterativa: generar → recuperar → volver a generar → volver a recuperar. Decidir dinámicamente cuántos documentos usar, saltos múltiples en razonamiento (HotpotQA, 2Wiki, etc.) reviven la capacidad, y los experimentos de ablación muestran que eliminarlo reduce la precisión en más del 19%.
Resumen en una frase: MSA fusiona memoria y pensamiento en un ciclo diferenciable, ya no es solo consultar datos y responder, sino pensar y recordar al mismo tiempo. Esa es la verdadera forma de memoria que debe tener la AGI. Los datos no mienten: un modelo de 4B arrasa con todo.
El equipo de EverMind usó Qwen3-4B-Instruct como backbone, comparando con RAG de igual escala, pilas RAG de nivel top, HippoRAG2, etc.:
• Promedio de puntuación en QA con contexto largo: MSA lidera un 16% sobre el mismo backbone RAG, y un 11.5% sobre la pila RAG más potente.
• MS MARCO (más de 70 millones de tokens): MSA obtiene 4.141 puntos, muy por encima de la serie RAG.
• Conjuntos de datos de saltos múltiples (HotpotQA, 2Wiki): ventajas aún más evidentes.
• NIAH (pico en el montón de paja) 1M de tokens: modelos tradicionales caen por debajo del 25%, MSA mantiene más del 94% de precisión.
• De 16K a 100M de tokens en todo el proceso: pérdida de precisión menor al 9%, mientras que otros métodos ya caen en picado.
Aún más sorprendente: un modelo MSA de 4B de parámetros supera en rendimiento a un sistema RAG con 60 veces más parámetros. Esto significa que en el futuro, los agentes ya no necesitarán modelos monstruosos de 200B+; con MSA, podrán tener una memoria cercana a toda una vida humana.
El equipo de EverMind claramente ha hecho que dotar a los agentes de memoria personal sea su misión principal, y MSA es su primer gran regalo para el mundo.
Código abierto en github:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado