Підтримка китайської відкритої революції пам’яті, AI нарешті отримав людський рівень довготривалої пам’яті!


Оточення на 100М токенів, 4B малі моделі беззастережно перемагають 235B RAG! EverMind відкрив MSA, що викликало справжній бум
Чи думали ви коли-небудь: обсяг пам’яті людини за життя приблизно 2-3 мільярди токенів, а сьогодні GPT, Claude ледве тримаються до 200K-1M, і при перевищенні — злітають у помилку? Багато векторних баз даних RAG не врятують. Пошук завжди — сторонній модуль, багаторазове логічне виведення — і все забувається; тренування моделей з довгим контекстом коштує неймовірних ресурсів пам’яті, а під час inference — зависає.
EverMind-AI одним ударом прориває межу, пробиваючи стелю. Вони відкрили MSA (Memory Sparse Attention), справжню нативну, вбудовану, енд-ту-енд треновану архітектуру довготривалої пам’яті, яка прямо піднімає обсяг пам’яті LLM до 100 000 000 токенів, а зниження точності — менше 9%!
Це не ще один трюк із псевдолонгим контекстом, а революційний дизайн, що прямо «паяє» гіпокамп у трансформер.
//
Чому MSA справді крутий? Три прийоми, що за секунду перемагають усіх попередників
1. Рідкісна увага + Document-wise RoPE
Традиційний RoPE при довгих послідовностях починає «зміщувати» позиції, MSA для кожного документа незалежно скидає лічильник позицій, під час тренування 64K безшовно масштабуються до 100М. Складність з O(n²) перетворюється на приблизно O(n), і тренування, і inference — лінійно масштабуються.
2. Кешування KV з багаторівневою компресією + Memory Parallel
Ключі маршрутизації (з надзвичайно стисненим варіантом) постійно на GPU, повний KV зберігається у пам’яті CPU. Під час inference — витягує потрібні документи за Top-k, і 2 карти A800 цілком справляються з 100М токенів! Офіційні тести показують: пропускна здатність злітає.
3. Механізм Memory Interleave — переплетення пам’яті
Більше не один раз пошук, а модель сама ітерує думки: генерує → шукає → знову генерує → знову шукає. Динамічно визначає, скільки документів потрібно, багаторазове логічне виведення (HotpotQA, 2Wiki тощо) оживає, експерименти показують, що без нього точність падає більш ніж на 19%.
Коротко: MSA повністю об’єднує пам’ять і мислення у диференційований зворотній зв’язок, більше не «спершу шукаю — потім відповідаю», а одночасно думаю і згадую. Це справжній спосіб пам’яті для AGI. Дані не обманюють: 4B модель руйнує все.
Офіційно використовують Qwen3-4B-Instruct як базу, порівнюючи з RAG тієї ж масштабності, топовими RAG-стеками, HippoRAG2 тощо:
• Середній бал QA з довгим контекстом: MSA на 16% випереджає той самий базовий RAG, на 11.5% — найсильніший RAG стек.
• MS MARCO (більше 7 мільйонів токенів): MSA — 4.141 бали, значно вище RAG.
• Багатократне логічне виведення (HotpotQA, 2Wiki): перевага ще більш виражена.
• NIAH (голка у стозі сіна) 1М токенів: традиційні моделі падають до <25%, MSA зберігає >94% точності.
• Весь шлях від 16K до 100М токенів: точність зменшується менше ніж на 9%, тоді як інші рішення давно зазнали різкого падіння.
Ще більш вражаюче: модель MSA на 4B показує результати, що перевищують системи RAG із параметрами у 60 разів більше. Це означає, що у майбутньому агентам не потрібні монстри з 200B+ параметрів — достатньо MSA, щоб мати пам’ять, близьку до людського життя.
Команда EverMind очевидно вже зробила основною місією надати агентам особисту пам’ять, і MSA — це їхній перший великий подарунок світу.
github відкритий:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити