Mendukung revolusi memori sumber terbuka di Tiongkok, AI akhirnya memiliki memori jangka panjang tingkat manusia!


Konteks 100 juta Token, model kecil 4B mengalahkan RAG 235B dengan sempurna! EverMind membuka sumber MSA yang membuat geger
Pernahkah Anda berpikir: kapasitas memori manusia seumur hidup sekitar 2-3 miliar Token, sementara GPT dan Claude saat ini paling banter mampu bertahan hingga 200K-1M, lebih dari itu akan crash?
Database vektor yang lebih banyak pun tidak bisa menyelamatkan. Pencarian selalu sebagai plugin, reasoning multi-lompatan langsung lupa; model konteks panjang sekali latihan langsung makan biaya memori yang sangat mahal, inference juga sangat lambat.
EverMind-AI dengan satu pukulan keras, langsung menembus batasan. Mereka membuka sumber MSA (Memory Sparse Attention), sebuah arsitektur memori jangka panjang asli, built-in, dan dapat dilatih end-to-end, yang langsung meningkatkan kapasitas memori LLM hingga 100.000.000 Token, dengan penurunan akurasi yang bahkan kurang dari 9%!
Ini bukan trik konteks panjang palsu lagi, ini adalah revolusi yang langsung menyolder hippocampus ke dalam Transformer.
//
Apa keunggulan MSA? Tiga trik untuk mengalahkan semua pendahulu
1. Perhatian jarang + Document-wise RoPE
RoPE tradisional saat panjang melebihi batas akan terjadi pergeseran posisi, MSA memberikan setiap dokumen reset posisi secara independen, saat latihan 64K sudah bisa tanpa hambatan extrapolate ke 100M. Kompleksitas dari O(n²) menjadi kira-kira O(n), sehingga pelatihan dan inference keduanya berskala linier.
2. Cache KV berlapis + Memory Parallel
Routing key (versi super-kompresi) tetap di GPU, KV lengkap disimpan di memori CPU. Saat inference, hanya top-k dokumen yang diperlukan yang diambil, cukup 2 GPU A800 untuk menjalankan 100M Token! Pengujian resmi: throughput langsung melonjak.
3. Mekanisme Interleave Memori
Bukan lagi pencarian sekali jalan, melainkan model sendiri yang melakukan iterasi berpikir: generate → retrieve → generate lagi → retrieve lagi. Menentukan secara dinamis berapa dokumen yang dibutuhkan, reasoning multi-lompatan (HotpotQA, 2Wiki, dll) langsung hidup kembali, eksperimen ablation menunjukkan menghilangkannya menyebabkan penurunan akurasi hingga 19%+.
Ringkasan singkat: MSA menggabungkan memori dan pemikiran secara total menjadi satu loop tertutup yang dapat didiferensiasi, bukan lagi “cari data dulu lalu jawab”, melainkan berpikir sambil mengingat. Inilah cara memori yang seharusnya dimiliki AGI. Data tidak berbohong: model 4B mengalahkan segalanya.
Resmi menggunakan Qwen3-4B-Instruct sebagai backbone, dibandingkan dengan RAG seukuran, stack RAG top-tier, HippoRAG2, dll:
• Rata-rata skor QA konteks panjang: MSA unggul 16% dari RAG backbone yang sama, 11.5% dari stack RAG terkuat.
• MS MARCO (lebih dari 7 juta Token): MSA 4.141 poin, jauh melampaui seri RAG.
• Dataset reasoning multi-lompatan (HotpotQA, 2Wiki): keunggulannya lebih mencolok.
• NIAH (tumpukan jerami) 1M Token: model tradisional turun ke <25%, MSA tetap >94% akurasi.
• Dari 16K hingga 100M Token sepanjang proses: penurunan akurasi <9%, sedangkan solusi lain sudah jatuh secara drastis.
Lebih gila lagi: sebuah model MSA 4B, performanya melampaui sistem RAG dengan parameter 60 kali lipat. Ini berarti, ke depan Agent tidak lagi membutuhkan model monster 200B+, cukup pasang MSA sudah bisa memiliki memori seumur hidup manusia.
Tim EverMind jelas sudah menjadikan memberi Agent memori pribadi sebagai misi utama, dan MSA adalah hadiah besar pertama yang mereka berikan ke seluruh dunia.
github sumber terbuka:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan