Ramp Labs mengusulkan solusi berbagi memori multi-agen baru, konsumsi Token paling tinggi berkurang hingga 65%

2026-04-12 00:17:18

Pembuatan abstrak sedang berlangsung

ME News Berita, 11 April (UTC+8), perusahaan infrastruktur AI Ramp Labs merilis hasil penelitian “Latent Briefing”, yang melakukan kompresi langsung cache KV model besar untuk sistem multi-agen yang efisien dalam berbagi memori, secara signifikan mengurangi konsumsi Token tanpa mengorbankan akurasi. Dalam arsitektur multi-agen utama, pengatur (Orchestrator) memecah tugas dan berulang kali memanggil model pekerja (Worker), seiring bertambahnya rantai inferensi, penggunaan Token meningkat secara eksponensial. Ide inti dari Latent Briefing adalah: memanfaatkan mekanisme perhatian untuk mengidentifikasi bagian yang benar-benar penting dalam konteks, langsung membuang informasi redundan di tingkat representasi, bukan bergantung pada ringkasan LLM yang lambat atau pencarian RAG yang kurang stabil. Dalam pengujian benchmark LongBench v2, metode ini menunjukkan performa yang mengesankan: konsumsi Token model Worker berkurang 65%, penghematan Token untuk dokumen berukuran sedang (32k hingga 100k) median mencapai 49%, akurasi keseluruhan meningkat sekitar 3 poin persentase dibandingkan baseline, dan waktu tambahan untuk setiap kompresi hanya sekitar 1,7 detik, mempercepat sekitar 20 kali lipat dibanding algoritma asli. Eksperimen dilakukan dengan Claude Sonnet 4 sebagai pengatur, Qwen3-14B sebagai model pekerja, mencakup berbagai skenario dokumen seperti makalah akademik, dokumen hukum, novel, dan laporan pemerintah. Penelitian juga menemukan bahwa ambang kompresi optimal bervariasi tergantung pada tingkat kesulitan tugas dan panjang dokumen—tantangan yang lebih sulit cocok untuk kompresi agresif untuk menyaring noise inferensi spekulatif, sedangkan dokumen panjang lebih cocok untuk kompresi ringan agar informasi penting yang tersebar tetap terjaga. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka