Ramp Labs пропонує нову схему спільного збереження пам’яті для багатьох агентів, що зменшує споживання токенів до 65%

2026-04-11 12:21:18

Генерація анотацій у процесі

ME Новини повідомляють, 11 квітня (UTC+8), компанія з інфраструктури штучного інтелекту Ramp Labs опублікувала дослідницький звіт «Latent Briefing», у якому описується ефективне спільне використання пам’яті між багатьма агентами шляхом безпосереднього стиснення кешу KV великих моделей, що суттєво знижує споживання токенів без втрати точності. У провідних архітектурах багатьох агентів координатор (Orchestrator) розбиває завдання і багаторазово викликає модель виконавця (Worker), і з розширенням ланцюга обчислень кількість токенів зростає експоненційно. Основна ідея Latent Briefing полягає у використанні механізму уваги для ідентифікації дійсно важливих частин контексту, безпосередньо відкидаючи зайву інформацію на рівні представлення, а не покладаючись на повільне підсумовування великих мовних моделей (LLM) або нестабільний пошук RAG. У тесті LongBench v2 цей метод показав високі результати: споживання токенів моделлю виконавця зменшилось на 65%, медіальне збереження токенів для документів середньої довжини (від 32 тисяч до 100 тисяч) склало 49%, загальна точність підвищилась приблизно на 3 відсоткові пункти порівняно з базовим рівнем, а додатковий час на кожне стиснення склав лише близько 1.7 секунд, що у 20 разів швидше за початковий алгоритм. Експерименти проводилися з використанням Claude Sonnet 4 як координатора та Qwen3-14B як моделі виконавця, охоплюючи сценарії з академічними статтями, юридичними документами, романами та урядовими звітами. Дослідження також виявило, що оптимальний поріг стиснення залежить від складності завдання та довжини документа — складні задачі краще піддаються агресивному стисненню для фільтрації спекулятивного шуму, тоді як довгі документи краще стискати легше, щоб зберегти розсіяні ключові дані. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.