Ramp Labs предлагает новое решение для совместного хранения памяти нескольких агентов, при этом потребление токенов снижено до 65%

2026-04-11 20:55:03

Генерация тезисов в процессе

ME News Новости, 11 апреля (UTC+8), компания по инфраструктуре искусственного интеллекта Ramp Labs опубликовала исследование «Latent Briefing», в котором посредством прямого сжатия кеша больших моделей KV достигается эффективное совместное использование памяти между мультиагентными системами, значительно снижая расход токенов без потери точности. В большинстве архитектур мультиагентов организатор (Orchestrator) разбивает задачи и многократно вызывает модели исполнителей (Worker), при этом по мере расширения цепочки рассуждений расход токенов экспоненциально возрастает. Основная идея Latent Briefing заключается в использовании механизма внимания для выявления действительно важных частей контекста, прямо отбрасывая избыточную информацию на уровне представления, а не полагаясь на медленные LLM-сводки или нестабильный RAG-поиск. В бенчмарке LongBench v2 данный метод показал отличные результаты: снижение расхода токенов у моделей исполнителей на 65%, медиана экономии токенов для документов средней длины (от 32k до 100k) достигла 49%, общая точность повысилась примерно на 3 процентных пункта по сравнению с базовой линией, а дополнительное время на каждое сжатие составило всего около 1,7 секунд, что в 20 раз быстрее исходного алгоритма. В экспериментах использовались Claude Sonnet 4 в роли организатора и Qwen3-14B в роли модели исполнителя, охватывая сценарии с академическими статьями, юридическими документами, романами и правительственными отчетами. Исследование также выявило, что оптимальный порог сжатия зависит от сложности задачи и длины документа — сложные задачи лучше подвергать агрессивному сжатию для фильтрации спекулятивных ошибок рассуждений, а длинные документы — более мягкому сжатию для сохранения рассеянной ключевой информации. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков