Ramp Labs предлагает новое решение для совместного хранения памяти нескольких агентов, при этом потребление токенов снижено до 65%

2026-04-11 12:21:18

Генерация тезисов в процессе

ME News Новости, 11 апреля (UTC+8), компания по инфраструктуре искусственного интеллекта Ramp Labs опубликовала исследование «Latent Briefing», которое реализует эффективное совместное использование памяти между мультиагентными системами через прямое сжатие кеша KV больших моделей, значительно снижая потребление токенов без потери точности. В основных архитектурах мультиагентов организатор (Orchestrator) разбивает задачи и многократно вызывает модели исполнителей (Worker), при этом по мере расширения цепочки рассуждений расход токенов экспоненциально возрастает. Основная идея Latent Briefing заключается в использовании механизма внимания для выявления действительно важных частей контекста и непосредственного удаления избыточной информации на уровне представления, а не полагаться на медленные LLM-сводки или нестабильный RAG-поиск. В бенчмарке LongBench v2 этот метод показал отличные результаты: потребление токенов моделями-исполнителями снизилось на 65%, медианное сбережение токенов для документов средней длины (от 32k до 100k) достигло 49%, общая точность повысилась примерно на 3 процентных пункта по сравнению с базовой линией, а дополнительное время на каждое сжатие составило всего около 1,7 секунды, что в 20 раз быстрее исходного алгоритма. В экспериментах использовались модель Claude Sonnet 4 в роли организатора и Qwen3-14B в роли модели-исполнителя, охватывая сценарии с академическими статьями, юридическими документами, романами и правительственными отчетами. Исследование также выявило, что оптимальный порог сжатия зависит от сложности задачи и длины документа — сложные задачи лучше подвергать радикальному сжатию для фильтрации спекулятивных шумов рассуждений, а длинные документы — более мягкому сжатию для сохранения рассеянной ключевой информации. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .