Тёмная сторона Луны — этот раз предзаполнение отправили в другую локацию, кеш KV выдержит даже через Ethernet, пропускная способность модели на 1Тб сразу выросла на 54%, асинхронное управление задачами стало понятным

Посмотреть Оригинал
MeNews
Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%
ME News сообщает, что темная сторона Луны и Tsinghua представили на arXiv Prefill-as-a-Service, который переносит этап предварительного заполнения больших моделей inference через межданные центры. С помощью гибридной модели внимания значительно снижен пропуск KV-кэша, что позволяет передавать кэш по Ethernet и возвращать его для декодирования в локальный кластер. Архитектура PrfaaS строит отдельный кластер предварительного заполнения, маршрутизируя только запросы с длинным контекстом, которые не попали в кэш, а короткие запросы оставляются в локальном PD; также введены маршрутизация по порогу длины и планирование с учетом пропускной способности. В реальных тестах на гибридной модели с 1 трлн параметров пропускная способность увеличилась на 54% по сравнению с однородным PD и на 32% по сравнению с простым гетерогенным подходом.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено