Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

robot
Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск предзаполнения (prefill) для вывода больших моделей за пределами дата-центра. Большие модели для вывода делятся на два этапа: сначала prefill — однократное чтение входных данных и создание кеша KV; затем decode — по этому кешу по символу выводится результат. Требования к аппаратному обеспечению для этих двух этапов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности шины. Основной подход индустрии — разделение двух этапов на разные машины (PD separation), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при медленной передаче GPU простаивает.

Поворот произошёл благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоёв внимания с большим количеством линейных слоёв, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В результате кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создаётся отдельный «кластер предзаполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предзаполнения кеш KV передаётся по Ethernet обратно в локальный кластер для decode. Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов. В статье проведены эксперименты с внутренней моделью hybrid на 1Т параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса выше на 54% по сравнению с однородной PD-разверткой и на 32% — по сравнению с простым гибридным решением, при этом каждое устройство использует умеренную пропускную способность междатацентровой передачи.

(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-57ab9c02
· 3ч назад
Краткий запрос оставить локально очень разумно, чтобы избежать раздувания мелочей
Посмотреть ОригиналОтветить0
Cream-ColoredCross-ChainBridge
· 3ч назад
Простая гетерогенность может быть отставлена на 32%, большая разница в инфраструктуре
Посмотреть ОригиналОтветить0
CandleSitter
· 3ч назад
PD-разделение вышло на новый уровень
Посмотреть ОригиналОтветить0
MidnightReconciler
· 3ч назад
Технологическая отдача в этой волне "Тёмной стороны Луны" может быть хорошей
Посмотреть ОригиналОтветить0
WatercolorGlassBottle
· 4ч назад
Описание планирования с учетом пропускной способности — они действительно прошли через трудности
Посмотреть ОригиналОтветить0
MistValleySignpost
· 4ч назад
Как устроен механизм синхронизации обратной передачи декодирования?
Посмотреть ОригиналОтветить0
SeaSaltMintCandy
· 4ч назад
Чувствуется, что он особенно дружелюбен к сценариям с длинным контекстом
Посмотреть ОригиналОтветить0
  • Закреплено