Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

robot
Генерация тезисов в процессе
ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предварительного заполнения (prefill) для вывода больших моделей за пределами дата-центра.
Большие модели для вывода делятся на два этапа: prefill — предварительно считывает входные данные и создает кеш KV; decode — по этому кешу по символам выводит результат.
Для этих двух этапов требуются совершенно разные аппаратные характеристики: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты.
Основной подход в индустрии — разделение этих двух этапов на разные машины (PD разделение), но это требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при замедлении передачи GPU простаивает.
Поворот произошел благодаря новому поколению гибридных моделей внимания.
В эксперименте в статье модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с множеством линейных слоев, снизили пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигнут общий коэффициент сжатия 36 раз.
Теперь кеш KV можно переносить с RDMA выделенной сети на обычную Ethernet-сеть для передачи.
Конкретная реализация PrfaaS: создается отдельный «кластер предварительного заполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предварительного заполнения кеш KV передается по Ethernet обратно в локальный кластер для decode.
Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов.
В статье проведены эксперименты с внутренней моделью hybrid на 1T параметров (на базе архитектуры Kimi Linear), и общая пропускная способность сервиса оказалась на 54% выше при однородной PD-развертке и на 32% выше по сравнению с простым гибридным решением, при этом каждое устройство использует умеренную пропускную способность междатацентровой передачи.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
DewdropSapling
· 27м назад
PrfaaS这个名字起的,以后是不是还有Decode-as-a-Service
Посмотреть ОригиналОтветить0
InstantNoodle-LevelResearcher
· 1ч назад
Тяньхуа + Тень Луны, отечественная инфраструктура больших моделей начинает соревноваться в новом направлении
Посмотреть ОригиналОтветить0
LateBlockLarry
· 1ч назад
54% повышение выглядит привлекательно, но на практике при реализации необходимо учитывать изоляцию мультиарендаторских сред и восстановление после сбоев
Посмотреть ОригиналОтветить0
MempoolMaggie
· 1ч назад
Передача KV-кэша по Ethernet, по стоимости пропускной способности, наверное, дороже, чем вычислительная мощность, да?
Посмотреть ОригиналОтветить0
MintLiquidationWarning
· 2ч назад
Только маршрутизация длинного контекста не сработала, короткий запрос остается локально, эта иерархическая стратегия довольно практична.
Посмотреть ОригиналОтветить0
GateUser-2100b43b
· 2ч назад
Гибридная модель внимания снижает пропускную способность кеша KV, эта идея напоминает мне некоторые трюки из ранних распределённых обучений.
Посмотреть ОригиналОтветить0
  • Закреплено