ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предварительного заполнения (prefill) для вывода больших моделей за пределами дата-центра.
Большие модели для вывода делятся на два этапа: prefill — предварительно считывает входные данные и создает кеш KV; decode — по этому кешу по символам выводит результат.
Для этих двух этапов требуются совершенно разные аппаратные характеристики: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты.
Основной подход в индустрии — разделение этих двух этапов на разные машины (PD разделение), но это требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при замедлении передачи GPU простаивает.
Поворот произошел благодаря новому поколению гибридных моделей внимания.
В эксперименте в статье модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с множеством линейных слоев, снизили пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигнут общий коэффициент сжатия 36 раз.
Теперь кеш KV можно переносить с RDMA выделенной сети на обычную Ethernet-сеть для передачи.
Конкретная реализация PrfaaS: создается отдельный «кластер предварительного заполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предварительного заполнения кеш KV передается по Ethernet обратно в локальный кластер для decode.
Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов.
В статье проведены эксперименты с внутренней моделью hybrid на 1T параметров (на базе архитектуры Kimi Linear), и общая пропускная способность сервиса оказалась на 54% выше при однородной PD-развертке и на 32% выше по сравнению с простым гибридным решением, при этом каждое устройство использует умеренную пропускную способность междатацентровой передачи.
(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков

Награда
7
6
Репост
Поделиться

комментарий

Добавить комментарий

DewdropSapling

· 27м назад

PrfaaS这个名字起的，以后是不是还有Decode-as-a-Service

Посмотреть ОригиналОтветить0

InstantNoodle-LevelResearcher

· 1ч назад

Тяньхуа + Тень Луны, отечественная инфраструктура больших моделей начинает соревноваться в новом направлении

Посмотреть ОригиналОтветить0

LateBlockLarry

· 1ч назад

54% повышение выглядит привлекательно, но на практике при реализации необходимо учитывать изоляцию мультиарендаторских сред и восстановление после сбоев

Посмотреть ОригиналОтветить0

MempoolMaggie

· 1ч назад

Передача KV-кэша по Ethernet, по стоимости пропускной способности, наверное, дороже, чем вычислительная мощность, да?

Посмотреть ОригиналОтветить0

MintLiquidationWarning

· 2ч назад

Только маршрутизация длинного контекста не сработала, короткий запрос остается локально, эта иерархическая стратегия довольно практична.

Посмотреть ОригиналОтветить0

GateUser-2100b43b

· 2ч назад

Гибридная модель внимания снижает пропускную способность кеша KV, эта идея напоминает мне некоторые трюки из ранних распределённых обучений.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.21M Популярность
#
WTICrudeFallsBelow90Dollars
1.53M Популярность
#
IsraelStrikesIranBTCPlunges
51.3K Популярность
#
StockTradingChallengeUpTo17000U
186.79K Популярность
#
USIranNegotiationGame
9.41M Популярность

Закреплено

Карта сайта

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено