ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск предзаполнения (prefill) для вывода больших моделей за пределами дата-центра. Большие модели для вывода делятся на два этапа: сначала prefill — однократное чтение входных данных и создание кеша KV; затем decode — по этому кешу по символу выводится результат. Требования к аппаратному обеспечению для этих двух этапов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности шины. Основной подход индустрии — разделение двух этапов на разные машины (PD separation), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при медленной передаче GPU простаивает.

Поворот произошёл благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоёв внимания с большим количеством линейных слоёв, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В результате кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создаётся отдельный «кластер предзаполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предзаполнения кеш KV передаётся по Ethernet обратно в локальный кластер для decode. Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов. В статье проведены эксперименты с внутренней моделью hybrid на 1Т параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса выше на 54% по сравнению с однородной PD-разверткой и на 32% — по сравнению с простым гибридным решением, при этом каждое устройство использует умеренную пропускную способность междатацентровой передачи.

(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

13 Лайков

Награда
13
7
1
Поделиться

комментарий

Добавить комментарий

GateUser-57ab9c02

· 3ч назад

Краткий запрос оставить локально очень разумно, чтобы избежать раздувания мелочей

Посмотреть ОригиналОтветить0

Cream-ColoredCross-ChainBridge

· 3ч назад

Простая гетерогенность может быть отставлена на 32%, большая разница в инфраструктуре

Посмотреть ОригиналОтветить0

CandleSitter

· 3ч назад

PD-разделение вышло на новый уровень

Посмотреть ОригиналОтветить0

MidnightReconciler

· 3ч назад

Технологическая отдача в этой волне "Тёмной стороны Луны" может быть хорошей

Посмотреть ОригиналОтветить0

WatercolorGlassBottle

· 4ч назад

Описание планирования с учетом пропускной способности — они действительно прошли через трудности

Посмотреть ОригиналОтветить0

MistValleySignpost

· 4ч назад

Как устроен механизм синхронизации обратной передачи декодирования?

Посмотреть ОригиналОтветить0

SeaSaltMintCandy

· 4ч назад

Чувствуется, что он особенно дружелюбен к сценариям с длинным контекстом

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.22M Популярность
#
WTICrudeFallsBelow90Dollars
1.18M Популярность
#
IsraelStrikesIranBTCPlunges
51.36K Популярность
#
StockTradingChallengeUpTo17000U
187.69K Популярность
#
USIranNegotiationGame
9.41M Популярность

Закреплено

Карта сайта

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено