ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тяньцзинь 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск предзаполнения (prefill) для вывода больших моделей за пределами дата-центра. Большие модели для вывода делятся на два этапа: сначала prefill — однократное чтение входных данных и создание кеша KV; затем decode — последовательное вывод результатов на основе этого кеша. Требования к аппаратному обеспечению для двух этапов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности шины. Основной подход индустрии — разделение двух этапов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при медленной передаче GPU простаивает.

Поворот произошёл благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоёв внимания с большим количеством линейных слоёв, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В результате кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создаётся отдельный «кластер предзаполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предзаполнения кеш KV передаётся по Ethernet обратно в локальный кластер для decode. Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов. В статье проведены эксперименты с внутренней моделью hybrid на 1T параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса превышает однородное PD-развертывание на 54%, а по сравнению с простым гетерогенным решением — на 32%, при этом каждое устройство использует умеренную пропускную способность между дата-центрами.

(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков

Награда
7
9
2
Поделиться

комментарий

Добавить комментарий

VolatilityOfToastingBread

· 7ч назад

Краткий запрос на локальный PD вполне разумен, в конце концов задержка чувствительна, только длинный контекст стоит возиться.

Посмотреть ОригиналОтветить0

DustCollector

· 8ч назад

Наивное гетерогенное повышение на 32%, однородное PD — на 54%, настройка контрольной группы выполнена довольно основательно

Посмотреть ОригиналОтветить0

Glass-HeartMarketMaker

· 9ч назад

Тяньцзинь + Тёмная сторона Луны, отечественная инфраструктура больших моделей начала конкурировать за первую линию в мире

Посмотреть ОригиналОтветить0

StainedGlassSolarArray

· 9ч назад

Месяц тёмный, эта операция немного интересна, выбросить предварительную заливку, сосредоточиться на декодировании локально, выиграть и по задержке, и по стоимости

Посмотреть ОригиналОтветить0

MirrorBallReflection

· 9ч назад

Гибридная модель внимания — это ядро, а кеш KV можно передавать по сети Ethereum, насколько же эффективна эта компрессия?

Посмотреть ОригиналОтветить0

PineNeedlesAndColdWind

· 9ч назад

Расписание с учетом пропускной способности звучит просто, на практике всё полно подводных камней, а они всё-таки смогли это реализовать

Посмотреть ОригиналОтветить0

GoldfishUnderTheIce

· 9ч назад

Модель с 1 трлн параметров уже протестирована, что говорит о том, что эта архитектура масштабируемая и не является мелким проектом.

Посмотреть ОригиналОтветить0

MarginMoth

· 9ч назад

PrfaaS — это название, которое означает Prefill as a Service, облачные вычисления перенесены на крупномасштабное моделирование для вывода.

Посмотреть ОригиналОтветить0

GateUser-78acf617

· 9ч назад

54% увеличение пропускной способности, эти данные выглядят приятно, гетерогенная архитектура наконец-то перестала быть теорией на бумаге

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.23M Популярность
#
WTICrudeFallsBelow90Dollars
1.19M Популярность
#
IsraelStrikesIranBTCPlunges
51.51K Популярность
#
StockTradingChallengeUpTo17000U
198.25K Популярность
#
USIranNegotiationGame
9.42M Популярность

Закреплено

Карта сайта

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено