Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

ME News сообщает, что темная сторона Луны и Tsinghua представили на arXiv Prefill-as-a-Service, который переносит этап предварительного заполнения больших моделей inference через межданные центры. С помощью гибридной модели внимания значительно снижен пропуск KV-кэша, что позволяет передавать кэш по Ethernet и возвращать его для декодирования в локальный кластер. Архитектура PrfaaS строит отдельный кластер предварительного заполнения, маршрутизируя только запросы с длинным контекстом, которые не попали в кэш, а короткие запросы оставляются в локальном PD; также введены маршрутизация по порогу длины и планирование с учетом пропускной способности. В реальных тестах на гибридной модели с 1 трлн параметров пропускная способность увеличилась на 54% по сравнению с однородным PD и на 32% по сравнению с простым гетерогенным подходом.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
ShareYourUSStocksWinNvidia
23.93M Популярность
#
WinGoldBarsWithGrowthPoints
1.28M Популярность
#
IsraelStrikesIranBTCPlunges
52.1K Популярность
#
NvidiaSurges6PercentToRecordHigh
2.87M Популярность
#
AnthropicFilesConfidentialIPO
481.29K Популярность

Закреплено

Карта сайта

Популярные темы

ShareYourUSStocksWinNvidia

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

NvidiaSurges6PercentToRecordHigh

AnthropicFilesConfidentialIPO

Закреплено