ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предзаполнения (prefill) для вывода больших моделей в跨данных центрах. Большие модели для вывода делятся на два шага: prefill — однократное чтение входных данных и создание кеша KV; decode — последовательное вывод результатов на основе этого кеша. Требования к аппаратному обеспечению для двух шагов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты. Основной подход индустрии — разделение двух шагов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием передает десятки Гбит/с в секунду, и при медленной передаче GPU простаивает.

Поворот произошел благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с большим количеством линейных слоев, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В этом случае кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создание отдельного «кластера предзаполнения», который маршрутизирует только запросы с длинным контекстом и непопавшие префиксы, оставляя короткие запросы в локальном PD-кластере; после завершения предзаполнения кеш KV передается по Ethernet обратно в локальный кластер для decode. Внедряются пороговые значения длины, маршрутизация с учетом пропускной способности и гибридный пул кешей префиксов. В статье проведены экспериментальные тесты с внутренней моделью hybrid на 1 Т параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса выше на 54% по сравнению с однородным PD-развертыванием и на 32% — по сравнению с простым гибридным方案, при этом каждое устройство использует умеренную пропускную способность междоменного соединения.

(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

11 Лайков

Награда
11
10
2
Поделиться

комментарий

Добавить комментарий

LiquidationRaincoat

· 3ч назад

Тёмная сторона Луны в этот раз вынесла предзаполнение в облако, идея довольно смелая

Посмотреть ОригиналОтветить0

SushiAndSlugs

· 8ч назад

54% увеличение пропускной способности, эта цифра выглядит привлекательно, но как обеспечить низкую задержку при межцентровом соединении?

Посмотреть ОригиналОтветить0

SlippageSailor

· 13ч назад

PrfaaS这个名字，产品经理是懂起名的

Посмотреть ОригиналОтветить0

ExitLiquidityPoet

· 16ч назад

Длинный контекст не попал — обращайтесь к удалённому, короткий запрос обрабатывается локально, эта маршрутизация очень тонкая.

Посмотреть ОригиналОтветить0

MetalReliefRoboticArm

· 17ч назад

Однородный PD против неоднородного против PrfaaS, этот сравнительный эксперимент спроектирован довольно аккуратно

Посмотреть ОригиналОтветить0

StopMessingAroundWithGasFees.

· 17ч назад

1T параметрическая модель в реальных тестах, смелость запускать такую большую модель, достаточно уверенности

Посмотреть ОригиналОтветить0

GateUser-4590f4c6

· 17ч назад

Превращать предварительную настройку в услугу — а не появится ли в будущем предварительная настройка «подключи и используй»?

Посмотреть ОригиналОтветить0

MoonlightDisconnectSwitch

· 18ч назад

Посмотрев всю статью, больше всего интересно, какой допустимый уровень потерь пакетов при реальном развертывании.

Посмотреть ОригиналОтветить0

GlassDomeRoaming

· 18ч назад

Прецизионное управление пропускной способностью, по сути, это искать выход из ситуации, когда ресурсы ограничены, и при дорогой сети нужно тщательно планировать расходы

Посмотреть ОригиналОтветить0

GlassFishTankArbitrage

· 18ч назад

Ethernet передает KV-кэш, раньше думал, что это безумие, а теперь это стало темой научной статьи

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.23M Популярность
#
WTICrudeFallsBelow90Dollars
1.57M Популярность
#
IsraelStrikesIranBTCPlunges
51.65K Популярность
#
StockTradingChallengeUpTo17000U
212.44K Популярность
#
USIranNegotiationGame
9.36M Популярность

Закреплено

Карта сайта

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено