Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

robot
Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предзаполнения (prefill) для вывода больших моделей в跨данных центрах. Большие модели для вывода делятся на два шага: prefill — однократное чтение входных данных и создание кеша KV; decode — последовательное вывод результатов на основе этого кеша. Требования к аппаратному обеспечению для двух шагов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты. Основной подход индустрии — разделение двух шагов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием передает десятки Гбит/с в секунду, и при медленной передаче GPU простаивает.

Поворот произошел благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с большим количеством линейных слоев, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В этом случае кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создание отдельного «кластера предзаполнения», который маршрутизирует только запросы с длинным контекстом и непопавшие префиксы, оставляя короткие запросы в локальном PD-кластере; после завершения предзаполнения кеш KV передается по Ethernet обратно в локальный кластер для decode. Внедряются пороговые значения длины, маршрутизация с учетом пропускной способности и гибридный пул кешей префиксов. В статье проведены экспериментальные тесты с внутренней моделью hybrid на 1 Т параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса выше на 54% по сравнению с однородным PD-развертыванием и на 32% — по сравнению с простым гибридным方案, при этом каждое устройство использует умеренную пропускную способность междоменного соединения.

(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 10
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
LiquidationRaincoat
· 3ч назад
Тёмная сторона Луны в этот раз вынесла предзаполнение в облако, идея довольно смелая
Посмотреть ОригиналОтветить0
SushiAndSlugs
· 8ч назад
54% увеличение пропускной способности, эта цифра выглядит привлекательно, но как обеспечить низкую задержку при межцентровом соединении?
Посмотреть ОригиналОтветить0
SlippageSailor
· 13ч назад
PrfaaS这个名字,产品经理是懂起名的
Посмотреть ОригиналОтветить0
ExitLiquidityPoet
· 16ч назад
Длинный контекст не попал — обращайтесь к удалённому, короткий запрос обрабатывается локально, эта маршрутизация очень тонкая.
Посмотреть ОригиналОтветить0
MetalReliefRoboticArm
· 17ч назад
Однородный PD против неоднородного против PrfaaS, этот сравнительный эксперимент спроектирован довольно аккуратно
Посмотреть ОригиналОтветить0
StopMessingAroundWithGasFees.
· 17ч назад
1T параметрическая модель в реальных тестах, смелость запускать такую большую модель, достаточно уверенности
Посмотреть ОригиналОтветить0
GateUser-4590f4c6
· 17ч назад
Превращать предварительную настройку в услугу — а не появится ли в будущем предварительная настройка «подключи и используй»?
Посмотреть ОригиналОтветить0
MoonlightDisconnectSwitch
· 18ч назад
Посмотрев всю статью, больше всего интересно, какой допустимый уровень потерь пакетов при реальном развертывании.
Посмотреть ОригиналОтветить0
GlassDomeRoaming
· 18ч назад
Прецизионное управление пропускной способностью, по сути, это искать выход из ситуации, когда ресурсы ограничены, и при дорогой сети нужно тщательно планировать расходы
Посмотреть ОригиналОтветить0
GlassFishTankArbitrage
· 18ч назад
Ethernet передает KV-кэш, раньше думал, что это безумие, а теперь это стало темой научной статьи
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено