Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

robot
Генерация тезисов в процессе

ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тяньцзинь 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск предзаполнения (prefill) для вывода больших моделей за пределами дата-центра. Большие модели для вывода делятся на два этапа: сначала prefill — однократное чтение входных данных и создание кеша KV; затем decode — последовательное вывод результатов на основе этого кеша. Требования к аппаратному обеспечению для двух этапов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности шины. Основной подход индустрии — разделение двух этапов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при медленной передаче GPU простаивает.

Поворот произошёл благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоёв внимания с большим количеством линейных слоёв, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В результате кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.

Конкретная реализация PrfaaS: создаётся отдельный «кластер предзаполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предзаполнения кеш KV передаётся по Ethernet обратно в локальный кластер для decode. Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов. В статье проведены эксперименты с внутренней моделью hybrid на 1T параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса превышает однородное PD-развертывание на 54%, а по сравнению с простым гетерогенным решением — на 32%, при этом каждое устройство использует умеренную пропускную способность между дата-центрами.

(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
VolatilityOfToastingBread
· 7ч назад
Краткий запрос на локальный PD вполне разумен, в конце концов задержка чувствительна, только длинный контекст стоит возиться.
Посмотреть ОригиналОтветить0
DustCollector
· 8ч назад
Наивное гетерогенное повышение на 32%, однородное PD — на 54%, настройка контрольной группы выполнена довольно основательно
Посмотреть ОригиналОтветить0
Glass-HeartMarketMaker
· 9ч назад
Тяньцзинь + Тёмная сторона Луны, отечественная инфраструктура больших моделей начала конкурировать за первую линию в мире
Посмотреть ОригиналОтветить0
StainedGlassSolarArray
· 9ч назад
Месяц тёмный, эта операция немного интересна, выбросить предварительную заливку, сосредоточиться на декодировании локально, выиграть и по задержке, и по стоимости
Посмотреть ОригиналОтветить0
MirrorBallReflection
· 9ч назад
Гибридная модель внимания — это ядро, а кеш KV можно передавать по сети Ethereum, насколько же эффективна эта компрессия?
Посмотреть ОригиналОтветить0
PineNeedlesAndColdWind
· 9ч назад
Расписание с учетом пропускной способности звучит просто, на практике всё полно подводных камней, а они всё-таки смогли это реализовать
Посмотреть ОригиналОтветить0
GoldfishUnderTheIce
· 9ч назад
Модель с 1 трлн параметров уже протестирована, что говорит о том, что эта архитектура масштабируемая и не является мелким проектом.
Посмотреть ОригиналОтветить0
MarginMoth
· 9ч назад
PrfaaS — это название, которое означает Prefill as a Service, облачные вычисления перенесены на крупномасштабное моделирование для вывода.
Посмотреть ОригиналОтветить0
GateUser-78acf617
· 9ч назад
54% увеличение пропускной способности, эти данные выглядят приятно, гетерогенная архитектура наконец-то перестала быть теорией на бумаге
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено