Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%

robot
Генерация тезисов в процессе
ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск предзаполнения (prefill) для вывода больших моделей в межцентровых данных.
Большие модели для вывода делятся на два этапа: prefill — предварительное чтение входных данных и создание кеша KV; decode — последовательный вывод результата на основе этого кеша.
Требуемые аппаратные характеристики для двух этапов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности шины.
Основной подход индустрии — разделение двух этапов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при медленной передаче GPU простаивает.
Поворотный момент связан с новым поколением гибридных моделей внимания.
В эксперименте в статье модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоёв внимания с большим количеством линейных слоёв, снизили пропускную способность кеша KV примерно в десять раз, а общий коэффициент сжатия Ring-2.5-1T достиг 36 раз.
Теперь кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.
Конкретная реализация PrfaaS: создание отдельного «кластера предзаполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предзаполнения кеш KV передается по Ethernet обратно в локальный кластер для decode.
Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов.
В статье использовалась внутренняя модель hybrid с 1T параметров (на базе архитектуры Kimi Linear), проведена серия экспериментов, показывающих, что общая пропускная способность сервиса на 54% выше, чем при однородной PD-развертке, и на 32% выше, чем при простом гетерогенном решении, при этом каждое устройство использует умеренную межцентровую пропускную способность.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 10
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
RocksUnderTheAurora
· 2ч назад
Тяньцзинь + Тёмная сторона Луны, отечественная крупная модель инфраструктуры вышла на международные конференции
Посмотреть ОригиналОтветить0
YieldNotYell
· 6ч назад
Дизайн маршрутизации с порогом длины очень тонкий, разделение коротких и длинных запросов для обработки — это правильная оптимизация.
Посмотреть ОригиналОтветить0
CircuitDaydreamer
· 9ч назад
Подробное изучение статьи о модели с смешанным вниманием, снижающей пропускную способность кэша KV, технические детали и прочее
Посмотреть ОригиналОтветить0
AirdropCartographer
· 10ч назад
Увеличение на 54% действительно заманчиво, но при использовании Ethernet между дата-центрами как справляться с джитчем?
Посмотреть ОригиналОтветить0
DeepSeaColdStart
· 10ч назад
Только маршрутизированные запросы не попали, и коэффициент попадания в кэш стал ключевым узким местом
Посмотреть ОригиналОтветить0
UnderTheGlassDome
· 11ч назад
Однородный PD vs неоднородный PD vs PrfaaS, эта сравнительная характеристика сделана довольно умно
Посмотреть ОригиналОтветить0
BluePeonyCalmingAgent
· 11ч назад
1T параметрическая модель тестируется, аппаратные расходы страшно представить
Посмотреть ОригиналОтветить0
GateUser-fb035825
· 11ч назад
Предварительно заполненный кластер развернут независимо, сложность эксплуатации увеличилась, стоит ли это того?
Посмотреть ОригиналОтветить0
IdleFishDaoMember
· 11ч назад
Обеспечение пропускной способности при планировании кажется простым, но на практике реализация, вероятно, столкнется с множеством проблем.
Посмотреть ОригиналОтветить0
GateUser-aa277334
· 11ч назад
Эта идея интересна: отправлять предварительную подстановку на сервер, а локально сосредоточиться на декодировании, сможет ли задержка выдержать?
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено