ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск предзаполнения (prefill) для вывода больших моделей в межцентровых данных.
Большие модели для вывода делятся на два этапа: prefill — предварительное чтение входных данных и создание кеша KV; decode — последовательный вывод результата на основе этого кеша.
Требуемые аппаратные характеристики для двух этапов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности шины.
Основной подход индустрии — разделение двух этапов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при медленной передаче GPU простаивает.
Поворотный момент связан с новым поколением гибридных моделей внимания.
В эксперименте в статье модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоёв внимания с большим количеством линейных слоёв, снизили пропускную способность кеша KV примерно в десять раз, а общий коэффициент сжатия Ring-2.5-1T достиг 36 раз.
Теперь кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.
Конкретная реализация PrfaaS: создание отдельного «кластера предзаполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предзаполнения кеш KV передается по Ethernet обратно в локальный кластер для decode.
Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов.
В статье использовалась внутренняя модель hybrid с 1T параметров (на базе архитектуры Kimi Linear), проведена серия экспериментов, показывающих, что общая пропускная способность сервиса на 54% выше, чем при однородной PD-развертке, и на 32% выше, чем при простом гетерогенном решении, при этом каждое устройство использует умеренную межцентровую пропускную способность.
(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
10
2
Поделиться

комментарий

Добавить комментарий

RocksUnderTheAurora

· 2ч назад

Тяньцзинь + Тёмная сторона Луны, отечественная крупная модель инфраструктуры вышла на международные конференции

Посмотреть ОригиналОтветить0

YieldNotYell

· 6ч назад

Дизайн маршрутизации с порогом длины очень тонкий, разделение коротких и длинных запросов для обработки — это правильная оптимизация.

Посмотреть ОригиналОтветить0

CircuitDaydreamer

· 9ч назад

Подробное изучение статьи о модели с смешанным вниманием, снижающей пропускную способность кэша KV, технические детали и прочее

Посмотреть ОригиналОтветить0

AirdropCartographer

· 10ч назад

Увеличение на 54% действительно заманчиво, но при использовании Ethernet между дата-центрами как справляться с джитчем?

Посмотреть ОригиналОтветить0

DeepSeaColdStart

· 10ч назад

Только маршрутизированные запросы не попали, и коэффициент попадания в кэш стал ключевым узким местом

Посмотреть ОригиналОтветить0

UnderTheGlassDome

· 11ч назад

Однородный PD vs неоднородный PD vs PrfaaS, эта сравнительная характеристика сделана довольно умно

Посмотреть ОригиналОтветить0

BluePeonyCalmingAgent

· 11ч назад

1T параметрическая модель тестируется, аппаратные расходы страшно представить

Посмотреть ОригиналОтветить0

GateUser-fb035825

· 11ч назад

Предварительно заполненный кластер развернут независимо, сложность эксплуатации увеличилась, стоит ли это того?

Посмотреть ОригиналОтветить0

IdleFishDaoMember

· 11ч назад

Обеспечение пропускной способности при планировании кажется простым, но на практике реализация, вероятно, столкнется с множеством проблем.

Посмотреть ОригиналОтветить0

GateUser-aa277334

· 11ч назад

Эта идея интересна: отправлять предварительную подстановку на сервер, а локально сосредоточиться на декодировании, сможет ли задержка выдержать?

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.21M Популярность
#
WTICrudeFallsBelow90Dollars
1.17M Популярность
#
IsraelStrikesIranBTCPlunges
51.3K Популярность
#
StockTradingChallengeUpTo17000U
184.43K Популярность
#
USIranNegotiationGame
9.41M Популярность

Закреплено

Карта сайта

Популярные темы

WinGoldBarsWithGrowthPoints

WTICrudeFallsBelow90Dollars

IsraelStrikesIranBTCPlunges

StockTradingChallengeUpTo17000U

USIranNegotiationGame

Закреплено