Комбинация Tsinghua + Луна Тени довольно интересна, отправить prefill в удалённый дата-центр, наконец, сняты оковы RDMA.

Посмотреть Оригинал
MeNews
Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%
ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Лунная тень (Moonshot AI) и Университет Цинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предварительного заполнения (prefill) для вывода больших моделей через межцентровую связь. Большие модели для вывода делятся на два шага: сначала prefill — однократное чтение входных данных и создание кеша KV; затем decode — последовательное вывод результатов на основе этого кеша. Оборудование, необходимое для двух шагов, полностью различно: prefill требует вычислительных ресурсов, decode — памяти видеокарт и пропускной способности памяти. Основной подход в индустрии — разделение двух шагов на разные машины (PD разделение), но это требует использования RDMA для межцентровой связи, поскольку плотное
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено