Zhipu выпускает GLM-5.1 Высокоскоростной API, устанавливая мировой рекорд скорости на уровне 400 токенов/с

Согласно мониторингу Dongcha Beating, Zhipu запустила высокоскоростной API GLM-5.1 для избранных корпоративных клиентов, достигая скорости вывода модели 400 токенов/с, установив новый мировой рекорд по скорости полного цикла официальных интерфейсов больших моделей. Эта версия высокой скорости сохраняет возможности оригинальной флагманской модели и работает на высокопроизводительном движке вывода, разработанном совместно Zhipu и командой TileRT. Этот движок полностью перестроил механизм операционного планирования GPU, статически размещая модель в постоянное ядро движка, которое находится на GPU во время этапа компиляции. Во время одноплатного вывода вычисления, асинхронный ввод-вывод и коммуникация все разбиты на микрозадачи уровня плитки, инициирующие ядро только один раз. Промежуточные результаты между операторами передаются напрямую через регистры и разделяемые кэши, устраняя задержки, вызванные частыми запуском ядер и чтением/записью памяти в традиционном выводе. При масштабировании до многоплатной системы TileRT дополнительно расширяет подход параллелизма специализации по топологии NVL из 8 карт, превращая изначально однородные узлы GPU в разнородных работников, отвечающих за разные задачи. В обработке вычислений слоя внимания GLM-5.1 система назначает GPU 0 для работы с разреженным индексом, выделяя его под построение разреженного индекса и маршрутизационные решения, в то время как GPU 1–7 выполняют MLA-работники, отвечающие за вычислительно интенсивные этапы, полностью интегрируя коммуникацию в конвейер задач уровня плитки, достигая глубокого перекрытия между вычислениями и межкарточной связью. Эта высокоскоростная услуга в настоящее время доступна для избранных корпоративных клиентов на платформе Zhipu MaaS. В будущем эта технология дополнительно оптимизирует вывод FP8 и среды производства сверхдлинных контекстов, обеспечивая более предсказуемую производительность для сценариев с низкой задержкой, таких как программирование ИИ, взаимодействие в реальном времени и голосовые системы в реальном времени.
ZHIPU26,55%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено