Zhipu випускає GLM-5.1 високошвидкісний API, встановлюючи світовий рекорд швидкості на рівні 400 токенів/с

Згідно з моніторингом Dongcha Beating, Zhipu запустила високошвидкісний API GLM-5.1 для обраних корпоративних клієнтів, досягнувши швидкості виводу моделі 400 токенів/с, встановивши новий світовий рекорд за швидкістю кінцевої до кінця межі офіційних інтерфейсів великих моделей. Ця високошвидкісна версія зберігає можливості оригінальної флагманської моделі та працює на високопродуктивному інференційному движку, розробленому спільно Zhipu та командою TileRT. Цей движок повністю перебудував механізм операційного планування GPU, статично розміщуючи модель у постійному ядрі двигуна, яке знаходиться на GPU під час етапу компіляції. Під час інференсу на одній карті обчислення, асинхронне введення-виведення та комунікація розділяються на мік-завдання рівня плитки, ініціюючи ядро лише один раз. Проміжні результати між операторами безпосередньо передаються через регістри та спільні кеші, усуваючи затримки, спричинені частими запуском ядер та читанням/записом у пам’ять у традиційному інференсі. При масштабуванні до багатокарткової системи TileRT додатково розширює підхід до паралелізму спеціалізації через топологію NVL з 8 карт, перетворюючи спочатку однорідні вузли GPU у гетерогенні робочі станції, відповідальні за різні завдання. У обробці обчислень шару уваги GLM-5.1 система призначає GPU 0 для запуску робочого процесора розрідженого індексу, відповідального за побудову розрідженого індексу та прийняття рішень щодо маршрутизації, тоді як GPU 1-7 виконують MLA-робочі процесори, відповідальні за обчислювально інтенсивні етапи, повністю інтегруючи комунікацію у конвеєр рівня плитки, досягаючи глибокого перекриття між обчисленнями та міжкартковою комунікацією. Ця високошвидкісна послуга наразі доступна для обраних корпоративних клієнтів на платформі Zhipu MaaS. У майбутньому ця технологія додатково оптимізує FP8-інференс та середовища виробництва ультра-довгого контексту, забезпечуючи більш детерміновану продуктивність для сценаріїв з низькою затримкою, таких як програмування штучного інтелекту, взаємодія в реальному часі та голос у реальному часі.
ZHIPU26,55%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено