Згідно з моніторингом Dongcha Beating, Zhipu запустила високошвидкісний API GLM-5.1 для обраних корпоративних клієнтів, досягнувши швидкості виводу моделі 400 токенів/с, встановивши новий світовий рекорд за швидкістю кінцевої до кінця межі офіційних інтерфейсів великих моделей. Ця високошвидкісна версія зберігає можливості оригінальної флагманської моделі та працює на високопродуктивному інференційному движку, розробленому спільно Zhipu та командою TileRT. Цей движок повністю перебудував механізм операційного планування GPU, статично розміщуючи модель у постійному ядрі двигуна, яке знаходиться на GPU під час етапу компіляції. Під час інференсу на одній карті обчислення, асинхронне введення-виведення та комунікація розділяються на мік-завдання рівня плитки, ініціюючи ядро лише один раз. Проміжні результати між операторами безпосередньо передаються через регістри та спільні кеші, усуваючи затримки, спричинені частими запуском ядер та читанням/записом у пам’ять у традиційному інференсі. При масштабуванні до багатокарткової системи TileRT додатково розширює підхід до паралелізму спеціалізації через топологію NVL з 8 карт, перетворюючи спочатку однорідні вузли GPU у гетерогенні робочі станції, відповідальні за різні завдання. У обробці обчислень шару уваги GLM-5.1 система призначає GPU 0 для запуску робочого процесора розрідженого індексу, відповідального за побудову розрідженого індексу та прийняття рішень щодо маршрутизації, тоді як GPU 1-7 виконують MLA-робочі процесори, відповідальні за обчислювально інтенсивні етапи, повністю інтегруючи комунікацію у конвеєр рівня плитки, досягаючи глибокого перекриття між обчисленнями та міжкартковою комунікацією. Ця високошвидкісна послуга наразі доступна для обраних корпоративних клієнтів на платформі Zhipu MaaS. У майбутньому ця технологія додатково оптимізує FP8-інференс та середовища виробництва ультра-довгого контексту, забезпечуючи більш детерміновану продуктивність для сценаріїв з низькою затримкою, таких як програмування штучного інтелекту, взаємодія в реальному часі та голос у реальному часі.

ZHIPU26,55%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
322.21K Популярність
#
PlatinumCardCreatorExclusive
116.83K Популярність
#
IsraelStrikesIranBTCPlunges
49.03K Популярність
#
#DailyPolymarketHotspot
1.05M Популярність
#
GateSquarePizzaDay
650.5K Популярність

Закріплено

карта сайту

Zhipu випускає GLM-5.1 високошвидкісний API, встановлюючи світовий рекорд швидкості на рівні 400 токенів/с

Популярні теми

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закріплено