Від наукової статті до виробництва калорій — ця швидкість не схожа на академічний стиль

Переглянути оригінал
CoinNetwork
Китайська мережа повідомляє, що Zhituo у співпраці з Yuxun Network та Tsinghua University запропонували архітектуру мережі для наступного покоління великих моделей ZCube, яка має на меті подолати все більш серйозну проблему структурного мережевого затору при розгортанні роздільної обробки PD (prefill-decode) великих моделей. Архітектура ZCube вже впроваджена у виробничому середовищі онлайн-режиму GLM-5.1 coding. Ця архітектура скасовує комутатор спайн-слою, використовує плоску топологію мережі (2-перехідний діаметр мережі), поєднуючи механізм підключення з однією або кількома траєкторіями, що забезпечує баланс навантаження трафіку між комутаторами по всій мережі між вузлами. У бенчмарках архітектура ZCube зменшила витрати на комутатори та оптичні модулі на 33% у порівнянні з традиційною архітектурою, одночасно підвищивши середню пропускну здатність GPU для обчислень на 15%, а 99-й перцентиль затримки першого токена (TTFT) знизився на 40,6%.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено