OpenAI власний протокол суперкомп’ютерної мережі MRC з відкритим кодом: 100 000 GPU — лише два рівні комутаторів, відновлення несправностей з секундного до мікросекундного рівня

Китайська мережа повідомляє, що мережевий протокол MRC (Multipath Reliable Connection), розроблений спільно OpenAI, AMD, Broadcom, Intel, Microsoft та Nvidia, був відкритий для публічного доступу, підтримує 100 000 GPU за допомогою лише двох рівнів комутаторів, а час відновлення після збоїв зменшено з секунд до мікросекунд. Цей протокол вже інтегрований у найновішу мережеву карту з пропускною здатністю 800 ГБ/с і був опублікований через проект OCP (Open Compute Project), тепер він розгорнутий на всіх найбільших суперкомп’ютерах Nvidia GB200, що належать OpenAI, включаючи кластер у Техасі Abilene, спільно побудований з Oracle, та суперкомп’ютер Fairwater від Microsoft. Основна зміна в MRC полягає в тому, що один процес передачі розбивається на сотні шляхів одночасно, що дозволяє уникнути проблеми простою GPU через затримки передачі, характерної для традиційних суперкомп’ютерних мереж.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити