OpenAI protocoles de réseau de supercalculateur développé en interne MRC open source : 100 000 GPU nécessitent seulement deux couches de commutateurs, la récupération après panne passe de secondes à microsecondes

CoinWorld消息,OpenAI联合AMD、Broadcom、Intel、微软和英伟达开发的MRC(Multipath Reliable Connection)网络协议已开源,支持10万GPU仅需两层交换机,故障恢复时间从秒级降至微秒级。该协议已内置于最新的800GB/s网卡,并通过OCP(Open Compute Project)发布,现已部署在OpenAI所有最大规模的英伟达GB200超算上,包括与Oracle合建的得克萨斯州Abilene集群和微软的Fairwater超算。MRC的核心改变是将单次传输拆分到数百条路径上同时发送,避免了传统超算网络中因传输延迟导致GPU空转的问题。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler