OpenAI自研超算ネットワークプロトコルMRCオープンソース:10万GPUがわずか二層のスイッチで、故障復旧が秒からマイクロ秒に低減

币界网消息、OpenAIとAMD、Broadcom、Intel、Microsoft、NVIDIAが共同開発したMRC(Multipath Reliable Connection)ネットワークプロトコルがオープンソース化されました。10万GPUをサポートし、わずか二層のスイッチで動作し、故障復旧時間は秒からマイクロ秒に短縮されました。このプロトコルは最新の800GB/sネットワークカードに内蔵され、OCP(Open Compute Project)を通じて公開されました。現在、OpenAIのすべての最大規模のNVIDIA GB200スーパーコンピュータに展開されており、テキサス州のAbileneクラスター(Oracleと共同建設)やMicrosoftのFairwaterスーパーコンピュータを含みます。MRCの核心的な変更は、単一の伝送を数百の経路に分割して同時に送信することで、従来のスーパーコンピュータネットワークにおいて伝送遅延によるGPUのアイドル状態を防ぐことにあります。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン