币界网消息、OpenAIとAMD、Broadcom、Intel、Microsoft、NVIDIAが共同開発したMRC(Multipath Reliable Connection)ネットワークプロトコルがオープンソース化されました。10万GPUをサポートし、わずか二層のスイッチで動作し、故障復旧時間は秒からマイクロ秒に短縮されました。このプロトコルは最新の800GB/sネットワークカードに内蔵され、OCP(Open Compute Project)を通じて公開されました。現在、OpenAIのすべての最大規模のNVIDIA GB200スーパーコンピュータに展開されており、テキサス州のAbileneクラスター(Oracleと共同建設)やMicrosoftのFairwaterスーパーコンピュータを含みます。MRCの核心的な変更は、単一の伝送を数百の経路に分割して同時に送信することで、従来のスーパーコンピュータネットワークにおいて伝送遅延によるGPUのアイドル状態を防ぐことにあります。
OpenAI自研超算ネットワークプロトコルMRCオープンソース:10万GPUがわずか二層のスイッチで、故障復旧が秒からマイクロ秒に低減
币界网消息、OpenAIとAMD、Broadcom、Intel、Microsoft、NVIDIAが共同開発したMRC(Multipath Reliable Connection)ネットワークプロトコルがオープンソース化されました。10万GPUをサポートし、わずか二層のスイッチで動作し、故障復旧時間は秒からマイクロ秒に短縮されました。このプロトコルは最新の800GB/sネットワークカードに内蔵され、OCP(Open Compute Project)を通じて公開されました。現在、OpenAIのすべての最大規模のNVIDIA GB200スーパーコンピュータに展開されており、テキサス州のAbileneクラスター(Oracleと共同建設)やMicrosoftのFairwaterスーパーコンピュータを含みます。MRCの核心的な変更は、単一の伝送を数百の経路に分割して同時に送信することで、従来のスーパーコンピュータネットワークにおいて伝送遅延によるGPUのアイドル状態を防ぐことにあります。