金色财经の報道によると、5月7日、快科技によると、OpenAIは本日、オープンコンピューティングプロジェクト(OCP)を通じて、MRC(多経路信頼性接続)プロトコルを正式に発表し、大規模なAIトレーニングにおけるGPUネットワーク通信のボトルネックを解決しました。このプロトコルは、OpenAIとAMD、NVIDIA、Intel、Microsoft、Broadcomが2年にわたり共同開発したもので、現在、NVIDIA GB200を搭載したスーパーコンピュータクラスターで実用化されています。MRCが解決しようとする核心的な問題は、 大規模AIモデルのトレーニング時に、単一のデータ伝送遅延だけでトレーニング全体が中断し、GPUが一斉にアイドル状態で待機することです。クラスターの規模が大きくなるほど、ネットワークの混雑、リンクやデバイスの故障による遅延問題が頻繁に発生します。MRCの解決策は、単一の800Gb/sネットワークインターフェースを、より小さな複数のリンクに分割することです。例えば、一つのインターフェースを8台の異なるスイッチに接続し、8本の独立した100Gb/sの並列ネットワークを構築し、単一の800Gb/sネットワークに依存しないようにします。
OpenAIが主導し、AMD、NVIDIA、Intel、Microsoft、Broadcomの巨頭が稀に協力 AIネットワーク層を実現
金色财经の報道によると、5月7日、快科技によると、OpenAIは本日、オープンコンピューティングプロジェクト(OCP)を通じて、MRC(多経路信頼性接続)プロトコルを正式に発表し、大規模なAIトレーニングにおけるGPUネットワーク通信のボトルネックを解決しました。このプロトコルは、OpenAIとAMD、NVIDIA、Intel、Microsoft、Broadcomが2年にわたり共同開発したもので、現在、NVIDIA GB200を搭載したスーパーコンピュータクラスターで実用化されています。 MRCが解決しようとする核心的な問題は、 大規模AIモデルのトレーニング時に、単一のデータ伝送遅延だけでトレーニング全体が中断し、GPUが一斉にアイドル状態で待機することです。クラスターの規模が大きくなるほど、ネットワークの混雑、リンクやデバイスの故障による遅延問題が頻繁に発生します。MRCの解決策は、単一の800Gb/sネットワークインターフェースを、より小さな複数のリンクに分割することです。例えば、一つのインターフェースを8台の異なるスイッチに接続し、8本の独立した100Gb/sの並列ネットワークを構築し、単一の800Gb/sネットワークに依存しないようにします。