OpenAIが主導し、AMD、NVIDIA、Intel、Microsoft、Broadcomの巨頭が稀に協力 AIネットワーク層を実現

robot
概要作成中

金色财经の報道によると、5月7日、快科技によると、OpenAIは本日、オープンコンピューティングプロジェクト(OCP)を通じて、MRC(多経路信頼性接続)プロトコルを正式に発表し、大規模なAIトレーニングにおけるGPUネットワーク通信のボトルネックを解決しました。このプロトコルは、OpenAIとAMD、NVIDIA、Intel、Microsoft、Broadcomが2年にわたり共同開発したもので、現在、NVIDIA GB200を搭載したスーパーコンピュータクラスターで実用化されています。 MRCが解決しようとする核心的な問題は、 大規模AIモデルのトレーニング時に、単一のデータ伝送遅延だけでトレーニング全体が中断し、GPUが一斉にアイドル状態で待機することです。クラスターの規模が大きくなるほど、ネットワークの混雑、リンクやデバイスの故障による遅延問題が頻繁に発生します。MRCの解決策は、単一の800Gb/sネットワークインターフェースを、より小さな複数のリンクに分割することです。例えば、一つのインターフェースを8台の異なるスイッチに接続し、8本の独立した100Gb/sの並列ネットワークを構築し、単一の800Gb/sネットワークに依存しないようにします。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン