币界网消息、马斯克旗下のxAIは約50万台の英伟达GPUを所有しており、公開データによるとAI開発者の中で最大のクラスターの一つです。しかし、内部メモによると、xAIの最近数週間のMFU(モデルフロップス利用率、チップの実際の計算能力出力が理論的ピークに対して占める割合)はわずか11%です。競合他社の研究所の研究員は、多くの企業が40%を突破するのは非常に難しいと述べており、しかし11%は「非常に低すぎる」と指摘しています。低い利用率は業界の共通問題であり、AIのトレーニングは断続的です:GPUはトレーニング中はフル稼働しますが、研究員が結果を分析し次のステップを決定する際にはチップはアイドリング状態になります。ハードウェアの面でもボトルネックがあります:高帯域幅メモリ(HBM)の速度は計算チップに追いついておらず、何千ものGPU間でデータを伝送する際にはネットワークの弱点がクラスター全体の遅延を引き起こす可能性があります。業界内には「データの水増し」現象もあり、大型の研究所の研究員は、同僚が訓練実験を繰り返し実行して利用率の数字を上げることを明かしています。一方では上司からの批判を避けるため、もう一方ではアイドリング状態のGPUが他のチームに割り当てられるのを防ぐためです。
xAIは50万台のGPUを所有しているが、稼働率はわずか11%
币界网消息、马斯克旗下のxAIは約50万台の英伟达GPUを所有しており、公開データによるとAI開発者の中で最大のクラスターの一つです。しかし、内部メモによると、xAIの最近数週間のMFU(モデルフロップス利用率、チップの実際の計算能力出力が理論的ピークに対して占める割合)はわずか11%です。競合他社の研究所の研究員は、多くの企業が40%を突破するのは非常に難しいと述べており、しかし11%は「非常に低すぎる」と指摘しています。低い利用率は業界の共通問題であり、AIのトレーニングは断続的です:GPUはトレーニング中はフル稼働しますが、研究員が結果を分析し次のステップを決定する際にはチップはアイドリング状態になります。ハードウェアの面でもボトルネックがあります:高帯域幅メモリ(HBM)の速度は計算チップに追いついておらず、何千ものGPU間でデータを伝送する際にはネットワークの弱点がクラスター全体の遅延を引き起こす可能性があります。業界内には「データの水増し」現象もあり、大型の研究所の研究員は、同僚が訓練実験を繰り返し実行して利用率の数字を上げることを明かしています。一方では上司からの批判を避けるため、もう一方ではアイドリング状態のGPUが他のチームに割り当てられるのを防ぐためです。