ME AI メッセージによると、動態監視Beatingの監視によると、検索エンジン大手のPerplexity AIは、正式に高性能推論基盤ツールキットpplx-gardenを生産環境でオープンソース化しました。プロジェクトの核心は、自社開発のRust製高性能ポイントツーポイント通信ライブラリfabric-lib(別名TransferEngine)であり、NVIDIAの独占的な通信プロトコルにハードウェア依存しないことを目指しています。これにより、開発者は高価な専用ネットワークスイッチを購入せずに、兆パラメータの大規模モデルを異種多GPUクラスター上で高速に動作させることが可能になります。 従来の分散大規模モデル推論は、NVIDIAの専用高速通信ネットワークに極度に依存しており、ハードウェアの導入コストが非常に高く、サプライチェーンの制約に直面していました。 fabric-libはハードウェア層でのバインディング解除を実現し、NVIDIAのConnectX-7ネットカードに完璧に適合するだけでなく、Amazonの廉価なAWS EFA従来のイーサネットカードをネイティブにサポートし、複数GPU間のネットワーク帯域幅を直接400Gbpsまで引き上げます。 AWS EFAの無秩序な伝送の物理的欠陥に対して、Perplexityは新たにImmCounterカウンター同期メカニズムを考案し、パケットの順序に硬性の仮定を置かずに、高効率な「ゼロコピー」データフローを実現しています。通信ライブラリには、ハイブリッドエキスパートモデルMoE向けに設計されたデータ配信アルゴリズムが内蔵されており、GPUの受信データと行列計算を深く重ね合わせ、デコード段階の計算能力を大幅に引き出しています。 実運用において、pplx-gardenは非常に顕著なエンジニアリング効果をもたらしています。デカップリング推論アーキテクチャでは、ネットワークライブラリがPrefillノードとDecoderノード間のキー値キャッシュの高速スケジューリングを実現しています。非同期強化学習のトレーニングでは、わずか1.3秒で兆パラメータ級モデルの重み同期と配信を完了します。トークン化段階の計算遅延を解決するために、pplx-gardenはRustで再構築されたpplx-unigramトークナイザをオープンソース化し、CPU消費を5〜6倍削減し、トークン化段階におけるリシャッフルやベクトルモデルの性能ボトルネックを排除しています。(出典:BlockBeats)
Perplexityオープンソース推論基盤pplx-garden、NVIDIAネットワーク税を回避しマルチカード高速通信を実現