Perplexityオープンソース推論基盤pplx-garden、NVIDIAネットワーク税を回避しマルチカード高速通信を実現

robot
概要作成中
ME AI メッセージによると、動態監視Beatingの監視によると、検索エンジン大手のPerplexity AIは、正式に高性能推論基盤ツールキットpplx-gardenを生産環境でオープンソース化しました。プロジェクトの核心は、自社開発のRust製高性能ポイントツーポイント通信ライブラリfabric-lib(別名TransferEngine)であり、NVIDIAの独占的な通信プロトコルにハードウェア依存しないことを目指しています。これにより、開発者は高価な専用ネットワークスイッチを購入せずに、兆パラメータの大規模モデルを異種多GPUクラスター上で高速に動作させることが可能になります。 従来の分散大規模モデル推論は、NVIDIAの専用高速通信ネットワークに極度に依存しており、ハードウェアの導入コストが非常に高く、サプライチェーンの制約に直面していました。 fabric-libはハードウェア層でのバインディング解除を実現し、NVIDIAのConnectX-7ネットカードに完璧に適合するだけでなく、Amazonの廉価なAWS EFA従来のイーサネットカードをネイティブにサポートし、複数GPU間のネットワーク帯域幅を直接400Gbpsまで引き上げます。 AWS EFAの無秩序な伝送の物理的欠陥に対して、Perplexityは新たにImmCounterカウンター同期メカニズムを考案し、パケットの順序に硬性の仮定を置かずに、高効率な「ゼロコピー」データフローを実現しています。通信ライブラリには、ハイブリッドエキスパートモデルMoE向けに設計されたデータ配信アルゴリズムが内蔵されており、GPUの受信データと行列計算を深く重ね合わせ、デコード段階の計算能力を大幅に引き出しています。 実運用において、pplx-gardenは非常に顕著なエンジニアリング効果をもたらしています。デカップリング推論アーキテクチャでは、ネットワークライブラリがPrefillノードとDecoderノード間のキー値キャッシュの高速スケジューリングを実現しています。非同期強化学習のトレーニングでは、わずか1.3秒で兆パラメータ級モデルの重み同期と配信を完了します。トークン化段階の計算遅延を解決するために、pplx-gardenはRustで再構築されたpplx-unigramトークナイザをオープンソース化し、CPU消費を5〜6倍削減し、トークン化段階におけるリシャッフルやベクトルモデルの性能ボトルネックを排除しています。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 3
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
GlassDomeRoaming
· 4時間前
pplx-unigram CPU消耗降低了5-6倍,分词终于不再是隐形瓶颈了,之前做过性能分析才知道有多离谱。
原文表示返信0
RefrigeratorMagnetContract
· 4時間前
400Gbpsの帯域幅は見ていて気持ちいいですが、fabric-libがハードウェアのバインディングを取り除くことで、本当の運用解放が実現します。
原文表示返信0
GateUser-3e7da866
· 4時間前
MoE データ配布と計算の重複、ハードウェアの利用率を最大化、この設計思想はソースコードを詳しく読む価値がある。
原文表示返信0