月の暗い面、この波で事前埋め込みを異なる場所に投げて走らせ、KVキャッシュはイーサネットを通じて耐えられる、1Tモデルのスループットは直接54%増加、異種スケジューリングを理解した

原文表示
MeNews
月の裏側と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
ME News 報道、月の闇面と清華が arXiv にて Prefill-as-a-Service を提案、大規模モデル推論の事前埋め込み段階をデータセンター間で実行。
ハイブリッドアテンションモデルを用いて KV キャッシュのスループットを大幅に低減し、キャッシュをイーサネット経由で伝送し、ローカルクラスターのデコードに戻すことを可能に。
PrfaaS アーキテクチャは独立した事前埋め込みクラスターを構築し、長いコンテキストの未ヒットリクエストのみをルーティング、短いリクエストはローカルの PD に残す;また、長さ閾値ルーティングや帯域幅感知スケジューリングを導入。
実測では 1T パラメータのハイブリッドモデルが、同構成の PD より 54%、素朴な異種モデルより 32% のスループット向上を実現。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし