月の暗い面のこの手 Prefill-as-a-Service はかなり派手に遊んでいて、事前入力をリモートに投げて、ローカルにはデコードだけを残すことで、帯域幅の負荷を直接半減させ、長いコンテキストシナリオのコストパフォーマンスがついに見えてきた。

原文表示
MeNews
月の暗い面と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
ME News 報道、月の暗面と清華が arXiv にて Prefill-as-a-Service を提案、大規模モデル推論の事前埋め込み段階をデータセンター間で実行。ハイブリッドアテンションモデルを用いて KV キャッシュのスループットを大幅に低減し、キャッシュをイーサネット経由で伝送し、ローカルクラスターのデコードに戻す。PrfaaS アーキテクチャは独立した事前埋め込みクラスターを構築し、長いコンテキストの未ヒットリクエストのみをルーティングし、短いリクエストはローカルの PD に残す;また、長さ閾値ルーティングや帯域幅感知スケジューリングを導入。実測で 1T パラメータのハイブリッドモデルは、同構成の PD より 54%、素朴な異種モデルより 32% のスループット向上を実現。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め