清华+月之暗面この波は事前埋め込みを外に出して実行し、KVキャッシュはイーサネットを通じて耐えられる、54%のスループット向上は確かに魅力的だ、長いコンテキスト推論のコスト構造が変わる時期だ

原文表示
MeNews
月の暗い面と清華の新論文:LLMの事前充填はデータセンター間を越えられる、1Tモデルのスループットは54%向上
ME News 報道、月の闇面と清華が arXiv にて Prefill-as-a-Service を提案、大規模モデル推論の事前埋め込み段階をデータセンター間で実行。ハイブリッドアテンションモデルを用いて KV キャッシュのスループットを大幅に低減し、キャッシュをイーサネット経由で伝送し、ローカルクラスターのデコードに戻すことを可能に。PrfaaS アーキテクチャは独立した事前埋め込みクラスターを構築し、長いコンテキストの未ヒットリクエストのみをルーティング、短いリクエストはローカルの PD に残す;さらに長さ閾値ルーティングや帯域幅感知スケジューリングを導入。実測で 1T パラメータのハイブリッドモデルは、同構成の PD より 54%、素朴な異種モデルより 32% のスループット向上を実現。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし