月の暗い面と清華の新論文:LLMの事前充填はデータセンター間を越えられる、1Tモデルのスループットは54%向上

robot
概要作成中
MEニュース 4月18日(UTC+8)、動察Beatingの監視によると、月の暗面(Moonshot AI)と清華大学は4月16日にarXivに新論文《Prefill-as-a-Service》を掲載し、大規模モデルの推論における事前充填(prefill)段階をデータセンター間で実行することを提案している。大規模モデルの推論は二段階に分かれる:prefillは入力を一括して読み込み、KVキャッシュを生成する;decodeはこのキャッシュをもとに一字ずつ結果を出力する。二段階で必要なハードウェアの特性は全く異なり、prefillは計算能力を消費し、decodeはGPUメモリと帯域幅を消費する。業界の主流は二段階を異なるマシンに分離(PD分離)することであるが、これには両側が同じデータセンター内でRDMAを用いて相互接続する必要がある。なぜなら、密集したattentionモデルのKVキャッシュは毎秒数十Gbpsの速度で吐き出されるため、伝送が遅いとGPUがアイドル状態になるからだ。
転機は新世代のハイブリッドアテンションモデルにより訪れる。論文の実測では、Kimi Linear、MiMo-V2-Flash、Ring-2.5-1Tなどのモデルは、少量の完全なattention層と大量の線形層の組み合わせにより、KVキャッシュのスループットを約一桁削減し、Ring-2.5-1Tの総圧縮比は36倍に達した。この時、KVキャッシュはRDMA専用ネットワークから一般的なイーサネットに移してアップロードできる。
PrfaaSの具体的な方法は、独立した「事前充填クラスター」を構築し、長いコンテキストや未ヒットのプレフィックスキャッシュリクエストのみをルーティングし、短いリクエストはローカルのPDクラスターに残す。事前充填完了後、イーサネットを通じてKVキャッシュをローカルクラスターに返送し、decodeを行う。これに合わせて長さ閾値ルーティング、帯域幅感知スケジューラ、ハイブリッドプレフィックスキャッシュプールを導入している。論文では、内部の1Tパラメータハイブリッドモデル(Kimi Linearアーキテクチャに基づく)を用いた一連の実測を行い、全体のサービススループットは同構成のPD展開より54%向上し、素朴な異種構成より32%高く、各マシンの跨データセンタ帯域幅も適度な範囲に収まった。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 7
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
GateUser-57ab9c02
· 1時間前
短いリクエストはローカルに留めるのが合理的であり、小さな問題を大事にしすぎないようにする。
原文表示返信0
Cream-ColoredCross-ChainBridge
· 1時間前
素朴な異種構成も32%差をつけられ、基盤インフラの差が大きい
原文表示返信0
CandleSitter
· 1時間前
PD分离が新たな高みへと進化した
原文表示返信0
MidnightReconciler
· 1時間前
月の暗い面、この技術出力は良いですね
原文表示返信0
WatercolorGlassBottle
· 2時間前
帯域幅認識スケジューリングの説明は彼らが本当に落とし穴を踏んだことを示している
原文表示返信0
MistValleySignpost
· 2時間前
リターンデコードの同期メカニズムはどのように設計されているのか興味があります
原文表示返信0
SeaSaltMintCandy
· 2時間前
長いコンテキストシナリオに特に親しみやすいと感じます
原文表示返信0