広場
最新
注目
ニュース
プロフィール
ポスト
月の暗い面と清華の新論文:LLMの事前充填はデータセンター間を越えられる、1Tモデルのスループットが54%向上
MeNews
2026-05-30 15:08:03
フォロー
概要作成中
MEニュース 4月18日(UTC+8)、動察Beatingの監視によると、月の暗面(Moonshot AI)と清華大学は4月16日にarXivに新論文「Prefill-as-a-Service」を掲載し、大規模モデルの推論における事前充填(prefill)段階をデータセンター間で実行することを提案している。大規模モデルの推論は二段階に分かれる:prefillは入力を一括して読み込み、KVキャッシュを生成する;decodeはこのキャッシュをもとに逐次結果を出力する。二段階で必要なハードウェアの特性は全く異なり、prefillは計算能力を消費し、decodeはGPUメモリと帯域幅を消費する。業界の主流は二段階を異なるマシンに分離(PD分離)することであるが、これには両側が同じデータセンター内でRDMAを用いて相互接続する必要がある。なぜなら、密なattentionモデルのKVキャッシュは毎秒数十Gbpsの速度で吐き出され、遅延が生じるとGPUがアイドル状態になるからだ。転換点は新世代のハイブリッドattentionモデルにある。論文の実測では、Kimi Linear、MiMo-V2-Flash、Ring-2.5-1Tなどのモデルは、少量の完全なattention層と大量の線形層の組み合わせにより、KVキャッシュのスループットを約一桁削減し、Ring-2.5-1Tの総圧縮比は36倍に達した。この時、KVキャッシュはRDMA専用ネットワークから一般的なイーサネットに移動してアップロードできる。PrfaaSの具体的な方法は、独立した「事前充填クラスター」を構築し、長いコンテキストや未ヒットのプレフィックスキャッシュリクエストのみをルーティングし、短いリクエストはローカルのPDクラスターに残す。事前充填完了後、イーサネットを通じてKVキャッシュをローカルクラスターに返送し、decodeを行う。これに合わせて長さ閾値ルーティング、帯域幅感知スケジューラー、ハイブリッドプレフィックスキャッシュプールを導入している。論文では、内部の1Tパラメータハイブリッドモデル(Kimi Linearアーキテクチャに基づく)を用いた一連の実測を行い、全体のサービススループットは同構成のPD展開より54%高く、素朴な異種方案より32%高いことを示した。各マシンは適度なデータセンター間帯域幅のみを消費している。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
7 いいね
報酬
7
6
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
DewdropSapling
· 27分前
PrfaaSという名前が付けられたので、今後はDecode-as-a-Serviceも登場するのでしょうか
原文表示
返信
0
InstantNoodle-LevelResearcher
· 1時間前
清华+月之暗面,国内大模型インフラは新たな方向性で競争を始めた
原文表示
返信
0
LateBlockLarry
· 1時間前
54%の向上は魅力的に見えるが、実際の導入にはマルチテナントの隔離と障害復旧を考慮する必要がある
原文表示
返信
0
MempoolMaggie
· 1時間前
イーサネットでKVキャッシュを伝送する場合、帯域幅のコストは計算能力よりも高いのでしょうか?
原文表示
返信
0
MintLiquidationWarning
· 2時間前
只路由長上下文未命中,短請求留本地,這個分級策略挺務實的
原文表示
返信
0
GateUser-2100b43b
· 2時間前
混合注意力模型降低KV缓存吞吐量,这个思路让我想起早期分布式训练的一些技巧
原文表示
返信
0
人気の話題
もっと見る
#
WinGoldBarsWithGrowthPoints
1.21M 人気度
#
WTICrudeFallsBelow90Dollars
1.53M 人気度
#
IsraelStrikesIranBTCPlunges
51.3K 人気度
#
StockTradingChallengeUpTo17000U
186.79K 人気度
#
USIranNegotiationGame
9.41M 人気度
ピン留め
サイトマップ
月の暗い面と清華の新論文:LLMの事前充填はデータセンター間を越えられる、1Tモデルのスループットが54%向上