広場
最新
注目
ニュース
プロフィール
ポスト
月の暗い面と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
MeNews
2026-05-30 23:52:18
フォロー
概要作成中
MEニュース 4月18日(UTC+8)、動察Beatingの監視によると、月の暗面(Moonshot AI)と清華大学は4月16日にarXivに新論文「Prefill-as-a-Service」を掲載し、大規模モデルの推論における事前埋め込み(prefill)段階をデータセンター間で運用することを提案した。大規模モデルの推論は二段階に分かれる:prefillは入力を一度に読み込み、KVキャッシュを生成する;decodeはこのキャッシュをもとに一字ずつ結果を出力する。二段階で必要なハードウェアの特性は全く異なり、prefillは計算能力を消費し、decodeはGPUメモリと帯域幅を消費する。業界の主流は二段階を異なるマシンに分離(PD分離)する方法だが、これには両側が同じデータセンター内でRDMAを用いて相互接続する必要がある。なぜなら、密集したアテンションモデルのKVキャッシュは毎秒数十Gbpsの速度で吐き出され、遅延が生じるとGPUがアイドル状態になるからだ。転機は新世代のハイブリッドアテンションモデルに訪れる。論文の実測では、Kimi Linear、MiMo-V2-Flash、Ring-2.5-1Tなどのモデルは、少量の完全なアテンション層と大量の線形層の組み合わせにより、KVキャッシュのスループットを約一桁削減し、Ring-2.5-1Tの総圧縮比は36倍に達した。この時、KVキャッシュはRDMA専用ネットワークから一般的なイーサネットに移動してアップロードできる。PrfaaSの具体的な方法は、独立した「事前埋め込みクラスター」を構築し、長いコンテキストや未ヒットのプレフィックスキャッシュリクエストのみをルーティングし、短いリクエストはローカルのPDクラスターに残す。事前埋め込み完了後、イーサネットを通じてKVキャッシュをローカルクラスターに返送し、decodeを行う。これに合わせて長さ閾値ルーティング、帯域幅感知スケジューラー、ハイブリッドプレフィックスキャッシュプールを導入している。論文では、内部の1Tパラメータハイブリッドモデル(Kimi Linearアーキテクチャに基づく)を用いて一連の実測を行い、全体のサービススループットは同構成のPD展開より54%向上し、素朴な異種方案より32%高く、各マシンの跨データセンタ帯域幅も適度な範囲に収まった。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
9 いいね
報酬
9
7
2
共有
コメント
コメントを追加
コメントを追加
コメント
ExitLiquidityPoet
· 2時間前
長いコンテキストがヒットしない場合のみリモート処理を行い、短いリクエストはローカルで処理する。このルーティング戦略は非常に細かい。
原文表示
返信
0
MetalReliefRoboticArm
· 3時間前
同构PD vs 異構 vs PrfaaS,这对比实验设计得挺干净
原文表示
返信
0
StopMessingAroundWithGasFees.
· 3時間前
1Tパラメータモデルの実測、これほど大きなモデルを動かす勇気がある、その自信は十分だ
原文表示
返信
0
GateUser-4590f4c6
· 3時間前
事前入力をサービスとして販売し続けると、将来的には事前入力が即座に使える状態で提供される「即席即用」が登場する可能性はありますか?
原文表示
返信
0
MoonlightDisconnectSwitch
· 4時間前
全文を通して最も知りたいのは、実際の展開時におけるパケットロス率の許容範囲はどれくらいかということです。
原文表示
返信
0
GlassDomeRoaming
· 4時間前
帯域幅認識スケジューリング、要するに貧乏になったら工夫を凝らす、ネット料金が高いなら慎重に計算しなければならない
原文表示
返信
0
GlassFishTankArbitrage
· 4時間前
イーサネットでKVキャッシュを伝送、以前は狂っていると思っていたが、今や論文になった
原文表示
返信
0
人気の話題
もっと見る
#
WinGoldBarsWithGrowthPoints
1.21M 人気度
#
WTICrudeFallsBelow90Dollars
1.18M 人気度
#
IsraelStrikesIranBTCPlunges
51.45K 人気度
#
StockTradingChallengeUpTo17000U
193.37K 人気度
#
USIranNegotiationGame
9.41M 人気度
ピン留め
サイトマップ
月の暗い面と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上