広場
最新
注目
ニュース
プロフィール
ポスト
月の暗い面と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
MeNews
2026-05-30 02:43:03
フォロー
概要作成中
ME News ニュース、4月18日(UTC+8)、動察Beatingの監視によると、月の暗面(Moonshot AI)と清華大学は4月16日にarXivに新論文《Prefill-as-a-Service》を掲載し、大規模モデルの推論における事前充填(prefill)段階をデータセンター間で運用することを提案した。大規模モデルの推論は二段階に分かれる:prefillは入力を一度に読み込み、KVキャッシュを生成する;decodeはこのキャッシュをもとに逐次結果を出力する。二段階で必要なハードウェアの特性は全く異なり、prefillは計算能力を消費し、decodeはGPUメモリと帯域幅を消費する。業界の主流は二段階を異なるマシンに分離(PD分離)する方法だが、これには両側が同じデータセンター内でRDMAを用いて相互接続する必要がある。なぜなら、密集したattentionモデルのKVキャッシュは毎秒数十Gbpsの速度で吐き出されるため、伝送が遅いとGPUがアイドル状態になるからだ。
転換点は新世代のハイブリッドアテンションモデルにある。論文の実測では、Kimi Linear、MiMo-V2-Flash、Ring-2.5-1Tなどのモデルは、少数の完全なattention層と大量の線形層の組み合わせにより、KVキャッシュのスループットを約一桁削減し、Ring-2.5-1Tの総圧縮比は36倍に達した。この時点でKVキャッシュはRDMA専用ネットワークから一般的なイーサネットに移してアップロードできる。
PrfaaSの具体的な方法は、独立した「事前充填クラスター」を構築し、長いコンテキストや未ヒットのプレフィックスキャッシュリクエストのみをルーティングし、短いリクエストはローカルのPDクラスターに残す。事前充填完了後、イーサネットを通じてKVキャッシュをローカルクラスターに返送し、decodeを行う。これに合わせて長さ閾値ルーティング、帯域幅感知スケジューラー、ハイブリッドプレフィックスキャッシュプールを導入している。論文では、内部の1Tパラメータハイブリッドモデル(Kimi Linearアーキテクチャに基づく)を用いた一連の実測を行い、全体のサービススループットは同構成のPD展開より54%向上し、素朴な異種構成より32%高く、各マシンの跨データセンタ帯域幅も適度な範囲に収まった。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
10 いいね
報酬
10
10
2
共有
コメント
コメントを追加
コメントを追加
コメント
RocksUnderTheAurora
· 1時間前
清华+月之暗面,国产大模型infra卷到国际顶会了
返信
0
YieldNotYell
· 5時間前
長さ閾値ルーティングのこの設計は細かすぎる。長短リクエストを分けて処理するのが正しい最適化だ。
原文表示
返信
0
CircuitDaydreamer
· 8時間前
混合注意力模型降低KV缓存吞吐量,技术细节等论文细读
原文表示
返信
0
AirdropCartographer
· 9時間前
54%の向上は確かに魅力的ですが、データセンター間でイーサネットを使用する場合、ジッターはどう対処すればいいですか
原文表示
返信
0
DeepSeaColdStart
· 9時間前
未命中路由请求,缓存命中率成为关键瓶颈
原文表示
返信
0
UnderTheGlassDome
· 9時間前
同構PD vs 異構PD vs PrfaaS、この比較の次元設定はとても賢明だ。
原文表示
返信
0
BluePeonyCalmingAgent
· 10時間前
1Tパラメータモデルのテスト、ハードウェアコストは想像できない
原文表示
返信
0
GateUser-fb035825
· 10時間前
事前充填クラスターの独立展開は、運用管理の複雑さを増し、利益に見合う価値はありますか
原文表示
返信
0
IdleFishDaoMember
· 10時間前
帯域幅認識スケジューリングは簡単に聞こえるが、実際の導入には多くの落とし穴があると推測される
原文表示
返信
0
GateUser-aa277334
· 10時間前
このアイデアは面白いですね。事前埋め込みをリモートに投げて、ローカルはデコードに専念する。遅延は耐えられるでしょうか。
原文表示
返信
0
もっと見る
人気の話題
もっと見る
#
WinGoldBarsWithGrowthPoints
1.21M 人気度
#
WTICrudeFallsBelow90Dollars
1.17M 人気度
#
IsraelStrikesIranBTCPlunges
51.3K 人気度
#
StockTradingChallengeUpTo17000U
179.25K 人気度
#
USIranNegotiationGame
9.41M 人気度
ピン留め
サイトマップ
月の暗い面と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
転換点は新世代のハイブリッドアテンションモデルにある。論文の実測では、Kimi Linear、MiMo-V2-Flash、Ring-2.5-1Tなどのモデルは、少数の完全なattention層と大量の線形層の組み合わせにより、KVキャッシュのスループットを約一桁削減し、Ring-2.5-1Tの総圧縮比は36倍に達した。この時点でKVキャッシュはRDMA専用ネットワークから一般的なイーサネットに移してアップロードできる。
PrfaaSの具体的な方法は、独立した「事前充填クラスター」を構築し、長いコンテキストや未ヒットのプレフィックスキャッシュリクエストのみをルーティングし、短いリクエストはローカルのPDクラスターに残す。事前充填完了後、イーサネットを通じてKVキャッシュをローカルクラスターに返送し、decodeを行う。これに合わせて長さ閾値ルーティング、帯域幅感知スケジューラー、ハイブリッドプレフィックスキャッシュプールを導入している。論文では、内部の1Tパラメータハイブリッドモデル(Kimi Linearアーキテクチャに基づく)を用いた一連の実測を行い、全体のサービススループットは同構成のPD展開より54%向上し、素朴な異種構成より32%高く、各マシンの跨データセンタ帯域幅も適度な範囲に収まった。
(出典:BlockBeats)