広場
最新
注目
ニュース
プロフィール
ポスト
月の裏側と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
MeNews
2026-05-30 23:36:18
フォロー
概要作成中
MEニュース 4月18日(UTC+8)、動察Beatingの監視によると、月の暗面(Moonshot AI)と清華大学は4月16日にarXivに新論文「Prefill-as-a-Service」を掲載し、大規模モデルの推論における事前充填(prefill)段階をデータセンター間で実行することを提案した。大規模モデルの推論は二段階に分かれる:prefillは入力を一度に読み込み、KVキャッシュを生成する;decodeはこのキャッシュを基に逐次結果を出力する。二段階で必要なハードウェアの特性は全く異なり、prefillは計算能力を消費し、decodeはGPUメモリと帯域幅を消費する。業界の主流は二段階を異なるマシンに分離(PD分離)する方法だが、これには両側を同じデータセンター内でRDMAで接続する必要がある。密集したアテンションモデルのKVキャッシュは毎秒数十Gbpsで出力されるため、伝送が遅いとGPUはアイドリング状態になる。転換点は新世代のハイブリッドアテンションモデルにある。論文の実測では、Kimi Linear、MiMo-V2-Flash、Ring-2.5-1Tなどのモデルは、少数の完全なアテンション層と多数の線形層の組み合わせにより、KVキャッシュのスループットを約一桁削減し、Ring-2.5-1Tの総圧縮比は36倍に達した。この時、KVキャッシュはRDMA専用ネットワークから一般的なイーサネットに移動してアップロードできる。PrfaaSの具体的な方法は、独立した「事前充填クラスター」を構築し、長いコンテキストや未ヒットのプレフィックスキャッシュリクエストのみをルーティングし、短いリクエストはローカルのPDクラスターに残す。事前充填完了後、イーサネットを通じてKVキャッシュをローカルクラスターに返し、decodeを行う。これに合わせて長さ閾値ルーティング、帯域幅感知スケジューラー、ハイブリッドプレフィックスキャッシュプールを導入している。論文では、内部の1Tパラメータハイブリッドモデル(Kimi Linearアーキテクチャに基づく)を用いた実測で、全体のサービススループットは同構成のPD展開より54%高く、素朴な異種方案より32%高いことが示された。各マシンは適度なクロスデータセンタ帯域幅のみを使用している。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
7 いいね
報酬
7
9
2
共有
コメント
コメントを追加
コメントを追加
コメント
VolatilityOfToastingBread
· 11時間前
短いリクエストはローカルのPDを保持するのは合理的です。やはり遅延に敏感で、長いコンテキストだけが手間をかける価値があります。
原文表示
返信
0
DustCollector
· 13時間前
素朴な異種性の向上は32%、同種のPDは54%向上しており、対照群の設定もかなりしっかりしています。
原文表示
返信
0
Glass-HeartMarketMaker
· 13時間前
清华+月之暗面、国産大規模モデルのインフラが世界トップクラスの隊列に巻き込まれ始めた
原文表示
返信
0
StainedGlassSolarArray
· 13時間前
月暗この一連の操作はちょっと面白い。事前埋め込みを投げ捨てて、ローカルでデコードに集中し、遅延とコストの両方で勝利を収める
原文表示
返信
0
MirrorBallReflection
· 13時間前
混合注意力モデルはコアです、KVキャッシュはイーサネット伝送が可能であり、この圧縮率はどれほど厳しいのでしょうか
原文表示
返信
0
PineNeedlesAndColdWind
· 13時間前
帯域幅認識スケジューリングは簡単に聞こえるが、実際の導入には多くの落とし穴がある。彼らはついにそれを実現した。
原文表示
返信
0
GoldfishUnderTheIce
· 13時間前
1兆参数モデルがすべて動作したことは、このアーキテクチャのスケーラビリティに問題がないことを示しており、小規模なものではない。
原文表示
返信
0
MarginMoth
· 14時間前
PrfaaSという名前は、Prefill as a Service(プリフィル・アズ・ア・サービス)から来ており、クラウドコンピューティングの仕組みを大規模モデル推論に移したものです
原文表示
返信
0
GateUser-78acf617
· 14時間前
54%のスループット向上、このデータを見るだけで気持ちが良い、異種アーキテクチャはついに机上の空論ではなくなった
原文表示
返信
0
もっと見る
人気の話題
もっと見る
#
WinGoldBarsWithGrowthPoints
1.24M 人気度
#
WTICrudeFallsBelow90Dollars
1.19M 人気度
#
IsraelStrikesIranBTCPlunges
51.57K 人気度
#
StockTradingChallengeUpTo17000U
202.12K 人気度
#
USIranNegotiationGame
9.42M 人気度
ピン留め
サイトマップ
月の裏側と清華の新論文:LLMの事前埋め込みはデータセンター間を越えられる、1Tモデルのスループットは54%向上
(出典:BlockBeats)