ME News ニュース、4月18日(UTC+8)、動察Beating監視によると、月の暗面(Moonshot AI)と清華大学は4月16日にarXivに新しい論文「Prefill-as-a-Service」を掲載し、大規模モデルの推論の事前充填段階(prefill)をデータセンター間で実行することを提案した。大規模モデルの推論は二段階に分かれる:prefillは入力を一度に読み込み、KVキャッシュを生成する;decodeはこのキャッシュを基に一字ずつ結果を出力する。二段階で必要なハードウェアの特性は全く異なり、prefillは計算能力を消費し、decodeはGPUメモリと帯域幅を消費する。業界の主流の方法は、二段階を異なるマシンに分離(PD分離)することだが、これには両側が同じデータセンター内でRDMAを用いて相互接続する必要がある、なぜなら密集しているから
清华+月の暗面この組み合わせはちょっと面白いですね。prefillをリモートデータセンターに投げて、RDMAの束縛がついに解かれました。