GoogleオープンソースのGemma 4シリーズ全モデルのMTP投機解読モデル、最大3倍の高速化

robot
概要作成中

币界網のニュースによると、GoogleはGemma 4シリーズのマルチトークン予測(MTP)ドラフトモデルを公開し、オープンソース化しました。このモデルは投機的デコードアーキテクチャを採用しており、メインモデルが最終検証権を保持したままで、最大3倍の推論速度向上を実現しつつ、出力品質を損なわないことが特徴です。MTP方式は未使用の計算能力を利用して、複数の未来のトークンを事前に予測し、その後重厚なターゲットモデルによって並行検証を行います。ターゲットモデルがドラフトに同意すれば、一度に全体のシーケンスを受け取ります。ドラフトモデルはターゲットモデルの活性化状態とKVキャッシュを共有し、E2BおよびE4Bモデルに対しては、埋め込み層にクラスタリング技術を導入しています。現在、MTPモデルは全面的にオープンソース化されており、VLLM、SGLang、Ollamaなどの主流推論フレームワークをサポートしています。この最適化により、アプリケーションの敷居が大幅に下がり、開発者は一般的な消費者向けグラフィックカード上で26B MOEや31B密度モデルをスムーズに動作させることができるほか、モバイルデバイス上でも低消費電力でリアルタイムAIインタラクションを支援できるようになりました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン