币界網のニュースによると、GoogleはGemma 4シリーズのマルチトークン予測(MTP)ドラフトモデルを公開し、オープンソース化しました。このモデルは投機的デコードアーキテクチャを採用しており、メインモデルが最終検証権を保持したままで、最大3倍の推論速度向上を実現しつつ、出力品質を損なわないことが特徴です。MTP方式は未使用の計算能力を利用して、複数の未来のトークンを事前に予測し、その後重厚なターゲットモデルによって並行検証を行います。ターゲットモデルがドラフトに同意すれば、一度に全体のシーケンスを受け取ります。ドラフトモデルはターゲットモデルの活性化状態とKVキャッシュを共有し、E2BおよびE4Bモデルに対しては、埋め込み層にクラスタリング技術を導入しています。現在、MTPモデルは全面的にオープンソース化されており、VLLM、SGLang、Ollamaなどの主流推論フレームワークをサポートしています。この最適化により、アプリケーションの敷居が大幅に下がり、開発者は一般的な消費者向けグラフィックカード上で26B MOEや31B密度モデルをスムーズに動作させることができるほか、モバイルデバイス上でも低消費電力でリアルタイムAIインタラクションを支援できるようになりました。
GoogleオープンソースのGemma 4シリーズ全モデルのMTP投機解読モデル、最大3倍の高速化
币界網のニュースによると、GoogleはGemma 4シリーズのマルチトークン予測(MTP)ドラフトモデルを公開し、オープンソース化しました。このモデルは投機的デコードアーキテクチャを採用しており、メインモデルが最終検証権を保持したままで、最大3倍の推論速度向上を実現しつつ、出力品質を損なわないことが特徴です。MTP方式は未使用の計算能力を利用して、複数の未来のトークンを事前に予測し、その後重厚なターゲットモデルによって並行検証を行います。ターゲットモデルがドラフトに同意すれば、一度に全体のシーケンスを受け取ります。ドラフトモデルはターゲットモデルの活性化状態とKVキャッシュを共有し、E2BおよびE4Bモデルに対しては、埋め込み層にクラスタリング技術を導入しています。現在、MTPモデルは全面的にオープンソース化されており、VLLM、SGLang、Ollamaなどの主流推論フレームワークをサポートしています。この最適化により、アプリケーションの敷居が大幅に下がり、開発者は一般的な消費者向けグラフィックカード上で26B MOEや31B密度モデルをスムーズに動作させることができるほか、モバイルデバイス上でも低消費電力でリアルタイムAIインタラクションを支援できるようになりました。