Google DeepMind が DiffusionGemmaをリリース、Gemma 4オープンソースファミリーの新メンバーです。公式テストによると、Nvidia RTX 5090 上で約毎秒700トークン、H100 上で突破して毎秒1,000トークンに達し、同サイズの自己回帰型Gemmaモデルの約4倍の速度を実現しています。 (前提:GoogleがGemma 4 12Bのオープンソースモデルをリリースし、16GBの消費者向けノートパソコンでローカル実行可能に) (補足:Googleモデルを圧倒!Tetherが「スマホで動く」医療AI QVAC MedPsyをリリース、クラウドを断ちプライバシー問題を解決)
この記事の目次
Toggle
今回はGoogle DeepMindがGemma 4オープンソースファミリーに異端を放り込みました。多くの言語モデルは「自己回帰」方式で文字を生成します。簡単に言えば、左から右へ、一度に一文字ずつ、前の文字の確率に基づいて次の文字を決めていき、順次出力を完成させる方式です。
DiffusionGemmaのやり方は全く逆です:まず「キャンバス」にプレースホルダーを埋め、その後何度も「ノイズ除去」を繰り返し、最終的に一度で全文を仕上げて出力します。このロジックは、Stable Diffusionによる画像生成方式により近く、GPTの文字生成方式とは異なります。
Google公式は、この構造はローカルハードウェア上で速度の定量的な優位性を持ち、Apache 2.0ライセンスで開発者や研究者に公開していると述べています。
DiffusionGemmaは「混合エキスパート」(MoE)アーキテクチャを採用しています。
MoEの概念は、モデル内部に多数の「エキスパート」サブネットワークが存在しますが、推論時にはその一部だけを有効にし、全パラメータを常に動員するわけではないというものです。平たく言えば、モデル全体は巨大でも、計算時には必要なエキスパートだけを呼び出す仕組みです。DiffusionGemmaの総パラメータは260億(26B)ですが、推論時に実際に有効なのは38億(3.8B)だけです。これにより、高性能GPUの18GB VRAM内で動かすことが可能となり、量子化すれば特に顕著です。
生成の流れはさらに詳しく解説できます。標準的な自己回帰モデルは線形の生産ラインのようなもので、最初のトークンが出てから次のトークンの計算を始める仕組みです。
一方、DiffusionGemmaはまず出力領域全体にプレースホルダーのトークンを敷き詰め、その後複数回のノイズ除去を行います。各回で全ての位置のトークンを同時に更新し、相互に推定値を修正しながら、最終的に内容が収束して出力されます。一度に最大256トークンを並列処理可能です。
この設計は、「非線形タスク」に対して具体的な意味を持ちます。Googleが例示したのは数独の解答です。従来の自己回帰モデルはこの種のタスクでは普通の性能しか出せません。なぜなら、正しい数字を埋めるには他の未決定のマスの情報に依存しますが、自己回帰は順次前に進むだけで後戻りできません。DiffusionGemmaは全てのトークンを継続的に自己修正できるため、論理的な依存関係が複雑なタスクにおいて理論上より有利です。
他に公式が挙げる適用シーンは、インライン編集、分子配列生成、数学的描画などです。
ハードウェアの観点から見ると、自己回帰モデルの推論速度は「メモリ帯域幅」に制約されます。1つのトークンを出力するたびにモデルの重みをメモリから読み出す必要があり、メモリのデータ転送速度がボトルネックです。一方、拡散モデルのボトルネックは異なり、「計算能力」に集中しています。大量のトークンを一度に計算しますが、1つのトークンあたりのメモリ読み出し回数は少なくて済みます。
このボトルネックの移行には実際の経済的意味合いもあります。現代のGPUは計算能力がメモリ帯域幅よりも圧倒的に豊富です。自己回帰の「1トークンずつ生成」方式は、高価な演算ユニットが長時間メモリからデータを待ち続ける状態になりやすいです。
拡散生成は作業量を大規模な並列計算に分散させるため、GPUの計算能力を最大限に活用できます。長時間・大量バッチ出力が必要な用途では、「ハードウェアをフルに使い切る」この特性は、単なる速度数字以上に実用的です。
この違いは現代GPU上で直接的な速度差として現れます。Google公式のテスト結果は以下の通りです: ・消費者向けのNvidia RTX 5090では、DiffusionGemmaの出力速度は約毎秒700トークン ・データセンター向けのNvidia H100 AIアクセラレータでは、毎秒1,000トークン超に達します。 Googleの自己評価によると、これは同サイズの標準Gemmaモデルの約4倍の速度です。
なお、上記の数字はGoogle公式のテスト結果に基づき、第三者による独立検証ではありません。シナリオや生成長により、実際の倍率は変動する可能性があります。
しかし、公開されたすべての基準テストでは、DiffusionGemmaのスコアは標準のGemma 4を下回っています。つまり、4倍の速度は決して無償ではなく、生成品質の系統的な低下という代償を伴います。
このトレードオフは、用途によって大きく意味合いが異なります。もし毎秒出力量を重視し、大規模バッチ処理やエッジデバイスでのローカル推論、遅延に敏感なシナリオを想定しているなら、DiffusionGemmaの速度優位は実在します。一方、出力の品質を重視する場合は、現時点では標準のGemma 4の方が信頼性が高いです。
ローカルAIコミュニティにとって、このモデルは「どれだけ品質を犠牲にして速度を得るか」の具体的な選択肢を示しています。限られたローカルハードウェア上で、「どれだけ品質を犠牲にして速度を追求するか?」という問いに対し、今や直接実験できる基準点ができました。Apache 2.0ライセンスにより、誰もが微調整や研究に基づいてこのモデルを使えます。拡散型言語生成の実際の限界は、今後コミュニティの検証次第です。
50.03K 人気度
314.08K 人気度
57.21K 人気度
694.55K 人気度
670.3K 人気度
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind が DiffusionGemmaをリリース、Gemma 4オープンソースファミリーの新メンバーです。公式テストによると、Nvidia RTX 5090 上で約毎秒700トークン、H100 上で突破して毎秒1,000トークンに達し、同サイズの自己回帰型Gemmaモデルの約4倍の速度を実現しています。
(前提:GoogleがGemma 4 12Bのオープンソースモデルをリリースし、16GBの消費者向けノートパソコンでローカル実行可能に)
(補足:Googleモデルを圧倒!Tetherが「スマホで動く」医療AI QVAC MedPsyをリリース、クラウドを断ちプライバシー問題を解決)
この記事の目次
Toggle
今回はGoogle DeepMindがGemma 4オープンソースファミリーに異端を放り込みました。多くの言語モデルは「自己回帰」方式で文字を生成します。簡単に言えば、左から右へ、一度に一文字ずつ、前の文字の確率に基づいて次の文字を決めていき、順次出力を完成させる方式です。
DiffusionGemmaのやり方は全く逆です:まず「キャンバス」にプレースホルダーを埋め、その後何度も「ノイズ除去」を繰り返し、最終的に一度で全文を仕上げて出力します。このロジックは、Stable Diffusionによる画像生成方式により近く、GPTの文字生成方式とは異なります。
Google公式は、この構造はローカルハードウェア上で速度の定量的な優位性を持ち、Apache 2.0ライセンスで開発者や研究者に公開していると述べています。
順不同で文字を生成しないモデルの仕組み
DiffusionGemmaは「混合エキスパート」(MoE)アーキテクチャを採用しています。
MoEの概念は、モデル内部に多数の「エキスパート」サブネットワークが存在しますが、推論時にはその一部だけを有効にし、全パラメータを常に動員するわけではないというものです。平たく言えば、モデル全体は巨大でも、計算時には必要なエキスパートだけを呼び出す仕組みです。DiffusionGemmaの総パラメータは260億(26B)ですが、推論時に実際に有効なのは38億(3.8B)だけです。これにより、高性能GPUの18GB VRAM内で動かすことが可能となり、量子化すれば特に顕著です。
生成の流れはさらに詳しく解説できます。標準的な自己回帰モデルは線形の生産ラインのようなもので、最初のトークンが出てから次のトークンの計算を始める仕組みです。
一方、DiffusionGemmaはまず出力領域全体にプレースホルダーのトークンを敷き詰め、その後複数回のノイズ除去を行います。各回で全ての位置のトークンを同時に更新し、相互に推定値を修正しながら、最終的に内容が収束して出力されます。一度に最大256トークンを並列処理可能です。
この設計は、「非線形タスク」に対して具体的な意味を持ちます。Googleが例示したのは数独の解答です。従来の自己回帰モデルはこの種のタスクでは普通の性能しか出せません。なぜなら、正しい数字を埋めるには他の未決定のマスの情報に依存しますが、自己回帰は順次前に進むだけで後戻りできません。DiffusionGemmaは全てのトークンを継続的に自己修正できるため、論理的な依存関係が複雑なタスクにおいて理論上より有利です。
他に公式が挙げる適用シーンは、インライン編集、分子配列生成、数学的描画などです。
速度優位の源泉
ハードウェアの観点から見ると、自己回帰モデルの推論速度は「メモリ帯域幅」に制約されます。1つのトークンを出力するたびにモデルの重みをメモリから読み出す必要があり、メモリのデータ転送速度がボトルネックです。一方、拡散モデルのボトルネックは異なり、「計算能力」に集中しています。大量のトークンを一度に計算しますが、1つのトークンあたりのメモリ読み出し回数は少なくて済みます。
このボトルネックの移行には実際の経済的意味合いもあります。現代のGPUは計算能力がメモリ帯域幅よりも圧倒的に豊富です。自己回帰の「1トークンずつ生成」方式は、高価な演算ユニットが長時間メモリからデータを待ち続ける状態になりやすいです。
拡散生成は作業量を大規模な並列計算に分散させるため、GPUの計算能力を最大限に活用できます。長時間・大量バッチ出力が必要な用途では、「ハードウェアをフルに使い切る」この特性は、単なる速度数字以上に実用的です。
この違いは現代GPU上で直接的な速度差として現れます。Google公式のテスト結果は以下の通りです:
・消費者向けのNvidia RTX 5090では、DiffusionGemmaの出力速度は約毎秒700トークン
・データセンター向けのNvidia H100 AIアクセラレータでは、毎秒1,000トークン超に達します。
Googleの自己評価によると、これは同サイズの標準Gemmaモデルの約4倍の速度です。
なお、上記の数字はGoogle公式のテスト結果に基づき、第三者による独立検証ではありません。シナリオや生成長により、実際の倍率は変動する可能性があります。
速度の背後にある代償:品質はすべての基準で劣る
しかし、公開されたすべての基準テストでは、DiffusionGemmaのスコアは標準のGemma 4を下回っています。つまり、4倍の速度は決して無償ではなく、生成品質の系統的な低下という代償を伴います。
このトレードオフは、用途によって大きく意味合いが異なります。もし毎秒出力量を重視し、大規模バッチ処理やエッジデバイスでのローカル推論、遅延に敏感なシナリオを想定しているなら、DiffusionGemmaの速度優位は実在します。一方、出力の品質を重視する場合は、現時点では標準のGemma 4の方が信頼性が高いです。
ローカルAIコミュニティにとって、このモデルは「どれだけ品質を犠牲にして速度を得るか」の具体的な選択肢を示しています。限られたローカルハードウェア上で、「どれだけ品質を犠牲にして速度を追求するか?」という問いに対し、今や直接実験できる基準点ができました。Apache 2.0ライセンスにより、誰もが微調整や研究に基づいてこのモデルを使えます。拡散型言語生成の実際の限界は、今後コミュニティの検証次第です。