ME News メッセージ、4 月 3 日(UTC+8)、Google DeepMind は近日、Gemma 4 マルチモーダル モデル ファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像の入力をサポート(小型モデルは音声もサポート)し、テキスト出力を生成します。事前学習および命令チューニングのバリアントが含まれ、コンテキスト ウィンドウは最大 256K トークンまで対応し、140 以上の言語に対応しています。モデルは高密度(Dense)と Mixture of Experts(MoE)の 2 つのアーキテクチャを採用し、E2B、E4B、26B A4B、31B の 4 つのサイズがあります。その中核となる能力には、高性能推論、多モーダル処理の拡張、デバイス端末での最適化、コンテキスト ウィンドウの拡大、エンコードおよびエージェント能力の強化、ネイティブなシステム プロンプトのサポートが含まれます。技術的な詳細として、モデルは混合注意(混合 attention)メカニズムを採用し、グローバル層では統一されたキー・バリュー ペアと比率 RoPE(p-RoPE)を使用しています。そのうち、E2B と E4B モデルは層ごとの埋め込み(PLE)技術を採用しており、有効パラメータは総パラメータより少なくなっています。一方、26B A4B MoE モデルは推論時に 3.8B パラメータのみを有効化し、実行速度は 4B パラメータ モデルに近いです。(出典:InFoQ)
Google DeepMindがGemma 4多模態モデルファミリーをオープンソース化
ME News メッセージ、4 月 3 日(UTC+8)、Google DeepMind は近日、Gemma 4 マルチモーダル モデル ファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像の入力をサポート(小型モデルは音声もサポート)し、テキスト出力を生成します。事前学習および命令チューニングのバリアントが含まれ、コンテキスト ウィンドウは最大 256K トークンまで対応し、140 以上の言語に対応しています。モデルは高密度(Dense)と Mixture of Experts(MoE)の 2 つのアーキテクチャを採用し、E2B、E4B、26B A4B、31B の 4 つのサイズがあります。その中核となる能力には、高性能推論、多モーダル処理の拡張、デバイス端末での最適化、コンテキスト ウィンドウの拡大、エンコードおよびエージェント能力の強化、ネイティブなシステム プロンプトのサポートが含まれます。技術的な詳細として、モデルは混合注意(混合 attention)メカニズムを採用し、グローバル層では統一されたキー・バリュー ペアと比率 RoPE(p-RoPE)を使用しています。そのうち、E2B と E4B モデルは層ごとの埋め込み(PLE)技術を採用しており、有効パラメータは総パラメータより少なくなっています。一方、26B A4B MoE モデルは推論時に 3.8B パラメータのみを有効化し、実行速度は 4B パラメータ モデルに近いです。(出典:InFoQ)