Google DeepMindがGemma 4多模態モデルファミリーをオープンソース化

MeNews · 2026-04-02T22:23:17+00:00

Google DeepMindは最近、Gemma 4マルチモーダルモデルファミリーをオープンソース化しました。これにはテキスト、画像、音声入力がサポートされており、最大コンテキストウィンドウは256Kトークン、140以上の言語に対応しています。このシリーズにはさまざまなサイズのモデルが含まれており、高性能な推論とマルチモーダル処理能力を備え、ハイブリッドアテンションメカニズムを採用しています。

MeNews

2026-04-02 22:23:17

概要作成中

ME News メッセージ、4 月 3 日（UTC+8）、Google DeepMind は近日、Gemma 4 マルチモーダルモデルファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像の入力をサポート（小型モデルは音声もサポート）し、テキスト出力を生成します。事前学習および命令チューニングのバリアントが含まれ、コンテキストウィンドウは最大 256K トークンまで対応し、140 以上の言語に対応しています。モデルは高密度（Dense）と Mixture of Experts（MoE）の 2 つのアーキテクチャを採用し、E2B、E4B、26B A4B、31B の 4 つのサイズがあります。その中核となる能力には、高性能推論、多モーダル処理の拡張、デバイス端末での最適化、コンテキストウィンドウの拡大、エンコードおよびエージェント能力の強化、ネイティブなシステムプロンプトのサポートが含まれます。技術的な詳細として、モデルは混合注意（混合 attention）メカニズムを採用し、グローバル層では統一されたキー・バリューペアと比率 RoPE（p-RoPE）を使用しています。そのうち、E2B と E4B モデルは層ごとの埋め込み（PLE）技術を採用しており、有効パラメータは総パラメータより少なくなっています。一方、26B A4B MoE モデルは推論時に 3.8B パラメータのみを有効化し、実行速度は 4B パラメータモデルに近いです。（出典：InFoQ）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。