Google DeepMindがGemma 4多模態モデルファミリーをオープンソース化

robot
概要作成中

ME News メッセージ、4 月 3 日(UTC+8)、Google DeepMind は近日、Gemma 4 マルチモーダル モデル ファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像の入力をサポート(小型モデルは音声もサポート)し、テキスト出力を生成します。事前学習および命令チューニングのバリアントが含まれ、コンテキスト ウィンドウは最大 256K トークンまで対応し、140 以上の言語に対応しています。モデルは高密度(Dense)と Mixture of Experts(MoE)の 2 つのアーキテクチャを採用し、E2B、E4B、26B A4B、31B の 4 つのサイズがあります。その中核となる能力には、高性能推論、多モーダル処理の拡張、デバイス端末での最適化、コンテキスト ウィンドウの拡大、エンコードおよびエージェント能力の強化、ネイティブなシステム プロンプトのサポートが含まれます。技術的な詳細として、モデルは混合注意(混合 attention)メカニズムを採用し、グローバル層では統一されたキー・バリュー ペアと比率 RoPE(p-RoPE)を使用しています。そのうち、E2B と E4B モデルは層ごとの埋め込み(PLE)技術を採用しており、有効パラメータは総パラメータより少なくなっています。一方、26B A4B MoE モデルは推論時に 3.8B パラメータのみを有効化し、実行速度は 4B パラメータ モデルに近いです。(出典:InFoQ)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン