Google DeepMind ouvre la famille de modèles multimodaux Gemma 4 en open source

robot
Création du résumé en cours

ME News Actualités, le 3 avril (UTC+8), Google DeepMind a récemment open-sourcé la famille de modèles multimodaux Gemma 4. Cette série de modèles supporte l’entrée de texte et d’image (les petits modèles supportent également l’audio), générant une sortie textuelle, comprenant des variantes pré-entraînées et d’ajustement par instruction, avec une fenêtre de contexte pouvant atteindre 256K tokens, et supportant plus de 140 langues.
Les modèles utilisent deux architectures, dense (Dense) et expert hybride (MoE), avec quatre tailles : E2B, E4B, 26B A4B et 31B.
Leurs capacités principales incluent une inférence haute performance, un traitement multimodal extensible, une optimisation côté appareil, l’agrandissement de la fenêtre de contexte, le renforcement des capacités d’encodage et d’agents intelligents, ainsi qu’un support natif pour les invites système.
Sur le plan technique, les modèles adoptent un mécanisme d’attention hybride, avec des couches globales utilisant des paires clé-valeur unifiées et un RoPE (p-RoPE) à proportion.
Les modèles E2B et E4B utilisent la technologie d’intégration couche par couche (PLE), avec un nombre de paramètres effectifs inférieur au total.
Le modèle MoE 26B A4B n’active que 3,8 milliards de paramètres lors de l’inférence, avec une vitesse d’exécution proche de celle d’un modèle 4B.
(Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler