Google lance le modèle open source Gemma 4 12B, pouvant fonctionner localement avec un ordinateur portable grand public de 16 Go de RAM

Google dévoile une nouvelle faille dans la famille Gemma : un nouveau modèle de 12 milliards de paramètres nécessite seulement 16 Go de mémoire pour fonctionner localement sur un ordinateur portable grand public, avec un score officiel proche du modèle MoE de 26 milliards deux fois plus grand.
(Précédent contexte : Google lance une nouvelle application d'IA Dreambeans ! Transformez votre vie quotidienne en une « histoire de dessin animé » en édition limitée)
(Informations complémentaires : Google investit massivement dans l'IA ! Alphabet augmente ses financements en actions à 85 milliards de dollars, avec un investissement de 10 milliards de dollars de Berkshire Hathaway)

Le 3 juin, Google a publié Gemma 4 12B, un modèle dont le seuil matériel requis ne nécessite pas un accélérateur d'IA coûtant souvent 20 000 dollars, mais seulement un ordinateur avec 16 Go de mémoire système (RAM) ou de mémoire vidéo (VRAM) pour une exécution locale.

La lacune dans la famille Gemma 4

En avril de cette année, Google a lancé pour la première fois la famille Gemma 4 avec quatre modèles : le E2B et le E4B optimisés pour les appareils mobiles, ainsi que le 26B MoE et le 31B Dense destinés aux serveurs. Il s'agit d'une gamme couvrant du edge léger au cloud lourd, mais il reste une lacune évidente au milieu : la version mobile est trop légère, et au-delà de 26 milliards, le matériel requis est considérable, laissant peu d'options pour les ordinateurs portables locaux.

Le modèle 12B a été créé précisément pour combler cette position.

Pour clarifier, le 26B MoE est un « modèle à experts hybrides », où MoE signifie : le modèle appelle à la demande certains neurones experts, évitant de mobiliser tous les paramètres à chaque inférence. En termes simples, cette architecture permet au modèle de n'activer qu'un sous-ensemble lors du calcul, et chaque token dans la version 26B n'utilise en réalité qu'environ 4 milliards de paramètres. Mais le coût est que : tous les 26 milliards de paramètres doivent être préchargés en mémoire pour maintenir la vitesse de routage et d'inférence, ce qui occupe presque autant de mémoire qu'un modèle dense de taille équivalente.

Le modèle Dense 31B est un « modèle dense », utilisant tous les paramètres à chaque inférence, selon une architecture traditionnelle. En résumé, il n'y a pas d'économie, chaque réponse est donnée à pleine capacité. En comparaison, la version Gemma 4 12B consomme environ 8,1 Go de mémoire, soit environ la moitié de celle du 26B MoE.

Par ailleurs, la famille Gemma 4 adopte cette année la licence Apache 2.0, une licence open source permettant une utilisation commerciale, des modifications et une redistribution, permettant aux développeurs de l'utiliser directement dans leurs produits sans avoir à demander une autorisation au cas par cas.

« Presque aussi puissant »

Google affirme dans son annonce que le Gemma 4 12B « est presque aussi performant » dans plusieurs benchmarks, rivalisant avec le modèle MoE de 26 milliards deux fois plus grand. Les scores officiels incluent GPQA Diamond (raisonnement scientifique de niveau postgraduate), MMLU Pro (connaissances multidisciplinaires), DocVQA (question-réponse visuelle sur documents), etc., et les chiffres se rapprochent effectivement de la version 26B.

Cependant, plusieurs points méritent une certaine réserve.

Premièrement, ce sont des scores officiels auto-évalués par Google, non encore reproduits de manière indépendante par un tiers. Les scores de référence sont une étape de départ, pas une ligne d'arrivée, et la différence en pratique dans des scénarios réels pourrait être plus grande ou plus petite que ce que montrent ces chiffres. Deuxièmement, « peut fonctionner avec 16 Go » est techniquement vrai, mais la consommation réelle de mémoire lors des tests est d'environ 8,1 Go, ce qui, pour un ordinateur portable utilisé quotidiennement avec un navigateur et un logiciel de traitement de texte ouverts, laisse peu de marge, et tout le monde ne pourra pas faire fonctionner le modèle sans problème.

Gemma 4 12B est également un modèle multimodal, utilisant une architecture unifiée sans encodeur, ce qui signifie que le même modèle peut traiter directement du texte, des images, du son et des vidéos, sans avoir besoin d'ajouter des composants d'encodage séparés.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé