Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

Google DeepMind a publié DiffusionGemma, qui est un nouveau membre de la famille open source Gemma 4. Les tests officiels montrent qu'il peut atteindre environ 700 tokens par seconde sur Nvidia RTX 5090, et dépasser 1 000 tokens par seconde sur H100, soit environ 4 fois la vitesse d'un modèle Gemma autoregressif de même taille.
(Précédemment : Google lance le modèle open source Gemma 4 12B, pouvant s'exécuter localement sur un ordinateur portable de 16 Go)
(Complément d'information : Domination des modèles Google ! Tether lance QVAC MedPsy, une IA médicale « portable » qui coupe le cloud pour résoudre les problèmes de confidentialité)

Table des matières de cet article

Toggle

  • À quoi ressemble un modèle qui ne génère pas dans l'ordre
  • D'où vient l'avantage de vitesse
  • Le coût derrière la vitesse : la qualité est inférieure sur tous les benchmarks

Cette fois, Google DeepMind a introduit une anomalie dans la famille open source Gemma 4. La majorité des modèles de génération de texte sont « autoregressifs », c’est-à-dire qu’ils produisent un mot à la fois de gauche à droite, en déterminant la probabilité du mot suivant en fonction du mot précédent, pour compléter une séquence.

L’approche de DiffusionGemma est totalement opposée : il commence par couvrir une « toile » de symboles de remplacement, puis effectue plusieurs passes de « débruitage » sur l’ensemble du contenu, pour finalement produire une version finale en une seule fois. Cette logique est plus proche de la génération d’images par Stable Diffusion que de la génération de texte par GPT.

Google indique que cette architecture offre un avantage quantifiable en vitesse sur le matériel local, et la met à disposition des développeurs et chercheurs sous licence Apache 2.0.

À quoi ressemble un modèle qui ne génère pas dans l'ordre

DiffusionGemma utilise une architecture « mélange d’experts » (MoE).

Le concept de MoE est qu’un grand nombre de sous-réseaux « experts » existent dans le modèle, mais à chaque inférence, seul un sous-ensemble est activé, plutôt que d’utiliser tous les paramètres à chaque fois. En termes simples, bien que le modèle soit volumineux, chaque opération n’active que les experts nécessaires. La taille totale de DiffusionGemma est de 26 milliards de paramètres (26B), mais lors de l’inférence, seuls 3,8 milliards (3.8B) sont réellement utilisés. Cela lui permet de tenir dans 18 Go de VRAM sur une carte graphique haut de gamme, surtout après quantification.

Le processus de génération mérite d’être détaillé. Un modèle autoregressif standard fonctionne comme une ligne de production linéaire : après avoir généré le premier token, le second commence à être calculé, et ainsi de suite.

DiffusionGemma, en revanche, commence par couvrir toute la zone de sortie avec des tokens de remplacement, puis effectue plusieurs passes de débruitage, où à chaque étape, tous les tokens sont mis à jour simultanément et ajustés mutuellement, jusqu’à ce que l’ensemble converge vers la sortie finale. Il peut traiter jusqu’à 256 tokens en parallèle.

Ce design a une signification concrète pour les « tâches non linéaires ». Google donne l’exemple du Sudoku : un modèle autoregressif classique performe médiocrement sur ce genre de tâche, car remplir correctement une case dépend souvent d’autres cases encore non décidées, mais l’autoregressif ne peut avancer qu’en séquence, sans revenir en arrière. DiffusionGemma peut continuer à se corriger lui-même sur un lot de tokens, ce qui est théoriquement plus avantageux pour des tâches où la dépendance logique est complexe.

Les autres cas d’usage mentionnés par Google incluent : l’édition en ligne (in-line editing), la génération de séquences moléculaires, et la création de graphiques mathématiques.

D’où vient l’avantage de vitesse

Du point de vue matériel, la vitesse d’inférence d’un modèle autoregressif est limitée par la « bande passante mémoire » : à chaque token, il faut lire les poids du modèle depuis la mémoire, ce qui constitue un goulot d’étranglement. La limite des modèles de diffusion est différente : ils sont « intensifs en calcul », traitant de gros lots de tokens en une seule opération, avec beaucoup moins de lectures mémoire par token.

Ce transfert de goulot d’étranglement a une signification économique concrète. La puissance de calcul des GPU modernes dépasse généralement leur bande passante mémoire. La génération autoregressive « un token à la fois » oblige des unités de calcul coûteuses à attendre que la mémoire leur fournisse des données, restant souvent à moitié inactives.

La génération par diffusion répartit la charge en de nombreux calculs parallèles, permettant d’exploiter pleinement la puissance du GPU. Pour des applications nécessitant de longues périodes de traitement en lots importants, cette capacité à « utiliser le matériel à fond » est parfois plus pratique que de simples chiffres de vitesse.

Ce différentiel se traduit directement en vitesse sur les GPU modernes. Selon Google, les chiffres de test sont les suivants : sur un Nvidia RTX 5090 grand public, DiffusionGemma peut produire environ 700 tokens par seconde ; sur un Nvidia H100 AI dans un centre de données, plus de 1 000 tokens par seconde. Google estime que c’est environ 4 fois plus rapide que le modèle Gemma standard de même taille.

Il faut souligner que ces chiffres proviennent de tests officiels Google, et non d’évaluations indépendantes. La performance réelle peut varier selon le contexte et la longueur de génération.

Le coût derrière la vitesse : la qualité est inférieure sur tous les benchmarks

Cependant, dans tous les benchmarks publics publiés, DiffusionGemma obtient des scores inférieurs à ceux de Gemma 4. En d’autres termes, cette accélération de 4 fois a un prix : une baisse systématique de la qualité de génération.

Ce compromis a des implications très différentes selon l’usage. Si vous privilégiez le débit par seconde, par exemple pour le traitement en masse, l’exécution locale sur des appareils edge, ou pour des applications très sensibles à la latence, l’avantage de vitesse de DiffusionGemma est réel. En revanche, si la qualité des réponses est prioritaire, le modèle Gemma 4 reste actuellement plus fiable.

Pour la communauté IA locale, ce modèle incarne une approche de compromis : jusqu’où êtes-vous prêt à échanger la qualité contre la vitesse sur votre hardware limité ? La question a maintenant une réponse concrète, avec un point de référence pour expérimenter. La licence Apache 2.0 permet à tout développeur de faire des ajustements et des recherches à partir de ce modèle, et le plafond pratique de la génération de langage par diffusion dépendra désormais de la communauté.

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé