Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Gestion de patrimoine VIP
Plans premium de croissance
Gestion privée de patrimoine
Allocation premium d'actifs
Fonds Quant
Stratégies quantitatives
Staking
Stakez des cryptos pour gagner avec les produits PoS.
Levier Smart
Effet de levier sans liquidation
USD1 Intérêts sur holding
20%
Sans blocage, tradez & retirez
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4
Google DeepMind a publié DiffusionGemma, qui est un nouveau membre de la famille open source Gemma 4. Les tests officiels montrent qu'il peut atteindre environ 700 tokens par seconde sur Nvidia RTX 5090, et dépasser 1 000 tokens par seconde sur H100, soit environ 4 fois la vitesse d'un modèle Gemma autoregressif de même taille.
(Précédemment : Google lance le modèle open source Gemma 4 12B, pouvant s'exécuter localement sur un ordinateur portable de 16 Go)
(Complément d'information : Domination des modèles Google ! Tether lance QVAC MedPsy, une IA médicale « portable » qui coupe le cloud pour résoudre les problèmes de confidentialité)
Table des matières de cet article
Toggle
Cette fois, Google DeepMind a introduit une anomalie dans la famille open source Gemma 4. La majorité des modèles de génération de texte sont « autoregressifs », c’est-à-dire qu’ils produisent un mot à la fois de gauche à droite, en déterminant la probabilité du mot suivant en fonction du mot précédent, pour compléter une séquence.
L’approche de DiffusionGemma est totalement opposée : il commence par couvrir une « toile » de symboles de remplacement, puis effectue plusieurs passes de « débruitage » sur l’ensemble du contenu, pour finalement produire une version finale en une seule fois. Cette logique est plus proche de la génération d’images par Stable Diffusion que de la génération de texte par GPT.
Google indique que cette architecture offre un avantage quantifiable en vitesse sur le matériel local, et la met à disposition des développeurs et chercheurs sous licence Apache 2.0.
À quoi ressemble un modèle qui ne génère pas dans l'ordre
DiffusionGemma utilise une architecture « mélange d’experts » (MoE).
Le concept de MoE est qu’un grand nombre de sous-réseaux « experts » existent dans le modèle, mais à chaque inférence, seul un sous-ensemble est activé, plutôt que d’utiliser tous les paramètres à chaque fois. En termes simples, bien que le modèle soit volumineux, chaque opération n’active que les experts nécessaires. La taille totale de DiffusionGemma est de 26 milliards de paramètres (26B), mais lors de l’inférence, seuls 3,8 milliards (3.8B) sont réellement utilisés. Cela lui permet de tenir dans 18 Go de VRAM sur une carte graphique haut de gamme, surtout après quantification.
Le processus de génération mérite d’être détaillé. Un modèle autoregressif standard fonctionne comme une ligne de production linéaire : après avoir généré le premier token, le second commence à être calculé, et ainsi de suite.
DiffusionGemma, en revanche, commence par couvrir toute la zone de sortie avec des tokens de remplacement, puis effectue plusieurs passes de débruitage, où à chaque étape, tous les tokens sont mis à jour simultanément et ajustés mutuellement, jusqu’à ce que l’ensemble converge vers la sortie finale. Il peut traiter jusqu’à 256 tokens en parallèle.
Ce design a une signification concrète pour les « tâches non linéaires ». Google donne l’exemple du Sudoku : un modèle autoregressif classique performe médiocrement sur ce genre de tâche, car remplir correctement une case dépend souvent d’autres cases encore non décidées, mais l’autoregressif ne peut avancer qu’en séquence, sans revenir en arrière. DiffusionGemma peut continuer à se corriger lui-même sur un lot de tokens, ce qui est théoriquement plus avantageux pour des tâches où la dépendance logique est complexe.
Les autres cas d’usage mentionnés par Google incluent : l’édition en ligne (in-line editing), la génération de séquences moléculaires, et la création de graphiques mathématiques.
D’où vient l’avantage de vitesse
Du point de vue matériel, la vitesse d’inférence d’un modèle autoregressif est limitée par la « bande passante mémoire » : à chaque token, il faut lire les poids du modèle depuis la mémoire, ce qui constitue un goulot d’étranglement. La limite des modèles de diffusion est différente : ils sont « intensifs en calcul », traitant de gros lots de tokens en une seule opération, avec beaucoup moins de lectures mémoire par token.
Ce transfert de goulot d’étranglement a une signification économique concrète. La puissance de calcul des GPU modernes dépasse généralement leur bande passante mémoire. La génération autoregressive « un token à la fois » oblige des unités de calcul coûteuses à attendre que la mémoire leur fournisse des données, restant souvent à moitié inactives.
La génération par diffusion répartit la charge en de nombreux calculs parallèles, permettant d’exploiter pleinement la puissance du GPU. Pour des applications nécessitant de longues périodes de traitement en lots importants, cette capacité à « utiliser le matériel à fond » est parfois plus pratique que de simples chiffres de vitesse.
Ce différentiel se traduit directement en vitesse sur les GPU modernes. Selon Google, les chiffres de test sont les suivants : sur un Nvidia RTX 5090 grand public, DiffusionGemma peut produire environ 700 tokens par seconde ; sur un Nvidia H100 AI dans un centre de données, plus de 1 000 tokens par seconde. Google estime que c’est environ 4 fois plus rapide que le modèle Gemma standard de même taille.
Il faut souligner que ces chiffres proviennent de tests officiels Google, et non d’évaluations indépendantes. La performance réelle peut varier selon le contexte et la longueur de génération.
Le coût derrière la vitesse : la qualité est inférieure sur tous les benchmarks
Cependant, dans tous les benchmarks publics publiés, DiffusionGemma obtient des scores inférieurs à ceux de Gemma 4. En d’autres termes, cette accélération de 4 fois a un prix : une baisse systématique de la qualité de génération.
Ce compromis a des implications très différentes selon l’usage. Si vous privilégiez le débit par seconde, par exemple pour le traitement en masse, l’exécution locale sur des appareils edge, ou pour des applications très sensibles à la latence, l’avantage de vitesse de DiffusionGemma est réel. En revanche, si la qualité des réponses est prioritaire, le modèle Gemma 4 reste actuellement plus fiable.
Pour la communauté IA locale, ce modèle incarne une approche de compromis : jusqu’où êtes-vous prêt à échanger la qualité contre la vitesse sur votre hardware limité ? La question a maintenant une réponse concrète, avec un point de référence pour expérimenter. La licence Apache 2.0 permet à tout développeur de faire des ajustements et des recherches à partir de ce modèle, et le plafond pratique de la génération de langage par diffusion dépendra désormais de la communauté.