Gemini 3.1 Flash-Lite officiellement publié : le prix d'entrée n'est qu'un quart de Claude 4.5, GPQA dépasse de près de 14 points de pourcentage

Selon la surveillance Beating, Google Gemini 3.1 Flash-Lite est passé de la version preview de mars à la version officielle (GA), c’est le modèle le plus abordable et le plus rapide de la série Gemini 3, prêt à entrer en production à haute concurrence. Le modèle est équipé de quatre niveaux de contrôle de la puissance de raisonnement (minimal, faible, moyen, élevé), permettant aux utilisateurs d’ajuster entre vitesse et qualité selon le scénario.

Le prix reste au niveau de la preview : 0,25 dollar par million de tokens en entrée, 1,50 dollar par million de tokens en sortie. Comparé aux concurrents du même niveau, le prix d’entrée est un quart de celui de Claude 4.5 Haiku (0,25 contre 1,00 dollar), et le prix de sortie moins d’un tiers (1,50 contre 5,00 dollars) ; il est aussi moins cher que la génération précédente 2.5 Flash, avec une baisse de 0,30 à 0,25 dollar en entrée, et de 2,50 à 1,50 dollar en sortie. La fenêtre de contexte est de 1 million de tokens.

Performance à différents niveaux : GPQA Diamond (raisonnement scientifique de niveau master) 86,9 %, surpassant Claude 4.5 Haiku à 73,0 % et GPT-5 mini à 82,3 % ; MMMU-Pro (compréhension et raisonnement multimodal) 76,8 %, également en tête de ses concurrents du même niveau. La vitesse de sortie est de 363 tokens/sec, soit 45 % plus rapide que 2.5 Flash, avec une réponse du premier token 2,5 fois plus rapide. Le score Elo sur le classement Arena.ai est de 1432.

Plusieurs entreprises l’utilisent déjà en production. La plateforme de service client Gladly utilise Flash-Lite pour alimenter un agent IA de canal texte, traitant plusieurs millions d’interactions clients par semaine, avec un coût environ 60 % inférieur à celui de modèles de même niveau de raisonnement, un délai P95 d’environ 1,8 seconde, et un taux de réussite de 99,6 %. JetBrains l’utilise pour alimenter ses assistants IA dans l’IDE et l’agent Junie. La plateforme financière Ramp l’utilise dans des scénarios à haute fréquence et à faible latence.

La programmation reste une faiblesse relative de Flash-Lite, LiveCodeBench affiche un taux de 72,0 %, en retard par rapport à GPT-5 mini à 80,4 %.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler