Le coût de raisonnement n'est qu'un vingtième de GPT-5.5, le modèle en temps réel Gemini 3.2 apparaît sur Google Cloud

robot
Création du résumé en cours

Selon le suivi Beating, une option de modèle de base nommée gemini-3.2-flash-lite-live-preview est apparue dans la liste de filtrage des modèles du tableau de bord Google Cloud. Il s’agit d’une nouvelle exposition de cette série de modèles sur la plateforme officielle, après avoir été révélée au début du mois dans le paquet de construction iOS et dans AI Studio. La nouvelle option porte les suffixes lite et live, indiquant que Google a segmenté une version spécialisée pour une interaction en temps réel à très faible latence. Le PDG d’Abacus.AI, Bindu Reddy, a précédemment révélé que la capacité de codage et d’inférence de Gemini 3.2 Flash atteint 92 % de GPT-5.5, mais grâce à la distillation et à la technique de sparsification, le coût d’inférence n’est qu’un vingtième de celui de ce dernier, avec la majorité des requêtes ayant un délai inférieur à 200 millisecondes. Avec l’interface cloud anticipée, l’industrie prévoit que ce modèle léger, offrant un rapport coût-performance extrême, sera officiellement lancé lors de la conférence Google I/O le 20 mai.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé