Google(GOOGL.US)met à jour la tarification de l'API Gemini : facturation par paliers en fonction de l'utilisation en inférence

LootboxPhobia · 2026-04-03T06:55:12+00:00

Google a mis à jour les niveaux de tarification de l'API Gemini, comprenant standard, élastique, prioritaire, batch et cache, dans le but d'optimiser les coûts et l'efficacité des services d'inférence. Les niveaux élastique et batch offrent une réduction de 50 %, mais avec une latence plus longue ; le niveau prioritaire offre des réponses plus rapides, adapté aux applications en temps réel.

LootboxPhobia

2026-04-03 06:55:12

Création du résumé en cours

L’application Zhitong Finance a appris que Google (GOOGL.US) a récemment mis à jour les paliers de facturation de l’API Gemini. Les options d’optimisation et les tarifs sont tous deux définis sur la base des besoins réels d’utilisation pour l’inférence.

Les nouveaux paliers de service d’inférence comprennent : Standard (Standard), Flex (Flex), Priority (Prioritaire), Batch (Traitement par lots) et Caching (Mise en cache).

Google indique : « L’API Gemini fournit plusieurs mécanismes d’optimisation qui permettent, selon les besoins spécifiques de la charge de travail de l’activité, d’atteindre un équilibre entre vitesse d’exécution, coût d’utilisation et stabilité du service. Qu’il s’agisse de mettre en place un robot de discussion en temps réel ou d’exécuter des processus de traitement de données hors ligne de grande envergure, choisir le bon mode d’exécution peut réduire de manière significative les coûts ou améliorer l’efficacité opérationnelle. »

Parmi eux, le palier d’inférence Flex exploite des ressources de calcul disponibles pendant les heures creuses (hors pic) et offre une réduction de 50 % par rapport au prix standard. Le délai cible est de 1 à 15 minutes, mais aucune garantie de délai n’est fournie. Le palier d’API Batch propose également une réduction de 50 % sur les tarifs standards, avec un délai pouvant aller jusqu’à 24 heures maximum.

Le palier Caching est facturé en fonction du nombre de tokens (mots) mis en cache et de la durée de stockage. Il est recommandé pour des robots de discussion intégrant des instructions système complexes, pour l’analyse répétée de fichiers vidéo longs, ainsi que pour des scénarios de requêtes sur de grands corpus de documents, etc.

Le prix du palier Prioritaire est supérieur de 75 % à 100 % au prix standard, et la latence peut être contrôlée à l’échelle des millisecondes jusqu’aux secondes. Google recommande ce palier pour des cas d’usage tels que des robots de service client en temps réel, la détection de fraude en temps réel et des assistants intelligents critiques pour l’activité, etc.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime