Google Gemini API révèle une faille de facturation par cache, les développeurs supprimant des éléments invalides se voient facturer à tort 20 000 réais

Google AI Développeurs Forum a récemment révélé une grave anomalie de facturation API. Un développeur a publié un message de secours, signalant que la fonction de cache de texte Gemini 3 Flash (Context Caching) qu'il utilise continue à facturer à un rythme alarmant de plus de mille yuan par heure après avoir supprimé le cache via l'API front-end, avec une facture accumulée en quelques jours atteignant près de 20 000 reais brésiliens (environ plusieurs milliers de dollars). Actuellement, ce développeur a été contraint de désactiver complètement le service Gemini API pour arrêter la hémorragie, cet incident ayant suscité une grande attention dans la communauté des développeurs.
(Précédent contexte : Trump propose d'investir dans une entreprise américaine d'IA, discussions possibles cette semaine avec OpenAI, Anthropic, xAI, Altman proposant une « fondation de richesse publique »)
(Informations complémentaires : Avant l’IPO de SpaceX, une commande publique importante : Google paie 920 millions de dollars par mois pour louer 110 000 GPU NVIDIA)

Table des matières

Toggle

  • La suppression du cache continue à facturer ! Plus de mille yuan par heure
  • Arrêt d'urgence de l'API pour stopper la fuite, aucune réparation officielle pour l’instant
  • Panique dans la communauté des développeurs, prudence lors de l’utilisation de la fonction de cache

Le coût caché des API de grands modèles d'intelligence artificielle, toujours un point sensible pour les développeurs, a récemment été mis en lumière par une faille de « facturation fantôme » choquante dans la dernière API Gemini de Google. Sur le forum Google AI Développeurs, un message d’urgence intitulé « Urgent : problème massif d’augmentation des coûts de cache (deuxième partie) » a révélé une perte de contrôle grave dans le mécanisme de facturation du service de cache Gemini 3 Flash (Context Caching).

La suppression du cache continue à facturer ! Plus de mille yuan par heure

Selon les données détaillées de facturation BigQuery fournies par le développeur Danilo_Oliveira, cet incident anormal a commencé le 3 juin 2026. Au début, le coût du « stockage de texte en cache Gemini 3 Flash (SKU ID : 583D-5DB6-4555) » est resté stable entre 20 et 30 reais brésiliens (BRL) par heure, avec une utilisation d’environ 4 millions de tokens-heure.

Cependant, à partir du 6 juin, la situation a rapidement dégénéré, avec une croissance explosive du coût. La consommation horaire a dépassé 200 millions de tokens-heure, avec une facturation horaire dépassant 1 000 reais brésiliens. Au petit matin du 7 juin, 341 cas de facturation anormale ont fait grimper la facture totale à 17 847,21 reais brésiliens, montrant que le système de facturation était complètement hors de contrôle.

Arrêt d'urgence de l'API pour stopper la fuite, aucune réparation officielle pour l’instant

Face à cette facture astronomique qui ne cesse de croître comme une boule de neige, le développeur a pris toutes les mesures possibles. Il a immédiatement arrêté le script générant le cache, et via l’API REST officielle de Google, il a vérifié que la liste de cache front-end était « complètement vidée ». Mais le pire, c’est que même si le cache n’apparaît plus à l’écran, le système backend continue à débiter sans restriction.

Soupçonnant un bug où le serveur backend de Google ne parviendrait pas à supprimer correctement les enregistrements de cache, le développeur a ouvert en urgence le ticket #720261 pour tenter une négociation avec le support officiel. Pour éviter que la situation financière ne devienne ingérable, il a finalement choisi la solution extrême — désactiver complètement le service Gemini API dans le projet Google Cloud.

La communauté des développeurs en panique, prudence avec la fonction de cache

Après la révélation de cet incident, la discussion s’est rapidement propagée dans la communauté. La fonction de cache (Context Caching), conçue à l’origine pour réduire les coûts et la latence lors du traitement de textes longs par les grands modèles de langage (LLM), est devenue un gouffre financier, ce qui refroidit sérieusement les entreprises et développeurs individuels qui envisagent une adoption massive de Gemini API.

Avant qu’une correction officielle ne soit publiée par Google pour réparer cette faille backend, la communauté recommande vivement aux développeurs utilisant actuellement la fonction de cache de Gemini API de surveiller de près leur facturation en temps réel via Google Cloud, et de définir des limites de budget strictes et des alertes pour éviter de se retrouver face à une facture insupportable au réveil.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé