Google Gemini API revela "vulnerabilidade na cobrança de cache", desenvolvedor exclui inválido e é severamente cobrado 20.000 reais

Google AI desenvolvedor fórum recentemente revelou uma grave anomalia de cobrança de API. Um desenvolvedor publicou um pedido de ajuda, apontando que a funcionalidade de cache de texto Gemini 3 Flash (Context Caching) que utilizava, após ser apagada via API no frontend, continuava a gerar cobranças contínuas a uma taxa surpreendente de milhares de reais por hora, acumulando uma fatura em poucos dias que se aproximava de 20 mil reais brasileiros (cerca de alguns milhares de dólares). Atualmente, esse desenvolvedor foi forçado a desativar completamente o serviço Gemini API para conter os prejuízos, e o incidente gerou grande preocupação na comunidade de desenvolvedores.
(Resumindo: Trump pede entrada em empresas de IA americanas, negociações com OpenAI, Anthropic, xAI previstas para esta semana, Altman propõe "Fundo de Riqueza Pública")
(Informação adicional: Antes do IPO da SpaceX, grande pedido público: Google paga 92 milhões de dólares por mês para alugar 110 mil GPUs NVIDIA)

Índice deste artigo

Alternar

  • Mesmo após apagar o cache, cobranças continuam! Milhares de reais por hora
  • Desativação emergencial da API para parar as perdas, sem solução oficial até agora
  • Comunidade de desenvolvedores em pânico, uso de cache requer cautela

O custo oculto das APIs de grandes modelos de inteligência artificial sempre foi uma preocupação importante para os desenvolvedores, e recentemente a API Gemini da Google revelou uma vulnerabilidade assustadora de "cobrança fantasma". No fórum de desenvolvedores de IA do Google, uma postagem intitulada "Urgente: Problema de aumento massivo de custos de cache (Segunda parte)" revelou que o serviço de cache Gemini 3 Flash (Context Caching) apresentou uma aparente perda de controle no mecanismo de cobrança do backend.

Mesmo após apagar o cache, cobranças continuam! Milhares de reais por hora

De acordo com dados detalhados de faturas BigQuery fornecidos pelo desenvolvedor Danilo_Oliveira, o incidente começou em 3 de junho de 2026. Inicialmente, o custo do "Token de armazenamento de texto em cache do Gemini 3 Flash (SKU ID: 583D-5DB6-4555)" permanecia em torno de 20 a 30 reais brasileiros por hora (BRL), com uso de aproximadamente 4 milhões de tokens por hora.

No entanto, a partir de 6 de junho, a situação piorou drasticamente, com um crescimento exponencial nos custos. O uso por hora atingiu mais de 200 milhões de tokens, com cobranças superiores a 1.000 reais por hora. Até a madrugada de 7 de junho, 341 cobranças anômalas fizeram a fatura total disparar para 17.847,21 reais, indicando que o sistema de cobrança estava completamente fora de controle.

Desativação emergencial da API para parar as perdas, sem solução oficial até agora

Diante de uma fatura astronômica que só aumentava, o desenvolvedor tomou todas as medidas possíveis. Ele não só desligou imediatamente o script que gerava o cache, como também consultou a lista de cache via API REST oficial do Google, confirmando que a lista de cache no frontend tinha sido "completamente esvaziada". Surpreendentemente, mesmo após o frontend indicar que não havia cache, o sistema backend continuava a cobrar sem controle.

Suspeitando que fosse um bug causado por o servidor backend do Google não ter apagado corretamente os registros de cache, o desenvolvedor abriu uma solicitação de suporte de faturamento com o número #720261, tentando negociar com a equipe oficial. Para evitar que o buraco financeiro se aprofundasse, ele acabou optando pelo último recurso — desativar completamente o serviço Gemini API no projeto Google Cloud.

Comunidade de desenvolvedores em pânico, uso de cache requer cautela

Após a divulgação do incidente no fórum, a notícia rapidamente chamou atenção e gerou discussões entre profissionais do setor. Como o cache (Context Caching) foi criado para resolver problemas de custo e latência ao lidar com textos extremamente longos em grandes modelos de linguagem (LLM), a situação atual, em que essa funcionalidade virou uma fonte de gastos descontrolados, representa um golpe duro para empresas e desenvolvedores individuais que planejam uma adoção em larga escala do Gemini API.

Antes que a Google corrija oficialmente a vulnerabilidade e publique uma explicação, a comunidade recomenda fortemente que os desenvolvedores que utilizam o recurso de cache do Gemini monitorem de perto as faturas do Google Cloud em tempo real, e configurem limites de orçamento e alertas rigorosos para evitar serem surpreendidos por uma conta astronômica impossível de pagar.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado