Google(GOOGL.US) atualiza a tarifação da API Gemini, cobrando por faixas de uso com base na inferência

LootboxPhobia · 2026-04-03T06:55:12+00:00

A Google atualizou os níveis de faturação da API Gemini, incluindo padrão, flexível, prioritário, em lote e versão de cache, com o objetivo de otimizar os custos operacionais e a eficiência do serviço de inferência. Os níveis flexível e em lote oferecem um desconto de 50%, mas com maior latência; o nível prioritário fornece respostas mais rápidas, adequado para aplicações em tempo real.

LootboxPhobia

2026-04-03 06:55:12

Geração de resumo em curso

O Zhitung Finance APP tomou conhecimento de que a Google (GOOGL.US) atualizou recentemente os escalões de faturação da API Gemini, e que a solução de otimização e os preços foram definidos com base em necessidades reais de utilização para inferência.

Os novos escalões de serviços de inferência incluem: Standard (Standard), Flex (Flex), Priority (Prioritário), Batch (Lote) e Caching (Armazenamento em cache).

A Google afirmou: “A API Gemini disponibiliza vários mecanismos de otimização que permitem, consoante as necessidades específicas de carga do negócio, alcançar um equilíbrio entre velocidade de execução, custos de utilização e estabilidade do serviço. Quer para criar robôs de conversa em tempo real, quer para executar processos de processamento de dados em lote offline de grande dimensão, a escolha do modo de execução adequado pode reduzir significativamente os custos ou melhorar a eficiência de execução.”

Entre eles, o escalão de inferência Flex utiliza recursos informáticos subutilizados fora do horário de pico, oferecendo um desconto de metade no preço padrão, com uma latência-alvo de 1 a 15 minutos, mas sem garantia de latência. O escalão Batch para API também oferece um desconto de metade na taxa padrão, com uma latência máxima até 24 horas.

A faturação do escalão Caching baseia-se na quantidade de tokens (Token) em cache e na duração do armazenamento, sendo recomendado para cenários como robôs de conversa com instruções complexas do sistema, análise repetida de ficheiros de vídeo longos e consultas a conjuntos de documentos de grande escala.

O escalão Priority é 75% a 100% mais caro do que o preço Standard, com latência controlável entre milissegundos e segundos. A Google recomenda este escalão para cenários como robôs de conversação de apoio ao cliente em tempo real, deteção de fraudes em tempo real e assistentes inteligentes críticos para o negócio.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos