O custo de raciocínio é apenas um vinte avos do GPT-5.5, o modelo em tempo real Gemini 3.2 aparece na Google Cloud

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, uma opção de modelo base chamada gemini-3.2-flash-lite-live-preview apareceu na lista de filtragem de modelos do console do Google Cloud. Este é o mais recente destaque na série de modelos que, após sinais de sua presença no pacote de construção de aplicativos iOS e no AI Studio no início deste mês, foi novamente exposto na plataforma oficial. A nova opção possui os sufixos lite e live, indicando que o Google está segmentando versões especializadas para interações em tempo real com latência extremamente baixa. O CEO da Abacus.AI, Bindu Reddy, revelou anteriormente que a codificação e a capacidade de inferência do Gemini 3.2 Flash atingem 92% do GPT-5.5, mas graças às técnicas de destilação e esparsidade, o custo de inferência é apenas um vigésimo do último, com a maioria das consultas tendo uma latência inferior a 200 milissegundos. Com a interface na nuvem antecipando a corrida, espera-se que esse modelo leve, com uma relação custo-benefício extrema, seja oficialmente lançado na conferência Google I/O em 20 de maio.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado