El costo de razonamiento es solo una vigésima parte de GPT-5.5, Gemini 3.2 en tiempo real aparece en Google Cloud

robot
Generación de resúmenes en curso

Según la monitorización de Beating, en la lista de filtrado de modelos del panel de control de Google Cloud apareció una opción de modelo base llamada gemini-3.2-flash-lite-live-preview.
Este es el segundo caso en que esta serie de modelos se expone en la plataforma oficial, tras las huellas reveladas a principios de mes en el paquete de construcción de la aplicación iOS y AI Studio.
La nueva opción lleva los sufijos lite y live, lo que indica que Google está segmentando versiones especializadas para interacciones en tiempo real con latencia extremadamente baja.
El CEO de Abacus.AI, Bindu Reddy, reveló anteriormente que la capacidad de codificación e inferencia de Gemini 3.2 Flash alcanza el 92% de GPT-5.5, pero gracias a técnicas de destilación y esparcimiento, el costo de inferencia es solo una vigésima del de este último, con la mayoría de las consultas con una latencia inferior a 200 milisegundos.
Con la interfaz en la nube adelantándose, se espera que este modelo ligero de relación costo-rendimiento extremo sea lanzado oficialmente en la conferencia Google I/O el 20 de mayo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado