Gemini 3.1 Flash-Lite oficialmente lanzado: el precio de entrada es solo una cuarta parte de Claude 4.5 Haiku, GPQA supera en casi 14 puntos porcentuales

Según la monitorización de Beating, Google Gemini 3.1 Flash-Lite pasó de la vista previa en marzo a la versión oficial (GA), siendo el modelo más barato y rápido de la serie Gemini 3, listo para entrar en entornos de producción de alta concurrencia. El modelo viene equipado con cuatro niveles de control de intensidad de razonamiento (minimal, low, medium, high), que los usuarios pueden ajustar según el escenario para equilibrar velocidad y calidad.

El precio se mantiene en nivel de vista previa: 0.25 dólares por millón de tokens de entrada, 1.50 dólares por millón de tokens de salida. En comparación con competidores del mismo nivel, el precio de entrada es una cuarta parte de Claude 4.5 Haiku (0.25 vs 1.00 dólares), y el de salida menos de una tercera (1.50 vs 5.00 dólares); además, es más barato que la generación anterior 2.5 Flash, con una reducción de 0.30 a 0.25 dólares en entrada y de 2.50 a 1.50 en salida. La ventana de contexto es de 1 millón de tokens.

Rendimiento a diferentes niveles: GPQA Diamond (razonamiento científico a nivel de posgrado) 86.9%, superando a Claude 4.5 Haiku con 73.0% y GPT-5 mini con 82.3%; MMMU-Pro (comprensión e inferencia multimodal) 76.8%, igualmente liderando en su nivel. La velocidad de salida es de 363 tokens/segundo, un 45% más rápido que 2.5 Flash, y la respuesta del primer token es 2.5 veces más rápida. La puntuación Elo en la clasificación de Arena.ai es de 1432.

Ya varias empresas están usando en producción. La plataforma de atención al cliente Gladly emplea Flash-Lite para impulsar agentes de IA en canales de texto, manejando millones de interacciones semanales con un costo aproximadamente un 60% menor que modelos de nivel de pensamiento similar, con una latencia P95 de aproximadamente 1.8 segundos y una tasa de éxito del 99.6%. JetBrains lo usa para impulsar asistentes de IA en IDEs y agentes Junie. La plataforma financiera Ramp lo emplea en escenarios de alta frecuencia y sensibilidad a la latencia.

La programación es una debilidad relativa de Flash-Lite, con LiveCodeBench en un 72.0%, por debajo del 80.4% de GPT-5 mini.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado