Gemini 3.1 Flash Live lanzado: Google se centra en reconocimiento de voz y visión en tiempo real, reduciendo la latencia a menos de 300ms

robot
Generación de resúmenes en curso

Título

Google DeepMind lanza Gemini 3.1 Flash Live, un modelo multimodal diseñado para agentes de voz y visuales en tiempo real.

Resumen

  • Logan Kilpatrick del equipo de Google AI anunció el lanzamiento de Gemini 3.1 Flash Live, un modelo de audio y voz para agentes conversacionales.
  • El modelo acepta tres tipos de entradas: audio, video y texto, soporta más de 90 idiomas y puede filtrar el ruido de fondo.
  • El desarrollo tomó más de un año, con una latencia de interacción de extremo a extremo reducida a menos de 300 ms; la precisión en llamadas de funciones múltiples de ComplexFuncBench es del 90.8%, y la comprensión del habla en Big Bench Audio es del 95.9%.
  • Enfocado en escenarios de voz prioritaria para atención al cliente y creación, agregando la marca de agua SynthID para etiquetar e identificar contenido generado por IA.

Métricas y posicionamiento

Métrica/Referencia Resultado
Latencia de interacción de extremo a extremo <300ms
ComplexFuncBench (llamadas de funciones múltiples) 90.8%
Big Bench Audio (comprensión del habla) 95.9%
Scale AI Audio MultiChallenge (iniciar pensamiento) 36.1%
  • En comparación con Gemini 2.5 Flash Native Audio, esta vez las llamadas a herramientas en entornos multimodales y ruidosos son más estables.
  • En el mercado, compite directamente con agentes de voz en tiempo real como GPT-Realtime de OpenAI y Grok Voice Agent.

Producto y ecosistema

  • Modo de acceso: La API de Gemini Live ya está disponible en Google AI Studio.
  • Integración empresarial: Verizon y Home Depot la están utilizando para experiencias de cliente impulsadas por voz; la aplicación Stitch la está usando para procesos de diseño controlados por voz.

Riesgos y limitaciones

  • El modelo todavía está en fase de vista previa; las referencias oficiales aún no han sido replicadas de manera independiente por terceros.
  • La puntuación de MultiChallenge de Scale AI es promedio, lo que indica que la robustez en escenas de interrupción y superposición necesita mejoras.
  • Demis Hassabis y Sundar Pichai han hecho declaraciones públicas, indicando que la interacción por voz es una de las principales direcciones estratégicas de Google AI.

Perspectiva de los investigadores

  • Juicio central: En la dirección multimodal de voz/visual en tiempo real, Google está utilizando características prácticas como baja latencia, resistencia al ruido y llamadas de funciones para cerrar la brecha con los competidores en la experiencia de interacción de extremo a extremo.
  • Significado para los creadores:
    • Se puede usar como un “frente de voz + centro de llamadas de herramientas”, reduciendo la barrera para construir sistemas de atención al cliente, colaboración creativa y flujos de trabajo de comandos de voz.
    • SynthID proporciona un medio de identificación ejecutable para la seguridad y el cumplimiento, facilitando a las empresas la gestión de riesgos y auditorías.
  • Para inversores/observadores:
    • Los datos muestran que tiene potencial en llamadas de herramientas estructuradas y comprensión del habla, pero el rendimiento real en interacciones complejas y escenas de interrupción necesita más validación.

Evaluación de impacto

  • Importancia: Alta
  • Categoría: Lanzamiento de modelo, lanzamiento de producto, herramientas para desarrolladores

Conclusión: Para los desarrolladores de aplicaciones “prioritarias en voz” y las partes integradoras empresariales, esta es una ventana temprana aprovechable; los participantes transaccionales actualmente no tienen oportunidades directas de arbitraje. La ventaja actual se inclina claramente hacia los desarrolladores y constructores empresariales, mientras que los fondos y los tenedores a largo plazo deben observar.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado