Nuevos modelos de audio de OpenAI impulsan asistentes de voz en tiempo real con traducción multilingüe e inteligencia de transmisión

En resumen

OpenAI lanzó los modelos GPT-Realtime-2, Translate y Whisper, ampliando la inteligencia artificial de voz en tiempo real con capacidades de razonamiento, traducción y transcripción para aplicaciones conversacionales avanzadas.

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAI anunció un nuevo conjunto de modelos de audio dentro de su ecosistema API, marcando una expansión en las capacidades de voz en tiempo real para desarrolladores y aplicaciones impulsadas por IA. El lanzamiento incluye GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, cada uno diseñado para habilitar interacciones de voz más avanzadas, receptivas y conscientes del contexto en una variedad de casos de uso.

GPT-Realtime-2 se posiciona como el modelo de voz más avanzado de la compañía hasta la fecha, introduciendo razonamiento de clase GPT-5 en conversaciones de audio en vivo. El modelo está diseñado para manejar solicitudes complejas de los usuarios, mantener la continuidad contextual y soportar razonamiento en múltiples pasos mientras interactúa en tiempo real. Está destinado a aplicaciones donde los agentes de voz no solo deben responder rápidamente, sino también interpretar la intención, gestionar interrupciones y ejecutar tareas mediante el uso de herramientas integradas.

Junto a él, GPT-Realtime-Translate permite la traducción en vivo de discursos en más de 70 idiomas de entrada a 13 idiomas de salida. El sistema está construido para mantener el flujo conversacional mientras preserva el significado y el tiempo, permitiendo a los hablantes comunicarse en diferentes idiomas sin retrasos perceptibles. Esta capacidad está dirigida a soporte al cliente global, educación, viajes y servicios de comunicación transfronteriza.

El tercer modelo, GPT-Realtime-Whisper, se centra en la transcripción de voz a texto en streaming. Proporciona transcripciones continuas y de baja latencia a medida que los usuarios hablan, habilitando subtítulos en tiempo real, documentación en vivo y procesamiento inmediato del contenido hablado. El modelo está diseñado para entornos donde se requiere una conversión rápida de voz a texto, como reuniones, transmisiones mediáticas y flujos de trabajo empresariales.

OpenAI describió el lanzamiento conjunto como un paso hacia interfaces de voz que van más allá de los sistemas básicos de comando y respuesta. En lugar de simplemente reconocer el habla y generar respuestas, los modelos están destinados a soportar razonamiento continuo, traducción, transcripción y ejecución de acciones dentro de un flujo conversacional único. El objetivo es habilitar sistemas de voz que puedan funcionar más como asistentes interactivos capaces de completar tareas mientras mantienen un diálogo natural.

GPT-Realtime-2 Avanza la Arquitectura de IA de Voz con Sistemas de Voz a Acción y Ventanas de Contexto Ampliadas

La compañía destacó varios patrones de diseño emergentes habilitados por la tecnología. Estos incluyen sistemas de voz a acción, donde los usuarios pueden describir tareas que se ejecutan mediante razonamiento automatizado e integración de herramientas; sistemas a voz, donde el software genera orientación hablada basada en datos contextuales; y sistemas de traducción de voz a voz, que permiten comunicación multilingüe en tiempo real entre hablantes.

GPT-Realtime-2 introduce mejoras arquitectónicas adicionales para uso en producción. Estas incluyen ventanas de contexto más largas ampliadas a 128K tokens, mejor recuperación durante interrupciones o errores, ejecución paralela de herramientas con retroalimentación transparente y ajuste del tono más controlable según el contexto conversacional. Los desarrolladores también pueden ajustar finamente los niveles de razonamiento para equilibrar velocidad y complejidad según las necesidades de la aplicación.

Los puntos de referencia de rendimiento citados por OpenAI indican resultados mejorados en tareas de razonamiento y seguimiento de instrucciones basadas en audio en comparación con iteraciones anteriores de sus modelos en tiempo real. El sistema también demuestra un manejo más sólido de terminología específica del dominio y un comportamiento más estable en configuraciones de conversación de múltiples turnos.

El lanzamiento también incorpora mecanismos de seguridad, incluyendo monitoreo en tiempo real y clasificación de contenido dentro de sesiones activas, junto con controles a nivel de desarrollador para salvaguardas adicionales. Los modelos están disponibles a través de la API en tiempo real y están posicionados para su despliegue en aplicaciones empresariales, de consumo y para desarrolladores, con precios estructurados en función de métricas de procesamiento de audio por uso.

La introducción de GPT-Realtime-2 y sus modelos complementarios refleja un cambio más amplio hacia sistemas de computación basados en voz capaces de razonar, traducir y transcribir en tiempo real, con el objetivo de hacer que la interacción hablada con el software sea más funcional, adaptable y operativamente capaz.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado