GPT-Realtime-2 lleva la inteligencia de GPT-5 a la API de voz

OpenAI lanzó una nueva generación de modelos de voz en su API el miércoles, proporcionando a los desarrolladores herramientas para crear aplicaciones que puedan razonar a través de solicitudes habladas, traducir más de 70 idiomas y transcribir el habla en tiempo real.

Los tres modelos se llaman GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper. Llevan las interfaces de voz de IA más allá de simples intercambios de preguntas y respuestas hacia un territorio donde un agente de IA puede escuchar, pensar y actuar en medio de una conversación.

GPT-Realtime-2 aporta un razonamiento más agudo a la voz

GPT-Realtime-2 es el buque insignia. OpenAI dice que ofrece un razonamiento de clase GPT-5, un paso importante respecto a su predecesor, GPT-Realtime-1.5.

El modelo obtuvo un 15.2% más alto en Big Bench Audio, un benchmark para inteligencia de audio, y un 13.8% más en Audio MultiChallenge, que prueba la capacidad de seguir instrucciones en diálogos hablados de múltiples turnos.

Las mejoras prácticas están dirigidas a desarrolladores que construyen agentes de voz en producción. El modelo ahora soporta una ventana de contexto de 128K, cuadruplicada respecto al límite anterior de 32K, y ofrece cinco niveles de esfuerzo de razonamiento ajustable desde “mínimo” hasta “xalto.”

Puede llamar a múltiples herramientas simultáneamente, recuperarse de errores con reconocimientos hablados y producir frases cortas de enlace como “déjame verificar eso” mientras procesa una solicitud.

GPT-Realtime-Translate maneja la traducción en vivo del habla. Acepta más de 70 idiomas de entrada y produce en 13, diseñado para mantenerse al ritmo de un hablante en tiempo real.

GPT-Realtime-Whisper proporciona transcripción de voz a texto en streaming, transcribiendo las palabras a medida que se hablan en lugar de esperar a una expresión completa.

Zillow, Deutsche Telekom prueban los modelos en producción

Varias empresas tuvieron acceso anticipado. Zillow está construyendo un asistente de voz que puede procesar consultas complejas de bienes raíces, manejar llamadas a herramientas para buscar listados y cumplir con las regulaciones de Vivienda Justa.

La compañía reportó una mejora de 26 puntos en la tasa de éxito de llamadas en su benchmark más difícil y adversarial tras optimizar los prompts con GPT-Realtime-2, alcanzando un 95% en comparación con el 69% anterior.

Deutsche Telekom está probando traducción en tiempo real para soporte al cliente, permitiendo a los llamantes hablar en su idioma preferido mientras el modelo realiza la conversión en ambos lados.

Priceline está explorando un asistente de viajes basado en voz que podría gestionar búsquedas de vuelos, cambios de hotel y traducción en tierra en una sola sesión.

Los modelos están dirigidos a empresas que buscan ampliar sus capacidades de atención al cliente, pero también se observan aplicaciones potenciales en educación, medios, eventos y plataformas de creadores.

OpenAI dijo que incorporó moderación de contenido en los nuevos modelos, con disparadores que pueden detener conversaciones detectadas como que violan las directrices de contenido dañino. La compañía enmarcó las barreras como protección contra spam, fraude y otras formas de abuso.

En cuanto a precios, los modelos Translate y Whisper facturan por minuto. GPT-Realtime-2 factura por consumo de tokens. Los tres están disponibles a través de la API Realtime de OpenAI, accesible mediante métodos de conexión WebRTC, WebSocket y SIP.

Si estás leyendo esto, ya estás adelante. Mantente allí con nuestro boletín.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado