Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
OpenAI hace que el modelo "abra la boca" y insulta a AI por ser muy caro
Autor: Su Yang, Tencent Technology
8 de mayo, OpenAI añadió tres nuevos modelos de voz de próxima generación en su API: GPT‑Realtime‑2, centrado en razonamiento y diálogo de voz, Realtime‑Translate, que destaca por su traducción multilingüe en tiempo real, y Realtime‑Whisper, enfocado en convertir voz en texto.
GPT‑Realtime‑2 es el primer modelo de voz de OpenAI con capacidades de razonamiento equivalentes a GPT‑5. Muestra avances notables en pruebas de referencia: en la evaluación de inteligencia de voz Big Bench Audio, alcanza una precisión del 96.6%, y en la evaluación de cumplimiento de instrucciones Audio MultiChallenge, una tasa de aprobación media del 48.5%, con mejoras de 15.2 y 13.8 puntos porcentuales respecto a la generación anterior GPT‑Realtime‑1.5.
Basado en GPT‑Realtime‑2, la IA de voz evoluciona de simples preguntas y respuestas rotativas a una forma capaz de escuchar, razonar, llamar a herramientas y completar tareas durante una conversación en curso.
Un asistente de voz que “piensa”
El objetivo de GPT‑Realtime‑2 es que el modelo de voz mantenga fluidez en el diálogo, a la vez que posea capacidades de razonamiento y acción para manejar tareas complejas.
En cuanto a la naturalidad del diálogo, el modelo introduce un mecanismo de frases guía.
Los desarrolladores pueden activar indicaciones cortas como “Déjame consultar” o “Espera un momento, estoy revisando”, para informar al usuario que la solicitud ha sido recibida y está en proceso, antes de generar una respuesta formal.
Complementariamente, el modelo puede llamar a múltiples herramientas externas simultáneamente y hacer que estas sean transparentes para el usuario, informando en voz sobre el progreso, por ejemplo diciendo “Revisando tu calendario” o “Buscando”, para mantener una respuesta activa en lugar de silencio.
Cuando enfrenta dificultades, el modelo puede responder proactivamente con frases como “Estoy teniendo un pequeño problema ahora” y tratar de recuperarse, en lugar de fallar en silencio o interrumpir la conversación abruptamente.
Además, la ventana de contexto del modelo se amplía de 32K a 128K, permitiendo mantener coherencia en diálogos más largos y complejos, soportando flujos de trabajo más completos del asistente inteligente.
En escenarios especializados, el modelo mejora en la comprensión de terminología técnica, manteniendo con mayor precisión vocabulario profesional, nombres propios y términos médicos, lo cual es valioso para despliegues en entornos productivos. En cuanto a expresión, el modelo ofrece mayor control sobre el tono y la expresividad, pudiendo cambiar estilos según el contexto.
Otra actualización clave es la intensidad de razonamiento ajustable. Los desarrolladores pueden escoger entre cinco niveles: minimal, low, medium, high y xhigh (por defecto en low), para equilibrar latencia y profundidad de razonamiento.
No hay charla trivial
GPT‑Realtime‑2 domina en las pruebas de referencia
En la evaluación Big Bench Audio, que mide la capacidad de razonamiento desafiante en modelos de voz, GPT‑Realtime‑2 (nivel de razonamiento high) logra un 96.6% de precisión, frente al 81.4% de GPT‑Realtime‑1.5, con una mejora de 15.2 puntos porcentuales.
En la evaluación Audio MultiChallenge, que mide la inteligencia en interacciones multironda en sistemas de diálogo oral—que abarca cumplimiento de instrucciones, integración de contexto, coherencia propia y correcciones en lenguaje natural—, GPT‑Realtime‑2 (nivel de razonamiento xhigh) pasa del 34.7% de GPT‑Realtime‑1.5 al 48.5%, con una mejora relativa de 13.8 puntos porcentuales.
De hecho, para determinar si un modelo de voz es realmente “inteligente”, el escenario más convincente no es una charla trivial, sino resolver un problema complejo que requiere múltiples pasos de deducción.
Nota: En la documentación de demostración, OpenAI presenta una prueba concreta: un usuario describe su emprendimiento, y los dos modelos de Real Time generan razonamientos de voz y transcripciones correspondientes.
Este ejemplo corresponde a una tarea compuesta que exige alta capacidad de razonamiento: el modelo debe entender relaciones entre múltiples variables, como la distribución desigual del flujo de clientes, costos elevados de alquiler fijo, y un negocio enfocado en cafés de baja rotación, y hacer deducciones lógicas bajo esas restricciones.
GPT‑Realtime‑2 proporciona una respuesta ordenada y estructurada en 1 minuto y 4 segundos, desglosando la contradicción entre la afluencia y la estructura de alquiler, señalando que las horas pico concentradas pueden reducir la rentabilidad global y no cubrir los costos, además de proponer una ruta de prueba ligera.
La misma pregunta, planteada al modelo anterior GPT‑Realtime‑1.5, recibe una respuesta en 51 segundos, pero con menor profundidad. Esta comparación muestra claramente la diferencia generacional en capacidades de razonamiento estratégico.
03 Traducción y transcripción en tiempo real
Además de GPT‑Realtime‑2, OpenAI lanzó dos modelos especializados para escenarios específicos.
GPT‑Realtime‑Translate se centra en traducción multilingüe en tiempo real, soportando más de 70 idiomas de entrada, y puede producir salidas en 13 idiomas objetivo, además de ofrecer transcripciones simultáneas. Sus aplicaciones incluyen soporte al cliente, ventas internacionales, educación, eventos y plataformas para creadores con audiencia global.
El responsable de IA de Vimeo, Alberto Parravicini, compartió su caso de uso: integrar GPT‑Realtime‑Translate en la reproducción de videos, permitiendo a los creadores comunicarse en diferentes idiomas con la audiencia global en el momento del lanzamiento.
Vimeo demuestra la capacidad de traducción en tiempo real de GPT‑Realtime‑Translate
GPT‑Realtime‑Whisper es un modelo de transcripción de voz en flujo, diseñado para escenarios de baja latencia.
Puede comenzar a generar texto en el instante en que el hablante empieza a hablar, útil para subtítulos en tiempo real en reuniones, notas de clase, subtítulos en transmisiones y flujos de trabajo que requieren generación inmediata de texto. Su valor principal radica en convertir el contenido de voz en texto estructurado listo para su uso en sistemas downstream durante la conversación misma.
Seguridad y precios
En cuanto a seguridad, la API Realtime cuenta con múltiples barreras: un clasificador activo integrado puede monitorear en tiempo real las conversaciones y detener sesiones que violen las directrices de contenido dañino. Los desarrolladores también pueden agregar barreras personalizadas mediante el SDK de Agents.
Las políticas de uso de OpenAI prohíben expresamente usar los resultados para spam, fraude u otros fines dañinos.
Según las directrices oficiales, a menos que la interacción indique claramente que el interlocutor es una IA, los desarrolladores deben informar claramente a los usuarios finales que están interactuando con una inteligencia artificial (por ejemplo, alertando: “Ahora está hablando la IA”). Además, la API soporta completamente la retención de datos en la UE y está protegida por compromisos de privacidad empresarial.
Los tres modelos ya están disponibles para desarrolladores a través de la API Realtime.
En cuanto a precios, GPT‑Realtime‑2 se factura por tokens de voz: 32 dólares por cada 1 millón de tokens de entrada (con un costo de 0.40 dólares por cada 100 millones de tokens en caché), y 64 dólares por cada 1 millón de tokens de salida. GPT‑Realtime‑Translate se cobra por tiempo de uso, a 0.034 dólares por minuto. GPT‑Realtime‑Whisper también por tiempo, a 0.017 dólares por minuto.
Para respaldar la nueva “suite de voz”, el CEO de OpenAI, Sam Altman, afirmó en X: “La gente realmente está empezando a interactuar con IA mediante voz, especialmente cuando necesitan transmitir una gran cantidad de contexto de una sola vez.”
También mencionó que los jóvenes parecen preferir comunicarse con IA mediante voz, mientras que los mayores tienden a escribir, y planteó la pregunta abierta de si este hábito cambiará en el futuro.
La gran pregunta: ¿quién será el próximo en tomar el relevo en la carrera de la IA de voz de OpenAI?