Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
GateRouter
Escolha inteligentemente entre mais de 40 modelos de IA, com 0% de taxas adicionais
OpenAI faz com que o modelo "abra a boca" ofendendo que a IA é muito cara
Autor: Su Yang, Tencent Technology
8 de maio, a OpenAI adicionou três novos modelos de voz de última geração na API: o GPT‑Realtime‑2, focado em inferência de voz e diálogo, o Realtime‑Translate, que destaca a tradução multilíngue em tempo real, e o Realtime‑Whisper, centrado em conversão de voz em texto.
O GPT‑Realtime‑2 é o primeiro modelo de voz da OpenAI com capacidade de inferência ao nível do GPT‑5. Ele demonstrou avanços notáveis em testes de referência: na avaliação de inteligência de voz Big Bench Audio, atingiu uma precisão de 96,6%, e na avaliação de conformidade de comandos Audio MultiChallenge, uma taxa média de aprovação de 48,5%, melhorias de 15,2 e 13,8 pontos percentuais, respetivamente, em relação à geração anterior, GPT‑Realtime‑1.5.
Com base no GPT‑Realtime‑2, a IA de voz evoluiu de perguntas e respostas simples em ciclo, para uma forma capaz de ouvir continuamente, inferir, chamar ferramentas e completar tarefas durante uma conversa.
Assistente de voz que “pensa”
O objetivo do GPT‑Realtime‑2 é fazer com que o modelo de voz, ao manter a fluidez do diálogo, tenha a capacidade de inferir e agir em tarefas complexas.
Para melhorar a naturalidade do diálogo, o modelo introduziu um mecanismo de frases introdutórias.
Os desenvolvedores podem ativar breves frases de aviso, como “Deixe-me verificar” ou “Aguarde um momento, estou verificando”, para informar ao usuário que o pedido foi recebido e está sendo processado, antes mesmo de gerar uma resposta formal.
Complementarmente, com capacidade de chamadas paralelas de ferramentas e transparência na utilização de ferramentas, o modelo pode chamar múltiplas ferramentas externas simultaneamente e informar o progresso ao usuário por voz, como dizer “Verificando seu calendário” ou “Procurando”, mantendo o agente responsivo durante a execução da tarefa, ao invés de ficar silencioso.
Quando encontra dificuldades, o modelo pode proativamente indicar algo como “Estou tendo um pequeno problema agora” e tentar recuperar-se, ao invés de falhar silenciosamente ou interromper a conversa abruptamente.
Além disso, a janela de contexto do modelo foi ampliada de 32K para 128K, permitindo manter coerência em diálogos mais longos e complexos, suportando fluxos de trabalho mais completos do agente inteligente.
No que diz respeito à aplicabilidade em cenários profissionais, o modelo aprimorou sua compreensão de termos específicos de áreas, preservando com maior precisão vocabulário técnico, nomes próprios e terminologia médica, o que é valioso para implantação em ambientes de produção. Em termos de expressão, o modelo oferece maior controle sobre o tom e a performance, podendo ajustar o estilo conforme o contexto.
Outra atualização importante é a capacidade de ajustar a intensidade de inferência. Os desenvolvedores podem escolher entre cinco níveis — minimal, low, medium, high e xhigh (padrão: low) — para equilibrar latência e profundidade de raciocínio.
Sem enrolação
GPT‑Realtime‑2 domina completamente os modelos anteriores em testes de referência
Na avaliação Big Bench Audio, que mede a capacidade de raciocínio desafiador de modelos de voz, o GPT‑Realtime‑2 (nível de inferência high) atingiu 96,6% de precisão, enquanto o GPT‑Realtime‑1.5 marcou 81,4%, uma melhora de 15,2 pontos percentuais.
Na avaliação de interação em múltiplas rodadas de diálogos de sistemas de conversa oral, o Audio MultiChallenge — que cobre conformidade de comandos, integração de contexto, consistência própria e correções naturais de fala — a taxa média de aprovação do GPT‑Realtime‑2 (nível de inferência xhigh) subiu de 34,7% para 48,5%, um aumento de 13,8 pontos percentuais.
De fato, para avaliar se um modelo de voz é realmente “inteligente”, o cenário mais convincente não é uma conversa trivial, mas a resolução de um problema complexo que exige múltiplas inferências.
Nota: A OpenAI apresentou um teste específico na documentação de demonstração: o usuário descreveu seu negócio ao modelo, e as duas versões do modelo de inferência de voz geraram as respectivas transcrições e raciocínios.
Este caso exemplifica uma tarefa composta que exige alta capacidade de raciocínio: o modelo precisa entender múltiplas variáveis inter-relacionadas, como a distribuição irregular de fluxo de clientes, custos fixos elevados de aluguel, e o posicionamento de um negócio de slow coffee com baixa rotatividade de mesas, realizando inferências lógicas sob essas restrições.
O GPT‑Realtime‑2 respondeu de forma organizada e estruturada em 1 minuto e 4 segundos, desmontando o conflito entre fluxo de clientes e estrutura de aluguel, apontando que horários de pico muito concentrados podem prejudicar a eficiência geral e não cobrir os custos, além de propor caminhos de teste leves e específicos.
Já o mesmo questionamento, feito ao modelo anterior GPT‑Realtime‑1.5, levou 51 segundos, mas com menor profundidade. Essa comparação demonstra claramente a diferença geracional na capacidade de raciocínio estratégico entre as duas versões.
03 Tradução e Transcrição em Tempo Real
Além do GPT‑Realtime‑2, a OpenAI lançou duas versões especializadas voltadas a cenários específicos.
GPT‑Realtime‑Translate foca em tradução multilíngue em tempo real, suportando mais de 70 idiomas de entrada, com saída instantânea em 13 idiomas de destino, além de fornecer transcrição de texto simultânea. Seus principais usos incluem suporte ao cliente, vendas internacionais, educação, eventos e plataformas de criadores com alcance global.
O responsável de IA da Vimeo, Alberto Parravicini, compartilhou um caso de uso: ao incorporar o GPT‑Realtime‑Translate na reprodução de vídeos, os criadores podem comunicar-se em múltiplas línguas instantaneamente com o público global.
Demonstração do Vimeo de tradução em tempo real com GPT‑Realtime‑Translate
O GPT‑Realtime‑Whisper é um modelo de conversão de voz em texto em fluxo contínuo, projetado para cenários de transcrição de baixa latência.
Ele consegue começar a gerar texto assim que o orador inicia a fala, sendo útil para legendas em tempo real em reuniões, anotações de aula, legendas de transmissão e fluxos de trabalho de voz que exigem geração imediata de conteúdo. Sua principal vantagem é transformar o conteúdo de voz em texto estruturado, pronto para uso imediato por sistemas downstream durante a conversa.
Segurança e preços
Em termos de segurança, a API Realtime possui múltiplas camadas de proteção — o classificador interno pode monitorar as sessões em tempo real, interrompendo qualquer interação que viole diretrizes de conteúdo prejudicial. Os desenvolvedores também podem usar o SDK Agents para adicionar facilmente filtros de segurança personalizados.
As políticas de uso da OpenAI proíbem explicitamente o uso dos outputs para spam, fraude ou outros fins nocivos.
Segundo as orientações oficiais, a menos que o contexto deixe claro que a interação é com uma IA, o usuário final deve ser informado de forma clara de que está interagindo com uma inteligência artificial (por exemplo, exibindo uma mensagem de aviso: “Agora, você está falando com uma IA”). Além disso, a API suporta totalmente a retenção de dados na União Europeia e é protegida por compromissos de privacidade corporativa.
As três versões já estão disponíveis para desenvolvedores via Realtime API.
Quanto aos preços, o GPT‑Realtime‑2 cobra por token de voz, a 32 dólares por milhão de tokens de entrada (com um custo de 0,40 dólares por 100 mil tokens em cache) e 64 dólares por milhão de tokens de saída. O GPT‑Realtime‑Translate é cobrado por minuto de uso, a 0,034 dólares por minuto. O GPT‑Realtime‑Whisper também é cobrado por minuto, a 0,017 dólares.
Para apoiar a nova “família de voz”, o CEO da OpenAI, Sam Altman, afirmou na X: “As pessoas realmente começaram a interagir com IA por voz, especialmente quando precisam transmitir uma grande quantidade de informações de uma só vez.”
Ele também mencionou que os jovens parecem preferir conversar com IA por voz, enquanto os mais velhos tendem a digitar, levantando uma questão aberta sobre se esse hábito mudará no futuro.
A questão que fica é: com a atualização na capacidade de inferência de voz da OpenAI, quem será o próximo a assumir essa liderança?