OpenAI faz com que o modelo "abra a boca" ofendendo que a IA é muito cara

Autor: Su Yang, Tencent Technology

8 de maio, a OpenAI adicionou três novos modelos de voz de última geração na API: o GPT‑Realtime‑2, focado em inferência de voz e diálogo, o Realtime‑Translate, que destaca a tradução multilíngue em tempo real, e o Realtime‑Whisper, centrado em conversão de voz em texto.

O GPT‑Realtime‑2 é o primeiro modelo de voz da OpenAI com capacidade de inferência ao nível do GPT‑5. Ele demonstrou avanços notáveis em testes de referência: na avaliação de inteligência de voz Big Bench Audio, atingiu uma precisão de 96,6%, e na avaliação de conformidade de comandos Audio MultiChallenge, uma taxa média de aprovação de 48,5%, melhorias de 15,2 e 13,8 pontos percentuais, respetivamente, em relação à geração anterior, GPT‑Realtime‑1.5.

Com base no GPT‑Realtime‑2, a IA de voz evoluiu de perguntas e respostas simples em ciclo, para uma forma capaz de ouvir continuamente, inferir, chamar ferramentas e completar tarefas durante uma conversa.

Assistente de voz que “pensa”

O objetivo do GPT‑Realtime‑2 é fazer com que o modelo de voz, ao manter a fluidez do diálogo, tenha a capacidade de inferir e agir em tarefas complexas.

Para melhorar a naturalidade do diálogo, o modelo introduziu um mecanismo de frases introdutórias.

Os desenvolvedores podem ativar breves frases de aviso, como “Deixe-me verificar” ou “Aguarde um momento, estou verificando”, para informar ao usuário que o pedido foi recebido e está sendo processado, antes mesmo de gerar uma resposta formal.

Complementarmente, com capacidade de chamadas paralelas de ferramentas e transparência na utilização de ferramentas, o modelo pode chamar múltiplas ferramentas externas simultaneamente e informar o progresso ao usuário por voz, como dizer “Verificando seu calendário” ou “Procurando”, mantendo o agente responsivo durante a execução da tarefa, ao invés de ficar silencioso.

Quando encontra dificuldades, o modelo pode proativamente indicar algo como “Estou tendo um pequeno problema agora” e tentar recuperar-se, ao invés de falhar silenciosamente ou interromper a conversa abruptamente.

Além disso, a janela de contexto do modelo foi ampliada de 32K para 128K, permitindo manter coerência em diálogos mais longos e complexos, suportando fluxos de trabalho mais completos do agente inteligente.

No que diz respeito à aplicabilidade em cenários profissionais, o modelo aprimorou sua compreensão de termos específicos de áreas, preservando com maior precisão vocabulário técnico, nomes próprios e terminologia médica, o que é valioso para implantação em ambientes de produção. Em termos de expressão, o modelo oferece maior controle sobre o tom e a performance, podendo ajustar o estilo conforme o contexto.

Outra atualização importante é a capacidade de ajustar a intensidade de inferência. Os desenvolvedores podem escolher entre cinco níveis — minimal, low, medium, high e xhigh (padrão: low) — para equilibrar latência e profundidade de raciocínio.

Sem enrolação

GPT‑Realtime‑2 domina completamente os modelos anteriores em testes de referência

Na avaliação Big Bench Audio, que mede a capacidade de raciocínio desafiador de modelos de voz, o GPT‑Realtime‑2 (nível de inferência high) atingiu 96,6% de precisão, enquanto o GPT‑Realtime‑1.5 marcou 81,4%, uma melhora de 15,2 pontos percentuais.

Na avaliação de interação em múltiplas rodadas de diálogos de sistemas de conversa oral, o Audio MultiChallenge — que cobre conformidade de comandos, integração de contexto, consistência própria e correções naturais de fala — a taxa média de aprovação do GPT‑Realtime‑2 (nível de inferência xhigh) subiu de 34,7% para 48,5%, um aumento de 13,8 pontos percentuais.

De fato, para avaliar se um modelo de voz é realmente “inteligente”, o cenário mais convincente não é uma conversa trivial, mas a resolução de um problema complexo que exige múltiplas inferências.

Nota: A OpenAI apresentou um teste específico na documentação de demonstração: o usuário descreveu seu negócio ao modelo, e as duas versões do modelo de inferência de voz geraram as respectivas transcrições e raciocínios.

Este caso exemplifica uma tarefa composta que exige alta capacidade de raciocínio: o modelo precisa entender múltiplas variáveis inter-relacionadas, como a distribuição irregular de fluxo de clientes, custos fixos elevados de aluguel, e o posicionamento de um negócio de slow coffee com baixa rotatividade de mesas, realizando inferências lógicas sob essas restrições.

O GPT‑Realtime‑2 respondeu de forma organizada e estruturada em 1 minuto e 4 segundos, desmontando o conflito entre fluxo de clientes e estrutura de aluguel, apontando que horários de pico muito concentrados podem prejudicar a eficiência geral e não cobrir os custos, além de propor caminhos de teste leves e específicos.

Já o mesmo questionamento, feito ao modelo anterior GPT‑Realtime‑1.5, levou 51 segundos, mas com menor profundidade. Essa comparação demonstra claramente a diferença geracional na capacidade de raciocínio estratégico entre as duas versões.

03 Tradução e Transcrição em Tempo Real

Além do GPT‑Realtime‑2, a OpenAI lançou duas versões especializadas voltadas a cenários específicos.

GPT‑Realtime‑Translate foca em tradução multilíngue em tempo real, suportando mais de 70 idiomas de entrada, com saída instantânea em 13 idiomas de destino, além de fornecer transcrição de texto simultânea. Seus principais usos incluem suporte ao cliente, vendas internacionais, educação, eventos e plataformas de criadores com alcance global.

O responsável de IA da Vimeo, Alberto Parravicini, compartilhou um caso de uso: ao incorporar o GPT‑Realtime‑Translate na reprodução de vídeos, os criadores podem comunicar-se em múltiplas línguas instantaneamente com o público global.

Demonstração do Vimeo de tradução em tempo real com GPT‑Realtime‑Translate

O GPT‑Realtime‑Whisper é um modelo de conversão de voz em texto em fluxo contínuo, projetado para cenários de transcrição de baixa latência.

Ele consegue começar a gerar texto assim que o orador inicia a fala, sendo útil para legendas em tempo real em reuniões, anotações de aula, legendas de transmissão e fluxos de trabalho de voz que exigem geração imediata de conteúdo. Sua principal vantagem é transformar o conteúdo de voz em texto estruturado, pronto para uso imediato por sistemas downstream durante a conversa.

Segurança e preços

Em termos de segurança, a API Realtime possui múltiplas camadas de proteção — o classificador interno pode monitorar as sessões em tempo real, interrompendo qualquer interação que viole diretrizes de conteúdo prejudicial. Os desenvolvedores também podem usar o SDK Agents para adicionar facilmente filtros de segurança personalizados.

As políticas de uso da OpenAI proíbem explicitamente o uso dos outputs para spam, fraude ou outros fins nocivos.

Segundo as orientações oficiais, a menos que o contexto deixe claro que a interação é com uma IA, o usuário final deve ser informado de forma clara de que está interagindo com uma inteligência artificial (por exemplo, exibindo uma mensagem de aviso: “Agora, você está falando com uma IA”). Além disso, a API suporta totalmente a retenção de dados na União Europeia e é protegida por compromissos de privacidade corporativa.

As três versões já estão disponíveis para desenvolvedores via Realtime API.

Quanto aos preços, o GPT‑Realtime‑2 cobra por token de voz, a 32 dólares por milhão de tokens de entrada (com um custo de 0,40 dólares por 100 mil tokens em cache) e 64 dólares por milhão de tokens de saída. O GPT‑Realtime‑Translate é cobrado por minuto de uso, a 0,034 dólares por minuto. O GPT‑Realtime‑Whisper também é cobrado por minuto, a 0,017 dólares.

Para apoiar a nova “família de voz”, o CEO da OpenAI, Sam Altman, afirmou na X: “As pessoas realmente começaram a interagir com IA por voz, especialmente quando precisam transmitir uma grande quantidade de informações de uma só vez.”

Ele também mencionou que os jovens parecem preferir conversar com IA por voz, enquanto os mais velhos tendem a digitar, levantando uma questão aberta sobre se esse hábito mudará no futuro.

A questão que fica é: com a atualização na capacidade de inferência de voz da OpenAI, quem será o próximo a assumir essa liderança?

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar