GPT-Realtime-2 traz a inteligência do GPT-5 para a API de voz

A OpenAI lançou uma nova geração de modelos de voz na sua API na quarta-feira, oferecendo aos desenvolvedores ferramentas para criar aplicações que podem raciocinar através de pedidos falados, traduzir mais de 70 idiomas e transcrever fala em tempo real.

Os três modelos são chamados GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Eles levam as interfaces de voz de IA além de simples trocas de perguntas e respostas, para um território onde um agente de IA pode ouvir, pensar e agir no meio de uma conversa.

GPT-Realtime-2 traz raciocínio mais apurado para a voz

GPT-Realtime-2 é o modelo principal. A OpenAI afirma que oferece raciocínio de nível GPT-5, um avanço significativo em relação ao seu antecessor, GPT-Realtime-1.5.

O modelo obteve uma pontuação 15,2% superior no Big Bench Audio, um benchmark para inteligência de áudio, e 13,8% mais alto no Audio MultiChallenge, que testa a capacidade de seguir instruções em diálogos falados de múltiplas voltas.

As melhorias práticas visam desenvolvedores que constroem agentes de voz para produção. O modelo agora suporta uma janela de contexto de 128K, quadruplicando o limite anterior de 32K, e oferece cinco níveis de esforço de raciocínio ajustáveis, de “mínimo” a “xalto”.

Ele pode chamar várias ferramentas simultaneamente, recuperar-se de erros com confirmações faladas e produzir frases curtas de transição como “deixe-me verificar isso” enquanto processa um pedido.

GPT-Realtime-Translate lida com tradução de fala ao vivo. Aceita mais de 70 idiomas de entrada e produz em 13, projetado para acompanhar um orador em tempo real.

GPT-Realtime-Whisper fornece transcrição de fala em streaming (STT), transcrevendo palavras à medida que são faladas, em vez de esperar por uma frase completa.

Zillow, Deutsche Telekom testam os modelos em produção

Várias empresas tiveram acesso antecipado. Zillow está construindo um assistente de voz que pode processar consultas complexas de imóveis, lidar com chamadas de ferramentas para buscar listagens e cumprir regulamentos de Habitação Justa.

A empresa relatou uma melhoria de 26 pontos na taxa de sucesso de chamadas no seu benchmark mais difícil, após otimização de prompts com GPT-Realtime-2, atingindo 95% em comparação com 69% anteriormente.

A Deutsche Telekom está testando tradução em tempo real para suporte ao cliente, permitindo que os chamadores falem na sua língua preferida enquanto o modelo faz a conversão de ambos os lados.

Priceline está explorando um assistente de viagem baseado em voz que poderia gerenciar buscas de voos, mudanças de hotel e tradução no local em uma única sessão.

Os modelos visam empresas que desejam expandir suas capacidades de atendimento ao cliente, mas também apontam aplicações potenciais em educação, mídia, eventos e plataformas de criadores.

A OpenAI afirmou que incorporou moderação de conteúdo nos novos modelos, com gatilhos que podem interromper conversas detectadas como violando diretrizes de conteúdo prejudicial. A empresa enquadrou as barreiras como proteção contra spam, fraude e outras formas de abuso.

Quanto aos preços, os modelos Translate e Whisper cobram por minuto. O GPT-Realtime-2 cobra por consumo de token. Todos os três estão disponíveis através da API Realtime da OpenAI, acessível via WebRTC, WebSocket e métodos de conexão SIP.

Se estás a ler isto, já estás à frente. Mantém-te lá com a nossa newsletter.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar