O modo de voz do ChatGPT tornará mais fluido com o novo modelo em tempo real

2026-03-06 00:05:27

Geração de resumo em curso

Investing.com – Segundo o The Information, a OpenAI está a desenvolver um novo modelo de áudio, com o objetivo de tornar as conversas com o ChatGPT menos mecânicas, permitindo que a IA ajuste as suas respostas em tempo real quando é interrompida.

Atualmente, o modo de voz avançado do ChatGPT utiliza um sistema de diálogo alternado, que exige que o utilizador termine de falar antes que a IA processe o áudio e gere uma resposta. Se o utilizador interromper com palavras como “ok” ou “hum-hum”, o modelo para completamente de falar, em vez de continuar a conversa de forma natural.

Este novo modelo, chamado bidirecional ou BiDi, pretende processar continuamente a voz do orador, de modo a ajustar imediatamente a resposta quando for interrompido. Em comparação com os modelos de áudio existentes, isto tornará o fluxo de conversa mais natural, pois os modelos atuais, uma vez que a IA comece a falar, produzem respostas fixas que não podem ser alteradas.

No entanto, a tecnologia ainda não está pronta para ser lançada. Segundo uma pessoa familiarizada com o projeto, após alguns minutos de conversa, o protótipo costuma apresentar falhas ou emitir sons anormais. Embora os investigadores da OpenAI tenham inicialmente esperado lançar o BiDi no primeiro trimestre deste ano, o cronograma poderá ser adiado para o segundo trimestre ou mais tarde.

A OpenAI acredita que reduzir a diferença de desempenho entre os modelos de voz e os modelos baseados em texto ampliará o uso global de IA, pois a maioria das pessoas achará mais natural conversar com um assistente de IA do que enviar mensagens de texto.

Espera-se que o modelo BiDi seja especialmente útil para aplicações de suporte ao cliente. Por exemplo, se um cliente que liga para um suporte de retalho decidir trocar um produto em vez de devolvê-lo, o modelo BiDi, em teoria, permitirá que o agente mude de tópico de forma fluida, sem parar ou ficar confuso.

A pessoa familiarizada com o modelo de áudio afirmou ainda que o modelo também é melhor na utilização de ferramentas e aplicações externas. A OpenAI já tinha relatado planos de melhorar o seu modelo de áudio para dispositivos de IA futuros, onde os utilizadores interagem principalmente por voz, e está a considerar desenvolver um altifalante inteligente que permita consultar emails ou reservar serviços por comando de voz.

Este texto foi traduzido com assistência de inteligência artificial. Para mais informações, consulte os nossos termos de uso.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.