Le mode vocal de ChatGPT sera plus fluide grâce à un nouveau modèle en temps réel.

LootboxPhobia · 2026-03-06T00:05:27+00:00

OpenAI développe un nouveau modèle audio appelé BiDi, conçu pour rendre les conversations avec ChatGPT plus naturelles. Ce modèle peut ajuster ses réponses en temps réel, plutôt que de suspendre la conversation lorsque l'utilisateur intervient. Bien que la sortie du modèle BiDi puisse être reportée au deuxième trimestre ou plus tard, il devrait améliorer l'expérience d'interaction vocale avec l'assistant IA, notamment dans des applications telles que le support client.

LootboxPhobia

2026-03-06 00:05:27

Création du résumé en cours

Investing.com – Selon The Information, OpenAI développe un nouveau modèle audio destiné à rendre les conversations avec ChatGPT moins mécaniques. Ce modèle permet à l’IA d’ajuster ses réponses en temps réel lorsqu’elle est interrompue.

Actuellement, le mode vocal avancé de ChatGPT utilise un système de dialogue tournant, où l’utilisateur doit finir de parler avant que l’IA ne traite l’audio et génère une réponse. Si l’utilisateur intervient avec des mots comme “d’accord” ou “嗯嗯”, le modèle s’arrête complètement de parler, au lieu de continuer la conversation de manière naturelle.

Ce nouveau modèle, appelé BiDi (Bidirectional), vise à traiter en continu la voix du locuteur afin d’ajuster immédiatement sa réponse en cas d’interruption. Comparé aux modèles audio existants, cela rendra le flux de la conversation plus naturel, car les modèles actuels produisent une réponse fixe une fois que l’IA commence à parler, sans possibilité de modification.

Cependant, cette technologie n’est pas encore prête à être publiée. Selon une personne familière avec le projet, après quelques minutes de conversation, le prototype commence souvent à rencontrer des dysfonctionnements ou à produire des sons anormaux. Bien qu’OpenAI ait initialement prévu de lancer BiDi au premier trimestre de cette année, le calendrier pourrait être repoussé au deuxième trimestre ou plus tard.

OpenAI pense que réduire l’écart de performance entre les modèles vocaux et textuels élargira l’utilisation de l’IA dans le monde entier, car la majorité des gens trouveront plus naturel de converser avec un assistant vocal que d’envoyer des messages texte.

Le modèle BiDi devrait être particulièrement adapté aux applications de support client. Par exemple, si un client appelant un support AI d’un détaillant décide en cours de conversation de changer de produit plutôt que de le retourner, le modèle BiDi permettrait à l’agent de faire la transition en douceur, sans s’arrêter ou se sentir confus.

Selon la personne familiarisée avec ce modèle audio, il excelle également dans l’utilisation d’outils et d’applications externes. OpenAI avait précédemment annoncé son intention d’améliorer ses modèles audio pour des appareils futurs où l’interaction principale se ferait par la voix, et envisageait de développer une enceinte intelligente capable de consulter ses e-mails ou de réserver des services via commandes vocales.

Cet article a été traduit avec l’aide de l’intelligence artificielle. Pour plus d’informations, veuillez consulter nos conditions d’utilisation.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.