Le mode vocal de ChatGPT sera plus fluide grâce à un nouveau modèle en temps réel.

robot
Création du résumé en cours

Investing.com – Selon The Information, OpenAI développe un nouveau modèle audio destiné à rendre les conversations avec ChatGPT moins mécaniques. Ce modèle permet à l’IA d’ajuster ses réponses en temps réel lorsqu’elle est interrompue.

Actuellement, le mode vocal avancé de ChatGPT utilise un système de dialogue tournant, où l’utilisateur doit finir de parler avant que l’IA ne traite l’audio et génère une réponse. Si l’utilisateur intervient avec des mots comme “d’accord” ou “嗯嗯”, le modèle s’arrête complètement de parler, au lieu de continuer la conversation de manière naturelle.

Ce nouveau modèle, appelé BiDi (Bidirectional), vise à traiter en continu la voix du locuteur afin d’ajuster immédiatement sa réponse en cas d’interruption. Comparé aux modèles audio existants, cela rendra le flux de la conversation plus naturel, car les modèles actuels produisent une réponse fixe une fois que l’IA commence à parler, sans possibilité de modification.

Cependant, cette technologie n’est pas encore prête à être publiée. Selon une personne familière avec le projet, après quelques minutes de conversation, le prototype commence souvent à rencontrer des dysfonctionnements ou à produire des sons anormaux. Bien qu’OpenAI ait initialement prévu de lancer BiDi au premier trimestre de cette année, le calendrier pourrait être repoussé au deuxième trimestre ou plus tard.

OpenAI pense que réduire l’écart de performance entre les modèles vocaux et textuels élargira l’utilisation de l’IA dans le monde entier, car la majorité des gens trouveront plus naturel de converser avec un assistant vocal que d’envoyer des messages texte.

Le modèle BiDi devrait être particulièrement adapté aux applications de support client. Par exemple, si un client appelant un support AI d’un détaillant décide en cours de conversation de changer de produit plutôt que de le retourner, le modèle BiDi permettrait à l’agent de faire la transition en douceur, sans s’arrêter ou se sentir confus.

Selon la personne familiarisée avec ce modèle audio, il excelle également dans l’utilisation d’outils et d’applications externes. OpenAI avait précédemment annoncé son intention d’améliorer ses modèles audio pour des appareils futurs où l’interaction principale se ferait par la voix, et envisageait de développer une enceinte intelligente capable de consulter ses e-mails ou de réserver des services via commandes vocales.

Cet article a été traduit avec l’aide de l’intelligence artificielle. Pour plus d’informations, veuillez consulter nos conditions d’utilisation.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler