Les nouveaux modèles audio d'OpenAI alimentent les assistants vocaux en temps réel avec traduction multilingue et intelligence en streaming

En résumé

OpenAI a lancé les modèles GPT-Realtime-2, Translate et Whisper, élargissant l’IA vocale en temps réel avec des capacités de raisonnement, de traduction et de transcription pour des applications conversationnelles avancées.

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAI a annoncé une nouvelle série de modèles audio dans son écosystème API, marquant une expansion des capacités vocales en temps réel pour les développeurs et les applications alimentées par l’IA. La sortie comprend GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper, chacun conçu pour permettre des interactions vocales plus avancées, réactives et contextuelles dans une gamme d’utilisations.

GPT-Realtime-2 est présenté comme le modèle vocal le plus avancé de la société à ce jour, introduisant un raisonnement de classe GPT-5 dans des conversations audio en direct. Le modèle est conçu pour gérer des demandes complexes des utilisateurs, maintenir la continuité contextuelle et supporter un raisonnement multi-étapes tout en interagissant en temps réel. Il est destiné aux applications où les agents vocaux doivent non seulement répondre rapidement mais aussi interpréter l’intention, gérer les interruptions et exécuter des tâches via l’utilisation d’outils intégrés.

Parallèlement, GPT-Realtime-Translate permet la traduction en direct de la parole dans plus de 70 langues d’entrée vers 13 langues de sortie. Le système est conçu pour maintenir le flux de la conversation tout en préservant le sens et le timing, permettant aux locuteurs de communiquer dans différentes langues sans délais perceptibles. Cette capacité vise le support client mondial, l’éducation, le voyage et les services de communication transfrontalière.

Le troisième modèle, GPT-Realtime-Whisper, se concentre sur la transcription en streaming de la parole en texte. Il fournit une transcription continue à faible latence pendant que les utilisateurs parlent, permettant des sous-titres en temps réel, une documentation en direct et un traitement immédiat du contenu parlé en aval. Le modèle est conçu pour les environnements où une conversion rapide de la parole en texte est nécessaire, comme les réunions, les diffusions médiatiques et les flux de travail d’entreprise.

OpenAI a décrit cette sortie combinée comme une étape vers des interfaces vocales qui dépassent les systèmes de commande et de réponse de base. Au lieu de simplement reconnaître la parole et générer des réponses, les modèles sont destinés à soutenir un raisonnement continu, une traduction, une transcription et une exécution d’actions dans un flux conversationnel unique. L’objectif est de permettre des systèmes vocaux qui fonctionnent davantage comme des assistants interactifs capables d’accomplir des tâches tout en maintenant un dialogue naturel.

GPT-Realtime-2 Améliore l’Architecture de l’IA Vocale avec des Systèmes de Voix-à-Action et des Fenêtres de Contexte Étendues

La société a mis en avant plusieurs modèles de conception émergents rendus possibles par la technologie. Ceux-ci incluent les systèmes de voix-à-action, où les utilisateurs peuvent décrire des tâches qui sont exécutées via un raisonnement automatisé et l’intégration d’outils ; les systèmes-vers-voix, où un logiciel génère des conseils oraux basés sur des données contextuelles ; et les systèmes de traduction voix-à-voix, qui permettent une communication multilingue en temps réel entre locuteurs.

GPT-Realtime-2 introduit des améliorations architecturales supplémentaires pour une utilisation en production. Celles-ci incluent des fenêtres de contexte plus longues étendues à 128K tokens, un meilleur comportement de récupération lors d’interruptions ou d’erreurs, une exécution parallèle des outils avec un retour d’information transparent, et un réglage plus contrôlable du ton en fonction du contexte de la conversation. Les développeurs peuvent également ajuster finement les niveaux de raisonnement pour équilibrer vitesse et complexité selon les besoins de l’application.

Les benchmarks de performance cités par OpenAI indiquent des résultats améliorés en raisonnement basé sur l’audio et en suivi d’instructions par rapport aux versions précédentes de ses modèles en temps réel. Le système montre également une meilleure gestion de la terminologie spécifique au domaine et un comportement plus stable dans des conversations multi-tours.

La sortie intègre également des mécanismes de sécurité, notamment une surveillance en temps réel et une classification du contenu dans les sessions actives, ainsi que des contrôles au niveau des développeurs pour des sauvegardes supplémentaires. Les modèles sont disponibles via l’API Realtime et sont destinés à être déployés dans des applications d’entreprise, grand public et pour les développeurs, avec une tarification basée sur des métriques de traitement audio en usage.

L’introduction de GPT-Realtime-2 et de ses modèles associés reflète un changement plus large vers des systèmes informatiques vocaux capables de raisonner, de traduire et de transcrire en temps réel, dans le but de rendre l’interaction vocale avec les logiciels plus fonctionnelle, adaptable et opérationnelle.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé