GPT-Realtime-2 apporte l'intelligence de GPT-5 à l'API vocale

OpenAI a lancé une nouvelle génération de modèles vocaux dans son API mercredi, offrant aux développeurs des outils pour créer des applications capables de raisonner à travers des demandes orales, de traduire plus de 70 langues et de transcrire la parole en temps réel.

Les trois modèles portent les noms de GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper. Ils font passer les interfaces vocales IA au-delà des simples échanges de questions-réponses vers un territoire où un agent IA peut écouter, réfléchir et agir en cours de conversation.

GPT-Realtime-2 apporte un raisonnement plus précis à la voix

GPT-Realtime-2 est le modèle phare. OpenAI indique qu’il offre un raisonnement de niveau GPT-5, une avancée significative par rapport à son prédécesseur, GPT-Realtime-1.5.

Le modèle a obtenu une augmentation de 15,2 % sur Big Bench Audio, une référence pour l’intelligence audio, et de 13,8 % sur Audio MultiChallenge, qui teste la capacité à suivre des instructions dans un dialogue parlé à plusieurs tours.

Les améliorations pratiques ciblent les développeurs construisant des agents vocaux en production. Le modèle supporte désormais une fenêtre de contexte de 128K, quadruplée par rapport à la limite précédente de 32K, et propose cinq niveaux d’effort de raisonnement ajustables, allant de « minimal » à « xhigh ».

Il peut appeler plusieurs outils simultanément, se remettre d’erreurs avec des accusés de réception oraux, et produire de courtes phrases de transition comme « laissez-moi vérifier cela » tout en traitant une demande.

GPT-Realtime-Translate gère la traduction en direct de la parole. Il accepte plus de 70 langues d’entrée et fournit des sorties dans 13 langues, conçues pour suivre un locuteur en temps réel.

GPT-Realtime-Whisper offre une transcription vocale en streaming (STT), transcrivant les mots au fur et à mesure qu’ils sont prononcés plutôt que d’attendre une phrase complète.

Zillow, Deutsche Telekom testent les modèles en production

Plusieurs entreprises ont obtenu un accès anticipé. Zillow construit un assistant vocal capable de traiter des requêtes complexes en immobilier, de gérer des appels d’outils pour rechercher des annonces, et de respecter les réglementations sur le logement équitable.

L’entreprise a rapporté une amélioration de 26 points du taux de réussite des appels sur son benchmark le plus difficile, après optimisation des prompts avec GPT-Realtime-2, atteignant 95 % contre 69 % auparavant.

Deutsche Telekom teste la traduction en temps réel pour le support client, permettant aux appelants de parler dans leur langue préférée pendant que le modèle gère la conversion des deux côtés.

Priceline explore un assistant de voyage basé sur la voix qui pourrait gérer la recherche de vols, les changements d’hôtel, et la traduction sur le terrain en une seule session.

Les modèles ciblent les entreprises souhaitant étendre leurs capacités de service client, mais aussi des applications potentielles dans l’éducation, les médias, les événements et les plateformes de créateurs.

OpenAI a indiqué avoir intégré la modération de contenu dans les nouveaux modèles, avec des déclencheurs pouvant arrêter les conversations détectées comme violant les règles de contenu nuisible. La société a présenté ces garde-fous comme une protection contre le spam, la fraude et d’autres formes d’abus.

Concernant la tarification, les modèles Translate et Whisper facturent à la minute. GPT-Realtime-2 facture en fonction de la consommation de tokens. Tous trois sont accessibles via l’API Realtime d’OpenAI, via WebRTC, WebSocket et SIP.

Si vous lisez ceci, vous êtes déjà en avance. Restez-y avec notre newsletter.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler