8 mai, OpenAI a ajouté trois nouveaux modèles vocaux de nouvelle génération dans l’API : GPT‑Realtime‑2, axé sur la raisonnement vocal et la conversation ; Realtime‑Translate, mettant en avant la traduction multilingue en temps réel ; et Realtime‑Whisper, concentré sur la transcription vocale.

GPT‑Realtime‑2 est le premier modèle vocal d’OpenAI doté d’un raisonnement de niveau GPT‑5. Il montre des progrès significatifs dans les tests de référence : une précision de 96,6 % dans l’évaluation audio Big Bench Audio, et un taux de réussite moyen de 48,5 % dans l’évaluation de conformité aux instructions Audio MultiChallenge, soit respectivement une amélioration de 15,2 et 13,8 points de pourcentage par rapport à la génération précédente, GPT‑Realtime‑1.5.

Basé sur GPT‑Realtime‑2, l’IA vocale a évolué d’un simple question-réponse tournant en boucle à une forme capable d’écouter, raisonner, invoquer des outils et accomplir des tâches tout au long d’un dialogue.

Un assistant vocal « pensant »

L’objectif de GPT‑Realtime‑2 est de permettre au modèle vocal de maintenir la fluidité de la conversation tout en disposant des capacités de raisonnement et d’action nécessaires pour traiter des tâches complexes.

Pour améliorer la naturalité des dialogues, le modèle introduit un mécanisme de phrases directrices.

Les développeurs peuvent activer des prompts courts tels que « Laissez-moi vérifier » ou « Un instant, je regarde », pour informer l’utilisateur que la requête a été reçue et est en cours de traitement, avant même la génération de la réponse officielle.

Par ailleurs, le modèle supporte l’appel simultané de plusieurs outils externes avec transparence, permettant au modèle d’utiliser plusieurs outils en parallèle et d’informer l’utilisateur de l’avancement via la voix, par exemple en disant « Vérification de votre calendrier » ou « Recherche en cours », afin de maintenir une réponse active plutôt que de rester silencieux.

En cas de difficulté, le modèle peut volontairement indiquer « Je rencontre un petit problème » et tenter de se rétablir, évitant ainsi un échec silencieux ou une interruption immédiate de la conversation.

De plus, la fenêtre de contexte du modèle est passée de 32K à 128K, ce qui lui permet de conserver la cohérence dans des dialogues plus longs et complexes, soutenant un flux de travail plus complet pour l’agent intelligent.

Concernant l’adaptabilité à des scénarios professionnels, le modèle a renforcé sa compréhension des termes spécifiques à certains domaines, en conservant plus précisément le vocabulaire technique, les noms propres et la terminologie médicale, ce qui est précieux pour le déploiement en environnement de production. Sur le plan de l’expression, il offre un ton et une expressivité plus contrôlables, pouvant changer de style selon le contexte.

Une autre mise à jour clé est la capacité de moduler l’intensité du raisonnement. Les développeurs peuvent choisir parmi cinq niveaux : minimal, low, medium, high et xhigh (par défaut à low), pour équilibrer délai et profondeur de raisonnement.

Pas de bavardage

GPT‑Realtime‑2 surpasse nettement ses prédécesseurs dans les tests

Dans l’évaluation Big Bench Audio, qui mesure la capacité de raisonnement complexe des modèles vocaux, GPT‑Realtime‑2 (niveau élevé de raisonnement) a atteint une précision de 96,6 %, contre 81,4 % pour GPT‑Realtime‑1.5, soit une amélioration de 15,2 points de pourcentage.

Dans l’évaluation Audio MultiChallenge, qui teste l’interactivité multi-tour des systèmes de dialogue oral — couvrant la conformité aux instructions, l’intégration du contexte, la cohérence interne et la correction naturelle de la parole — la moyenne de réussite de GPT‑Realtime‑2 (niveau xhigh de raisonnement) est passée de 34,7 % pour GPT‑Realtime‑1.5 à 48,5 %, soit une hausse relative de 13,8 points de pourcentage.

En réalité, pour juger si un modèle vocal est vraiment « intelligent », le scénario le plus convaincant n’est pas la conversation banale, mais la résolution d’un problème complexe nécessitant plusieurs étapes de déduction.

Note : OpenAI a présenté dans ses documents de démonstration un test concret : un utilisateur décrivant son projet entrepreneurial, avec la déduction vocale et la transcription correspondante pour deux générations de modèles Realtime.

Ce cas illustre une tâche composite très exigeante en raisonnement : le modèle doit comprendre simultanément plusieurs relations entre variables, la répartition inégale du flux de clients dans le temps, le coût élevé du loyer fixe, et le positionnement d’un commerce à faible rotation comme le slow coffee, tout en effectuant une déduction logique sous ces contraintes.

GPT‑Realtime‑2 a fourni une réponse structurée, claire et hiérarchisée en 1 minute 4 secondes, décomposant le conflit entre afflux de clientèle et structure de loyer, soulignant que la concentration excessive en heures de pointe pourrait réduire la rentabilité globale, et proposant un chemin de test léger.

En revanche, le même questionnement posé à l’ancienne version GPT‑Realtime‑1.5 a reçu une réponse en 51 secondes, mais avec une profondeur nettement moindre. Cette démonstration compare directement la différence générationnelle en termes de raisonnement stratégique.

03 Traduction et transcription en temps réel

Outre GPT‑Realtime‑2, deux autres modèles spécialisés, également lancés par OpenAI, ciblent des scénarios précis.

GPT‑Realtime‑Translate se concentre sur la traduction multilingue en temps réel, supportant plus de 70 langues d’entrée, avec une sortie instantanée dans 13 langues cibles, tout en fournissant une transcription. Son application principale inclut le support client, la vente transfrontalière, l’éducation, les événements, et les plateformes de créateurs à audience mondiale.

Le responsable IA de Vimeo, Alberto Parravicini, a partagé leur cas d’usage : intégrer GPT‑Realtime‑Translate lors de la lecture vidéo, permettant aux créateurs de communiquer instantanément avec un public mondial dans différentes langues.

Démonstration de Vimeo : traduction en temps réel avec GPT‑Realtime‑Translate

GPT‑Realtime‑Whisper est un modèle de transcription vocale en flux continu, conçu pour des scénarios à faible latence.

Il peut commencer à générer du texte dès que le locuteur ouvre la bouche, adapté pour les sous-titres en direct, les notes de cours, les sous-titres de diffusion, et les flux vocaux nécessitant une génération immédiate pour la suite du workflow. Son intérêt principal est de transformer le contenu vocal en texte structuré utilisable immédiatement par les systèmes en aval.

Sécurité et tarification

Sur le plan de la sécurité, l’API Realtime intègre plusieurs barrières — un classificateur intégré capable de surveiller en temps réel les conversations, et d’interrompre la session si un contenu nuisible est détecté. Les développeurs peuvent également ajouter facilement des barrières de sécurité personnalisées via le SDK Agents.

Les politiques d’utilisation d’OpenAI interdisent explicitement d’utiliser les sorties pour du spam, de la fraude ou d’autres usages nuisibles.

Selon les directives officielles, sauf si le contexte indique clairement qu’il s’agit d’une interaction avec une IA, le développeur doit informer explicitement l’utilisateur final qu’il converse avec une intelligence artificielle (en lui rappelant : « La personne qui parle est une IA »). De plus, cette API supporte pleinement la résidence des données dans l’UE pour les clients européens, sous la protection d’engagements de confidentialité d’entreprise.

Les trois modèles sont désormais accessibles via l’API Realtime pour les développeurs.

Concernant la tarification, GPT‑Realtime‑2 est facturé par token vocal : 32 dollars pour 1 million de tokens d’entrée (avec un coût de 0,40 dollar pour 100 millions de tokens en cache), et 64 dollars pour 1 million de tokens de sortie. GPT‑Realtime‑Translate est facturé à l’usage, à 0,034 dollar par minute. GPT‑Realtime‑Whisper est également tarifé à la minute, à 0,017 dollar.

Pour soutenir cette nouvelle « famille vocale », le PDG d’OpenAI, Sam Altman, a déclaré sur X : « Les gens commencent vraiment à interagir avec l’IA par la voix, surtout quand ils doivent fournir beaucoup de contexte en une seule fois. »

Il a aussi mentionné que la génération plus jeune semble préférer communiquer avec l’IA par la voix, tandis que les personnes plus âgées privilégient la saisie, soulevant la question ouverte de savoir si cette habitude pourrait évoluer à l’avenir.

La question est : après cette mise à jour des capacités de raisonnement vocal d’OpenAI, qui sera le prochain à prendre la relève ?

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
824.48K Popularité
#
BitcoinFallsBelow80K
95.04M Popularité
#
IsraelStrikesIranBTCPlunges
44.85K Popularité
#
IranUSConflictEscalates
100.46K Popularité
#
OilPriceRollerCoaster
311.2K Popularité

Épingler

OpenAI fait "ouvrir la bouche" au modèle, insulter que l'IA coûte cher

Un assistant vocal « pensant »

Pas de bavardage

03 Traduction et transcription en temps réel

Sécurité et tarification

Sujets populaires

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Épingler