Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
OpenAI fait "ouvrir la bouche" au modèle, insulter que l'IA coûte cher
Auteur : Su Yang, Tencent Technology
8 mai, OpenAI a ajouté trois nouveaux modèles vocaux de nouvelle génération dans l’API : GPT‑Realtime‑2, axé sur la raisonnement vocal et la conversation ; Realtime‑Translate, mettant en avant la traduction multilingue en temps réel ; et Realtime‑Whisper, concentré sur la transcription vocale.
GPT‑Realtime‑2 est le premier modèle vocal d’OpenAI doté d’un raisonnement de niveau GPT‑5. Il montre des progrès significatifs dans les tests de référence : une précision de 96,6 % dans l’évaluation audio Big Bench Audio, et un taux de réussite moyen de 48,5 % dans l’évaluation de conformité aux instructions Audio MultiChallenge, soit respectivement une amélioration de 15,2 et 13,8 points de pourcentage par rapport à la génération précédente, GPT‑Realtime‑1.5.
Basé sur GPT‑Realtime‑2, l’IA vocale a évolué d’un simple question-réponse tournant en boucle à une forme capable d’écouter, raisonner, invoquer des outils et accomplir des tâches tout au long d’un dialogue.
Un assistant vocal « pensant »
L’objectif de GPT‑Realtime‑2 est de permettre au modèle vocal de maintenir la fluidité de la conversation tout en disposant des capacités de raisonnement et d’action nécessaires pour traiter des tâches complexes.
Pour améliorer la naturalité des dialogues, le modèle introduit un mécanisme de phrases directrices.
Les développeurs peuvent activer des prompts courts tels que « Laissez-moi vérifier » ou « Un instant, je regarde », pour informer l’utilisateur que la requête a été reçue et est en cours de traitement, avant même la génération de la réponse officielle.
Par ailleurs, le modèle supporte l’appel simultané de plusieurs outils externes avec transparence, permettant au modèle d’utiliser plusieurs outils en parallèle et d’informer l’utilisateur de l’avancement via la voix, par exemple en disant « Vérification de votre calendrier » ou « Recherche en cours », afin de maintenir une réponse active plutôt que de rester silencieux.
En cas de difficulté, le modèle peut volontairement indiquer « Je rencontre un petit problème » et tenter de se rétablir, évitant ainsi un échec silencieux ou une interruption immédiate de la conversation.
De plus, la fenêtre de contexte du modèle est passée de 32K à 128K, ce qui lui permet de conserver la cohérence dans des dialogues plus longs et complexes, soutenant un flux de travail plus complet pour l’agent intelligent.
Concernant l’adaptabilité à des scénarios professionnels, le modèle a renforcé sa compréhension des termes spécifiques à certains domaines, en conservant plus précisément le vocabulaire technique, les noms propres et la terminologie médicale, ce qui est précieux pour le déploiement en environnement de production. Sur le plan de l’expression, il offre un ton et une expressivité plus contrôlables, pouvant changer de style selon le contexte.
Une autre mise à jour clé est la capacité de moduler l’intensité du raisonnement. Les développeurs peuvent choisir parmi cinq niveaux : minimal, low, medium, high et xhigh (par défaut à low), pour équilibrer délai et profondeur de raisonnement.
Pas de bavardage
GPT‑Realtime‑2 surpasse nettement ses prédécesseurs dans les tests
Dans l’évaluation Big Bench Audio, qui mesure la capacité de raisonnement complexe des modèles vocaux, GPT‑Realtime‑2 (niveau élevé de raisonnement) a atteint une précision de 96,6 %, contre 81,4 % pour GPT‑Realtime‑1.5, soit une amélioration de 15,2 points de pourcentage.
Dans l’évaluation Audio MultiChallenge, qui teste l’interactivité multi-tour des systèmes de dialogue oral — couvrant la conformité aux instructions, l’intégration du contexte, la cohérence interne et la correction naturelle de la parole — la moyenne de réussite de GPT‑Realtime‑2 (niveau xhigh de raisonnement) est passée de 34,7 % pour GPT‑Realtime‑1.5 à 48,5 %, soit une hausse relative de 13,8 points de pourcentage.
En réalité, pour juger si un modèle vocal est vraiment « intelligent », le scénario le plus convaincant n’est pas la conversation banale, mais la résolution d’un problème complexe nécessitant plusieurs étapes de déduction.
Note : OpenAI a présenté dans ses documents de démonstration un test concret : un utilisateur décrivant son projet entrepreneurial, avec la déduction vocale et la transcription correspondante pour deux générations de modèles Realtime.
Ce cas illustre une tâche composite très exigeante en raisonnement : le modèle doit comprendre simultanément plusieurs relations entre variables, la répartition inégale du flux de clients dans le temps, le coût élevé du loyer fixe, et le positionnement d’un commerce à faible rotation comme le slow coffee, tout en effectuant une déduction logique sous ces contraintes.
GPT‑Realtime‑2 a fourni une réponse structurée, claire et hiérarchisée en 1 minute 4 secondes, décomposant le conflit entre afflux de clientèle et structure de loyer, soulignant que la concentration excessive en heures de pointe pourrait réduire la rentabilité globale, et proposant un chemin de test léger.
En revanche, le même questionnement posé à l’ancienne version GPT‑Realtime‑1.5 a reçu une réponse en 51 secondes, mais avec une profondeur nettement moindre. Cette démonstration compare directement la différence générationnelle en termes de raisonnement stratégique.
03 Traduction et transcription en temps réel
Outre GPT‑Realtime‑2, deux autres modèles spécialisés, également lancés par OpenAI, ciblent des scénarios précis.
GPT‑Realtime‑Translate se concentre sur la traduction multilingue en temps réel, supportant plus de 70 langues d’entrée, avec une sortie instantanée dans 13 langues cibles, tout en fournissant une transcription. Son application principale inclut le support client, la vente transfrontalière, l’éducation, les événements, et les plateformes de créateurs à audience mondiale.
Le responsable IA de Vimeo, Alberto Parravicini, a partagé leur cas d’usage : intégrer GPT‑Realtime‑Translate lors de la lecture vidéo, permettant aux créateurs de communiquer instantanément avec un public mondial dans différentes langues.
Démonstration de Vimeo : traduction en temps réel avec GPT‑Realtime‑Translate
GPT‑Realtime‑Whisper est un modèle de transcription vocale en flux continu, conçu pour des scénarios à faible latence.
Il peut commencer à générer du texte dès que le locuteur ouvre la bouche, adapté pour les sous-titres en direct, les notes de cours, les sous-titres de diffusion, et les flux vocaux nécessitant une génération immédiate pour la suite du workflow. Son intérêt principal est de transformer le contenu vocal en texte structuré utilisable immédiatement par les systèmes en aval.
Sécurité et tarification
Sur le plan de la sécurité, l’API Realtime intègre plusieurs barrières — un classificateur intégré capable de surveiller en temps réel les conversations, et d’interrompre la session si un contenu nuisible est détecté. Les développeurs peuvent également ajouter facilement des barrières de sécurité personnalisées via le SDK Agents.
Les politiques d’utilisation d’OpenAI interdisent explicitement d’utiliser les sorties pour du spam, de la fraude ou d’autres usages nuisibles.
Selon les directives officielles, sauf si le contexte indique clairement qu’il s’agit d’une interaction avec une IA, le développeur doit informer explicitement l’utilisateur final qu’il converse avec une intelligence artificielle (en lui rappelant : « La personne qui parle est une IA »). De plus, cette API supporte pleinement la résidence des données dans l’UE pour les clients européens, sous la protection d’engagements de confidentialité d’entreprise.
Les trois modèles sont désormais accessibles via l’API Realtime pour les développeurs.
Concernant la tarification, GPT‑Realtime‑2 est facturé par token vocal : 32 dollars pour 1 million de tokens d’entrée (avec un coût de 0,40 dollar pour 100 millions de tokens en cache), et 64 dollars pour 1 million de tokens de sortie. GPT‑Realtime‑Translate est facturé à l’usage, à 0,034 dollar par minute. GPT‑Realtime‑Whisper est également tarifé à la minute, à 0,017 dollar.
Pour soutenir cette nouvelle « famille vocale », le PDG d’OpenAI, Sam Altman, a déclaré sur X : « Les gens commencent vraiment à interagir avec l’IA par la voix, surtout quand ils doivent fournir beaucoup de contexte en une seule fois. »
Il a aussi mentionné que la génération plus jeune semble préférer communiquer avec l’IA par la voix, tandis que les personnes plus âgées privilégient la saisie, soulevant la question ouverte de savoir si cette habitude pourrait évoluer à l’avenir.
La question est : après cette mise à jour des capacités de raisonnement vocal d’OpenAI, qui sera le prochain à prendre la relève ?