xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global de STT réduit à 6,9 %

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, xAI a lancé deux API audio indépendantes : Grok Speech to Text et Grok Text to Speech. Les deux proviennent de la même pile audio supportant Grok Voice, le système embarqué de Tesla et le service client Starlink, et sont désormais accessibles sous forme de points de terminaison indépendants, permettant aux développeurs d’intégrer directement des applications de proxy vocal, de transcription en temps réel, d’outils d’accessibilité et de podcasts. STT propose deux modes. L’API REST pour la transcription en masse de grands fichiers audio, avec un retour en millisecondes ; l’API WebSocket pour le flux vocal en temps réel. Les capacités associées incluent des horodatages au niveau des mots, la séparation des locuteurs (diarization), la reconnaissance multi-canaux, ainsi que la Normalisation Inverse du Texte, c’est-à-dire la mise en forme automatique des chiffres, dates, devises dans le discours en texte structuré normalisé. La couverture linguistique dépasse 25 langues, avec une commutation fluide en conversation. xAI a également publié un comparatif du taux d’erreur de reconnaissance de mots (WER, plus la valeur est basse, mieux c’est) : dans le scénario global, Grok 6,9 %, ElevenLabs 9,0 %, Deepgram 11,0 %, AssemblyAI 12,9 % ; la différence pour la « reconnaissance d’entités dans les appels téléphoniques » est encore plus marquée, Grok 5,0 %, contre respectivement 12,0 %, 13,5 %, 21,3 % pour les trois autres. Dans les scénarios courants de réunions, podcasts vidéo et appels téléphoniques, Grok reste légèrement en tête. Ces chiffres ont été publiés par xAI suite à ses propres tests, sans vérification par un tiers. En termes de tarification, le traitement par lot STT coûte 0,10 dollar par heure, le flux en continu 0,20 dollar par heure ; TTS est à 4,20 dollars pour 1 million de caractères. TTS supporte l’utilisation de balises de parole intégrées pour contrôler l’émotion et le rythme, comme \[laugh\], \[sigh\], \[whisper\], \ (Source : BlockBeats)
XAI2,16%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
SudoSatoshi
· Il y a 6h
Couverture multilingue de plus de 25 langues, mais quelle est la qualité des langues peu courantes ?
La moyenne du WER semble bonne, mais pour les langues de longue traîne, cela pourrait encore être un cauchemar.
Voir l'originalRépondre0
AirdropUnderTheNeonBridge
· Il y a 6h
Étiquettes en ligne pour l'émotion et le rythme ? TTS n'est enfin plus une machine à lire un script, il peut maintenant jouer avec la narration pour des livres audio ou des dialogues de PNJ dans des jeux.
Voir l'originalRépondre0
AirdropCartographer
· Il y a 6h
Multi-canaux + séparation des locuteurs, un outil magique pour la transcription d'enregistrements de réunions, mais avec un coût de streaming de 0,2 dollar/heure, les longues réunions ne sont pas non plus bon marché.
Voir l'originalRépondre0
PerpPulse
· Il y a 6h
Grok Voice, Tesla en voiture, Starlink service client utilisent tous la même pile audio, Musk maîtrise de plus en plus cette boucle écologique.
Voir l'originalRépondre0
MintLaterMaybe
· Il y a 6h
Qu'est-ce que la normalisation inversée du texte ? Convertir les chiffres en chiffres arabes ? Cette fonction est assez essentielle pour le traitement post-transcription vocale, évitant d'écrire des expressions régulières soi-même.
Voir l'originalRépondre0
CliffsideAncientPineAndRolling
· Il y a 6h
xAI cette série d'API audio frappe assez fort, STT en flux continu à 0,2 dollar/heure, TTS à 4,2 dollars/million de caractères, la stratégie de tarification vise clairement une utilisation commerciale à grande échelle.
Voir l'originalRépondre0