xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global de STT réduit à 6,9 %

robot
Création du résumé en cours
ME News Actualités, le 18 avril (UTC+8), selon la surveillance de Dongcha Beating, xAI a lancé deux API audio indépendantes : Grok Speech to Text et Grok Text to Speech. Les deux proviennent de la même pile audio supportant Grok Voice, le système embarqué de Tesla et le service client Starlink, et sont désormais accessibles sous forme de points de terminaison indépendants, permettant aux développeurs d’intégrer directement des applications de proxy vocal, de transcription en temps réel, d’outils d’accessibilité et de podcasts. STT propose deux modes. L’API REST est utilisée pour la transcription en masse de grands fichiers audio, avec un retour en millisecondes ; l’API WebSocket vise le flux vocal en temps réel. Les capacités associées incluent des horodatages au niveau des mots, la séparation des locuteurs (diarization), la reconnaissance multi-canaux séparée, ainsi que la Normalisation Inverse du Texte, c’est-à-dire la mise en forme automatique des chiffres, dates, devises dans un texte structuré normalisé. La couverture linguistique dépasse 25 langues, avec une commutation fluide dans la conversation. xAI a également publié un ensemble de comparaisons du taux d’erreur de reconnaissance (WER, plus la valeur est basse, mieux c’est) : dans le scénario global, Grok 6,9 %, ElevenLabs 9,0 %, Deepgram 11,0 %, AssemblyAI 12,9 % ; la différence pour la « reconnaissance d’entités dans les appels téléphoniques » est encore plus grande, Grok 5,0 %, contre respectivement 12,0 %, 13,5 %, 21,3 % pour les trois autres. Dans les scénarios courants de réunions, podcasts vidéo et appels téléphoniques, Grok affiche également de légères avancées. Ces chiffres ont été publiés par xAI lors de tests internes, sans vérification par un tiers. En termes de tarification, le traitement par lot STT coûte 0,10 dollar par heure, le flux en continu 0,20 dollar par heure ; TTS est à 4,20 dollars pour 1 million de caractères. TTS supporte l’utilisation de balises de parole intégrées pour contrôler l’émotion et le rythme, comme \[laugh\], \[sigh\], \[whisper\], (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 11
  • 3
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-634ae966
· Il y a 49m
La prise en charge multi-pistes signifie-t-elle la capacité de reconnaissance par piste, et peut-elle être utilisée dans un scénario de studio d'enregistrement ?
Voir l'originalRépondre0
InstantNoodle-LevelResearcher
· Il y a 12h
La transcription en masse utilise REST, en temps réel utilise WebSocket, la conception de l'architecture est assez pragmatique.
Voir l'originalRépondre0
GateUser-f85bc167
· Il y a 13h
Attendez un véritable score de performance, regardez simplement le benchmark de xAI
Voir l'originalRépondre0
MarginMom
· Il y a 13h
Grok TTS supporte les étiquettes émotionnelles, c'est intéressant, cela signifie qu'à l'avenir, la voix synthétique IA pourra-t-elle exprimer des pleurs ?
Voir l'originalRépondre0
GateUser-f92ba9fa
· Il y a 13h
25+ langues couvertes, comment est l'effet en chinois, quelqu'un l'a-t-il testé ?
Voir l'originalRépondre0
Lightning-FastComposure
· Il y a 13h
Qu'est-ce que la normalisation inverse du texte, cette technologie innovante ? Quelqu'un qui comprend pourrait-il expliquer davantage ?
Voir l'originalRépondre0
HaiyanColdWallet
· Il y a 13h
Horodatage au niveau des mots + séparation des locuteurs, la transcription de réunion ravit les passionnés
Voir l'originalRépondre0
QuantsAndCats
· Il y a 13h
4.2 dollars / million caractères de TTS, est-ce moins cher ou plus cher que ElevenLabs ?
Voir l'originalRépondre0
AmberTeaSwirl
· Il y a 13h
STT en flux 0,2 dollar/heure, le scénario de sous-titres en temps réel devrait pouvoir fonctionner
Voir l'originalRépondre0
MultisigOnRocks
· Il y a 13h
Le même flux audio est alimenté à Grok Voice, Tesla, Starlink, Elon Musk a créé un écosystème fermé.
Voir l'originalRépondre0
Afficher plus