Les horodatages au niveau des mots et la séparation des locuteurs de Grok STT sont essentiels pour les éditeurs de podcasts, mais les données WER sont auto-rapportées, en attendant une nouvelle vérification par un tiers indépendant.

GROK-7,79%
STT-1,1%
Voir l'original
MeNews
xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global de STT réduit à 6,9 %
Les nouvelles de ME News rapportent que xAI a lancé deux API audio indépendantes : Grok STT et Grok TTS, issues du même stack audio, supportant Grok Voice, le système embarqué Tesla et le service client Starlink, etc. STT offre une transcription en lot via REST et un flux en temps réel via WebSocket, avec des horodatages au niveau des mots, séparation des locuteurs, multi-canaux et normalisation inversée du texte, couvrant plus de 25 langues ; TTS supporte des balises intégrées pour l’émotion et la prosodie. Ils ont également publié une comparaison du taux d’erreur WER, où Grok domine dans plusieurs scénarios, mais aucune revalidation par un tiers n’a encore été effectuée. Tarification : traitement par lot STT 0,10 USD par heure, streaming 0,20 USD par heure, TTS 4,20 USD par million de caractères.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 1
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-dd0c6b87
· Il y a 11h
Ce n'est pas du tout la même chose, ne raconte pas n'importe quoi.
Voir l'originalRépondre0