Grok suite vocal intégrée dans l'API, le système d'infodivertissement Tesla et le service client Starlink l'utilisent depuis longtemps, les données d'auto-évaluation WER sont prometteuses mais attendons la revalidation par un tiers.

Voir l'original
MeNews
xAI ouvre l'API audio Grok STT et TTS, le taux d'erreur global de STT réduit à 6,9 %
Les nouvelles de ME News rapportent que xAI a lancé deux API audio indépendantes : Grok STT et Grok TTS, issues du même stack audio, supportant Grok Voice, le système embarqué Tesla et le service client Starlink, etc. STT offre une transcription en lot via REST et un flux en temps réel via WebSocket, avec des horodatages au niveau des mots, séparation des locuteurs, multi-canaux et normalisation inversée du texte, couvrant plus de 25 langues ; TTS supporte des balises intégrées pour l’émotion et la prosodie. Ils ont également publié une comparaison du WER, où Grok domine dans plusieurs scénarios, mais aucune revalidation par un tiers n’a encore été effectuée. Tarification : traitement par lot STT 0,10 USD par heure, streaming 0,20 USD par heure, TTS 4,20 USD par million de caractères.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé