STT taux d'erreur inférieur à celui des concurrents, TTS peut encore ajuster le ton avec des étiquettes, la même pile technologique alimentant Grok Voice, Tesla et Starlink — Elon Musk veut vraiment maîtriser toute la chaîne de l'interaction vocale.

Voir l'original
MeNews
xAI lance l'API de transcription vocale et de synthèse vocale Grok
ME News rapporte que xAI lance officiellement deux API audio indépendantes : Grok STT et Grok TTS.
Grok STT offre une haute précision, une faible latence, prend en charge le traitement en lot via REST, la transcription en temps réel via WebSocket, avec des horodatages au niveau des mots, la séparation des locuteurs, le multi-piste et la normalisation intelligente du texte inversé, couvrant plus de 25 langues ;
0,10 USD par heure en traitement par lot, 0,20 USD par heure en streaming, avec un taux d'erreur de mot inférieur à celui de plusieurs concurrents.
Grok TTS fournit une voix rapide, naturelle, avec un contrôle granulaire via des balises, au prix de 4,20 USD par million de caractères.
Les deux sont basés sur la même pile technologique, utilisées par Grok Voice, Tesla et Starlink.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé