xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів STT знижена до 6.9%

ME News Новини, 18 квітня (UTC+8), згідно з моніторингом Дангча Beating, xAI запустила два окремі API для аудіо: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стеку, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, у реальному часі транскрибувати, створювати інструменти для безперешкодного доступу та подкасти. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (діаризація), розпізнавання по кількох каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Підтримка мов понад 25, може безперервно перемикатися у діалозі. xAI також оприлюднила порівняльні дані про помилки у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У популярних сценаріях, таких як конференції, відеоподкасти та телефонні дзвінки, Grok також має невелике перевагу. Ці дані були оприлюднені самою xAI під час тестування, без сторонньої перевірки. Щодо цін, то для пакетної обробки STT — 0.10 долара США за годину, для потокового — 0.20 долара за годину; TTS коштує 4.20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмом, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats).
XAI1,72%
GROK-7,13%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
BudgetValidator
· 3год тому
Інфраструктура голосового зв’язку починає стандартизацію, вигідно малим і середнім розробникам
Переглянути оригіналвідповісти на0
MirrorBallGazingAtTheSky
· 5год тому
Одна й та сама стекова структура підтримує три сценарії, Ілон Маск цим круто користується.
Переглянути оригіналвідповісти на0
AirdropSidequest
· 6год тому
WebSocket підходить для потокових даних, REST — для архівування, дизайн обґрунтований
Переглянути оригіналвідповісти на0
CandlewickKid
· 11год тому
xAI нарешті виділила голосовий стек, розробники в захваті
Переглянути оригіналвідповісти на0
RetroRadioSignal
· 11год тому
Grok's STT реалізував двохрежимний режим REST + WebSocket, враховуючи як пакетну, так і реальну обробку, досить детально
Переглянути оригіналвідповісти на0
PatinaTradingBell
· 11год тому
Аудіо-стек, який використовують Tesla та Starlink, має бути випробуваний на надійність.
Переглянути оригіналвідповісти на0
OracleBabysitter
· 11год тому
Інструменти для доступності +1, саме такою має бути теплість технологій
Переглянути оригіналвідповісти на0
  • Закріплено