Медійні новини повідомляють, що xAI запустила два окремі аудіо API: Grok STT та Grok TTS, що базуються на одному аудіо стеку, підтримують Grok Voice, автомобільну систему Tesla та обслуговування Starlink. STT пропонує пакетний транскрипт через REST та потокову обробку в реальному часі через WebSocket, з часовими мітками на рівні слова, розділенням мовців, багатоканальним режимом та нормалізацією тексту у зворотному порядку, підтримує понад 25 мов; TTS підтримує внутрішні теги для емоцій та ритміки. Також опубліковано порівняння WER, де Grok лідирує у багатьох сценаріях, але третіх сторонніх повторних тестів ще немає. Ціни: пакетний STT — 0,10 долара США за годину, потоковий — 0,20 долара США за годину, TTS — 4,20 долара США за мільйон символів.

MeNews

2026-05-26 17:23:03

Генерація анотацій у процесі

ME News Новини, 18 квітня (UTC+8), згідно з моніторингом 动察 Beating, запущено два окремі API для аудіо xAI: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стековій системі, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих точок доступу, що дозволяє розробникам безпосередньо підключатися до голосових агентів, у реальному часі транскрибувати, створювати інструменти для безперешкодного доступу та подкасти. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (diarization), розпізнавання по кількох каналах, а також Inverse Text Normalization, тобто автоматичне форматування чисел, дат, валют у нормативний структурований текст. Підтримка понад 25 мов, з можливістю безшовного перемикання у діалогах. xAI також оприлюднив порівняльні дані щодо рівня помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У сценаріях конференцій, відеоподкастів та телефонних дзвінків Grok також має невелике перевагу. Ці цифри оприлюднені самою xAI, без стороннього повторного тестування. Щодо цін, то для пакетного STT — 0.10 долара США за годину, для потокового — 0.20 долара за годину; TTS коштує 4.20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх Speech Tags для керування емоціями та ритмом, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats)

XAI-1,74%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

10 лайків

Нагородити
10
6
Репост
Поділіться

Прокоментувати

Додати коментар

SudoSatoshi

· 3год тому

Покриття багатьма мовами понад 25+, але як щодо якості малих мов?
Середній показник WER виглядає добре, але для мов із довгим хвостом це може бути справжньою катастрофою.