xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%

ME News Новини, 18 квітня (UTC+8), згідно з моніторингом Датча Beating, запущено два окремі API для аудіо xAI: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стековій системі, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, у реальному часі транскрибувати, створювати інструменти для безперешкодного доступу та подкасти. STT пропонує два режими. REST API використовується для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (діаризація), розпізнавання по кількох каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Підтримка мов понад 25, з безшовним перемиканням у діалогах. xAI також оприлюднив порівняльні дані щодо рівня помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «Розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У сценаріях конференцій, відеоподкастів та телефонних дзвінків Grok також має невелике перевагу. Ці цифри були оприлюднені самою xAI під час тестування, без сторонньої перевірки. Щодо цін, то пакетна обробка STT коштує 0.10 долара США за годину, потокова — 0.20 долара за годину; TTS — 4.20 долара за мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмом, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats).
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Post-RainTvl
· 5год тому
Маск робить цю гру великою, швидкість інфраструктуризації xAI швидша, ніж уявлялося
Переглянути оригіналвідповісти на0
TacoTreasury
· 8год тому
Grok голосова частина має досить глибоку структуру, у автомобільних системах + супутниковий обслуговування використовують один і той самий комплект, стабільність має бути на високому рівні
Переглянути оригіналвідповісти на0
GateUser-7cb48814
· 9год тому
WebSocket реаль-time транскрипція, сцена живого субтитру безпосередньо готова до використання
Переглянути оригіналвідповісти на0
TheProphetOfToast
· 9год тому
Автомобільна система Tesla має спільне походження, екосистема голосового управління автомобіля може бути інтегрована.
Переглянути оригіналвідповісти на0
GateUser-e4fb1fbe
· 9год тому
Одна й та сама аудіо-стек підтримує так багато сценаріїв, повторне використання інженерії зроблено чудово
Переглянути оригіналвідповісти на0
  • Закріплено