xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів STT знижена до 6.9%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом Дангча Beating, xAI запустила два окремі API для аудіо: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стековій системі, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, реального часу транскрипції, інструментів для людей з обмеженими можливостями та подкастів. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовця (діаризація), розпізнавання по кількох каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Підтримка понад 25 мов, з можливістю безшовного перемикання у діалогах. xAI також опублікувала порівняльні дані про рівень помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У популярних сценаріях, таких як конференції, відеоподкасти та телефонні дзвінки, Grok також має невеликий перевагу. Ці дані були опубліковані xAI на основі власних тестів, без стороннього повторного тестування. Щодо цін, то для пакетної обробки STT — 0.10 долара США за годину, для потокової — 0.20 долара за годину; TTS коштує 4.20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмікою, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats)
XAI2,69%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
TwoFactorZen
· 4год тому
WebSocket у реальному часі 0.2 долара/година, браття, що робите трансляційні субтитри, можете порахувати витрати
Переглянути оригіналвідповісти на0
Frost-ColoredCubeCity
· 7год тому
Пакетна ціна цілком прийнятна, але стратегія цінового подвоєння за потоковою моделлю явно змушує вас йти шляхом масового обсягу, це вже старий трюк.
Переглянути оригіналвідповісти на0
GateUser-517aed04
· 7год тому
Одна й та сама стекова система для обслуговування автомобільної системи Tesla та служби підтримки Starlink, Ілон Маск майстерно керує цим замкнутим циклом.
Переглянути оригіналвідповісти на0
GateUser-b6d80ba0
· 7год тому
WER самостійно веде розмову, без стороннього повторного тестування спостерігаємо, crypto старі хом’ячки розуміють.
Переглянути оригіналвідповісти на0
  • Закріплено