xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів STT знижена до 6.9%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом 动察 Beating, запущено два окремі API для аудіо на xAI: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стековій системі, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, у реальному часі транскрибувати, створювати інструменти для людей з обмеженими можливостями та подкасти. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовця (diarization), розпізнавання по кількох каналах, а також Inverse Text Normalization, тобто автоматичне форматування чисел, дат, валют у нормативний структурований текст. Мови підтримують понад 25, і можна безшовно перемикатися між ними у діалогах. xAI також опублікувала порівняльні дані про помилки розпізнавання слів (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У популярних сценаріях, таких як конференції, відеоподкасти та телефонні дзвінки, Grok також має невелика перевага. Ці цифри були опубліковані самою xAI під час тестування, третіх сторін поки що не залучено. Щодо цін, то для пакетної обробки STT — 0.10 долара США за годину, для потокового — 0.20 долара за годину; TTS коштує 4.20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмікою, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 7
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
SushiAndSlugs
· 16год тому
Детальний опис внутрішніх емоційних тегів, чи можливо змусити ШІ використовувати «монотонний» тон із сарказмом і іронією
Переглянути оригіналвідповісти на0
FragilePosition
· 16год тому
Рівень слів з часовими позначками + розділення мовця, радість від монтажу подкастів
Переглянути оригіналвідповісти на0
MempoolSparrow
· 16год тому
WebSocket реальний потік 0,2 долара/годину, дешевше чи дорожче за Whisper?
Переглянути оригіналвідповісти на0
GateUser-b6d80ba0
· 16год тому
Обслуговування клієнтів Starlink вже використовує штучний інтелект, тому й не дивно, що під час останнього дзвінка здавалось, ніби співрозмовник — це AI.
Переглянути оригіналвідповісти на0
AirdropMileCounter
· 16год тому
25+ мовних покриттів, як працює ефект китайської, хтось тестував?
Переглянути оригіналвідповісти на0
ReflectiveChainShadow
· 16год тому
Одна й сама аудіо-ланцюгова система, що поєднує автомобільний пристрій + супутник + чат, екосистема xAI має дещо особливе.
Переглянути оригіналвідповісти на0
MintAfterCoffee
· 16год тому
Що таке технологія чорної науки зворотньої нормалізації тексту, можеш пояснити детальніше?
Переглянути оригіналвідповісти на0
  • Закріплено