xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом 动察 Beating, запущено два окремі API для аудіо xAI: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стековій системі, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих точок доступу, що дозволяє розробникам безпосередньо підключатися до голосових агентів, у реальному часі транскрибувати, створювати інструменти для безперешкодного доступу та подкасти. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (diarization), розпізнавання по кількох каналах, а також Inverse Text Normalization, тобто автоматичне форматування чисел, дат, валют у нормативний структурований текст. Підтримка понад 25 мов, з можливістю безшовного перемикання у діалогах. xAI також оприлюднив порівняльні дані щодо рівня помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більша, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У сценаріях конференцій, відеоподкастів та телефонних дзвінків Grok також має невелике перевагу. Ці цифри оприлюднені самою xAI, без стороннього повторного тестування. Щодо цін, то для пакетного STT — 0.10 долара США за годину, для потокового — 0.20 долара за годину; TTS коштує 4.20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх Speech Tags для керування емоціями та ритмом, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats)
XAI-1,74%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
SudoSatoshi
· 3год тому
Покриття багатьма мовами понад 25+, але як щодо якості малих мов?
Середній показник WER виглядає добре, але для мов із довгим хвостом це може бути справжньою катастрофою.
Переглянути оригіналвідповісти на0
AirdropUnderTheNeonBridge
· 3год тому
Внутрішні теги емоцій та ритму? TTS нарешті перестала бути машиною для читання, тепер можна створювати озвучені книги або NPC-діалоги для ігор з різноманітністю.
Переглянути оригіналвідповісти на0
AirdropCartographer
· 3год тому
Багатоканальний + розділення мовців, чудовий інструмент для транскрипції конференційних записів, але при потоковій ціні 0,2 долара/година, довгі зустрічі все одно не дуже дешеві.
Переглянути оригіналвідповісти на0
PerpPulse
· 3год тому
Grok Voice, вбудоване в Tesla, Starlink — всі використовують один і той самий аудіо стек, Ілон Маск все краще і краще грає цю екосистему з замкнутим циклом.
Переглянути оригіналвідповісти на0
MintLaterMaybe
· 3год тому
Що таке нормалізація зворотного тексту? Перетворення чисел у арабські цифри? Ця функція дуже важлива для обробки після перетворення голосу в текст, щоб не писати регулярні вирази самостійно.
Переглянути оригіналвідповісти на0
CliffsideAncientPineAndRolling
· 3год тому
xAI ця серія аудіо API ударила досить сильно, STT потоковий 0.2 долара/година, TTS 4.2 долара/мільйон символів, стратегія ціноутворення явно орієнтована на масштабне комерційне використання.
Переглянути оригіналвідповісти на0
  • Закріплено