xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%

robot
Генерація анотацій у процесі
ME News повідомлення, 18 квітня (UTC+8), згідно з моніторингом Дангча Beating, xAI запустила два окремі API для аудіо: Grok Speech to Text та Grok Text to Speech. Обидва належать одній аудіо-стеку, яка підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, реального часу транскрипції, інструментів для безперешкодного доступу та подкастів. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (діаризація), розпізнавання по каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Підтримка понад 25 мов, з можливістю безшовного перемикання у діалогах. xAI також опублікувала порівняльні дані щодо рівня помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більш значна, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У сценаріях конференцій, відеоподкастів та телефонних дзвінків Grok також має невелике перевагу. Ці дані були опубліковані xAI на основі власних тестів, без стороннього повторного тестування. Щодо цін, то пакетна обробка STT коштує 0.10 долара США за годину, потокова — 0.20 долара за годину; TTS — 4.20 долара за мільйон символів. TTS підтримує використання внутрішніх тегів Speech для контролю емоцій та ритму, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats).
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • 3
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
InstantNoodle-LevelResearcher
· 4год тому
Масове транскрибування через REST, у реальному часі через WebSocket, архітектурне рішення досить практичне
Переглянути оригіналвідповісти на0
GateUser-f85bc167
· 4год тому
Чекаю реальних результатів тестування, достатньо подивитися бенчмарк xAI
Переглянути оригіналвідповісти на0
MarginMom
· 4год тому
Grok TTS підтримує емоційні мітки — це цікаво, чи зможе майбутній штучний інтелект для озвучування додавати плачучий тон?
Переглянути оригіналвідповісти на0
GateUser-f92ba9fa
· 4год тому
25+ мовних покриттів, як працює китайська — хтось тестував?
Переглянути оригіналвідповісти на0
Lightning-FastComposure
· 4год тому
Що таке технологія чорної науки зворотньої нормалізації тексту, можеш пояснити детальніше?
Переглянути оригіналвідповісти на0
HaiyanColdWallet
· 4год тому
Таймстампи на рівні слів + розділення мовця, протокол зустрічі — радість для фанатів
Переглянути оригіналвідповісти на0
QuantsAndCats
· 5год тому
4.2 долара/мільйон символів TTS — дешевше чи дорожче за ElevenLabs?
Переглянути оригіналвідповісти на0
AmberTeaSwirl
· 5год тому
Потоковий STT 0,2 долара/година, сценарій з реальними субтитрами має працювати
Переглянути оригіналвідповісти на0
MultisigOnRocks
· 5год тому
Один і той самий аудіо-стек подають на Grok Voice, Tesla, Starlink, екосистема Маска закрита.
Переглянути оригіналвідповісти на0
BalanceScreenshotAfterTheRain
· 5год тому
xAI ця хвиля аудіо API прийшла трохи несподівано, ціна STT 0.1 долара/годину вважається чесною?
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено