xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%

robot
Генерація анотацій у процесі
ME News Новини, 18 квітня (UTC+8), згідно з моніторингом Дангча Beating, xAI запустила два окремі API для аудіо: Grok Speech to Text та Grok Text to Speech. Обидва належать до однієї аудіо-стеку, що підтримує Grok Voice, автомобільну систему Tesla та обслуговування Starlink, і тепер відкриті у вигляді окремих кінцевих точок, що дозволяє розробникам безпосередньо підключатися до голосових агентів, реального часу транскрипції, інструментів для безперешкодного доступу та подкастів. STT пропонує два режими. REST API для пакетної транскрипції великих аудіофайлів з миттєвою відповіддю; WebSocket API орієнтований на потокове мовлення у реальному часі. Додаткові можливості включають часові мітки на рівні слів, розділення мовців (діаризація), розпізнавання по кількох каналах та зворотню нормалізацію тексту, тобто автоматичне форматування чисел, дат, валют у стандартизований структурований текст. Підтримка понад 25 мов, з можливістю безшовного перемикання у діалогах. xAI також опублікувала порівняльні дані щодо рівня помилок у словах (WER, чим нижче, тим краще): у цілому сценарії Grok 6.9%, ElevenLabs 9.0%, Deepgram 11.0%, AssemblyAI 12.9%; різниця у «розпізнаванні сутностей телефонних дзвінків» ще більш значна, Grok 5.0%, відповідно трьом іншим — 12.0%, 13.5%, 21.3%. У сценаріях конференцій, відеоподкастів та телефонних дзвінків Grok також має невелике перевагу. Ці цифри опубліковані самою xAI, без стороннього повторного тестування. Щодо цін, то для пакетної обробки STT — 0,10 долара США за годину, для потокового — 0,20 долара за годину; TTS коштує 4,20 долара за 1 мільйон символів. TTS підтримує використання внутрішніх тегів Speech для керування емоціями та ритмом, наприклад \[laugh\], \[sigh\], \[whisper\], \ (джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 11
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Lime-ColoredStop-LossLine
· 9год тому
Пакетна обробка 0.1 долара/година — справді класно, але цінова політика з потоковим подвоєнням явно змушує тебе перейти до пакетних рішень
Переглянути оригіналвідповісти на0
GateUser-83a2dd8a
· 9год тому
25+ мовних покриттів, як працює китайський ефект, хтось тестував?
Переглянути оригіналвідповісти на0
TheProphetOfToast
· 10год тому
Внутрішні теги емоційної ритміки, нарешті більше не потрібно слухати, як робот читає текст
Переглянути оригіналвідповісти на0
GateUser-b665e41c
· 11год тому
Інтеграція системи автопілота Tesla, скільки мілісекунд можна зменшити затримку голосової взаємодії під час керування автомобілем
Переглянути оригіналвідповісти на0
PunkRiskMgr
· 11год тому
Обслуговування Starlink вже використовується, а розпізнавання акцентів у сільських районах стало багатим джерелом даних для тренувань
Переглянути оригіналвідповісти на0
ToBeHonest,You'llLose
· 11год тому
Від обсягу LLM до голосу, багатомодальна війна офіційно переходить у другу половину
Переглянути оригіналвідповісти на0
HashbrownHero
· 11год тому
Масове транскрибування цієї ціни, групи субтитрів та ведучі подкастів, ймовірно, будуть масово мігрувати
Переглянути оригіналвідповісти на0
GateUser-bee672a5
· 11год тому
Чекаючи на відкриту спільноту для відтворення WER, бенчмарк xAI зазвичай спершу ставить під сумнів
Переглянути оригіналвідповісти на0
TwoFactorZen
· 11год тому
REST + WebSocket двобічний режим, максимально дружній для розробників
Переглянути оригіналвідповісти на0
VintageKeychain
· 11год тому
Один і той самий аудіо-стек, поданий, досвід Grok Voice має бути здатним синхронно оновлюватися
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено