Розбиття за словами з часовими мітками та розділенням мовців у Grok STT є необхідністю для монтажу подкастів, але дані WER залежать лише від власних оцінок, чекати стороннього повторного тестування.

GROK-5,89%
STT-4,85%
Переглянути оригінал
MeNews
xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%
Медійні новини повідомляють, що xAI запустила дві окремі аудіо API: Grok STT та Grok TTS, що походять з одного аудіо стеку, підтримують Grok Voice, автомобільну систему Tesla та обслуговування Starlink. STT пропонує пакетний транскрипт через REST та потокову обробку в реальному часі через WebSocket, з часовими мітками на рівні слова, розділенням мовців, багатоканальним режимом та нормалізацією зворотного тексту, охоплюючи понад 25 мов; TTS підтримує внутрішні теги для емоцій та ритміки. Також опубліковано порівняння WER, де Grok демонструє перевагу у багатьох сценаріях, але третя сторона ще не проводила повторне тестування. Ціни: пакетний STT — 0,10 долара США за годину, потоковий — 0,20 долара США за годину, TTS — 4,20 долара за мільйон символів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
GateUser-dd0c6b87
· 9год тому
Це зовсім не одне й те саме, не обманюйте людей
Переглянути оригіналвідповісти на0
  • Закріплено