xAI ця серія аудіо-комбо вийшла досить агресивною, потокове ціноутворення STT 0.2 долара/годину безпосередньо конкурує з Whisper, TTS ще й з емоційними тегами, Ілон Маск хоче зробити голосовий сегмент справжнім "червоним морем"

XAI2,24%
STT24,9%
Переглянути оригінал
MeNews
xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів у STT знижена до 6.9%
Медійні новини повідомляють, що xAI запустила дві окремі аудіо API: Grok STT та Grok TTS, що походять з однієї аудіо-стеку, підтримують Grok Voice, автомобільну систему Tesla та обслуговування Starlink. STT пропонує пакетний транскрипт через REST та потокову обробку в реальному часі через WebSocket, з часовими мітками на рівні слів, розділенням мовця, багатоканальним режимом та нормалізацією зворотного тексту, підтримує понад 25 мов; TTS підтримує внутрішні теги для емоцій та ритму. Також опубліковано порівняння WER, де Grok лідирує у багатьох сценаріях, але третіх сторонніх повторних тестів ще немає. Ціни: пакетний STT — 0,10 долара США за годину, потоковий — 0,20 долара США за годину, TTS — 4,20 долара США за мільйон символів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено