xAI ця ціна на аудіо API досить цікава, STT у пакетах всього 0.1 долара/година, а TTS навпаки дорожчий — до 4.2 долара/мільйон символів, чи це преміальна ціна за емоційні мітки?

Переглянути оригінал
MeNews
xAI відкриває API для аудіо Grok STT та TTS, загальна помилка розпізнавання слів STT знижена до 6.9%
МЕ Новини повідомляють, що xAI запустила дві незалежні аудіо API: Grok STT та Grok TTS, які базуються на одному аудіо стеку, підтримують Grok Voice, автомобільну систему Tesla та обслуговування Starlink. STT пропонує пакетний транскрипт через REST та потокову обробку в реальному часі через WebSocket, з часовими мітками на рівні слова, розділенням мовців, багатоканальним режимом та нормалізацією тексту у зворотному порядку, підтримує понад 25 мов; TTS підтримує внутрішні теги для емоцій та ритму. Також опубліковано порівняння WER, де Grok лідирує у багатьох сценаріях, але третя сторона ще не проводила незалежне тестування. Ціни: пакетний STT — 0,10 долара США за годину, потоковий — 0,20 долара США за годину, TTS — 4,20 долара США за мільйон символів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено