xAI випустила API для голосового перетворення в текст і тексту в голос Грок

robot
Генерація анотацій у процесі
ME Новини повідомляють, 18 квітня (UTC+8), що xAI нещодавно офіційно запустила дві окремі аудіо API: Grok для голосового перетворення в текст (STT) та Grok для перетворення тексту в голос (TTS).
Grok STT забезпечує високоточну, з низькою затримкою транскрипцію, підтримує пакетну обробку через REST API та потокову обробку в реальному часі через WebSocket API, а також має функції часових міток на рівні слів, розділення мовців, підтримки багатоканальності та інтелектуальної нормалізації тексту.
У статті зазначається, що у бенчмарках у сферах телефонних дзвінків, конференцій, відео/подкастів її показники помилок слів були кращими за провідні комерційні моделі, такі як ElevenLabs, Deepgram та AssemblyAI.
Цей сервіс підтримує понад 25 мов, ціна за пакетну обробку становить 0,10 долара США за годину, а за потокову обробку — 0,20 долара за годину.
Grok TTS може швидко генерувати природний та виразний голос, підтримує тонке керування за допомогою простих голосових тегів, ціна становить 4,20 долара за мільйон символів.
Обидва API базуються на одній і тій самій технологічній платформі, яка забезпечує роботу Grok Voice, автомобілів Tesla та підтримку клієнтів Starlink.
(Джерело: InFoQ)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Mint-ColoredCalmness
· 6год тому
Чи потрібно оновити голосове управління автомобіля Tesla? Також можна використовувати Starlink — це досить цікаво
Переглянути оригіналвідповісти на0
SummerNightColdWallet
· 6год тому
Що таке нормиалізація зворотного тексту — це якась передова технологія, автоматична обробка перетворення цифр у текст?
Переглянути оригіналвідповісти на0
NekoValidator
· 6год тому
0.1 долара/година оптова ціна, понад 25 мов, ця хвиля знищить Whisper
Переглянути оригіналвідповісти на0
Cream-ColoredCross-ChainBridge
· 7год тому
REST пакетний + потоковий двонапрямний режим WebSocket, максимально зручний для розробників
Переглянути оригіналвідповісти на0
GateUser-deff9ed8
· 7год тому
xAI почала продавати API, закриття екосистеми Маска +1
Переглянути оригіналвідповісти на0
  • Закріплено