xAI випустила API для голосового перетворення в текст і тексту в голос від Grok

robot
Генерація анотацій у процесі
ME Новини повідомляють, 18 квітня (UTC+8), що xAI нещодавно офіційно запустила дві окремі аудіо API: Grok для голосового перетворення в текст (STT) та Grok для перетворення тексту в голос (TTS).
Grok STT забезпечує високоточну, з низькою затримкою транскрипцію, підтримує пакетну обробку через REST API та потокову обробку в реальному часі через WebSocket API, а також має функції часових міток на рівні слів, розділення мовців, підтримки багатоканальності та інтелектуальної нормалізації тексту.
У статті зазначається, що у бенчмарках у сферах телефонних дзвінків, конференцій, відео/подкастів її показники помилок слів були кращими за провідні комерційні моделі, такі як ElevenLabs, Deepgram та AssemblyAI.
Цей сервіс підтримує понад 25 мов, ціна за пакетну обробку становить 0,10 долара США за годину, а за потокову обробку — 0,20 долара за годину.
Grok TTS може швидко генерувати природний та виразний голос, підтримує тонке керування за допомогою простих голосових тегів, ціна становить 4,20 долара за мільйон символів.
Обидва API базуються на одній і тій же технологічній платформі, яка забезпечує роботу Grok Voice, автомобілів Tesla та підтримку клієнтів Starlink.
(Джерело: InFoQ)
XAI-0,88%
GROK-1,43%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
RedTelephoneBoothRuins
· 10год тому
Чи можна зменшити затримку реального часу транскрипції WebSocket, терміново потрібно для трансляційних сценаріїв
Переглянути оригіналвідповісти на0
QueuePosition
· 10год тому
Ціна в 4,20 долара — це жарт чи ні, Елон Маск справді не забуває своє походження з мемів
Переглянути оригіналвідповісти на0
NeonMargin
· 10год тому
Рівень слів з часовими позначками + розділення мовця, радість від монтажу подкастів
Переглянути оригіналвідповісти на0
  • Закріплено