Нові аудіомоделі OpenAI забезпечують голосових помічників у реальному часі з багатомовним перекладом та потоковим інтелектом

Коротко

OpenAI випустила моделі GPT-Realtime-2, Translate та Whisper, розширюючи можливості голосового ШІ у реальному часі з розумінням, перекладом і транскрипцією для передових комунікаційних застосунків.

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAI оголосила про новий набір аудіомоделей у рамках своєї екосистеми API, що ознаменувало розширення можливостей голосового зв’язку у реальному часі для розробників та застосунків на базі ШІ. Випуск включає GPT-Realtime-2, GPT-Realtime-Translate та GPT-Realtime-Whisper, кожна з яких створена для забезпечення більш просунутих, швидких і контекстуально обізнаних голосових взаємодій у різних сферах застосування.

GPT-Realtime-2 позиціонується як найпрогресивніша голосова модель компанії на сьогодні, впроваджуючи розуміння рівня GPT-5 у реальному часі для голосових розмов. Модель розроблена для обробки складних запитів користувачів, збереження контексту та підтримки багатоступеневого розуміння під час взаємодії у реальному часі. Вона призначена для застосунків, де голосові агенти повинні не лише швидко реагувати, а й інтерпретувати наміри, керувати перервами та виконувати завдання за допомогою інтегрованих інструментів.

Разом із цим GPT-Realtime-Translate дозволяє здійснювати живий переклад мовлення понад 70 мов введення у 13 мов виведення. Система побудована для збереження потоку розмови, водночас зберігаючи значення та час, що дозволяє говорити різними мовами без помітних затримок. Ця можливість орієнтована на глобальну підтримку клієнтів, освіту, подорожі та міжнародну комунікацію.

Третя модель, GPT-Realtime-Whisper, зосереджена на потоковій транскрипції мовлення у текст. Вона забезпечує безперервну, низьколатентну транскрипцію під час мовлення користувачів, що дозволяє створювати субтитри у реальному часі, вести живу документацію та негайно обробляти мовний контент. Модель розроблена для середовищ, де потрібне швидке перетворення мовлення у текст, наприклад, на зустрічах, у медіа-трансляціях та корпоративних процесах.

OpenAI описала спільний випуск як крок до голосових інтерфейсів, що виходять за межі простих систем команд і відповідей. Замість просто розпізнавання мовлення та генерації відповідей, моделі мають підтримувати безперервне розуміння, переклад, транскрипцію та виконання дій у рамках одного діалогу. Мета — створити голосові системи, що працюють більше як інтерактивні помічники, здатні виконувати завдання, зберігаючи природний діалог.

GPT-Realtime-2 покращує архітектуру голосового ШІ з системами голосових дій і розширеними вікнами контексту

Компанія підкреслила кілька нових шаблонів дизайну, що з’явилися завдяки цій технології. Це системи голосових дій, де користувачі можуть описувати завдання, які виконуються через автоматичне розуміння та інтеграцію інструментів; системи до голосових застосунків, де програмне забезпечення генерує голосові поради на основі контекстуальних даних; і системи голосового перекладу, що дозволяють реальну багатомовну комунікацію між мовцями у реальному часі.

GPT-Realtime-2 вводить додаткові архітектурні покращення для виробничого використання. Це включає довші вікна контексту, розширені до 128 тисяч токенів, покращену поведінку при перервах або помилках, паралельне виконання інструментів із прозорим зворотнім зв’язком і більш контрольоване регулювання тону залежно від контексту розмови. Розробники також можуть тонко налаштовувати рівень розуміння для балансування швидкості та складності відповідно до потреб застосунку.

Показники продуктивності, наведені OpenAI, свідчать про покращення результатів у задачах розуміння на основі аудіо та виконання інструкцій у порівнянні з попередніми версіями моделей у реальному часі. Система також краще справляється з термінологією, специфічною для галузі, і демонструє більш стабільну поведінку у багатократних діалогах.

Випуск також включає механізми безпеки, зокрема моніторинг у реальному часі та класифікацію контенту під час активних сесій, а також контроль на рівні розробника для додаткових заходів безпеки. Моделі доступні через API у реальному часі і орієнтовані на розгортання в корпоративних, споживчих і розробницьких застосунках, з ціноутворенням, що базується на метриках обробки аудіо за використанням.

Впровадження GPT-Realtime-2 та супутніх моделей відображає ширший перехід до голосових обчислювальних систем, здатних розуміти, перекладати і транскрибувати у реальному часі, з метою зробити голосову взаємодію з програмним забезпеченням більш функціональною, адаптивною та операційно здатною.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено