GPT-Realtime-2 приносить інтелект GPT-5 у голосовий API

OpenAI випустила нове покоління голосових моделей у своєму API у середу, надаючи розробникам інструменти для створення додатків, які можуть логічно обробляти усні запити, перекладати понад 70 мов і транскрибувати мову в реальному часі.

Три моделі називаються GPT-Realtime-2, GPT-Realtime-Translate і GPT-Realtime-Whisper. Вони переводять голосові інтерфейси штучного інтелекту за межі простих обмінів питаннями та відповідями у територію, де агент ШІ може слухати, думати і діяти під час розмови.

GPT-Realtime-2 приносить гостріше мислення голосу

GPT-Realtime-2 є флагманом. OpenAI заявляє, що він пропонує reasoning рівня GPT-5, значний крок уперед від попередника, GPT-Realtime-1.5.

Модель набрала на 15,2% більше балів у Big Bench Audio, тесті для аудіоінтелекту, і на 13,8% більше у Audio MultiChallenge, що перевіряє слідування інструкціям у багатократних усних діалогах.

Практичні оновлення орієнтовані на розробників, які створюють виробничих голосових агентів. Модель тепер підтримує вікно контексту 128K, у чотири рази більше за попередній ліміт 32K, і пропонує п’ять рівнів регульованих зусиль reasoning від «мінімального» до «дуже високого».

Вона може одночасно викликати кілька інструментів, відновлюватися після помилок із голосовими підтвердженнями і виробляти короткі перехідні фрази, наприклад «давайте я перевірю це», під час обробки запиту.

GPT-Realtime-Translate обробляє переклад живої мови. Вона приймає понад 70 мов для введення і видає у 13, розроблених для швидкої роботи з мовою у реальному часі.

GPT-Realtime-Whisper забезпечує потокову транскрипцію мови у текст (STT), перетворюючи слова у текст одразу під час їх вимови, а не чекаючи завершення висловлювання.

Zillow, Deutsche Telekom тестують моделі у виробництві

Кілька компаній отримали ранній доступ. Zillow створює голосового помічника, який може обробляти складні запити щодо нерухомості, керувати викликами інструментів для пошуку оголошень і дотримуватися правил Fair Housing.

Компанія повідомила про покращення на 26 пунктів у рівні успішності дзвінків на найскладнішому змагальному тесті після оптимізації запитів із GPT-Realtime-2, досягнувши 95% порівняно з 69% раніше.

Deutsche Telekom тестує переклад у реальному часі для підтримки клієнтів, дозволяючи дзвінцям говорити на своїй мові, а модель обробляє конвертацію обох сторін.

Priceline досліджує голосового помічника для подорожей, який може керувати пошуком рейсів, зміною готелів і перекладом на місці в одному сеансі.

Моделі орієнтовані на компанії, що прагнуть розширити можливості обслуговування клієнтів, але також мають потенційні застосування у сферах освіти, медіа, заходів і платформ для творців.

OpenAI заявила, що інтегрувала модерацію контенту у нові моделі, з тригерами, які можуть зупинити розмову, якщо вона виявляється порушенням правил щодо шкідливого контенту. Компанія охарактеризувала ці обмеження як захист від спаму, шахрайства та інших форм зловживань.

Щодо цін, моделі Translate і Whisper оподатковуються за хвилину. GPT-Realtime-2 — за спожитий токен. Всі три доступні через Realtime API OpenAI, який можна підключити через WebRTC, WebSocket і SIP.

Якщо ви читаєте це, ви вже попереду. Залишайтеся там з нашим інформаційним бюлетенем.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити