Розмовний режим ChatGPT стане ще більш плавним завдяки новій моделі в реальному часі

LootboxPhobia · 2026-03-06T00:05:27+00:00

OpenAI розробляє нову аудіомодель BiDi, яка має на меті зробити діалог із ChatGPT більш природним. Ця модель може в режимі реального часу коригувати відповіді, а не зупиняти діалог при вставці користувача. Хоча випуск моделі BiDi може бути відкладений до другого кварталу або пізніше, вона має потенціал покращити голосову взаємодію з AI-помічниками, особливо у сферах підтримки клієнтів та інших застосунках.

LootboxPhobia

2026-03-06 00:05:27

Генерація анотацій у процесі

Investing.com – За повідомленням The Information, OpenAI розробляє нову аудіо-модель, яка має зробити діалог із ChatGPT менш механічним. Ця модель дозволяє штучному інтелекту в реальному часі коригувати свою відповідь при перериванні.

Наразі в ChatGPT використовується режим голосового спілкування з черговим обміном, коли користувач говорить, а потім ШІ обробля аудіо та генерує відповідь. Якщо користувач вставляє слова на кшталт “добре” або “угу”, модель повністю зупиняєся, а не продовжує діалог природно.

Нова модель під назвою BiDi (двонапрямна) має на меті постійно обробляти голос говорячого, щоб миттєво коригувати відповідь при перериванні. У порівнянні з існуючими аудіо-моделями, це зробить діалог більш природним, оскільки поточні моделі, коли ШІ починає говорити, видають незмінну відповідь.

Однак ця технологія ще не готова до випуску. За словами джерела, знайомого з проектом, через кілька хвилин роботи прототип починає виходити з ладу або видавати дивні звуки. Хоча спочатку OpenAI планувала випустити BiDi у першому кварталі цього року, графік може бути перенесений на другий квартал або пізніше.

OpenAI вважає, що зменшення різниці у продуктивності між голосовими та текстовими моделями сприятиме ширшому використанню ШІ у світі, оскільки більшість людей вважає розмову з помічником голосом більш природною, ніж написання тексту.

Очікується, що модель BiDi буде особливо корисною для застосувань у підтримці клієнтів. Наприклад, якщо клієнт, який телефонує до служби підтримки роздрібного продавця, вирішить змінити товар під час розмови замість повернення, BiDi теоретично дозволить агенту плавно переключити діалог, а не зупинитися або заплутатися.

За словами джерела, знайомого з цією аудіо-моделлю, вона також краще працює з зовнішніми інструментами та додатками. Раніше OpenAI повідомляла про плани покращити свою аудіо-модель для майбутніх пристроїв із голосовим інтерфейсом, а також розглядає розробку розумної колонки, яка зможе за допомогою голосових команд перевіряти електронну пошту або бронювати послуги.

Цей текст перекладено за допомогою штучного інтелекту. Детальніше дивіться у наших Умовах використання.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.