OpenAI змушує модель “відкрити рота” і ображає, що AI коштує дорого

Автор: Су Ян, Tencent Technology

8 травня OpenAI додала до API три нові покоління мовних моделей: зосереджені на мовному висновку та діалозі GPT‑Realtime‑2, що виділяється реальновременним багатомовним перекладом Realtime‑Translate та фокусом на перетворенні мови у текст Realtime‑Whisper.

GPT‑Realtime‑2 — це перша мовна модель OpenAI з рівнем висновку GPT‑5. Вона демонструє значний прогрес у бенчмарках: точність у оцінюванні розумних голосових систем Big Bench Audio досягає 96,6%, а середній рівень успішності у тесті дотримання команд Audio MultiChallenge становить 48,5%, що на 15,2 та 13,8 відсоткових пунктів відповідно вище за попередню генерацію GPT‑Realtime‑1.5.

На базі GPT‑Realtime‑2 голосовий ШІ еволюціонує від простих питань-відповідей до здатності постійно слухати, робити висновки, викликати інструменти та виконувати завдання у процесі діалогу.

“Мислячий” голосовий помічник

Мета GPT‑Realtime‑2 — зробити мовну модель здатною підтримувати плавний діалог, одночасно виконуючи складні логічні висновки та дії.

Щодо природності діалогу, у модель введено механізм провідних фраз.

Розробники можуть активувати короткі підказки, наприклад “Дайте мені перевірити” або “Зачекайте, я дивлюся”, щоб ще до формування офіційної відповіді повідомити користувачу, що запит прийнято і обробляється.

Разом із цим, запроваджено паралельне виклик зовнішніх інструментів та прозорість їх роботи, модель може одночасно викликати кілька зовнішніх сервісів і повідомляти користувачу про прогрес, наприклад “Перевіряю ваш календар” або “Знаходжу інформацію”, щоб зберегти реактивність і уникнути мовчазної паузи.

При труднощах у обробці модель може самостійно давати підказки типу “Зараз у мене виникли труднощі” та намагатися відновити процес, а не мовчки припиняти або переривати діалог.

Крім того, контекстне вікно моделі розширено з 32K до 128K, що дозволяє зберігати зв’язність у довших і складніших багатокругових діалогах, підтримуючи цілісність робочого процесу.

Щодо застосування у спеціалізованих сферах, модель покращила розуміння термінології конкретних галузей, зберігаючи професійні слова, власні назви та медичну термінологію, що особливо цінно для розгортання у виробничих умовах. У плані виразності модель має більш керований тон і стиль, здатна змінювати стиль відповідно до ситуації.

Ще одне важливе оновлення — регульована ступінь висновку. Розробники можуть обирати рівень від minimal, low, medium, high до xhigh (за замовчуванням low), щоб балансувати між затримкою та глибиною висновків.

Без зайвих балачок

GPT‑Realtime‑2 — переможець у бенчмарках попередніх моделей

У тесті Big Bench Audio, що оцінює складність логічних висновків голосових моделей, GPT‑Realtime‑2 (рівень високого висновку) досягла точності 96,6%, тоді як GPT‑Realtime‑1.5 — 81,4%, що дає приріст у 15,2 відсоткових пунктів.

У тесті MultiChallenge, що оцінює багатократну взаємодію у системах голосового діалогу — з урахуванням команд, контексту, самостійної узгодженості та корекції природної мови — середній рівень успішності GPT‑Realtime‑2 (xhigh) піднявся з 34,7% у GPT‑Realtime‑1.5 до 48,5%, що становить приріст у 13,8 пунктів.

Насправді, щоб визначити, чи справді “розумна” голосова модель, найпереконливішим сценарієм є не простий чат, а вирішення складної задачі, що вимагає багатоетапних висновків.

Примітка: у демонстраційних документах OpenAI наведено конкретний тест: користувач описує свою стартап-ідею, а дві попередні моделі Realtime демонструють мовний висновок і відповідний текстовий сценарій.

Цей приклад — складне завдання, що вимагає високого рівня логічних висновків: модель має одночасно розуміти кілька змінних, таких як нерівномірний розподіл потоку клієнтів, високі фіксовані орендні витрати та бізнес-модель із низькою швидкістю обертання столів, наприклад, для повільної кав’ярні, і робити логічні висновки в межах цих обмежень.

GPT‑Realtime‑2 за 1 хвилину 4 секунди дає структуровану, багаторівневу відповідь, розбиваючи суперечності між людським потоком і структурою орендних платежів, вказуючи, що пікові години можуть бути надто зосереджені і не забезпечують достатню прибутковість для покриття оренди, а також пропонуючи конкретний легкий тестовий шлях.

Та сама задача, поставлена попередньою моделлю GPT‑Realtime‑1.5, отримала відповідь за 51 секунду, але з меншою глибиною. Цей порівняльний приклад ілюструє міжпоколінний розрив у стратегічних висновках.

03 Реальний переклад і транскрипція

Крім GPT‑Realtime‑2, OpenAI одночасно випустила дві спеціалізовані моделі для конкретних сценаріїв.

GPT‑Realtime‑Translate зосереджена на реальному багатомовному перекладі, підтримує понад 70 мов вводу, може виводити у 13 цільових мов і одночасно надає транскрипт. Її цільові сфери — підтримка клієнтів, міжнародні продажі, освіта, події та платформи для творців із глобальною аудиторією.

Глава AI Vimeo Альберто Паравічіні поділився їхнім досвідом: під час перегляду відео GPT‑Realtime‑Translate інтегрована у платформу дозволяє миттєво спілкуватися з глядачами різних мов.

Демонстрація GPT‑Realtime‑Translate — реальний переклад у реальному часі

GPT‑Realtime‑Whisper — це потокова модель перетворення мови у текст, створена для низької затримки транскрипції.

Вона може починати генерувати текст одразу при початку мовлення, що підходить для реального часу субтитрів, нотаток у класі, трансляцій та голосових інтерфейсів, де потрібно швидко створювати подальші робочі процеси. Її головна цінність — перетворювати мовний контент у структурований текст у процесі діалогу для негайного використання у downstream-системах.

Безпека та ціноутворення

З точки зору безпеки, Realtime API має багаторівневий захист — вбудований активний класифікатор може моніторити сесії у реальному часі і припиняти їх при виявленні порушень правил щодо шкідливого контенту. Розробники також можуть легко додавати власні рівні безпеки за допомогою SDK Agents.

Політика OpenAI чітко забороняє використовувати вихідні дані для спаму, шахрайства або інших шкідливих цілей.

Згідно з офіційними рекомендаціями, якщо в діалозі не вказано, що співрозмовник — AI, розробники повинні чітко повідомляти користувачів про те, що вони спілкуються з штучним інтелектом (наприклад, “Зараз говорить AI”). Крім того, API повністю підтримує зберігання даних у ЄС та захищений режим конфіденційності для корпоративних клієнтів.

Три моделі вже доступні для розробників через Realtime API.

Щодо цін, GPT‑Realtime‑2 оплачується за токени мовлення: 32 долари за мільйон вхідних токенів (з кешуванням — 0,40 долара за 100 тисяч токенів), 64 долари за мільйон вихідних токенів. GPT‑Realtime‑Translate — за часом використання: 0,034 долара за хвилину. GPT‑Realtime‑Whisper — також за часом: 0,017 долара за хвилину.

Щоб підтримати нову “мовну екосистему”, генеральний директор OpenAI Сэм Альтман у Twitter зазначив: люди справді починають взаємодіяти з AI голосом, особливо коли потрібно одразу подати багато контексту.

Він також зазначив, що молодь, здається, більше схильна спілкуватися з AI голосом, тоді як люди похилого віку віддають перевагу текстовому спілкуванню, і поставив питання, чи зміниться ця звичка у майбутньому.

Питання: хто стане наступним, хто підхопить цю естафету після оновлення голосового висновку OpenAI?

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити