GPT-Realtime-2 приносит интеллект GPT-5 в голосовой API

OpenAI выпустила новое поколение голосовых моделей в своем API в среду, предоставляя разработчикам инструменты для создания приложений, которые могут рассуждать по устным запросам, переводить более чем на 70 языков и транскрибировать речь в реальном времени.

Три модели получили названия GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Они выводят голосовые интерфейсы ИИ за пределы простых вопросов и ответов в территорию, где агент ИИ может слушать, думать и действовать в ходе беседы.

GPT-Realtime-2 обеспечивает более острое рассуждение для голоса

GPT-Realtime-2 — это флагман. OpenAI заявляет, что он предлагает рассуждение уровня GPT-5, что значительно превосходит его предшественника, GPT-Realtime-1.5.

Модель показала на 15,2% лучший результат на Big Bench Audio, бенчмарке для аудио интеллекта, и на 13,8% выше на Audio MultiChallenge, который тестирует выполнение инструкций в многоходовых устных диалогах.

Практические обновления ориентированы на разработчиков, создающих производственные голосовые агенты. Модель теперь поддерживает окно контекста в 128K, в четыре раза больше предыдущего лимита в 32K, и предлагает пять уровней регулируемых усилий рассуждения от «минимального» до «очень высокого».

Она может одновременно вызывать несколько инструментов, восстанавливаться после ошибок с помощью устных подтверждений и производить короткие связующие фразы, такие как «давайте я проверю это», обрабатывая запрос.

GPT-Realtime-Translate занимается переводом живой речи. Он принимает более 70 входных языков и выводит на 13, предназначен для синхронного взаимодействия с говорящим.

GPT-Realtime-Whisper обеспечивает потоковую речь в текст (STT), транскрибируя слова по мере их произнесения, а не ожидая завершения высказывания.

Zillow, Deutsche Telekom тестируют модели в производстве

Несколько компаний получили ранний доступ. Zillow создает голосового помощника, который может обрабатывать сложные запросы по недвижимости, управлять вызовами инструментов для поиска объявлений и соблюдать правила Fair Housing.

Компания сообщила о 26-процентном улучшении успешности звонков по своему самому сложному антагонистическому бенчмарку после оптимизации подсказок с GPT-Realtime-2, достигнув 95% по сравнению с 69% ранее.

Deutsche Telekom тестирует перевод в реальном времени для поддержки клиентов, позволяя звонящим говорить на предпочитаемом языке, а модель занимается преобразованием с обеих сторон.

Priceline исследует голосового помощника для путешествий, который сможет управлять поиском рейсов, изменениями в отелях и переводом на месте в одном сеансе.

Модели ориентированы на компании, желающие расширить возможности обслуживания клиентов, но также отмечают потенциальные применения в области образования, медиа, мероприятий и платформ для создателей контента.

OpenAI заявил, что встроил модерацию контента в новые модели, с триггерами, которые могут остановить разговоры, нарушающие правила по вредоносному содержанию. Компания охарактеризовала эти ограничения как защиту от спама, мошенничества и других форм злоупотреблений.

Что касается цен, модели Translate и Whisper тарифицируются за минуту. GPT-Realtime-2 — по потреблению токенов. Все три доступны через Realtime API OpenAI, который можно подключить через WebRTC, WebSocket и SIP.

Если вы читаете это, вы уже на шаг впереди. Оставайтесь с нами с помощью нашей рассылки.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить