Новые модели аудио OpenAI обеспечивают работу голосовых помощников в реальном времени с мультиязычным переводом и потоковым интеллектом

Кратко

OpenAI выпустила модели GPT-Realtime-2, Translate и Whisper, расширяя возможности голосового ИИ в реальном времени с логикой, переводом и транскрипцией для продвинутых разговорных приложений.

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAI объявила о новом наборе аудиомоделей в рамках своей API-экосистемы, что означает расширение возможностей голосового взаимодействия в реальном времени для разработчиков и приложений на базе ИИ. Выпуск включает GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper, каждая из которых предназначена для более продвинутых, отзывчивых и контекстуально осведомленных голосовых взаимодействий в различных сценариях использования.

GPT-Realtime-2 позиционируется как самая передовая голосовая модель компании на сегодняшний день, вводя рассуждение уровня GPT-5 в живые аудиоразговоры. Модель предназначена для обработки сложных пользовательских запросов, поддержания контекстуальной последовательности и поддержки многошагового рассуждения при взаимодействии в реальном времени. Она предназначена для приложений, где голосовые агенты должны не только быстро реагировать, но и интерпретировать намерения, управлять прерываниями и выполнять задачи с помощью интегрированных инструментов.

Вместе с ней GPT-Realtime-Translate обеспечивает живой перевод речи более чем на 70 входных языков в 13 выходных языков. Система создана для поддержания потока разговора при сохранении смысла и временных рамок, позволяя говорящим общаться на разных языках без заметных задержек. Эта возможность ориентирована на глобальную поддержку клиентов, образование, путешествия и трансграничную коммуникацию.

Третья модель, GPT-Realtime-Whisper, сосредоточена на потоковой транскрипции речи в текст. Она обеспечивает непрерывную, низколатентную транскрипцию по мере речи пользователя, что позволяет получать субтитры в реальном времени, вести живую документацию и мгновенно обрабатывать устный контент. Модель предназначена для сред, где требуется быстрое преобразование речи в текст, таких как встречи, медиа-трансляции и корпоративные рабочие процессы.

OpenAI описала совместный выпуск как шаг к голосовым интерфейсам, выходящим за рамки простых систем команд и ответов. Вместо простого распознавания речи и генерации ответов модели предназначены для поддержки непрерывного рассуждения, перевода, транскрипции и выполнения действий в рамках одного диалога. Цель — создать голосовые системы, которые могут функционировать больше как интерактивные помощники, способные выполнять задачи, сохраняя естественный диалог.

GPT-Realtime-2 Улучшает Архитектуру Голосового ИИ с Системами Голос-Действие и Расширенными Окнами Контекста

Компания выделила несколько новых шаблонов проектирования, реализуемых с помощью технологии. Среди них системы голос-действие, где пользователи могут описывать задачи, которые выполняются через автоматизированное рассуждение и интеграцию инструментов; системы-во-голос, где программное обеспечение генерирует устное руководство на основе контекстных данных; и системы голос-во-голос, позволяющие в реальном времени осуществлять многоязычную коммуникацию между говорящими.

GPT-Realtime-2 вводит дополнительные архитектурные улучшения для производственного использования. Среди них увеличенные окна контекста до 128K токенов, улучшенное восстановление при прерываниях или ошибках, параллательное выполнение инструментов с прозрачной обратной связью и более управляемая настройка тона в зависимости от контекста разговора. Разработчики также могут тонко настраивать уровни рассуждения для балансировки скорости и сложности в зависимости от требований приложения.

Показатели производительности, приведённые OpenAI, свидетельствуют о повышении результатов в задачах аудио-рассуждения и следования инструкциям по сравнению с предыдущими версиями моделей в реальном времени. Система также лучше справляется с терминологией, специфичной для определённых областей, и демонстрирует более стабильное поведение в многоходовых диалогах.

В релиз включены механизмы безопасности, такие как мониторинг в реальном времени и классификация контента в активных сессиях, а также контроль на уровне разработчика для дополнительных мер предосторожности. Модели доступны через Realtime API и предназначены для внедрения в корпоративные, потребительские и разработческие приложения, с ценообразованием, основанным на использовании аудиопроцессинга.

Внедрение GPT-Realtime-2 и сопутствующих моделей отражает более широкий переход к голосовым вычислительным системам, способным рассуждать, переводить и транскрибировать в реальном времени, с целью сделать устное взаимодействие с программным обеспечением более функциональным, адаптивным и операционно способным.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено