新しいOpenAIオーディオモデルが多言語翻訳とストリーミングインテリジェンスを備えたリアルタイム音声アシスタントを実現

要約

OpenAIはGPT-Realtime-2、Translate、およびWhisperモデルをリリースし、高度な会話アプリケーション向けに推論、翻訳、文字起こしを備えたリアルタイム音声AIを拡大しました。

New OpenAI Audio Models Power Real-Time Voice Assistants With Multilingual Translation And Streaming IntelligenceOpenAIは、そのAPIエコシステム内で新しい音声モデルのセットを発表し、開発者やAI駆動型アプリケーション向けのリアルタイム音声機能の拡張を示しました。リリースにはGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperが含まれ、それぞれがより高度で応答性の高い、コンテキストを理解した音声インタラクションをさまざまな用途で可能にします。

GPT-Realtime-2は、同社の最も高度な音声モデルとして位置付けられ、GPT-5クラスの推論をライブ音声会話に導入しています。このモデルは、複雑なユーザーリクエストに対応し、コンテキストの連続性を維持しながら、多段階の推論をサポートし、リアルタイムでの対話を可能にします。音声エージェントが迅速に応答するだけでなく、意図を解釈し、割り込みを管理し、ツールの統合を通じてタスクを実行する必要があるアプリケーション向けです。

それに加えて、GPT-Realtime-Translateは70以上の入力言語から13の出力言語へのライブ音声翻訳を可能にします。このシステムは、会話の流れを維持しつつ意味とタイミングを保持し、話者が異なる言語でコミュニケーションをとることを可能にします。この機能は、グローバルなカスタマーサポート、教育、旅行、国境を越えたコミュニケーションサービスを対象としています。

第三のモデル、GPT-Realtime-Whisperは、ストリーミングによる音声からテキストへの文字起こしに焦点を当てています。ユーザーの話す内容を連続的かつ低遅延で文字起こしし、リアルタイムの字幕、ライブドキュメント作成、即時の下流処理を可能にします。このモデルは、会議、メディア放送、企業のワークフローなど、迅速な音声変換が求められる環境向けです。

OpenAIは、これらのリリースを、基本的なコマンドと応答を超える音声インターフェースへの一歩と表現しています。単に音声を認識して応答を生成するだけでなく、継続的な推論、翻訳、文字起こし、アクション実行を一つの会話の流れの中でサポートすることを目指しています。これにより、タスクを完了しながら自然な対話を維持できるインタラクティブなアシスタントのような音声システムの実現を狙っています。

GPT-Realtime-2は音声からアクションシステムと拡張されたコンテキストウィンドウを備えた音声AIアーキテクチャを進化させる

同社は、この技術によって可能になったいくつかの新しい設計パターンを強調しています。これには、ユーザーがタスクを記述し、自動推論とツール統合を通じて実行される音声からアクションシステム、コンテキストデータに基づいて音声ガイダンスを生成するシステムから音声へのアプリケーション、そして話者間のリアルタイム多言語コミュニケーションを可能にする音声から音声への翻訳システムが含まれます。

GPT-Realtime-2は、実運用向けの追加のアーキテクチャ改善も導入しています。これには、128Kトークンに拡張された長いコンテキストウィンドウ、割り込みやエラー時の回復動作の改善、透明なフィードバックを伴う並列ツール実行、会話の文脈に応じたトーン調整の制御性向上などがあります。開発者はまた、アプリケーションのニーズに応じて推論レベルを微調整し、速度と複雑さのバランスを取ることも可能です。

OpenAIが示した性能ベンチマークによると、従来のリアルタイムモデルと比較して、音声ベースの推論や指示追従タスクでの結果が向上しています。システムはまた、ドメイン固有の用語の取り扱いや、多ターン会話における安定性も強化されています。

このリリースには、安全性を確保するための仕組みも含まれています。リアルタイム監視やアクティブセッション内でのコンテンツ分類に加え、開発者レベルの制御も提供され、追加の安全策が講じられています。これらのモデルは、リアルタイムAPIを通じて利用可能であり、エンタープライズ、コンシューマー、開発者向けアプリケーションへの展開を想定しています。価格は使用量に基づく音声処理メトリクスに設定されています。

GPT-Realtime-2とその付随モデルの導入は、推論、翻訳、文字起こしをリアルタイムで行える音声ベースのコンピューティングシステムへのより広いシフトを反映しており、ソフトウェアとの音声対話をより機能的、適応的、運用可能にすることを目指しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め