OpenAIは水曜日にAPIで新世代の音声モデルをリリースし、開発者に対話を通じて推論できるアプリの構築、70以上の言語の翻訳、音声のリアルタイム書き起こしを可能にするツールを提供しました。3つのモデルはGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperと名付けられています。これらはAI音声インターフェースを単純なQ&Aのやり取りから、AIエージェントが会話中に聞き、考え、行動できる領域へと進化させます。GPT-Realtime-2は音声に鋭い推論能力をもたらすGPT-Realtime-2はフラッグシップモデルです。OpenAIはこれがGPT-5クラスの推論を提供すると述べており、前モデルのGPT-Realtime-1.5から大きく進歩しています。このモデルは音声知能のベンチマークであるBig Bench Audioで15.2%高いスコアを獲得し、マルチターンの音声対話における指示追従をテストするAudio MultiChallengeでは13.8%高いスコアを記録しました。実用的なアップグレードは、実運用の音声エージェントを構築する開発者を対象としています。モデルは128Kのコンテキストウィンドウをサポートし、以前の32Kから4倍に拡大され、「最小」から「超高」までの5段階の推論努力レベルを提供します。複数のツールを同時に呼び出し、エラーから音声による確認で回復し、「ちょっと確認します」などの短い橋渡しフレーズを生成しながらリクエストを処理できます。GPT-Realtime-Translateはライブ音声翻訳を担当します。70以上の入力言語を受け付け、13の出力言語でリアルタイムに話者に追従します。GPT-Realtime-Whisperはストリーミングの音声からテキストへの変換(STT)を提供し、完了した発話を待つのではなく、話される言葉をその場で書き起こします。Zillow、ドイツテレコムが実運用でモデルをテストいくつかの企業が早期アクセスを得ています。Zillowは複雑な不動産クエリを処理し、リスティング検索のツール呼び出しに対応し、公正住宅規制を遵守できる音声アシスタントを構築しています。同社はGPT-Realtime-2によるプロンプト最適化後、最も難しい敵対的ベンチマークでの通話成功率が26ポイント向上し、以前の69%から95%に達したと報告しました。ドイツテレコムはカスタマーサポートのためのリアルタイム翻訳を試験中で、通話者は希望する言語で話し、モデルが両側で変換を処理します。プライスラインは、フライト検索、ホテルの変更、現地での翻訳を一つのセッションで管理できる音声ベースの旅行アシスタントを模索しています。これらのモデルは、顧客サービスの拡充を目指す企業を対象としていますが、教育、メディア、イベント、クリエイタープラットフォームなど幅広い用途も想定しています。OpenAIは、新モデルにコンテンツモデレーションを組み込み、害のあるコンテンツガイドラインに違反する会話を検知して停止させるトリガーを設定したと述べました。これらのガードレールは、スパム、不正行為、その他の乱用からの保護として位置付けられています。価格については、TranslateとWhisperモデルは分単位で請求されます。GPT-Realtime-2はトークン消費量に応じて請求されます。これら3つはすべて、OpenAIのリアルタイムAPIを通じて利用可能で、WebRTC、WebSocket、SIP接続方法でアクセスできます。もしこれを読んでいるなら、あなたはすでに先を行っています。私たちのニュースレターでそのままの位置に留まりましょう。
GPT-Realtime-2は、音声APIにGPT-5の知能をもたらします
OpenAIは水曜日にAPIで新世代の音声モデルをリリースし、開発者に対話を通じて推論できるアプリの構築、70以上の言語の翻訳、音声のリアルタイム書き起こしを可能にするツールを提供しました。
3つのモデルはGPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperと名付けられています。これらはAI音声インターフェースを単純なQ&Aのやり取りから、AIエージェントが会話中に聞き、考え、行動できる領域へと進化させます。
GPT-Realtime-2は音声に鋭い推論能力をもたらす
GPT-Realtime-2はフラッグシップモデルです。OpenAIはこれがGPT-5クラスの推論を提供すると述べており、前モデルのGPT-Realtime-1.5から大きく進歩しています。
このモデルは音声知能のベンチマークであるBig Bench Audioで15.2%高いスコアを獲得し、マルチターンの音声対話における指示追従をテストするAudio MultiChallengeでは13.8%高いスコアを記録しました。
実用的なアップグレードは、実運用の音声エージェントを構築する開発者を対象としています。モデルは128Kのコンテキストウィンドウをサポートし、以前の32Kから4倍に拡大され、「最小」から「超高」までの5段階の推論努力レベルを提供します。
複数のツールを同時に呼び出し、エラーから音声による確認で回復し、「ちょっと確認します」などの短い橋渡しフレーズを生成しながらリクエストを処理できます。
GPT-Realtime-Translateはライブ音声翻訳を担当します。70以上の入力言語を受け付け、13の出力言語でリアルタイムに話者に追従します。
GPT-Realtime-Whisperはストリーミングの音声からテキストへの変換(STT)を提供し、完了した発話を待つのではなく、話される言葉をその場で書き起こします。
Zillow、ドイツテレコムが実運用でモデルをテスト
いくつかの企業が早期アクセスを得ています。Zillowは複雑な不動産クエリを処理し、リスティング検索のツール呼び出しに対応し、公正住宅規制を遵守できる音声アシスタントを構築しています。
同社はGPT-Realtime-2によるプロンプト最適化後、最も難しい敵対的ベンチマークでの通話成功率が26ポイント向上し、以前の69%から95%に達したと報告しました。
ドイツテレコムはカスタマーサポートのためのリアルタイム翻訳を試験中で、通話者は希望する言語で話し、モデルが両側で変換を処理します。
プライスラインは、フライト検索、ホテルの変更、現地での翻訳を一つのセッションで管理できる音声ベースの旅行アシスタントを模索しています。
これらのモデルは、顧客サービスの拡充を目指す企業を対象としていますが、教育、メディア、イベント、クリエイタープラットフォームなど幅広い用途も想定しています。
OpenAIは、新モデルにコンテンツモデレーションを組み込み、害のあるコンテンツガイドラインに違反する会話を検知して停止させるトリガーを設定したと述べました。これらのガードレールは、スパム、不正行為、その他の乱用からの保護として位置付けられています。
価格については、TranslateとWhisperモデルは分単位で請求されます。GPT-Realtime-2はトークン消費量に応じて請求されます。これら3つはすべて、OpenAIのリアルタイムAPIを通じて利用可能で、WebRTC、WebSocket、SIP接続方法でアクセスできます。
もしこれを読んでいるなら、あなたはすでに先を行っています。私たちのニュースレターでそのままの位置に留まりましょう。