著者:蘇揚、テンセントテクノロジー5月8日、OpenAIはAPIに新世代の音声モデル3種類を追加した:**音声推理と対話**を重視したGPT‑Realtime‑2、**リアルタイム多言語翻訳**に特化したRealtime‑Translate、そして**音声からテキストへの変換**に焦点を当てたRealtime‑Whisper。GPT‑Realtime‑2はOpenAI初のGPT‑5レベルの推論能力を備えた音声モデルである。基準テストにおいて顕著な進歩を示し:Big Bench Audioの音声知能評価で正確率96.6%、Audio MultiChallenge指示遵守評価の平均合格率48.5%、それぞれ前世代のGPT‑Realtime‑1.5より15.2ポイントと13.8ポイント向上した。GPT‑Realtime‑2を基に、音声AIは単純なローテーション式の質問応答から、対話の展開中に継続的に聞き取り、推論し、ツールを呼び出し、タスクを完了する形態へと進化している。「考える」音声アシスタント---------GPT‑Realtime‑2の設計目標は、対話の流暢さを維持しつつ、複雑な事案を処理するための推論と行動能力を備えることにある。自然な対話の面では、**モデルに先導語メカニズムを導入した。**開発者は、「ちょっと調べてみる」や「少し待って、確認中です」などの短い提示語を有効にでき、正式な応答生成前にユーザーにリクエストが受理され処理中であることを伝えることができる。これに伴い、**並列ツール呼び出しとツールの透明性能力も備え、モデルは複数の外部ツールを同時に呼び出し**、音声を通じて進行状況をユーザーに通知できる。例えば、「カレンダーを確認中」や「検索中」といった表現で、インテリジェントエージェントがタスク完了まで応答を続け、沈黙に陥らないようにしている。処理が困難な場合、**モデルは「ちょっと問題が起きている」などの提示を積極的に行い、回復を試みる**。静かに失敗したり、会話を中断したりしない。さらに、**モデルのコンテキストウィンドウは32Kから128Kに拡大**され、より長く複雑な多ターン対話でも一貫性を保ち、より完全なインテリジェントエージェントのワークフローを支える。専門的な場面での適用性については、モデルは特定分野の専門用語理解能力を強化し、専門用語や固有名詞、医学用語をより正確に保持できるようになった。これは実運用環境での展開価値を高める。表現面では、よりコントロール可能な語調や表現力を持ち、状況に応じてスタイルを切り替えることもできる。もう一つの重要なアップグレードは**調整可能な推論強度**である。開発者は、minimal、low、medium、high、xhighの5段階から選択でき(デフォルトはlow)、遅延と推論の深さのバランスを取ることができる。無駄話はしない----GPT‑Realtime‑2は基準テストで前世代モデルを圧倒音声モデルの難解な推論能力を測るBig Bench Audio評価において、GPT‑Realtime‑2(high推論レベル)は96.6%の正確率を達成し、GPT‑Realtime‑1.5の81.4%を15.2ポイント上回った。多ターン対話の知能を評価するAudio MultiChallengeでは、指示遵守、文脈統合、自我一貫性、自然音声の訂正処理などの側面を含む。この評価で、GPT‑Realtime‑2(xhigh推論レベル)の平均合格率は34.7%から48.5%に向上し、13.8ポイントの相対的な改善を示した。実際、音声モデルが本当に「賢い」かどうかを測る最も説得力のあるシナリオは、雑談ではなく、層を重ねた推論を必要とする複雑な問題を処理する場面である。注:OpenAIはデモ資料で具体的なテスト例を示している:ユーザーがモデルに自身の起業について説明し、二世代のRealtimeモデルの音声推理と対応する文字起こしを行った。このケースは、推論能力が非常に高い複合タスクの一例である。モデルは複数の変数の相互関係を理解しなければならず、客流の時間分布の偏り、コストの高い固定賃料、そして回転率の低いコーヒー店の業態などの制約条件の下で論理的推論を行う。GPT‑Realtime‑2は1分4秒で整理された階層的な回答を出し、人流と賃料構造の矛盾を解き明かし、ピーク時の集中が全体の坪効率不足を招く可能性を指摘し、具体的な軽量テストの道筋も提案した。同じ質問を上位モデルのGPT‑Realtime‑1.5に投げると、応答時間は51秒だが、深さは明らかに不足している。この比較は、二つのモデルの戦略的推論能力の世代差を直接示している。03 リアルタイム翻訳と文字起こし----------GPT‑Realtime‑2以外に、OpenAIは同時期に二つの専用モデルをリリースし、それぞれ明確なシナリオニーズに対応している。**GPT‑Realtime‑Translateはリアルタイム多言語翻訳に特化し、70以上の入力言語をサポート、**13のターゲット言語にリアルタイム出力し、文字起こしも同時に提供する。想定される用途は、カスタマーサポート、越境販売、教育、イベント、グローバル向けクリエイタープラットフォームなど。動画プラットフォームVimeoのAI責任者アルベルト・パラヴィッチニは、彼らの適用例を共有した:動画再生中にGPT‑Realtime‑Translateを埋め込み、クリエイターが公開直後に世界中の観客と多言語コミュニケーションを行えるようにした。VimeoによるGPT‑Realtime‑Translateのリアルタイム翻訳能力のデモ**GPT‑Realtime‑Whisperはストリーミング音声からテキストへの変換モデルで、**低遅延の文字起こしシナリオに特化している。話し手が話し始めた瞬間から文字記録を生成し始め、会議のリアルタイム字幕、授業ノート、放送字幕、即時に次のワークフローに反映させる音声対話シナリオに適している。核心的価値は、対話中に音声内容を構造化テキストに即時変換し、下流の業務システムにすぐに利用可能にする点にある。安全性と価格設定-----安全面では、Realtime APIは多層のガードレールを導入している——**システム内蔵のアクティブ分類器が会話をリアルタイムで監視し、有害コンテンツガイドラインに違反するやり取りを検知した場合、会話を終了できる。**開発者はAgents SDKを用いてカスタム安全ガードレールを重ねることも可能だ。OpenAIの利用ポリシーは、出力内容をスパムや詐欺、その他有害な目的に使用することを明確に禁止している。公式ガイドラインによると、対話の相手がAIであることが明示されていない場合、開発者は最終ユーザーに対し、AIと対話していることを明確に伝える必要がある(例:今発言しているのはAIですと提示)。また、このAPIはEUのデータ保存要件に全面対応し、企業のプライバシー約束も守られている。三モデルはすでにRealtime APIを通じて開発者に提供されている。価格は、GPT‑Realtime‑2は音声トークン単位で課金され、100万入力トークンあたり32ドル(キャッシュ入力は100万トークンあたり0.40ドル)、100万出力トークンは64ドル。GPT‑Realtime‑Translateは利用時間に応じて課金され、1分あたり0.034ドル。GPT‑Realtime‑Whisperも同様に時間単位で、1分あたり0.017ドル。新たな「音声全家族」への後押しとして、OpenAIのCEOサム・オットマンはX上で次のように述べた:人々は確かに音声を使ったAIとのインタラクションを始めており、とりわけ一度に大量の背景情報を投入する必要がある場合に顕著だ。また、若年層は音声でAIと交流することを好む一方、中高年層はタイピングを好む傾向にあり、この習慣が将来的に変わるかどうかというオープンな問いも投げかけている。さて、次は誰がこのOpenAIの音声推理能力の新展開を引き継ぐのだろうか?
OpenAIはモデルに「口を開かせる」 AIを侮辱するのは高価だ
著者:蘇揚、テンセントテクノロジー
5月8日、OpenAIはAPIに新世代の音声モデル3種類を追加した:音声推理と対話を重視したGPT‑Realtime‑2、リアルタイム多言語翻訳に特化したRealtime‑Translate、そして音声からテキストへの変換に焦点を当てたRealtime‑Whisper。
GPT‑Realtime‑2はOpenAI初のGPT‑5レベルの推論能力を備えた音声モデルである。基準テストにおいて顕著な進歩を示し:Big Bench Audioの音声知能評価で正確率96.6%、Audio MultiChallenge指示遵守評価の平均合格率48.5%、それぞれ前世代のGPT‑Realtime‑1.5より15.2ポイントと13.8ポイント向上した。
GPT‑Realtime‑2を基に、音声AIは単純なローテーション式の質問応答から、対話の展開中に継続的に聞き取り、推論し、ツールを呼び出し、タスクを完了する形態へと進化している。
「考える」音声アシスタント
GPT‑Realtime‑2の設計目標は、対話の流暢さを維持しつつ、複雑な事案を処理するための推論と行動能力を備えることにある。
自然な対話の面では、モデルに先導語メカニズムを導入した。
開発者は、「ちょっと調べてみる」や「少し待って、確認中です」などの短い提示語を有効にでき、正式な応答生成前にユーザーにリクエストが受理され処理中であることを伝えることができる。
これに伴い、並列ツール呼び出しとツールの透明性能力も備え、モデルは複数の外部ツールを同時に呼び出し、音声を通じて進行状況をユーザーに通知できる。例えば、「カレンダーを確認中」や「検索中」といった表現で、インテリジェントエージェントがタスク完了まで応答を続け、沈黙に陥らないようにしている。
処理が困難な場合、モデルは「ちょっと問題が起きている」などの提示を積極的に行い、回復を試みる。静かに失敗したり、会話を中断したりしない。
さらに、モデルのコンテキストウィンドウは32Kから128Kに拡大され、より長く複雑な多ターン対話でも一貫性を保ち、より完全なインテリジェントエージェントのワークフローを支える。
専門的な場面での適用性については、モデルは特定分野の専門用語理解能力を強化し、専門用語や固有名詞、医学用語をより正確に保持できるようになった。これは実運用環境での展開価値を高める。表現面では、よりコントロール可能な語調や表現力を持ち、状況に応じてスタイルを切り替えることもできる。
もう一つの重要なアップグレードは調整可能な推論強度である。開発者は、minimal、low、medium、high、xhighの5段階から選択でき(デフォルトはlow)、遅延と推論の深さのバランスを取ることができる。
無駄話はしない
GPT‑Realtime‑2は基準テストで前世代モデルを圧倒
音声モデルの難解な推論能力を測るBig Bench Audio評価において、GPT‑Realtime‑2(high推論レベル)は96.6%の正確率を達成し、GPT‑Realtime‑1.5の81.4%を15.2ポイント上回った。
多ターン対話の知能を評価するAudio MultiChallengeでは、指示遵守、文脈統合、自我一貫性、自然音声の訂正処理などの側面を含む。この評価で、GPT‑Realtime‑2(xhigh推論レベル)の平均合格率は34.7%から48.5%に向上し、13.8ポイントの相対的な改善を示した。
実際、音声モデルが本当に「賢い」かどうかを測る最も説得力のあるシナリオは、雑談ではなく、層を重ねた推論を必要とする複雑な問題を処理する場面である。
注:OpenAIはデモ資料で具体的なテスト例を示している:ユーザーがモデルに自身の起業について説明し、二世代のRealtimeモデルの音声推理と対応する文字起こしを行った。
このケースは、推論能力が非常に高い複合タスクの一例である。モデルは複数の変数の相互関係を理解しなければならず、客流の時間分布の偏り、コストの高い固定賃料、そして回転率の低いコーヒー店の業態などの制約条件の下で論理的推論を行う。
GPT‑Realtime‑2は1分4秒で整理された階層的な回答を出し、人流と賃料構造の矛盾を解き明かし、ピーク時の集中が全体の坪効率不足を招く可能性を指摘し、具体的な軽量テストの道筋も提案した。
同じ質問を上位モデルのGPT‑Realtime‑1.5に投げると、応答時間は51秒だが、深さは明らかに不足している。この比較は、二つのモデルの戦略的推論能力の世代差を直接示している。
03 リアルタイム翻訳と文字起こし
GPT‑Realtime‑2以外に、OpenAIは同時期に二つの専用モデルをリリースし、それぞれ明確なシナリオニーズに対応している。
**GPT‑Realtime‑Translateはリアルタイム多言語翻訳に特化し、70以上の入力言語をサポート、**13のターゲット言語にリアルタイム出力し、文字起こしも同時に提供する。想定される用途は、カスタマーサポート、越境販売、教育、イベント、グローバル向けクリエイタープラットフォームなど。
動画プラットフォームVimeoのAI責任者アルベルト・パラヴィッチニは、彼らの適用例を共有した:動画再生中にGPT‑Realtime‑Translateを埋め込み、クリエイターが公開直後に世界中の観客と多言語コミュニケーションを行えるようにした。
VimeoによるGPT‑Realtime‑Translateのリアルタイム翻訳能力のデモ
**GPT‑Realtime‑Whisperはストリーミング音声からテキストへの変換モデルで、**低遅延の文字起こしシナリオに特化している。
話し手が話し始めた瞬間から文字記録を生成し始め、会議のリアルタイム字幕、授業ノート、放送字幕、即時に次のワークフローに反映させる音声対話シナリオに適している。核心的価値は、対話中に音声内容を構造化テキストに即時変換し、下流の業務システムにすぐに利用可能にする点にある。
安全性と価格設定
安全面では、Realtime APIは多層のガードレールを導入している——**システム内蔵のアクティブ分類器が会話をリアルタイムで監視し、有害コンテンツガイドラインに違反するやり取りを検知した場合、会話を終了できる。**開発者はAgents SDKを用いてカスタム安全ガードレールを重ねることも可能だ。
OpenAIの利用ポリシーは、出力内容をスパムや詐欺、その他有害な目的に使用することを明確に禁止している。
公式ガイドラインによると、対話の相手がAIであることが明示されていない場合、開発者は最終ユーザーに対し、AIと対話していることを明確に伝える必要がある(例:今発言しているのはAIですと提示)。また、このAPIはEUのデータ保存要件に全面対応し、企業のプライバシー約束も守られている。
三モデルはすでにRealtime APIを通じて開発者に提供されている。
価格は、GPT‑Realtime‑2は音声トークン単位で課金され、100万入力トークンあたり32ドル(キャッシュ入力は100万トークンあたり0.40ドル)、100万出力トークンは64ドル。GPT‑Realtime‑Translateは利用時間に応じて課金され、1分あたり0.034ドル。GPT‑Realtime‑Whisperも同様に時間単位で、1分あたり0.017ドル。
新たな「音声全家族」への後押しとして、OpenAIのCEOサム・オットマンはX上で次のように述べた:人々は確かに音声を使ったAIとのインタラクションを始めており、とりわけ一度に大量の背景情報を投入する必要がある場合に顕著だ。
また、若年層は音声でAIと交流することを好む一方、中高年層はタイピングを好む傾向にあり、この習慣が将来的に変わるかどうかというオープンな問いも投げかけている。
さて、次は誰がこのOpenAIの音声推理能力の新展開を引き継ぐのだろうか?