ChatGPT音声モードは、新しいリアルタイムモデルによってよりスムーズになります

2026-03-06 00:05:27

概要作成中

Investing.com – The Informationによると、OpenAIは新しい音声モデルを開発しており、ChatGPTとの対話をより自然に感じさせることを目的としています。このモデルは、AIが中断された際にリアルタイムで応答を調整できるようになっています。

現在のChatGPTの高度な音声モードは交互対話システムを採用しており、ユーザーが話し終えるまでAIは音声を処理して応答を生成しません。もしユーザーが「はい」や「うんうん」などの言葉で割り込むと、そのモデルは完全に話すのを止めてしまい、自然な会話の流れを維持できません。

この新しい双方向（BiDi）モデルは、話し手の声を継続的に処理し、割り込みがあった場合に即座に応答を調整できることを目的としています。既存の音声モデルと比べて、これにより会話の流れがより自然になり、既存のモデルではAIが話し始めると変更できない固定された応答になってしまう問題を解決します。

しかし、この技術はまだ公開準備が整っていません。関係者によると、数分間の対話の後、プロトタイプはしばしば故障したり、異常に聞こえる音を出したりすることがあります。OpenAIの研究者は当初、今年第一四半期にBiDiをリリースしたいと考えていましたが、スケジュールは第二四半期以降に遅れる可能性があります。

OpenAIは、音声モデルとテキストベースのモデルの性能差を縮めることが、世界中でAIの利用を拡大させると考えています。多くの人にとって、AIアシスタントとの会話はテキストを送るよりも自然に感じられるからです。

BiDiモデルは、特にカスタマーサポートの用途に適していると予想されます。例えば、小売業者のAIサポート担当者に電話した顧客が、会話の途中で商品を交換したいと決めた場合、返品ではなく、BiDiモデルはスムーズに会話を切り替えることができると理論上は考えられます。

この音声モデルに詳しい関係者は、外部ツールやアプリケーションの使用においても優れていると述べています。OpenAIは以前、将来的に音声インタラクションを中心としたAI搭載デバイス向けに音声モデルを改良し、音声コマンドでメールを確認したりサービスを予約したりできるスマートスピーカーの開発も検討していると報告しています。

この記事は人工知能の支援を受けて翻訳されました。詳細については、利用規約をご覧ください。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。