元OpenAI CTOが旧会社に挑戦:新モデルは200msで応答し、GPTリアルタイムを上回る

ドンチャビーティングによる監視によると、元OpenAI CTOのミラ・ムラティが設立したThinking Machines研究所は、「インタラクティブモデル」の研究プレビューを公開しました。新しいシステムは、従来の音声とテキストを外部ツールでつなぎ合わせる方法を放棄し、代わりにリアルタイムの音声と映像のやり取りをネイティブに処理します。モデルは「マイクロターン」の200msで情報を継続的に受け取り、同時に聴取、視聴、発話を行いながら、ユーザーからのリアルタイムの中断もサポートします。最初に披露されたモデル、TML-Interaction-Smallは、2760億のパラメータを持つMoEアーキテクチャを採用し、一度に120億のパラメータを活性化します。従来の大規模モデルの「応答生成時に知覚を停止する」という欠点に対処するため、開発チームはシステムをフロントエンドとバックエンドに分割しました。フロントエンドモデルは途切れない対話を維持することに専念し、バックエンドモデルは複雑な推論、ウェブ検索、UI生成を同時に処理し、その結果をシームレスにフロントエンドに伝えます。このアーキテクチャは、旧会社の競合他社よりも応答速度を直接上回っています。公式データによると、その音声回転遅延はわずか0.40秒で、FD-bench V1.5で77.8点を獲得し、コア指標はGPT-realtime-2.0やGemini 3.1 Flash Liveを上回っています。ただし、音声と映像の継続的な処理はすぐにコンテキスト容量を枯渇させる可能性があり、低遅延効果はネットワーク状況に大きく依存します。Thinking Machinesは今後数ヶ月以内に限定プレビューを公開する予定です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし