据动察 Beating 監測、前 OpenAI CTO ミラ・ムラティが設立した Thinking Machines 実験室が「インタラクションモデル」の研究プレビューを発表。新システムは外部ツールを組み合わせて音声とテキストを処理する従来の方法を放棄し、リアルタイムの音声・映像インタラクションをネイティブに処理。モデルは 200ms の「マイクロターン」で情報を継続的に受け取り、聞きながら見ながら話すことができ、ユーザーのリアルタイムの中断もサポートする。 最初に公開されたモデル TML-Interaction-Small は 2760 億パラメータの MoE アーキテクチャを採用し、毎回 120 億パラメータを活性化。従来の大規模モデルが「回答生成時に知覚を停止する」欠点を改善するため、開発チームはシステムをフロントエンドとバックエンドに分割:フロントエンドモデルは連続した対話を維持し、バックエンドモデルは複雑な推論、ウェブ検索、UI生成を同期処理し、その結果をシームレスにフロントに流す。 このアーキテクチャは応答速度で従来の競合製品を圧倒している。公式データによると、その音声のターン遅延はわずか 0.40 秒で、FD-bench V1.5 では 77.8 点を獲得し、2つのコア指標は GPT-realtime-2.0 や Gemini 3.1 Flash Live より高い。しかし、連続的に音声・映像を処理するとコンテキスト容量が急速に消耗され、低遅延の効果はネットワーク環境に極度に依存する。Thinking Machines は今後数ヶ月以内に限定的なプレビューを公開する予定。
前OpenAI CTOが古巣に挑戦:新モデルは200msで応答、遅延はGPT-Realtimeを圧倒
据动察 Beating 監測、前 OpenAI CTO ミラ・ムラティが設立した Thinking Machines 実験室が「インタラクションモデル」の研究プレビューを発表。新システムは外部ツールを組み合わせて音声とテキストを処理する従来の方法を放棄し、リアルタイムの音声・映像インタラクションをネイティブに処理。モデルは 200ms の「マイクロターン」で情報を継続的に受け取り、聞きながら見ながら話すことができ、ユーザーのリアルタイムの中断もサポートする。
最初に公開されたモデル TML-Interaction-Small は 2760 億パラメータの MoE アーキテクチャを採用し、毎回 120 億パラメータを活性化。従来の大規模モデルが「回答生成時に知覚を停止する」欠点を改善するため、開発チームはシステムをフロントエンドとバックエンドに分割:フロントエンドモデルは連続した対話を維持し、バックエンドモデルは複雑な推論、ウェブ検索、UI生成を同期処理し、その結果をシームレスにフロントに流す。
このアーキテクチャは応答速度で従来の競合製品を圧倒している。公式データによると、その音声のターン遅延はわずか 0.40 秒で、FD-bench V1.5 では 77.8 点を獲得し、2つのコア指標は GPT-realtime-2.0 や Gemini 3.1 Flash Live より高い。しかし、連続的に音声・映像を処理するとコンテキスト容量が急速に消耗され、低遅延の効果はネットワーク環境に極度に依存する。Thinking Machines は今後数ヶ月以内に限定的なプレビューを公開する予定。