前OpenAI CTO單挑老東家:新模型200ms響應,延遲壓倒GPT-Realtime

據動察 Beating 監測,前 OpenAI CTO Mira Murati 創辦的 Thinking Machines 實驗室發布「交互模型」研究預覽。新系統放棄了靠外部工具拼接語音和文本的傳統做法,原生處理實時音視頻互動。模型能以 200ms 的「微回合」持續接收信息,實現一邊聽、一邊看、一邊說,並支持用戶實時打斷。

首個展示的模型 TML-Interaction-Small 採用 2760 億參數 MoE 架構,每次激活 120 億參數。為了改變傳統大模型「生成回答時就停止感知」的缺陷,研發團隊將系統拆分為前台和後台:前台模型專門維持不間斷的對話,後台模型同步處理複雜推理、網頁搜索或生成 UI,再將結果無縫流回前台。

這套架構直接在響應速度上壓倒了老東家的競品。官方數據顯示,其語音輪轉延遲僅為 0.40 秒,在 FD-bench V1.5 中獲得 77.8 分,兩項核心指標均高於 GPT-realtime-2.0 和 Gemini 3.1 Flash Live。但連續處理音視頻會快速消耗上下文容量,且低延遲效果極度依賴網絡環境。Thinking Machines 計劃在未來幾個月內開放有限預覽。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆