前OpenAI首席技术官挑战旧公司:新模型在200毫秒内响应,超越GPT-实时性能

根据东查贝廷的监测,由前OpenAI CTO米拉·穆拉蒂创立的思维机器实验室发布了其“交互模型”的研究预览。新系统摒弃了传统的通过外部工具拼接语音和文本的方法,而是原生支持实时音频和视频交互。该模型可以以200毫秒的“微轮次”持续接收信息,实现同时听、看、说,同时支持用户的实时打断。首个展示模型TML-Interaction-Small采用了一个拥有2760亿参数的MoE架构,激活时同时调动120亿参数。为了解决传统大模型“生成响应时停止感知”的缺陷,开发团队将系统拆分为前端和后端:前端模型专注于保持不间断的对话,后端模型则同时处理复杂推理、网页搜索或UI生成,并无缝将结果传回前端。这一架构直接超越了其前公司竞争对手的响应速度。官方数据显示,其语音轮换延迟仅为0.40秒,在FD-bench V1.5中得分77.8,核心指标均优于GPT-realtime-2.0和Gemini 3.1 Flash Live。然而,连续处理音频和视频很快会耗尽上下文容量,低延迟效果也高度依赖网络状况。思维机器计划在未来几个月内开放有限预览。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论