Gemini 3.1 Flash Live 发布:响应不到一秒,能听出你急不急

robot
摘要生成中

Google 发布 Gemini 3.1 Flash Live 语音模型

这是什么

Gemini 3.1 Flash Live 基于 Gemini 3 Pro 的能力,专门针对语音场景做了训练。几个主要更新:

  • 响应时间不到 1 秒(测试结果约 0.96 秒)
  • 能识别你说话的语气和情绪,并据此调整回复方式
  • 上下文窗口扩大到 128K tokens
  • 在嘈杂环境下识别更准(Scale AI 基准测试得分 36.1%)
  • 支持 90 多种语言,覆盖 200 多个国家和地区

我的判断:

  • 这是一次"语音优先"的针对性迭代:没动底层大模型,而是用模块化方式单独优化延迟和语气理解。
  • 语气感知让对话体验好了不少:不只是听你说了什么,还能根据你怎么说来选择更合适的回应方式。
  • 更大的上下文窗口加上更强的噪音处理,让它在日常场景更实用:车里、厨房、办公室这些吵闹环境下应该能用得更顺。

具体能力和数据

维度 变化 数据
延迟 响应更快 实测约 0.96 秒
语气感知 根据紧急/好奇/沮丧等语气调整风格 针对自然对话优化
上下文长度 窗口翻倍 128K tokens
噪音处理 吵闹环境下识别更稳定 Scale AI 基准 36.1%
覆盖范围 更广 90+ 语言、200+ 国家/地区

技术路线和设计思路

  • 采用模块化方案:在 Gemini 3 Pro 基础上训练专用语音模型,只动延迟和语气理解这两块,不改动核心架构。这样更新更快、成本更低。
  • 语气响应策略:
    • 你听起来很急 → 回答更直接、更简短
    • 你听起来好奇 → 回答更详细、解释更充分
    • 你听起来烦躁 → 回答更克制、少废话
  • 适用场景:长时间多轮对话、嘈杂环境下的语音助手、语音控制和协作等。

竞争态势

  • Google 的目标很明确:提升语音交互的流畅度和自然感。这对 OpenAI 和 Anthropic 在语音端的体验构成了压力。
  • 更大的上下文窗口和语气自适应是目前的差异化卖点,适合更长的对话和更多样的使用场景。

影响评估

  • 重要程度:高
  • 类别:模型发布、技术进展、行业动态

结论:还处于早期阶段;对语音 AI 和应用开发者最有价值。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论