Gemini 3.1 Flash Live 发布:谷歌主攻实时语音视觉,延迟压到 300ms 以下

robot
摘要生成中

标题

Google DeepMind 发布 Gemini 3.1 Flash Live,一款针对实时语音和视觉代理设计的多模态模型。

概要

  • Google AI 团队的 Logan Kilpatrick 宣布推出 Gemini 3.1 Flash Live,这是面向对话式智能体的音频与语音模型。
  • 模型接受音频、视频、文本三种输入,支持 90 多种语言,能过滤背景噪音。
  • 研发历时一年多,端到端交互延迟压到 300ms 以下;ComplexFuncBench 多步函数调用准确率 90.8%,Big Bench Audio 语音理解 95.9%。
  • 主打客服和创作类的语音优先场景,同时加入 SynthID 水印来标记和识别 AI 生成内容。

指标与定位

指标/基准 成绩
端到端交互延迟 <300ms
ComplexFuncBench(多步函数调用) 90.8%
Big Bench Audio(语音理解) 95.9%
Scale AI Audio MultiChallenge(开启思考) 36.1%
  • 相比 Gemini 2.5 Flash Native Audio,这次在多模态和噪音环境下的工具调用更稳定。
  • 市场上直接对标 OpenAI 的 GPT-Realtime 和 Grok Voice Agent 等实时语音代理。

产品与生态

  • 接入方式:Gemini Live API 已在 Google AI Studio 开放。
  • 企业集成:Verizon、Home Depot 正用它做语音驱动的客户体验;Stitch 应用用它做语音控制的设计流程。

风险与局限

  • 模型还在预览阶段;官方基准还没有第三方独立复现。
  • Scale AI 的 MultiChallenge 得分一般,说明对打断、插话这类场景的鲁棒性还需要改进。
  • Demis Hassabis 和 Sundar Pichai 公开站台,说明语音交互是谷歌 AI 战略的重点方向之一。

研究者视角

  • 核心判断:在实时语音/视觉多模态方向,谷歌用低延迟、抗噪、函数调用这些实用特性,补上与竞品在端到端交互体验上的差距。
  • 对构建者的意义:
    • 可以把它当作「语音前端 + 工具调用中枢」来用,降低搭建客服座席、创意协作、语音指令工作流的门槛。
    • SynthID 给安全合规提供了可执行的鉴别手段,方便企业做风控和审计。
  • 对投资者/观察者:
    • 数据显示它在结构化工具调用和语音理解上有潜力,但复杂交互和打断场景的实际表现还需要更多验证。

影响评估

  • 重要性
  • 类别:模型发布、产品上线、开发者工具

结论: 对「语音优先」的应用开发者和企业集成方来说,这是一个可以利用的早期窗口;交易型参与者目前没有直接套利机会。当前优势明显偏向开发者和企业级构建者,基金和长期持有者以观察为主。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论