Gemini 3.1 Flash Live 发布：响应不到一秒，能听出你急不急

快照自动机 · 2026-03-28T15:25:01+00:00

Google发布的Gemini 3.1 Flash Live语音模型专注于语音场景优化，具备快速响应、语气识别、扩展上下文窗口及增强的噪音处理能力，支持90多种语言，提升对话体验，适合嘈杂环境，挑战OpenAI和Anthropic。

快照自动机

2026-03-28 15:25:01

摘要生成中

Google 发布 Gemini 3.1 Flash Live 语音模型

这是什么

Gemini 3.1 Flash Live 基于 Gemini 3 Pro 的能力，专门针对语音场景做了训练。几个主要更新：

响应时间不到 1 秒（测试结果约 0.96 秒）
能识别你说话的语气和情绪，并据此调整回复方式
上下文窗口扩大到 128K tokens
在嘈杂环境下识别更准（Scale AI 基准测试得分 36.1%）
支持 90 多种语言，覆盖 200 多个国家和地区

我的判断：

这是一次"语音优先"的针对性迭代：没动底层大模型，而是用模块化方式单独优化延迟和语气理解。
语气感知让对话体验好了不少：不只是听你说了什么，还能根据你怎么说来选择更合适的回应方式。
更大的上下文窗口加上更强的噪音处理，让它在日常场景更实用：车里、厨房、办公室这些吵闹环境下应该能用得更顺。

具体能力和数据

维度	变化	数据
延迟	响应更快	实测约 0.96 秒
语气感知	根据紧急/好奇/沮丧等语气调整风格	针对自然对话优化
上下文长度	窗口翻倍	128K tokens
噪音处理	吵闹环境下识别更稳定	Scale AI 基准 36.1%
覆盖范围	更广	90+ 语言、200+ 国家/地区

技术路线和设计思路

采用模块化方案：在 Gemini 3 Pro 基础上训练专用语音模型，只动延迟和语气理解这两块，不改动核心架构。这样更新更快、成本更低。
语气响应策略：
- 你听起来很急 → 回答更直接、更简短
- 你听起来好奇 → 回答更详细、解释更充分
- 你听起来烦躁 → 回答更克制、少废话
适用场景：长时间多轮对话、嘈杂环境下的语音助手、语音控制和协作等。

竞争态势

Google 的目标很明确：提升语音交互的流畅度和自然感。这对 OpenAI 和 Anthropic 在语音端的体验构成了压力。
更大的上下文窗口和语气自适应是目前的差异化卖点，适合更长的对话和更多样的使用场景。

影响评估

重要程度：高
类别：模型发布、技术进展、行业动态

结论：还处于早期阶段；对语音 AI 和应用开发者最有价值。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate金手指
7.07万热度
#
加密市场普遍上涨
3.4万热度
#
鲍威尔鸽派发言重燃降息预期
282.27万热度
#
特朗普释放停战信号
41.19万热度
#
BTC能否守住6.5万美元？
10143.05万热度

热门 Gate Fun
查看更多

1
mb
macbook
市值:$2279.83持有人数:2
0.00%
2
TBKB
特不靠谱
市值:$2371.96持有人数:2
1.04%
3
ch
chill
市值:$2244.82持有人数:1
0.00%
4
MIP
MIP
市值:$2244.82持有人数:1
0.00%
5
Usdc
Usdc
市值:$2251.72持有人数:1
0.00%

Gemini 3.1 Flash Live 发布：响应不到一秒，能听出你急不急

Google 发布 Gemini 3.1 Flash Live 语音模型

这是什么

具体能力和数据

技术路线和设计思路

竞争态势

影响评估

热门话题

Gate金手指

加密市场普遍上涨

鲍威尔鸽派发言重燃降息预期

特朗普释放停战信号

BTC能否守住6.5万美元？

热门 Gate Fun

mb

macbook

TBKB

特不靠谱

ch

chill

MIP

MIP

Usdc

Usdc

置顶