Google 翻译升级:Gemini 3.5 让实时语音口译不再有尴尬停顿

谷歌宣布推出 Gemini 3.5 Live Translate,一个能够同步翻译70多种语言、保留说话者语调与节奏的即时语音模型,并已同步上线开发者预览、企业版 Meet 与 Google 翻译应用。
(前情提要:Google 实时翻译正式开放所有耳机品牌:70+ 语言上线,美墨印 Android 手机先发)
(背景补充:林上伦律师专文》当你问 AI 今天中午吃什么,世界正在为这个提问重新规划能源版图)

每个月一兆字。这是 Google 翻译今天的吞吐量,也是它二十年累积的成果。6 月 9 日,Google 在官方博客宣布推出 Gemini Live API 的最新音讯模型:Gemini 3.5 Live Translate。它的目标只有一个,让语言不再是对话里的停顿。

一兆字的起点与终点

Gemini 3.5 Live Translate 的核心是“语音对语音”翻译,并且要求保留说话者的语调(intonation)、节奏(pacing)与音高(pitch)。

过去的系统要等说话者讲完一句才开始翻译,中间的停顿让对话节奏完全碎裂。Gemini 3.5 Live Translate 则采用“持续生成”方式,在“等待更多上下文以提升准确度”与“立即输出以跟上说话者”之间即时调整,整体落差只有几秒,且自动检测70多种语言,不需手动切换。

Google 同步开放三个入口:通过 Gemini Live API 与 Google AI Studio 的开发者公开预览;本月起在 Google Meet 启动的企业私人预览;以及 Android 与 iOS 上的 Google 翻译应用全球更新。

Android 还新增“聆听模式”,将手机贴近耳朵,翻译语音就从听筒播出,不需耳机、也不会打扰旁人,适合在博物馆听外语导览、或在安静场合接外语电话。

通路才是护城河

即时语音翻译并不是 Google 的独角戏。Meta 的 SeamlessM4T、三星 Galaxy AI 的即时通话翻译、Apple 的 Live Translation、OpenAI 的 Realtime API,这个赛道已经挤满了不缺技术也不缺资本的竞争者。

差距在于分发。Google 翻译应用的月活跃用户以十亿计,Google Meet 在企业市场的渗透率是现成基础,Android 设备的全球出货量确保了触及范围。每一个新功能,都是直接更新进几亿人在用的工具,而不是要他们再装一个新应用。

Grab 的案例说明了这条护城河有多实际。这家东南亚的叫车与外卖平台,正在测试让司机与乘客通过 Gemini 3.5 Live Translate 进行即时多语沟通。Grab 用户每月通过其平台拨打超过 1000 万通语音通话,这意味着在一个语言高度碎片化的市场(泰语、越南语、马来语、印尼语、菲律宾语交杂),即时口译从附加功能变成了基础设施。

CJ ENM、LiveKit 等早期伙伴也反馈翻译品质、准确度与延迟均达预期。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论