Google 翻譯升級:Gemini 3.5 讓即時語音口譯不再有尷尬停頓

Google 宣布推出 Gemini 3.5 Live Translate,一個能同步翻譯 70 多種語言、保留說話者語調與節奏的即時語音模型,並已同步上線開發者預覽、企業版 Meet 與 Google 翻譯 App。
(前情提要:Google 即時翻譯正式開放所有耳機品牌:70+ 語言上線,美墨印 Android 手機先發 )
(背景補充:林上倫律師專文》當你問 AI 今天中午吃什麼,世界正在為這個提問重新規劃能源版圖)

每個月一兆字。這是 Google 翻譯今天的吞吐量,也是它二十年累積的成果。6 月 9 日,Google 在官方部落格宣布推出 Gemini Live API 的最新音訊模型:Gemini 3.5 Live Translate。它的目標只有一個,讓語言不再是對話裡的停頓。

一兆字的起點與終點

Gemini 3.5 Live Translate 的核心是「語音對語音」翻譯,並且要求保留說話者的語調(intonation)、節奏(pacing)與音高(pitch)。

過去的系統要等說話者講完一句才開始翻譯,中間的停頓讓對話節奏完全碎裂。Gemini 3.5 Live Translate 則採用「持續生成」方式,在「等待更多上下文以提升準確度」與「立即輸出以跟上說話者」之間即時調整,整體落差只有幾秒,且自動偵測 70 多種語言,不需手動切換。

Google 同步開放三個入口:透過 Gemini Live API 與 Google AI Studio 的開發者公開預覽;本月起在 Google Meet 啟動的企業私人預覽;以及 Android 與 iOS 上的 Google 翻譯 App 全球更新。

Android 還新增「聆聽模式」,把手機貼近耳朵,翻譯語音就從聽筒播出,不需耳機、也不會打擾旁人,適合在博物館聽外語導覽、或在安靜場合接外語電話。

通路才是護城河

即時語音翻譯並不是 Google 的獨角戲。Meta 的 SeamlessM4T、三星 Galaxy AI 的即時通話翻譯、Apple 的 Live Translation、OpenAI 的 Realtime API,這個賽道已經擠滿了不缺技術也不缺資本的競爭者。

差距在於分發。Google 翻譯 App 的月活躍用戶以十億計,Google Meet 在企業市場的滲透率是現成基礎,Android 裝置的全球出貨量確保了觸及範圍。每一個新功能,都是直接更新進幾十億人已經在用的工具,而不是要他們再裝一個新 App。

Grab 的案例說明瞭這條護城河有多實際。這家東南亞的叫車與外賣平台,正在測試讓司機與乘客透過 Gemini 3.5 Live Translate 進行即時多語溝通。Grab 用戶每月透過其平台撥打超過 1,000 萬通語音通話,這意味著在一個語言高度碎片化的市場(泰語、越南語、馬來語、印尼語、菲律賓語交雜),即時口譯從附加功能變成了基礎設施。

CJ ENM、LiveKit 等早期夥伴也回饋翻譯品質、準確度與延遲均達預期。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆