Google Dịch nâng cấp: Gemini 3.5 giúp phiên dịch thoại trực tiếp không còn những khoảng dừng lúng túng

Google 宣布推出 Gemini 3.5 Live Translate,一個能同步翻譯 70 多種語言、保留說話者語調與節奏的即時語音模型,並已同步上線開發者預覽、企業版 Meet 與 Google 翻譯 App。
(前情提要:Google 即時翻譯正式開放所有耳機品牌:70+ 語言上線,美墨印 Android 手機先發 )
(背景補充:林上倫律師專文》當你問 AI 今天中午吃什麼,世界正在為這個提問重新規劃能源版圖)

每個月一兆字。這是 Google 翻譯今天的吞吐量,也是它二十年累積的成果。6 月 9 日,Google 在官方部落格宣布推出 Gemini Live API 的最新音訊模型:Gemini 3.5 Live Translate。它的目標只有一個,讓語言不再是對話裡的停頓。

一兆字的起點與終點

Gemini 3.5 Live Translate 的核心是「語音對語音」翻譯,並且要求保留說話者的語調(intonation)、節奏(pacing)與音高(pitch)。

過去的系統要等說話者講完一句才開始翻譯,中間的停頓讓對話節奏完全碎裂。Gemini 3.5 Live Translate 則採用「持續生成」方式,在「等待更多上下文以提升準確度」與「立即輸出以跟上說話者」之間即時調整,整體落差只有幾秒,且自動偵測 70 多種語言,不需手動切換。

Google 同步開放三個入口:透過 Gemini Live API 與 Google AI Studio 的開發者公開預覽;本月起在 Google Meet 啟動的企業私人預覽;以及 Android 與 iOS 上的 Google 翻譯 App 全球更新。

Android 還新增「聆聽模式」,把手機貼近耳朵,翻譯語音就從聽筒播出,不需耳機、也不會打擾旁人,適合在博物館聽外語導覽、或在安靜場合接外語電話。

通路才是護城河

即時語音翻譯並不是 Google 的獨角戲。Meta 的 SeamlessM4T、三星 Galaxy AI 的即時通話翻譯、Apple 的 Live Translation、OpenAI 的 Realtime API,這個賽道已經擠滿了不缺技術也不缺資本的競爭者。

差距在於分發。Google 翻譯 App 的月活躍用戶以十億計,Google Meet 在企業市場的滲透率是現成基礎,Android 裝置的全球出貨量確保了觸及範圍。每一個新功能,都是直接更新進幾十億人已經在用的工具,而不是要他們再裝一個新 App。

Grab 的案例說明瞭這條護城河有多實際。這家東南亞的叫車與外賣平台,正在測試讓司機與乘客透過 Gemini 3.5 Live Translate 進行即時多語溝通。Grab 用戶每月透過其平台撥打超過 1,000 萬通語音通話,這意味著在一個語言高度碎片化的市場(泰語、越南語、馬來語、印尼語、菲律賓語交雜),即時口譯從附加功能變成了基礎設施。

CJ ENM、LiveKit 等早期夥伴也回饋翻譯品質、準確度與延遲均達預期。

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim