支持3500個語言對!阿里發布首個視覺增強同傳大模型Qwen3.5-LiveTranslate

robot
摘要生成中
AIMPACT 消息,5 月 20 日(UTC+8),據 動察 Beating 監測,同傳系統正在從單調的語音翻譯,進化為能看懂畫面、會克隆人聲的全模態數字譯員。5 月 19 日,阿里通義實驗室正式宣佈推出新一代即時音視訊同傳大模型 Qwen3.5-LiveTranslate,將即時同傳能力大幅升級至 3500 多個語言對,並首次支援即時聲音克隆、熱詞自定義與視覺理解。 新模型基於 Qwen3.5-Omni 架構,現已支援 60 種語言的理解與寫作,以及 29 種語言的語音輸出。 不同於傳統只聽聲音的同傳軟體,新模型引入了即時視覺上下文以消除語義歧義。例如當視訊畫面中出現特定口罩時,系統能結合視覺特徵,在英文中精準區分出醫療口罩與化妝舞會面具,以此彌補聲音資訊的缺失。 為了消除噪音與口音帶來的轉錄偏差,新模型還引入了熱詞動態注入機制。原因很簡單,用戶能在翻譯流中直接指定特定人名、品牌或行業術語,強行鎖定正確翻譯,避免專有名詞在同傳中發生漂移。 在跨語種同傳時,模型還支援即時人聲克隆,能夠在同傳流中即時複現說話人原聲的音色與語氣。 目前,新模型已在體驗平台 Qwen Omni 開放,未來 API 將登入阿里雲百煉平台。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆