階躍上線StepAudio2.5ASR:引入MTP機制提速,32K窗口根治轉寫斷片

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,階躍星辰發佈新一代自動語音識別模型 StepAudio 2.5 ASR,目前已全量上線其開放平台。該版本率先將大語言模型的多 Token 預測(MTP)技術引入語音識別領域,在大幅提升推理速度的同時,復用大模型 32K 上下文窗口,打破了傳統長音頻轉寫需要切片拼接的限制。 傳統語音識別受限於自迴歸機制,必須逐個 Token 輸出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架構,一次預測多個候選 Token 並並行驗證。官方稱該架構使模型推理吞吐量提升 400%、時延降低 60%、推理成本直降 80%,推理峰值達 500 tokens/s。 針對行業內普遍採用「切片-轉寫-拼接」方案導致的上下文斷裂問題(如轉寫到後半段會忘記開頭的背景),新模型通過直接復用 32K 上下文窗口,支持端到端單次讀入最長 30 分鐘完整音頻。在 30 分鐘滿載輸入測試中,模型未出現隨時間推移精度衰減的情況。其在 LibriSpeech 等中英文 10 個權威開源測試集上的綜合錯誤率均低於競品。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆