廣場
最新
熱門
新聞
我的主頁
發布
階躍上線StepAudio2.5ASR:引入MTP機制提速,32K窗口根治轉寫斷片
ME News
2026-07-03 07:42:03
關注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,階躍星辰發佈新一代自動語音識別模型 StepAudio 2.5 ASR,目前已全量上線其開放平台。該版本率先將大語言模型的多 Token 預測(MTP)技術引入語音識別領域,在大幅提升推理速度的同時,復用大模型 32K 上下文窗口,打破了傳統長音頻轉寫需要切片拼接的限制。 傳統語音識別受限於自迴歸機制,必須逐個 Token 輸出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架構,一次預測多個候選 Token 並並行驗證。官方稱該架構使模型推理吞吐量提升 400%、時延降低 60%、推理成本直降 80%,推理峰值達 500 tokens/s。 針對行業內普遍採用「切片-轉寫-拼接」方案導致的上下文斷裂問題(如轉寫到後半段會忘記開頭的背景),新模型通過直接復用 32K 上下文窗口,支持端到端單次讀入最長 30 分鐘完整音頻。在 30 分鐘滿載輸入測試中,模型未出現隨時間推移精度衰減的情況。其在 LibriSpeech 等中英文 10 個權威開源測試集上的綜合錯誤率均低於競品。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
gStocks代幣化股票上線
399.38萬 熱度
#
非農爆冷打壓加息預期
102.78萬 熱度
#
預測世界盃葡萄牙VS克羅地亞
18.19萬 熱度
#
ETH突破1700
1.52億 熱度
#
Meta賣算力引發存儲股大跌
138.93萬 熱度
已置頂
網站地圖
階躍上線StepAudio2.5ASR:引入MTP機制提速,32K窗口根治轉寫斷片