Step meluncurkan StepAudio2.5ASR: memperkenalkan mekanisme MTP untuk mempercepat, jendela 32K menyembuhkan fragmen transkripsi.

robot
Pembuatan abstrak sedang berlangsung
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,阶跃星辰发布新一代自动语音识别模型 StepAudio 2.5 ASR,目前已全量上线其开放平台。该版本率先将大语言模型的多 Token 预测(MTP)技术引入语音识别领域,在大幅提升推理速度的同时,复用大模型 32K 上下文窗口,打破了传统长音频转写需要切片拼接的限制。 传统语音识别受限于自回归机制,必须逐个 Token 输出。StepAudio 2.5 ASR 移植了 Step 3.5 Flash 同款的 ASR+MTP-5 深度融合架构,一次预测多个候选 Token 并并行验证。官方称该架构使模型推理吞吐量提升 400%、时延降低 60%、推理成本直降 80%,推理峰值达 500 tokens/s。 针对行业内普遍采用「切片-转写-拼接」方案导致的上下文断裂问题(如转写到后半段会忘记开头的背景),新模型通过直接复用 32K 上下文窗口,支持端到端单次读入最长 30 分钟完整音频。在 30 分钟满载输入测试中,模型未出现随时间推移精度衰减的情况。其在 LibriSpeech 等中英文 10 个权威开源测试集上的综合错误率均低于竞品。 (来源:BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan