広場
最新
注目
ニュース
プロフィール
ポスト
階躍がStepAudio2.5ASRをリリース:MTPメカニズムを導入して高速化、32Kウィンドウで書き起こしの途切れを根本的に解消
MeNews
2026-07-03 07:42:03
フォロー
概要作成中
ME News のニュース、4月24日(UTC+8)、動察 Beating の監視によると、阶跃星辰は次世代自動音声認識モデル StepAudio 2.5 ASR をリリースし、現在そのオープンプラットフォームで全面公開されている。
このバージョンは、大規模言語モデルのマルチトークン予測(MTP)技術を音声認識分野に初めて導入し、推論速度を大幅に向上させると同時に、大規模モデルの32Kコンテキストウィンドウを再利用し、従来の長いオーディオ文字起こしに必要だったスライスと結合の制限を打ち破った。
従来の音声認識は自己回帰メカニズムに制限され、トークンを一つずつ出力する必要があった。StepAudio 2.5 ASR は Step 3.5 Flash と同じ ASR+MTP-5 深層融合アーキテクチャを移植し、複数の候補トークンを一度に予測して並列検証する。
公式によると、このアーキテクチャによりモデルの推論スループットが400%向上、遅延が60%削減、推論コストが80%低減し、推論ピークは500 tokens/sに達する。
業界で広く採用されている「スライス - 文字起こし - 結合」方式によるコンテキストの断絶問題(例えば、後半の文字起こしで冒頭の背景を忘れるなど)に対し、新モデルは32Kコンテキストウィンドウを直接再利用することで、エンドツーエンドで最長30分の完全なオーディオを一度に読み込むことをサポートする。
30分のフル入力テストにおいて、モデルは時間経過による精度低下は見られなかった。LibriSpeechなど中英語の10の権威あるオープンソーステストセットにおける総合エラー率は、いずれも競合より低かった。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
gStocksTokenizedStocksLive
4.36M 人気度
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.02M 人気度
#
IsraelStrikesIranBTCPlunges
67.74K 人気度
#
PredictWorldCupShare20000U
183.53K 人気度
#
ETHBreaks1700
152.53M 人気度
ピン留め
サイトマップ
階躍がStepAudio2.5ASRをリリース:MTPメカニズムを導入して高速化、32Kウィンドウで書き起こしの途切れを根本的に解消
このバージョンは、大規模言語モデルのマルチトークン予測(MTP)技術を音声認識分野に初めて導入し、推論速度を大幅に向上させると同時に、大規模モデルの32Kコンテキストウィンドウを再利用し、従来の長いオーディオ文字起こしに必要だったスライスと結合の制限を打ち破った。
従来の音声認識は自己回帰メカニズムに制限され、トークンを一つずつ出力する必要があった。StepAudio 2.5 ASR は Step 3.5 Flash と同じ ASR+MTP-5 深層融合アーキテクチャを移植し、複数の候補トークンを一度に予測して並列検証する。
公式によると、このアーキテクチャによりモデルの推論スループットが400%向上、遅延が60%削減、推論コストが80%低減し、推論ピークは500 tokens/sに達する。
業界で広く採用されている「スライス - 文字起こし - 結合」方式によるコンテキストの断絶問題(例えば、後半の文字起こしで冒頭の背景を忘れるなど)に対し、新モデルは32Kコンテキストウィンドウを直接再利用することで、エンドツーエンドで最長30分の完全なオーディオを一度に読み込むことをサポートする。
30分のフル入力テストにおいて、モデルは時間経過による精度低下は見られなかった。LibriSpeechなど中英語の10の権威あるオープンソーステストセットにおける総合エラー率は、いずれも競合より低かった。
(出典:BlockBeats)