シンガポール国立大学や南洋理工大学などがオープンソースのMega-ASRを開発し、極端なノイズ下でのASRの幻覚や文字の欠落を低減

MEニュース 5月22日(UTC+8)、動察Beating監測によると、シンガポール国立大学、南洋理工大学、上海人工知能実験室などのチームが共同でオープンソース化した初の全シナリオロバスト音声認識基盤モデルMega-ASRは、実環境下での音声認識が直面する幻覚、文字の欠落、空白出力などの問題を解決することを目的としている。モデルはQwen3-ASR 1.7Bを基盤ドライバーとして、極端に複雑な音響環境下で、Whisper、Gemini 3 Pro、Seed-ASRなどのモデルと比較して最高約30%の性能向上を実現している。現在、プロジェクトはGitHubでオープンソース化されており、Apache-2.0ライセンスの下で全コードとモデルの重みが公開されている。研究チームは、240万サンプル、合計1.1万時間のVoices-in-the-wild-2Mトレーニングデータセットを構築した。このデータセットは、スペクトル物理特性に基づくシミュレーションパイプラインを通じて、リバーブ、エコー、加算ノイズ、遠距離、周波数ロス、帯域制限、切断歪みの7つの原子音響効果をカバーし、54種類の複合環境シナリオを派生させている。トレーニングの安定性を確保するために、チームは誤字率が70%を超えるサンプルを除外した後、物理的合理性検査を通じてデータセットの難易度分布を調整した。トレーニングメカニズムにおいて、Mega-ASRは音響から意味への漸進的監督微調整A2S-SFTを導入し、段階的に音声特徴を整列させることで、重度の干渉下での意味復元能力を強化している。戦略最適化段階では、モデルは双粒度の誤字率ゲート戦略最適化DG-WGPOを用いた強化学習を採用している。入力音声の品質が良く、誤字率が低い場合、システムは文字レベルの音響詳細再構築に重点を置く。一方、音声が著しく歪んで誤字率が高い場合、意思決定メカニズムは文レベルの意味再構築に切り替わり、大規模モデルにありがちな幻覚や文字抜けの現象を大幅に減少させる。きれいな音声下での認識率がやや低下する可能性に対応するため、Mega-ASRには動的ルーティング機構が内蔵されている。ルーティング決定器は、現在の音声の品質を自動的に評価し、LoRA微調整重みの搭載を知的に判断して、きれいな環境と騒がしい環境の両方で最適な出力を保証する。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 6
  • 3
  • 共有
コメント
コメントを追加
コメントを追加
CheckingEthInTheElevator
· 1時間前
Qwen3-ASR 1.7Bを基盤に、アリエコシステムがまた勝利を収めた
原文表示返信0
NeonIceMelt
· 5時間前
極端に複雑な音響環境とは何を指すのか?地下鉄+バー+工事現場?
原文表示返信0
GateUser-1bc81bb2
· 5時間前
国内チーム主導、この波は国産モデルの海外展開なのか、それとも国際協力なのか
原文表示返信0
MistBlueLily
· 6時間前
Seed-ASRも引きずり出されて非難されている、バイト:?
原文表示返信0
ThereIsAChainInTheReflection.
· 6時間前
実環境でのロバスト性こそが本当のポイントであり、実験室の指標がいくら良くても実用化されると崩れてしまう
原文表示返信0
MevInRetrospect
· 6時間前
240万サンプル1.1万時間、データエンジニアリングを見るだけで肝が痛む
原文表示返信0
  • ピン留め