ME News 消息，5 月 22 日（UTC+8），据动察 Beating 监测，新加坡国立大学、南洋理工大学与上海人工智能实验室等团队联合开源首个全场景鲁棒语音识别基座模型 Mega-ASR，旨在解决真实环境下语音识别面临的幻觉、丢字和空白输出等问题。模型以 Qwen3-ASR 1.7B 为底层驱动，在极端复杂声学环境下相比 Whisper、Gemini 3 Pro 和 Seed-ASR 等模型实现最高近 30% 的性能提升。目前项目已在 GitHub 开源，并采用 Apache-2.0 协议发布全部代码和模型权重。研究团队构建了包含 240 万个样本、总长 1.1 万小时的

MeNews

2026-05-22 12:39:04

MEニュース　5月22日（UTC+8）、動察Beating監測によると、シンガポール国立大学、南洋理工大学、上海人工知能実験室などのチームが共同でオープンソース化した初の全シナリオロバスト音声認識基盤モデルMega-ASRは、実環境下での音声認識が直面する幻覚、文字の欠落、空白出力などの問題を解決することを目的としている。モデルはQwen3-ASR 1.7Bを基盤ドライバーとして、極端に複雑な音響環境下で、Whisper、Gemini 3 Pro、Seed-ASRなどのモデルと比較して最高約30％の性能向上を実現している。現在、プロジェクトはGitHubでオープンソース化されており、Apache-2.0ライセンスの下で全コードとモデルの重みが公開されている。研究チームは、240万サンプル、合計1.1万時間のVoices-in-the-wild-2Mトレーニングデータセットを構築した。このデータセットは、スペクトル物理特性に基づくシミュレーションパイプラインを通じて、リバーブ、エコー、加算ノイズ、遠距離、周波数ロス、帯域制限、切断歪みの7つの原子音響効果をカバーし、54種類の複合環境シナリオを派生させている。トレーニングの安定性を確保するために、チームは誤字率が70％を超えるサンプルを除外した後、物理的合理性検査を通じてデータセットの難易度分布を調整した。トレーニングメカニズムにおいて、Mega-ASRは音響から意味への漸進的監督微調整A2S-SFTを導入し、段階的に音声特徴を整列させることで、重度の干渉下での意味復元能力を強化している。戦略最適化段階では、モデルは双粒度の誤字率ゲート戦略最適化DG-WGPOを用いた強化学習を採用している。入力音声の品質が良く、誤字率が低い場合、システムは文字レベルの音響詳細再構築に重点を置く。一方、音声が著しく歪んで誤字率が高い場合、意思決定メカニズムは文レベルの意味再構築に切り替わり、大規模モデルにありがちな幻覚や文字抜けの現象を大幅に減少させる。きれいな音声下での認識率がやや低下する可能性に対応するため、Mega-ASRには動的ルーティング機構が内蔵されている。ルーティング決定器は、現在の音声の品質を自動的に評価し、LoRA微調整重みの搭載を知的に判断して、きれいな環境と騒がしい環境の両方で最適な出力を保証する。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

10 いいね

報酬
10
6
3
共有

コメントを追加

CheckingEthInTheElevator

· 1時間前

Qwen3-ASR 1.7Bを基盤に、アリエコシステムがまた勝利を収めた

原文表示返信0

NeonIceMelt

· 5時間前

極端に複雑な音響環境とは何を指すのか？地下鉄＋バー＋工事現場？

原文表示返信0

GateUser-1bc81bb2

· 5時間前

国内チーム主導、この波は国産モデルの海外展開なのか、それとも国際協力なのか

原文表示返信0

MistBlueLily

· 6時間前

Seed-ASRも引きずり出されて非難されている、バイト：？

原文表示返信0

ThereIsAChainInTheReflection.

· 6時間前

実環境でのロバスト性こそが本当のポイントであり、実験室の指標がいくら良くても実用化されると崩れてしまう

原文表示返信0

MevInRetrospect

· 6時間前

240万サンプル1.1万時間、データエンジニアリングを見るだけで肝が痛む

原文表示返信0

人気の話題
もっと見る
#
TradfiTradingChallenge
269.44K 人気度
#
PlatinumCardCreatorExclusive
79.53K 人気度
#
IsraelStrikesIranBTCPlunges
48.62K 人気度
#
#DailyPolymarketHotspot
1.03M 人気度
#
GateSquarePizzaDay
609.25K 人気度

ピン留め

サイトマップ

シンガポール国立大学や南洋理工大学などがオープンソースのMega-ASRを開発し、極端なノイズ下でのASRの幻覚や文字の欠落を低減

人気の話題

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

ピン留め