1,1 juta jam data pelatihan, 2,4 juta sampel, ketahanan di semua skenario——Mega-ASR bukan hanya model ASR lain, tetapi ditujukan untuk "ketersediaan di lingkungan nyata". GitHub telah membuka sumber, semua bobot tersedia, layak untuk diunduh dan dicoba.

Lihat Asli
MeNews
National University of Singapore dan Nanyang Technological University mengembangkan Mega-ASR sumber terbuka, mengurangi halusinasi dan penghilangan kata dalam ASR di bawah kebisingan ekstrem
ME News Berita, 22 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim dari Universitas Nasional Singapura, Universitas Nanyang Teknologi, dan Laboratorium Kecerdasan Buatan Shanghai secara bersamaan merilis model dasar pengenalan suara yang tahan terhadap semua skenario pertama di dunia, Mega-ASR, yang bertujuan untuk mengatasi masalah halusinasi, penghilangan kata, dan output kosong yang dihadapi dalam pengenalan suara di lingkungan nyata. Model ini didukung oleh Qwen3-ASR 1.7B sebagai mesin dasarnya, dan dalam lingkungan akustik yang sangat kompleks, mencapai peningkatan kinerja hingga hampir 30% dibandingkan model seperti Whisper, Gemini 3 Pro, dan Seed-ASR. Saat ini, proyek telah dirilis secara terbuka di GitHub dan semua kode serta bobot model dirilis di bawah lisensi Apache-2.0. Tim peneliti membangun dataset yang berisi 2,4 juta sampel dengan total durasi 11.000 jam.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan