Whisper dan Gemini 3 Pro tertinggal hampir 30% dalam lingkungan akustik yang kompleks? Mega-ASR dari basis Qwen3-ASR 1.7B ini cukup menarik, masalah halusinasi dan hilangnya kata akhirnya ditangani dengan serius.

Lihat Asli
MeNews
National University of Singapore dan Nanyang Technological University mengembangkan Mega-ASR sumber terbuka, mengurangi halusinasi dan penghilangan kata dalam ASR di bawah kebisingan ekstrem
ME News Berita, 22 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, tim dari Universitas Nasional Singapura, Universitas Nanyang Teknologi, dan Laboratorium Kecerdasan Buatan Shanghai secara bersamaan merilis model dasar pengenalan suara yang tahan terhadap semua skenario pertama di dunia, Mega-ASR, yang bertujuan untuk mengatasi masalah halusinasi, penghilangan kata, dan output kosong yang dihadapi dalam pengenalan suara di lingkungan nyata. Model ini didukung oleh Qwen3-ASR 1.7B sebagai mesin dasarnya, dan dalam lingkungan akustik yang sangat kompleks, mencapai peningkatan kinerja hingga hampir 30% dibandingkan model seperti Whisper, Gemini 3 Pro, dan Seed-ASR. Saat ini, proyek telah dirilis secara terbuka di GitHub dan semua kode serta bobot model dirilis di bawah lisensi Apache-2.0. Tim peneliti membangun dataset yang berisi 2,4 juta sampel dengan total durasi 11.000 jam.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan