Baru saja menemukan sesuatu yang menarik di dunia pengenalan suara. Sierra baru saja merilis μ-Bench sebagai sumber terbuka, sebuah tolok ukur multibahasa untuk ASR yang mengatasi masalah nyata: sebagian besar tolok ukur yang ada saat ini berfokus pada bahasa Inggris, yang secara serius membatasi evaluasi sistem dalam lingkungan pelanggan nyata.



Yang sangat relevan dengan μ-Bench adalah pendekatan yang lebih bernuansa dibandingkan metode lama. Alih-alih menggunakan Tingkat Kesalahan Kata (WER) yang tradisional, mereka memperkenalkan Tingkat Kesalahan Ucapan (UER), yang membedakan kesalahan yang benar-benar mengubah makna pesan dari yang tidak mempengaruhi pemahaman. Ini adalah perkembangan penting untuk menilai kualitas sebenarnya.

Kumpulan data ini mencakup 250 rekaman layanan pelanggan asli dan 4.270 cuplikan audio yang diberi anotasi, mencakup lima bahasa: Inggris, Spanyol, Turki, Vietnam, dan Mandarin. Ini sudah jauh lebih representatif daripada sebelumnya.

Dalam hal kinerja, Google Chirp-3 jelas unggul dalam akurasi, sementara Deepgram Nova-3 menonjol karena kecepatannya tetapi tertinggal dalam hal akurasi multibahasa. Menarik melihat bagaimana berbagai penyedia posisi mereka berdasarkan kriteria tersebut.

Tolok ukur lengkap dan peringkatnya kini tersedia di Hugging Face, yang membuka peluang lebih besar bagi partisipasi penyedia. Ini adalah inisiatif sumber terbuka yang benar-benar mendorong industri maju, terutama dalam meningkatkan pengenalan suara untuk kasus penggunaan nyata dalam berbagai bahasa.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan