Mới phát hiện ra điều gì đó thú vị trong lĩnh vực nhận dạng giọng nói. Sierra vừa mở mã nguồn μ-Bench, một bộ chuẩn đa ngôn ngữ cho ASR nhằm giải quyết một vấn đề thực sự: hầu hết các bộ chuẩn hiện có đều tập trung vào tiếng Anh, điều này hạn chế đáng kể việc đánh giá hệ thống trong môi trường khách hàng thực tế.



Điều đặc biệt phù hợp với μ-Bench là nó đề xuất một phương pháp tiếp cận tinh vi hơn các phương pháp cũ. Thay vì chỉ dựa vào Tỷ lệ lỗi từ (WER) truyền thống, họ đã giới thiệu Tỷ lệ lỗi câu (UER), phân biệt các lỗi thực sự thay đổi ý nghĩa của thông điệp với những lỗi không ảnh hưởng đến khả năng hiểu. Đây là một bước tiến đáng kể để đánh giá chất lượng thực sự.

Dữ liệu bao gồm 250 bản ghi thực tế về dịch vụ khách hàng và 4.270 đoạn âm thanh đã được chú thích, bao gồm năm ngôn ngữ: tiếng Anh, tiếng Tây Ban Nha, tiếng Thổ Nhĩ Kỳ, tiếng Việt và tiếng Quan Thoại. Đây đã là một tập dữ liệu đại diện hơn nhiều so với trước đây.

Về hiệu suất, Google Chirp-3 rõ ràng dẫn đầu về độ chính xác, trong khi Deepgram Nova-3 nổi bật về tốc độ nhưng vẫn còn kém về độ chính xác đa ngôn ngữ. Thật thú vị khi thấy các nhà cung cấp khác nhau định vị theo các tiêu chí này.

Bộ chuẩn và bảng xếp hạng đầy đủ hiện đã có sẵn trên Hugging Face, mở ra cơ hội cho nhiều nhà cung cấp tham gia hơn. Đây là loại sáng kiến mã nguồn mở thực sự thúc đẩy ngành tiến lên, đặc biệt khi nói đến việc cải thiện nhận dạng giọng nói cho các trường hợp sử dụng thực tế đa ngôn ngữ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim