Whisper và Gemini 3 Pro bị bỏ xa gần 30% trong môi trường âm thanh phức tạp? Phiên bản Mega-ASR của Qwen3-ASR 1.7B dựa trên nền tảng này có chút gì đó, các vấn đề ảo giác và bỏ từ cuối cùng cuối cùng đã được xử lý một cách nghiêm túc.

Xem bản gốc
MeNews
Đại học Quốc gia Singapore và Nanyang Technological mở mã nguồn Mega-ASR, giảm ảo giác và mất từ trong nhận dạng giọng nói dưới tiếng ồn cực đoan
Tin ME News, ngày 22 tháng 5 (UTC+8), theo theo dõi của Động Chấn Beating, các nhóm từ Đại học Quốc gia Singapore, Đại học Công nghệ Nanyang và Phòng thí nghiệm Trí tuệ nhân tạo Thượng Hải đã hợp tác mở nguồn mô hình nền nhận dạng giọng nói toàn cảnh có khả năng thích ứng Mega-ASR, nhằm giải quyết các vấn đề như ảo giác, bỏ từ và xuất ra trống trong môi trường thực tế.
Mô hình dựa trên Qwen3-ASR 1.7B, đạt hiệu suất cao nhất gần 30% so với các mô hình như Whisper, Gemini 3 Pro và Seed-ASR trong môi trường âm thanh cực kỳ phức tạp.
Hiện tại, dự án đã mở nguồn trên GitHub và phát hành toàn bộ mã nguồn cùng trọng số mô hình theo giấy phép Apache-2.0.
Nhóm nghiên cứu đã xây dựng một bộ dữ liệu gồm 2,4 triệu mẫu, tổng cộng 11.000 giờ.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim