Đại học Quốc gia Singapore và Nanyang Technological mở mã nguồn Mega-ASR, giảm ảo giác và mất từ trong nhận dạng giọng nói dưới tiếng ồn cực đoan

Tin tức ME News, ngày 22 tháng 5 (UTC+8), theo theo dõi của Động Chấn Beating, các nhóm từ Đại học Quốc gia Singapore, Đại học Công nghệ Nanyang và Phòng thí nghiệm Trí tuệ nhân tạo Thượng Hải đã hợp tác mở nguồn mô hình nền nhận dạng giọng nói toàn cảnh có khả năng chịu đựng tốt Mega-ASR, nhằm giải quyết các vấn đề như ảo giác, bỏ từ và xuất ra trống rỗng trong nhận dạng giọng nói trong môi trường thực tế.
Mô hình dựa trên Qwen3-ASR 1.7B làm nền tảng, đạt hiệu suất cao nhất gần 30% so với các mô hình như Whisper, Gemini 3 Pro và Seed-ASR trong môi trường âm thanh cực kỳ phức tạp.
Hiện tại, dự án đã mở mã nguồn trên GitHub và phát hành toàn bộ mã nguồn cùng trọng số mô hình theo giấy phép Apache-2.0.
Nhóm nghiên cứu đã xây dựng bộ dữ liệu huấn luyện Voices-in-the-wild-2M gồm 2,4 triệu mẫu, tổng cộng 11.000 giờ.
Bộ dữ liệu này được tạo ra qua quy trình mô phỏng dựa trên đặc tính vật lý của phổ, tổng hợp gồm 7 hiệu ứng âm học nguyên tử như phản xạ, vọng âm, tiếng ồn cộng thêm, trường xa, mất gói tần số, giới hạn băng thông và biến dạng cắt xén, đồng thời phát sinh 54 cảnh môi trường phức hợp.
Để đảm bảo tính ổn định của quá trình huấn luyện, nhóm đã loại bỏ các mẫu có tỷ lệ lỗi từ vựng trên 70%, sau đó điều chỉnh phân bố độ khó của bộ dữ liệu qua kiểm tra tính hợp lý vật lý.
Về cơ chế huấn luyện, Mega-ASR giới thiệu phương pháp tinh chỉnh giám sát tiến dần từ âm học đến ngữ nghĩa A2S-SFT, phân giai đoạn căn chỉnh đặc trưng âm thanh để tăng khả năng phục hồi ngữ nghĩa dưới nhiễu nặng.
Trong giai đoạn tối ưu hóa chiến lược, mô hình sử dụng chiến lược kiểm soát lỗi từ vựng hai cấp độ DG-WGPO để tăng cường học tập.
Khi chất lượng âm thanh đầu vào tốt, tỷ lệ lỗi từ vựng thấp, hệ thống tập trung vào tái tạo chi tiết âm học ở cấp ký tự.
Nếu âm thanh bị biến dạng nghiêm trọng, tỷ lệ lỗi từ vựng cao, cơ chế quyết định chuyển sang tái tạo ngữ nghĩa ở cấp câu, giảm thiểu hiện tượng ảo giác và bỏ từ phổ biến ở các mô hình lớn.
Để đối phó với khả năng giảm nhẹ trong nhận dạng khi âm thanh sạch, Mega-ASR tích hợp cơ chế định tuyến động.
Bộ điều hướng có thể tự đánh giá chất lượng âm thanh hiện tại và thông minh quyết định có nên gắn trọng số tinh chỉnh LoRA để đảm bảo mô hình cho ra kết quả tối ưu trong cả môi trường sạch và ồn ào.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • 3
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
CheckingEthInTheElevator
· 3giờ trước
Qwen3-ASR 1.7B làm nền, hệ sinh thái Alibaba lại thắng lớn
Xem bản gốcTrả lời0
NeonIceMelt
· 7giờ trước
Môi trường âm thanh cực kỳ phức tạp là gì? Ví dụ như tàu điện ngầm + quán bar + công trường xây dựng?
Xem bản gốcTrả lời0
GateUser-1bc81bb2
· 7giờ trước
Đội ngũ trong nước dẫn đầu, đợt này tính là mô hình nội địa ra biển hay hợp tác quốc tế
Xem bản gốcTrả lời0
MistBlueLily
· 8giờ trước
Seed-ASR cũng bị đem ra chỉ trích, ByteDance: ?
Xem bản gốcTrả lời0
ThereIsAChainInTheReflection.
· 8giờ trước
Độ bền trong môi trường thực mới là điều cốt lõi, các chỉ số trong phòng thí nghiệm đẹp đẽ đến đâu cũng sẽ sụp đổ khi áp dụng thực tế
Xem bản gốcTrả lời0
MevInRetrospect
· 8giờ trước
2,4 triệu mẫu, 11.000 giờ, kỹ thuật dữ liệu nhìn là đã thấy đau lòng
Xem bản gốcTrả lời0
  • Đã ghim