Tin tức ME News, ngày 22 tháng 5 (UTC+8), theo theo dõi của Động Chấn Beating, các nhóm từ Đại học Quốc gia Singapore, Đại học Công nghệ Nanyang và Phòng thí nghiệm Trí tuệ nhân tạo Thượng Hải đã hợp tác mở nguồn mô hình nền nhận dạng giọng nói toàn cảnh có khả năng chịu đựng tốt Mega-ASR, nhằm giải quyết các vấn đề như ảo giác, bỏ từ và xuất ra trống rỗng trong nhận dạng giọng nói trong môi trường thực tế.
Mô hình dựa trên Qwen3-ASR 1.7B làm nền tảng, đạt hiệu suất cao nhất gần 30% so với các mô hình như Whisper, Gemini 3 Pro và Seed-ASR trong môi trường âm thanh cực kỳ phức tạp.
Hiện tại, dự án đã mở mã nguồn trên GitHub và phát hành toàn bộ mã nguồn cùng trọng số mô hình theo giấy phép Apache-2.0.
Nhóm nghiên cứu đã xây dựng bộ dữ liệu huấn luyện Voices-in-the-wild-2M gồm 2,4 triệu mẫu, tổng cộng 11.000 giờ.
Bộ dữ liệu này được tạo ra qua quy trình mô phỏng dựa trên đặc tính vật lý của phổ, tổng hợp gồm 7 hiệu ứng âm học nguyên tử như phản xạ, vọng âm, tiếng ồn cộng thêm, trường xa, mất gói tần số, giới hạn băng thông và biến dạng cắt xén, đồng thời phát sinh 54 cảnh môi trường phức hợp.
Để đảm bảo tính ổn định của quá trình huấn luyện, nhóm đã loại bỏ các mẫu có tỷ lệ lỗi từ vựng trên 70%, sau đó điều chỉnh phân bố độ khó của bộ dữ liệu qua kiểm tra tính hợp lý vật lý.
Về cơ chế huấn luyện, Mega-ASR giới thiệu phương pháp tinh chỉnh giám sát tiến dần từ âm học đến ngữ nghĩa A2S-SFT, phân giai đoạn căn chỉnh đặc trưng âm thanh để tăng khả năng phục hồi ngữ nghĩa dưới nhiễu nặng.
Trong giai đoạn tối ưu hóa chiến lược, mô hình sử dụng chiến lược kiểm soát lỗi từ vựng hai cấp độ DG-WGPO để tăng cường học tập.
Khi chất lượng âm thanh đầu vào tốt, tỷ lệ lỗi từ vựng thấp, hệ thống tập trung vào tái tạo chi tiết âm học ở cấp ký tự.
Nếu âm thanh bị biến dạng nghiêm trọng, tỷ lệ lỗi từ vựng cao, cơ chế quyết định chuyển sang tái tạo ngữ nghĩa ở cấp câu, giảm thiểu hiện tượng ảo giác và bỏ từ phổ biến ở các mô hình lớn.
Để đối phó với khả năng giảm nhẹ trong nhận dạng khi âm thanh sạch, Mega-ASR tích hợp cơ chế định tuyến động.
Bộ điều hướng có thể tự đánh giá chất lượng âm thanh hiện tại và thông minh quyết định có nên gắn trọng số tinh chỉnh LoRA để đảm bảo mô hình cho ra kết quả tối ưu trong cả môi trường sạch và ồn ào.
(Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

10 thích

Phần thưởng
10
6
3
Retweed

Bình luận

Thêm một bình luận

CheckingEthInTheElevator

· 3giờ trước

Qwen3-ASR 1.7B làm nền, hệ sinh thái Alibaba lại thắng lớn

Xem bản gốcTrả lời0

NeonIceMelt

· 7giờ trước

Môi trường âm thanh cực kỳ phức tạp là gì? Ví dụ như tàu điện ngầm + quán bar + công trường xây dựng?

Xem bản gốcTrả lời0

GateUser-1bc81bb2

· 7giờ trước

Đội ngũ trong nước dẫn đầu, đợt này tính là mô hình nội địa ra biển hay hợp tác quốc tế

Xem bản gốcTrả lời0

MistBlueLily

· 8giờ trước

Seed-ASR cũng bị đem ra chỉ trích, ByteDance: ?

Xem bản gốcTrả lời0

ThereIsAChainInTheReflection.

· 8giờ trước

Độ bền trong môi trường thực mới là điều cốt lõi, các chỉ số trong phòng thí nghiệm đẹp đẽ đến đâu cũng sẽ sụp đổ khi áp dụng thực tế

Xem bản gốcTrả lời0

MevInRetrospect

· 8giờ trước

2,4 triệu mẫu, 11.000 giờ, kỹ thuật dữ liệu nhìn là đã thấy đau lòng

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
271.07K Phổ biến
#
PlatinumCardCreatorExclusive
80.15K Phổ biến
#
IsraelStrikesIranBTCPlunges
48.62K Phổ biến
#
#DailyPolymarketHotspot
1.03M Phổ biến
#
GateSquarePizzaDay
1.75M Phổ biến

Đã ghim

sơ đồ trang web

Đại học Quốc gia Singapore và Nanyang Technological mở mã nguồn Mega-ASR, giảm ảo giác và mất từ trong nhận dạng giọng nói dưới tiếng ồn cực đoan

Chủ đề thịnh hành

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Đã ghim