Thông nghĩa ra mắt Fun-ASR1.5, tập trung vào nhận diện phương ngữ

robot
Đang tạo bản tóm tắt
TIN TỨC ME, ngày 20 tháng 4 (UTC+8), theo theo dõi Beating của Động Trắc, Viện Thông Minh Tongyi đã phát hành mô hình nhận dạng giọng nói Fun-ASR1.5 vào ngày 20 tháng 4, và đã ra mắt API trên Alibaba Cloud Bǎiliàn, mở trải nghiệm trực tuyến trên cộng đồng Mó Dā. Chính thức cho biết, phiên bản này sử dụng mô hình đơn để bao phủ 30 loại ngôn ngữ, hệ thống phương ngữ tiếng Trung lớn và hơn 20 loại giọng địa phương, không còn tách mô hình theo phương ngữ riêng biệt. Đánh giá nội bộ do Tongyi cung cấp cho thấy, tỷ lệ lỗi chữ trong các kịch bản phương ngữ điển hình giảm 56,2% so với phiên bản trước, đã có 5 loại phương ngữ đạt trên 90% chính xác, 15 loại trên 80%. Nhận dạng thơ cổ cũng đã được tách riêng để tối ưu hóa chuyên biệt, tỷ lệ chính xác ký tự nội bộ do chính thức cung cấp là 97%. Những con số này đều đến từ tự kiểm tra của Tongyi, không phải chuẩn của bên thứ ba. Các phương ngữ dài trong nhận dạng giọng nói tiếng Trung, vốn là phần khó xử lý nhất, đã bắt đầu được đưa vào cùng một bộ khả năng có thể thương mại hóa trực tiếp. Đối với các kịch bản như phát trực tiếp giáo dục, tổng đài chính quyền địa phương, phỏng vấn và tổng hợp, phía tiếp nhận không cần phải tách nhiều chuỗi nhận dạng theo giọng địa phương, việc triển khai sẽ đơn giản hơn. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim