Thông nghĩa ra mắt Fun-ASR1.5, tập trung vào nhận diện phương ngữ

robot
Đang tạo bản tóm tắt
Tin tức ME News, ngày 20 tháng 4 (UTC+8), theo theo dõi Beating của Dongcha, Viện Thông Minh đã phát hành mô hình nhận dạng giọng nói Fun-ASR1.5 vào ngày 20 tháng 4, và đã ra mắt API trên Alibaba Cloud Bailing, mở trải nghiệm trực tuyến trên cộng đồng Modao. Chính thức cho biết, phiên bản này sử dụng mô hình đơn để bao phủ 30 loại ngôn ngữ, hệ thống phương ngữ tiếng Trung gồm bảy loại và hơn 20 loại giọng địa phương, không còn tách riêng mô hình theo phương ngữ. Đánh giá nội bộ do Thông Minh cung cấp cho thấy, tỷ lệ lỗi chữ trong các kịch bản phương ngữ điển hình giảm 56,2% so với phiên bản trước, đã có 5 loại phương ngữ đạt trên 90% chính xác, 15 loại trên 80%. Nhận dạng thơ cổ cũng đã được tách riêng để tối ưu hóa chuyên biệt, tỷ lệ chính xác ký tự nội bộ do chính thức cung cấp là 97%. Những con số này đều đến từ tự kiểm tra của Thông Minh, không phải tiêu chuẩn của bên thứ ba. Các phương ngữ dài và khó xử lý nhất trong nhận dạng giọng nói tiếng Trung bắt đầu được đưa vào cùng một bộ khả năng có thể thương mại hóa trực tiếp. Đối với các kịch bản như phát trực tiếp giáo dục, tổng đài chính quyền địa phương, phỏng vấn và tổng hợp, phía tích hợp không cần phải tách nhiều chuỗi nhận dạng theo giọng địa phương, việc triển khai sẽ đơn giản hơn. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim