Step ra mắt StepAudio2.5ASR: Giới thiệu cơ chế MTP để tăng tốc, cửa sổ 32K chữa triệt để việc chuyển đổi bị gián đoạn.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, Step-A-Thần Thước phát hành mô hình nhận dạng giọng nói tự động thế hệ mới StepAudio 2.5 ASR, hiện đã được triển khai đầy đủ trên nền tảng mở của họ. Phiên bản này lần đầu tiên đưa công nghệ dự đoán nhiều Token (MTP) của mô hình ngôn ngữ lớn vào lĩnh vực nhận dạng giọng nói, đồng thời cải thiện đáng kể tốc độ suy luận, tái sử dụng cửa sổ ngữ cảnh 32K của mô hình lớn, phá vỡ giới hạn của việc chuyển đổi và ghép nối các đoạn âm thanh dài truyền thống. Nhận dạng giọng nói truyền thống bị hạn chế bởi cơ chế tự hồi quy, phải xuất ra từng Token một. StepAudio 2.5 ASR đã chuyển giao kiến trúc tích hợp sâu ASR+MTP-5 tương tự như Step 3.5 Flash, dự đoán nhiều Token ứng viên cùng lúc và xác thực song song. Theo công bố chính thức, kiến trúc này giúp thông lượng suy luận của mô hình tăng 400%, độ trễ giảm 60%, chi phí suy luận giảm trực tiếp 80%, đỉnh suy luận đạt 500 tokens/s. Đối với vấn đề đứt gãy ngữ cảnh do phương pháp "cắt - chuyển đổi - ghép nối" phổ biến trong ngành (ví dụ: khi chuyển đổi đến nửa sau thì quên mất bối cảnh đầu), mô hình mới hỗ trợ đọc toàn bộ âm thanh dài tối đa 30 phút trong một lần từ đầu đến cuối bằng cách trực tiếp tái sử dụng cửa sổ ngữ cảnh 32K. Trong thử nghiệm đầu vào đầy tải 30 phút, mô hình không có hiện tượng suy giảm độ chính xác theo thời gian. Tỷ lệ lỗi tổng hợp của mô hình trên 10 bộ kiểm tra mã nguồn mở có uy tín bằng tiếng Trung và tiếng Anh như LibriSpeech đều thấp hơn so với đối thủ cạnh tranh. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim