ByteDance phát hành mô hình lớn về giọng nói song công Seeduplex, AI tương tác giọng nói bước vào kỷ nguyên "nghe và nói cùng lúc"

robot
Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 9 tháng 4, nhóm Seed của ByteDance đã phát hành mô hình lớn thoại hai chiều gốc Seeduplex, và đã được triển khai toàn diện trên ứng dụng Doubao, đánh dấu sự nâng cấp của tương tác thoại từ “lượt” sang hội thoại tự nhiên theo thời gian thực.


Seeduplex thông qua mô hình kết hợp ngữ nghĩa và giọng nói, thực hiện khả năng xử lý đồng bộ “nghe rồi nói”, nâng cao khả năng chống nhiễu trong môi trường phức tạp. Dữ liệu cho thấy, so với giải pháp bán song công truyền thống, tỷ lệ phản hồi sai và bị gián đoạn sai giảm khoảng 50%.


Về trải nghiệm tương tác, mô hình này giới thiệu công nghệ quyết định dừng động, rút ngắn độ trễ phản hồi khoảng 250 mili giây, giảm hiện tượng cắt lời 40%, có thể phân biệt chính xác hơn giữa sự dừng của người dùng và kết thúc cuộc hội thoại. Đồng thời, thông qua lấy mẫu dự đoán và tối ưu hóa lượng tử, hệ thống vẫn duy trì độ trễ thấp và mượt mà trong các kịch bản có lưu lượng cao, tổng thể mức độ hài lòng cuộc gọi tăng khoảng 8.34%.


Việc nâng cấp này có nghĩa là AI thoại đang tiến tới “thời gian thực, đa chế độ, tương tác giống con người”, trong tương lai có khả năng kết hợp khả năng thị giác, thúc đẩy trợ lý thông minh hướng tới sự phát triển tích hợp “nghe, nhìn, suy nghĩ, nói”. (Nguồn: ByteDance)



Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim