Sakana AI ra mắt hệ thống KAME, đạt độ trễ gần như bằng không đồng thời thực hiện tiêm kiến thức sâu hơn

robot
Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 3 tháng 5 (UTC+8), Sakana AI ra mắt kiến trúc lai KAME, có thể truyền tải kiến thức của LLM phía sau theo thời gian thực trong khi duy trì gần như không độ trễ. Hệ thống này gồm hai thành phần bất đồng bộ chạy song song: mô-đun S2S dựa trên kiến trúc Moshi của phía trước xử lý âm thanh trong chu kỳ khoảng 80 mili giây và tạo phản hồi ngay lập tức; phía sau gồm thành phần STT và LLM đầy đủ, liên tục xây dựng bản ghi một phần và tạo ra luồng oracle truyền về phía trước, khi oracle tốt hơn đến, có thể sửa đổi phản hồi giữa chừng. Đánh giá cho thấy, điểm số của Moshi riêng là 2.05, KAME+gpt-4.1 là 6.43, KAME+claude-opus-4-1 là 6.23, độ trễ tương đương với Moshi; hệ thống liên kết hàng đầu Unmute đạt điểm 7.70 nhưng độ trễ lên tới 2.1 giây. Phía sau của KAME không liên quan, hỗ trợ chuyển đổi LLM trong quá trình suy luận mà không cần huấn luyện lại.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim