Trưởng phòng công nghệ OpenAI trước đây thách thức nhà cũ: Mô hình mới phản hồi trong 200ms, độ trễ vượt xa GPT-Realtime

Theo giám sát Beating, phòng thí nghiệm Thinking Machines do cựu CTO của OpenAI Mira Murati sáng lập đã công bố bản xem trước nghiên cứu “mô hình tương tác”. Hệ thống mới từ bỏ phương pháp truyền thống dựa vào công cụ bên ngoài để ghép nối âm thanh và văn bản, xử lý tương tác âm thanh và video theo thời gian thực một cách nguyên bản. Mô hình có thể liên tục nhận thông tin trong vòng “giao đoạn nhỏ” 200ms, thực hiện nghe, nhìn, nói cùng lúc, và hỗ trợ người dùng ngắt lời theo thời gian thực.

Mô hình trình diễn đầu tiên TML-Interaction-Small sử dụng kiến trúc MoE với 276 tỷ tham số, mỗi lần kích hoạt 120 tỷ tham số. Để khắc phục nhược điểm của các mô hình lớn truyền thống “dừng cảm nhận khi sinh câu trả lời”, nhóm phát triển đã chia hệ thống thành phần trước và sau: mô hình phía trước duy trì cuộc đối thoại liên tục, mô hình phía sau đồng bộ xử lý suy luận phức tạp, tìm kiếm web hoặc tạo giao diện người dùng, rồi chuyển kết quả mượt mà trở lại phía trước.

Kiến trúc này trực tiếp vượt trội về tốc độ phản hồi so với các đối thủ cạnh tranh cũ. Dữ liệu chính thức cho thấy, độ trễ vòng quay âm thanh chỉ 0,40 giây, đạt 77,8 điểm trong FD-bench V1.5, hai chỉ số cốt lõi đều cao hơn GPT-realtime-2.0 và Gemini 3.1 Flash Live. Tuy nhiên, xử lý liên tục âm thanh và video sẽ nhanh chóng tiêu thụ dung lượng ngữ cảnh, và hiệu quả độ trễ thấp cực kỳ phụ thuộc vào môi trường mạng. Thinking Machines dự kiến sẽ mở giới hạn xem trước trong vài tháng tới.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim