Theo giám sát của Dongcha Beating, phòng thí nghiệm Thinking Machines do cựu CTO của OpenAI Mira Murati thành lập đã phát hành bản xem trước nghiên cứu của “mô hình tương tác”. Hệ thống mới từ bỏ phương pháp truyền thống ghép nối âm thanh và văn bản bằng các công cụ bên ngoài, thay vào đó xử lý tương tác âm thanh và video theo thời gian thực một cách tự nhiên. Mô hình có thể liên tục nhận thông tin với một “micro-turn” 200ms, cho phép nghe, xem và nói đồng thời, đồng thời hỗ trợ gián đoạn theo thời gian thực từ người dùng. Mô hình trình diễn đầu tiên, TML-Interaction-Small, sử dụng kiến trúc MoE 276 tỷ tham số, kích hoạt 12 tỷ tham số cùng lúc. Để khắc phục nhược điểm của mô hình lớn truyền thống là “dừng nhận thức khi tạo phản hồi”, nhóm phát triển đã chia hệ thống thành phần front-end và back-end: mô hình front-end chuyên giữ cho cuộc đối thoại không bị gián đoạn, trong khi mô hình back-end cùng lúc xử lý lý luận phức tạp, tìm kiếm web hoặc tạo giao diện người dùng, truyền kết quả một cách liền mạch trở lại front-end. Kiến trúc này trực tiếp vượt qua tốc độ phản hồi của các đối thủ cạnh tranh của công ty cũ. Dữ liệu chính thức cho thấy độ trễ quay vòng âm thanh chỉ 0,40 giây, đạt điểm 77,8 trong FD-bench V1.5, với cả các chỉ số cốt lõi đều vượt xa GPT-realtime-2.0 và Gemini 3.1 Flash Live. Tuy nhiên, xử lý liên tục âm thanh và video có thể nhanh chóng làm cạn kiệt khả năng ngữ cảnh, và hiệu ứng độ trễ thấp phụ thuộc rất nhiều vào điều kiện mạng. Thinking Machines dự định mở bản xem trước giới hạn trong vài tháng tới.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.37M Phổ biến
#
TROLLSurgesOver160PercentInTwoDays
8.57M Phổ biến
#
IsraelStrikesIranBTCPlunges
46.23K Phổ biến
#
#DailyPolymarketHotspot
286K Phổ biến
#
CapitalFlowsBackToAltcoins
101.08K Phổ biến

Ghim

sơ đồ trang web

Cựu CTO của OpenAI thách thức công ty cũ: Mô hình mới phản hồi trong 200ms, vượt xa GPT-Real-time

Chủ đề thịnh hành

GateSquareMayTradingShare

TROLLSurgesOver160PercentInTwoDays

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

CapitalFlowsBackToAltcoins

Ghim