Báo cáo công nghệ đa mô hình DeepSeek: Dạy mô hình "tưởng tượng bằng cách chạm tay", điều hướng mê cung vượt GPT-5.4 gần 17 điểm phần trăm

robot
Đang tạo bản tóm tắt
Thông báo từ CoinWorld, DeepSeek đã phát hành báo cáo công nghệ suy luận đa mô hình 「thinking with visual primitives」, đề xuất một phương pháp suy luận mới: mô hình khi suy nghĩ giống như con người dùng ngón tay chỉ vào thứ gì đó, trực tiếp chèn tọa độ vào chuỗi suy nghĩ, xác định chính xác từng đối tượng thị giác liên quan. Dự án này đã mở mã nguồn trên GitHub, sử dụng giấy phép MIT. Một trong những điểm nghẽn cốt lõi của các mô hình đa mô hình hiện tại là 「khoảng cách đại diện」, mô hình có thể nhìn rõ hình ảnh, nhưng khi suy luận chỉ có thể mô tả các đối tượng thị giác bằng ngôn ngữ tự nhiên, gặp khó khăn trong việc định vị khi cảnh phức tạp. DeepSeek giải quyết vấn đề này bằng cách biến các khung biên và tọa độ điểm thành các đơn vị nhỏ nhất của suy luận. Mô hình dựa trên kiến trúc v4-flash, nén token thị giác cực đoan, kết quả thử nghiệm cho thấy hiệu suất vượt trội trong nhiều bài kiểm tra chuẩn, đặc biệt trong các nhiệm vụ suy luận topo và dẫn đường mê cung, dẫn đầu rõ rệt so với các mô hình khác.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim