Blueprint-Bench 2 phát hành: Trí tuệ nhân tạo lần đầu tiên thể hiện khả năng suy luận không gian thực dựa trên ảnh 2D

Tin tức từ CoinWorld, Blueprint-Bench 2 do andon labs phát hành là một tiêu chuẩn đánh giá khả năng suy luận không gian AI, yêu cầu agent dựa trên khoảng 20 bức ảnh nội thất để tạo ra bản vẽ mặt bằng 2D chính xác.
Lần này, thử nghiệm đã giới thiệu hệ thống " sổ ghi chú " liên nhiệm, cho phép agent ghi lại quy luật bố trí khi xử lý 50 bộ căn hộ và tối ưu hóa chiến lược tạo ra.
Kết quả đánh giá cho thấy, gpt-5.5, gemini 3.1 pro và claude opus 4.7 đứng vững trong top 3, lần đầu thể hiện khả năng hiểu không gian thực từ ảnh 2D.
Ví dụ, gemini 3.1 pro có thể suy luận hướng chụp của máy ảnh qua các hình ảnh máy giặt khác nhau, trong khi gpt-5.5 suy luận tính liên kết giữa phòng ngủ và hành lang qua vị trí khung cửa.
Trong khi đó, hiệu suất của gemini robotics-er 1.6 thấp hơn mong đợi, thậm chí còn thấp hơn gemini 3 flash nhẹ, cho thấy khả năng không gian của nó chưa thành công chuyển đổi thành khả năng tạo mặt bằng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim