Blueprint-Bench 2 dirilis: Kemampuan penalaran ruang nyata berbasis foto 2D pertama kali AI

Berita dari Coinjie.com, Blueprint-Bench 2 yang dirilis oleh andon labs adalah standar evaluasi untuk menguji kemampuan penalaran ruang AI, yang menuntut agen untuk menghasilkan denah 2D yang akurat berdasarkan sekitar 20 foto interior. Pengujian kali ini memperkenalkan sistem “catatan” lintas tugas, yang memungkinkan agen untuk mencatat pola tata letak saat memproses 50 apartemen dan mengoptimalkan strategi pembuatan. Hasil evaluasi menunjukkan bahwa gpt-5.5, gemini 3.1 pro, dan claude opus 4.7 menduduki posisi teratas, menunjukkan kemampuan pertama mereka dalam memahami ruang nyata dari foto 2D. Misalnya, gemini 3.1 pro dapat menyimpulkan arah pengambilan gambar melalui mesin cuci dalam foto yang berbeda, sementara gpt-5.5 menebak koneksi antara kamar tidur dan koridor berdasarkan posisi bingkai pintu. Pada saat yang sama, performa gemini robotics-er 1.6 di bawah ekspektasi, bahkan skor lebih rendah dari gemini 3 flash yang ringan, menunjukkan bahwa keunggulan ruangnya belum berhasil diterjemahkan ke dalam kemampuan pembuatan denah.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan