Blueprint-Bench 2 випущено: перша в світі здатність штучного інтелекту до реального просторового мислення на основі 2D фотографій

Звіт з Coinjie.com, Blueprint-Bench 2, випущений компанією andon labs, є оцінювальним стандартом для тестування здатності штучного інтелекту до просторового мислення, що вимагає від агента створення точних 2D-планів на основі приблизно 20 знімків інтер’єру. Цей тест впроваджує систему «записної книжки» між завданнями, яка дозволяє агенту записувати закономірності розташування при обробці 50 квартир та оптимізувати стратегії генерації. Результати оцінювання показали, що gpt-5.5, gemini 3.1 pro і claude opus 4.7 стабільно займають перші три місця, вперше демонструючи здатність розуміти реальний простір з 2D-знімків. Наприклад, gemini 3.1 pro може визначити напрямок зйомки камери за різними знімками пральної машини, а gpt-5.5 — встановлювати зв’язок між спальнею та коридором за положенням дверної рами. Водночас, показники gemini robotics-er 1.6 були нижчими за очікувані, навіть поступаючись легким моделям gemini 3 flash, що свідчить про те, що його просторові навички не були успішно перетворені у здатність створювати планування.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити