Blueprint-Bench 2 publié : la première capacité d'inférence d'espace réel basée sur des photos 2D par l'IA

Selon les informations de Coinjie.com, Blueprint-Bench 2, publié par andon labs, est une référence d’évaluation conçue pour tester la capacité de raisonnement spatial de l’IA, exigeant que l’agent génère des plans 2D précis à partir d’environ 20 photos d’intérieur. Cette évaluation a introduit un système de « carnet de notes » inter-tâches, permettant à l’agent d’enregistrer les régularités de disposition lors du traitement de 50 appartements et d’optimiser ses stratégies de génération. Les résultats montrent que gpt-5.5, gemini 3.1 pro et claude opus 4.7 occupent les trois premières places, démontrant pour la première fois leur capacité à comprendre l’espace réel à partir de photos 2D. Par exemple, gemini 3.1 pro peut déduire l’orientation de la caméra à partir de différentes photos de machines à laver, tandis que gpt-5.5 déduit la connectivité entre la chambre et le couloir en se basant sur la position du cadre de porte. Par ailleurs, la performance de gemini robotics-er 1.6 est inférieure aux attentes, avec un score même inférieur à celui de la version légère gemini 3 flash, indiquant que ses compétences en spatial n’ont pas été efficacement transférées à la génération de plans.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler