Blueprint-Bench 2 lanzado: La primera capacidad de razonamiento en espacios reales basada en fotos 2D con IA

La noticia de CoinWorld, Blueprint-Bench 2, lanzado por andon labs, es un estándar de evaluación para probar la capacidad de razonamiento espacial de IA, que requiere que el agente genere planos 2D precisos a partir de aproximadamente 20 fotos de interiores. Esta prueba introduce un sistema de “cuaderno” de tareas cruzadas, que permite al agente registrar patrones de distribución y optimizar estrategias de generación al procesar 50 apartamentos. Los resultados de la evaluación muestran que gpt-5.5, gemini 3.1 pro y claude opus 4.7 se mantienen en los primeros lugares, demostrando por primera vez la capacidad de entender espacios reales a partir de fotos 2D. Por ejemplo, gemini 3.1 pro puede inferir la orientación de la cámara a partir de diferentes fotos de la lavadora, mientras que gpt-5.5 infiere la conectividad entre el dormitorio y el pasillo mediante la posición del marco de la puerta. Al mismo tiempo, el rendimiento de gemini robotics-er 1.6 fue inferior a lo esperado, incluso por debajo del ligero gemini 3 flash, lo que indica que sus habilidades espaciales no se convirtieron con éxito en capacidad de generación de planos.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado