Blueprint-Bench 2 lançado: A primeira capacidade de raciocínio espacial real baseado em fotos 2D por IA

Notícias do site Coinjie, o Blueprint-Bench 2, lançado pela andon labs, é uma referência de avaliação que testa a capacidade de raciocínio espacial de IA, exigindo que o agente gere plantas baixas 2D precisas com base em cerca de 20 fotos de interiores. Esta avaliação introduziu um sistema de “caderno de notas” de tarefas cruzadas, permitindo que o agente registre padrões de layout ao lidar com 50 apartamentos e otimize estratégias de geração. Os resultados mostram que o GPT-5.5, Gemini 3.1 Pro e Claude Opus 4.7 permanecem nos três primeiros lugares, demonstrando pela primeira vez a capacidade de compreender espaços reais a partir de fotos 2D. Por exemplo, o Gemini 3.1 Pro consegue inferir a direção da câmera através de diferentes fotos de máquinas de lavar, enquanto o GPT-5.5 deduz a conexão entre o quarto e o corredor com base na posição da moldura da porta. Ao mesmo tempo, o desempenho do Gemini Robotics-er 1.6 ficou abaixo do esperado, com pontuação até inferior ao leve Gemini 3 Flash, indicando que suas habilidades espaciais não foram bem convertidas em capacidade de geração de plantas baixas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar