币界网消息、andon labsがリリースしたBlueprint-Bench 2は、AI空間推論能力を評価する基準であり、エージェントが約20枚の室内写真に基づいて正確な2D間取り図を生成することを求めている。今回のテストでは、タスクを横断する「ノートブック」システムが導入され、エージェントは50のアパートメントを処理しながらレイアウトの規則性を記録し、生成戦略を最適化できるようになった。評価結果は、gpt-5.5、gemini 3.1 pro、claude opus 4.7が安定してトップ3に入り、初めて2D写真から実際の空間を理解する能力を示したことを示している。例えば、gemini 3.1 proは異なる写真の洗濯機からカメラの向きを推測し、gpt-5.5はドア枠の位置から寝室と廊下の連結性を推測している。また、gemini robotics-er 1.6のパフォーマンスは期待外れで、軽量版のgemini 3 flashよりも低いスコアとなり、その空間に関する特長が間取り生成能力にうまく反映されていないことを示している。
Blueprint-Bench 2リリース:AI初の2D写真に基づくリアル空間推論能力
币界网消息、andon labsがリリースしたBlueprint-Bench 2は、AI空間推論能力を評価する基準であり、エージェントが約20枚の室内写真に基づいて正確な2D間取り図を生成することを求めている。今回のテストでは、タスクを横断する「ノートブック」システムが導入され、エージェントは50のアパートメントを処理しながらレイアウトの規則性を記録し、生成戦略を最適化できるようになった。評価結果は、gpt-5.5、gemini 3.1 pro、claude opus 4.7が安定してトップ3に入り、初めて2D写真から実際の空間を理解する能力を示したことを示している。例えば、gemini 3.1 proは異なる写真の洗濯機からカメラの向きを推測し、gpt-5.5はドア枠の位置から寝室と廊下の連結性を推測している。また、gemini robotics-er 1.6のパフォーマンスは期待外れで、軽量版のgemini 3 flashよりも低いスコアとなり、その空間に関する特長が間取り生成能力にうまく反映されていないことを示している。