Blueprint-Bench 2 إصدار: القدرة على الاستنتاج في الفضاء الحقيقي استنادًا إلى صور ثنائية الأبعاد لأول مرة بواسطة الذكاء الاصطناعي

موقع بي جيه وورلد نيوز، أطلقت شركة أندون لابز معيار تقييم يسمى Blueprint-Bench 2 لاختبار قدرات الاستدلال المكاني للذكاء الاصطناعي، حيث يُطلب من الوكيل إنشاء مخططات طوابق ثنائية الأبعاد دقيقة استنادًا إلى حوالي 20 صورة داخلية. أدخلت الاختبار نظام “مفكرة” عبر المهام، يسمح للوكيل بتسجيل أنماط الترتيب وتحسين استراتيجيات التوليد عند التعامل مع 50 شقة. أظهرت نتائج التقييم أن GPT-5.5، Gemini 3.1 Pro وClaude Opus 4.7 تتصدر المراتب الثلاثة، لأول مرة تظهر قدرتها على فهم الفضاء الحقيقي من الصور ثنائية الأبعاد. على سبيل المثال، يمكن لـ Gemini 3.1 Pro استنتاج اتجاه الكاميرا من خلال غسالة الملابس في الصور المختلفة، بينما يستخدم GPT-5.5 موقع إطار الباب لاستنتاج اتصال غرفة النوم بالممر. في الوقت نفسه، كانت أداء Gemini Robotics-er 1.6 أقل من المتوقع، حيث سجلت درجات أدنى حتى من إصدار Gemini 3 Flash الخفيف، مما يشير إلى أن ميزاتها في الفضاء لم تُترجم بنجاح إلى قدرة إنشاء مخططات الطوابق.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت