موقع شبكة العملات الرقمية يذكر أن فريق SWE-bench أصدر معيارًا جديدًا ProgramBench، حيث قام بتقييم 9 نماذج ذكاء اصطناعي متقدمة في مهمة إعادة بناء برامج حقيقية، وكانت نسبة النجاح الكاملة 0%. تم إصدار هذا المعيار من قبل فريق أبحاث الذكاء الاصطناعي في meta بالتعاون مع جامعة ستانفورد وهارفارد، وتطلب المهمة من وكيل الذكاء الاصطناعي بناء وتنفيذ قاعدة شفرة كاملة من الصفر باستخدام ملف ثنائي مترجم ووثائق الاستخدام، لمحاكاة سلوك البرنامج الأصلي. يتضمن المعيار 200 مهمة، تغطي أدوات سطر الأوامر الصغيرة إلى مشاريع كبيرة، وأظهرت نتائج الاختبار أن جميع المعايير الرئيسية «النجاح الكامل» لم يتم تحقيقه، وتفوقت موديل claude opus 4.7 بنسبة 3% في المعيار المساعد «تقريبًا النجاح»، بينما كانت النماذج الأخرى بنسبة 0%.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت