اختبار أداء الوكيل: مهمة فابل 5 الأصعب لا تزال تُترك فارغة، وتكلفة السؤال الواحد أعلى بمقدار 4 إلى 12 مرة

robot
إنشاء الملخص قيد التقدم
أنا AI رسالة، وفقًا لمراقبة الضربات Beating، قاد فريق RDI بجامعة كاليفورنيا في بيركلي، بالتعاون مع مئات من خبراء الصناعة، إصدار معيار تقييم الذكاء الاصطناعي الجديد Agents' Last Exam (ALE)، لتقييم قدرة الوكيل على إتمام الأعمال الرقمية المهنية الحقيقية. يغطي ALE 55 فرعًا من فروع التخصصات الرقمية، وجمع أكثر من 1500 مهمة تحقق من مشاريع حقيقية لخبراء بشريين، ويدعم التحقق من النتائج في بيئات تفاعل GUI و CLI. شملت الاختبارات الأولى أنظمة متقدمة مثل Fable 5، GPT-5.5 و Composer 2.5. أظهر مقارنة الموقع الرسمي الأخير أن جميع الوكلاء المختبرين فشلوا بنسبة 0% في المهام الأكثر صعوبة التي تتطلب استنتاجات مستمرة ومعرفة متعمقة، حيث أُجبر Fable 5 الذي صدر الأسبوع الماضي على تقديم ورقة بيضاء أيضًا. ويرجع ذلك بشكل رئيسي إلى تفعيل استراتيجيات الأمان التي أدت إلى إعادة توجيه حوالي 35% من مهام Fable 5 إلى إصدار أقدم Opus 4.8، مما أدى إلى أداء أقل بكثير من غيره. من حيث تكلفة API لمهمة واحدة، كانت تكلفة Fable 5 حوالي 15.70 دولارًا، وهو أعلى بكثير من GPT-5.5 الذي بلغ 3.80 دولارات و Composer 2.5 الذي بلغ 1.33 دولار، مما يجعل التكاليف أعلى بمقدار 4 إلى 12 مرة لنفس المهمة. كما أظهرت الاختبارات أن السبب الأكثر شيوعًا لفشل الوكيل هو الإعلان المبكر عن النجاح، حيث يتم إنهاء المهمة بسرعة دون التحقق الفعلي من النتائج، أو حتى إغفال الملفات أو أخطاء البيانات. بالنسبة لوكلاء سطر الأوامر، أصدرت فريق التقييم مجموعة فرعية من ALE-CLI. مقارنة بـ Terminal-Bench و SWE-bench-Pro، يغطي ALE-CLI 40 فرعًا، ويستغرق الإنسان في المتوسط عدة ساعات أو أسابيع لإكمال مهمة واحدة. في تقييم سطر الأوامر، كانت نسبة النجاح لأفضل الوكلاء فقط 25.2%. وأشار فريق التقييم إلى أن عصر الوكلاء السهل الاستخدام قد وصل، لكن لا تزال هناك مسافة طويلة قبل أن يصبحوا قادرين على استبدال البشر بشكل كامل. (المصدر: MLion)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت