نشر اختبار مرجعي لمهام طويلة الأمد يعتمد على سجل التصفح الحقيقي

AIMPACT رسالة، 30 أبريل (UTC+8)، أعلن دان فريد على منصة X أن فريقه قام ببناء اختبار مرجعي يعتمد على سجل تصفح المستخدم الحقيقي، يتضمن حوالي 200 مهمة عبر مواقع متعددة، بهدف تقييم معدل نجاح وكفاءة الوكيل في المهام الطويلة الأمد (العديد منها يتطلب عدة ساعات للحل). تم نشر الورقة ذات الصلة بقيادة لورانس ك. وآخرين. يركز هذا العمل على تقييم أداء الوكيل في المهام المعقدة والطويلة المدى على الويب. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت