METR يُحدث معيار قدرات الوكيل الذكي، وموثوقية Gemini 3.1Pro تتفوق على جميع النماذج الرائدة وتتصدر القائمة

robot
إنشاء الملخص قيد التقدم

أخبار ME News، 16 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، قامت وكالة تقييم أمان الذكاء الاصطناعي METR بتحديث معيار “الأفق الزمني” (Time Horizon)، وأضافت بيانات اختبار Google Gemini 3.1 Pro. يقيس هذا المعيار الحد الأقصى لقدرة الوكيل الذكي على إكمال المهام البرمجية بشكل مستقل، وأصبح منذ إطلاقه في فبراير من هذا العام مرجعًا هامًا لقياس نمو قدرات الوكلاء الذكيين. الطريقة المستخدمة في القياس هي أن ينجز خبراء هندسة البرمجيات البشريون (متوسط خبرة حوالي 5 سنوات) والوكيل الذكي نفس مجموعة من أكثر من مئة مهمة برمجية، ويقاس صعوبة المهام بواسطة الوقت الذي يستغرقه الإنسان. هناك مؤشرين رئيسيين: أفق الزمن بنسبة 50% (أعلى مستوى من المهام التي لدى الذكاء الاصطناعي احتمال 50% لإكمالها) وأفق الزمن بنسبة 80% (أعلى مستوى من المهام التي لدى الذكاء الاصطناعي احتمال 80% لإكمالها). ظهر تراجع في ترتيب Gemini 3.1 Pro على المؤشرين. يحتل أفق الزمن بنسبة 50% المركز الثاني، بعد Claude Opus 4.6 الذي يتصدر بشكل كبير: 1. Claude Opus 4.6: حوالي 12.0 ساعة 2. Gemini 3.1 Pro: حوالي 6.4 ساعة 3. GPT-5.2: حوالي 5.9 ساعة 4. GPT-5.4: حوالي 5.7 ساعة ولكن على أفق الزمن بنسبة 80% الأكثر صرامة، تفوق Gemini 3.1 Pro وتصدر القائمة: 1. Gemini 3.1 Pro: حوالي 1.5 ساعة 2. Claude Opus 4.6: حوالي 1.2 ساعة 3. GPT-5.2: حوالي 1.1 ساعة. يمكن لـ Claude Opus 4.6 تحدي مهام أصعب لكن معدل نجاحه يتذبذب بشكل كبير، بينما Gemini 3.1 Pro لديه سقف أدنى لكنه أكثر استقرارًا ضمن قدراته. في سيناريوهات الإنتاج التي تتطلب نتائج متوقعة، قد يكون الأخير أكثر فائدة. مقارنة بالجيل السابق Gemini 3 Pro (الذي كان أفق الزمن بنسبة 50% حوالي 3.7 ساعة)، فإن Gemini 3.1 Pro حقق زيادة قدرها حوالي 71%. من منظور المدى الطويل، تظهر بيانات METR أن أفق الزمن للنماذج المتقدمة قد نما من بضع ثوانٍ في GPT-2 عام 2019 إلى أكثر من عشر ساعات الآن، بمعدل تضاعف كل حوالي 4.3 أشهر، وتقول METR: “لم نرَ علامات على تباطؤ النمو الأسي”. يجب الانتباه إلى أن مهام METR تغطي هندسة البرمجيات، التعلم الآلي، والأمن السيبراني، وجميعها مهام مستقلة ذات تعريف واضح وقابلة للتقييم التلقائي. وكشفت الدراسات اللاحقة لـ METR أنه عند تغيير طريقة التقييم من الحكم الآلي إلى الحكم البشري الشامل، يتراجع أداء الذكاء الاصطناعي بشكل ملحوظ. أفق الزمن البالغ 12 ساعة لا يعني أن الذكاء الاصطناعي يمكنه استبدال الإنسان في نصف يوم من العمل الفعلي. (المصدر: BlockBeats)

ME2.66%
4‎-3.34%
GOOGLX‎-0.77%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت