وكالة تقييم أمان الذكاء الاصطناعي METR قامت بتحديث معيار «الخط الزمني»، وأضافت بيانات اختبار Google Gemini 3.1 Pro. يقيس هذا المعيار قدرة وكلاء الذكاء الاصطناعي على إكمال المهام البرمجية، حيث يتفوق Gemini 3.1 Pro بنسبة 80% على الخط الزمني، لكنه يحتل المركز الثاني عند 50% من الخط الزمني. مقارنة بالجيل السابق، حقق Gemini 3.1 Pro تحسينات ملحوظة، لكنه لا يزال يواجه قيودًا في استبدال العمل الحقيقي.

MeNews

2026-05-14 15:40:03

إنشاء الملخص قيد التقدم

أخبار ME News، 16 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، قامت وكالة تقييم أمان الذكاء الاصطناعي METR بتحديث معيار “الأفق الزمني” (Time Horizon)، وأضافت بيانات اختبار Google Gemini 3.1 Pro. يقيس هذا المعيار الحد الأقصى لقدرة الوكيل الذكي على إكمال المهام البرمجية بشكل مستقل، وأصبح منذ إطلاقه في فبراير من هذا العام مرجعًا هامًا لقياس نمو قدرات الوكلاء الذكيين. الطريقة المستخدمة في القياس هي أن ينجز خبراء هندسة البرمجيات البشريون (متوسط خبرة حوالي 5 سنوات) والوكيل الذكي نفس مجموعة من أكثر من مئة مهمة برمجية، ويقاس صعوبة المهام بواسطة الوقت الذي يستغرقه الإنسان. هناك مؤشرين رئيسيين: أفق الزمن بنسبة 50% (أعلى مستوى من المهام التي لدى الذكاء الاصطناعي احتمال 50% لإكمالها) وأفق الزمن بنسبة 80% (أعلى مستوى من المهام التي لدى الذكاء الاصطناعي احتمال 80% لإكمالها). ظهر تراجع في ترتيب Gemini 3.1 Pro على المؤشرين. يحتل أفق الزمن بنسبة 50% المركز الثاني، بعد Claude Opus 4.6 الذي يتصدر بشكل كبير: 1. Claude Opus 4.6: حوالي 12.0 ساعة 2. Gemini 3.1 Pro: حوالي 6.4 ساعة 3. GPT-5.2: حوالي 5.9 ساعة 4. GPT-5.4: حوالي 5.7 ساعة ولكن على أفق الزمن بنسبة 80% الأكثر صرامة، تفوق Gemini 3.1 Pro وتصدر القائمة: 1. Gemini 3.1 Pro: حوالي 1.5 ساعة 2. Claude Opus 4.6: حوالي 1.2 ساعة 3. GPT-5.2: حوالي 1.1 ساعة. يمكن لـ Claude Opus 4.6 تحدي مهام أصعب لكن معدل نجاحه يتذبذب بشكل كبير، بينما Gemini 3.1 Pro لديه سقف أدنى لكنه أكثر استقرارًا ضمن قدراته. في سيناريوهات الإنتاج التي تتطلب نتائج متوقعة، قد يكون الأخير أكثر فائدة. مقارنة بالجيل السابق Gemini 3 Pro (الذي كان أفق الزمن بنسبة 50% حوالي 3.7 ساعة)، فإن Gemini 3.1 Pro حقق زيادة قدرها حوالي 71%. من منظور المدى الطويل، تظهر بيانات METR أن أفق الزمن للنماذج المتقدمة قد نما من بضع ثوانٍ في GPT-2 عام 2019 إلى أكثر من عشر ساعات الآن، بمعدل تضاعف كل حوالي 4.3 أشهر، وتقول METR: “لم نرَ علامات على تباطؤ النمو الأسي”. يجب الانتباه إلى أن مهام METR تغطي هندسة البرمجيات، التعلم الآلي، والأمن السيبراني، وجميعها مهام مستقلة ذات تعريف واضح وقابلة للتقييم التلقائي. وكشفت الدراسات اللاحقة لـ METR أنه عند تغيير طريقة التقييم من الحكم الآلي إلى الحكم البشري الشامل، يتراجع أداء الذكاء الاصطناعي بشكل ملحوظ. أفق الزمن البالغ 12 ساعة لا يعني أن الذكاء الاصطناعي يمكنه استبدال الإنسان في نصف يوم من العمل الفعلي. (المصدر: BlockBeats)

ME2.66%

4‎-3.34%

GOOGLX‎-0.77%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.67M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
46.68K درجة الشعبية
#
#DailyPolymarketHotspot
937.15K درجة الشعبية
#
JaneStreetReducesBitcoinETFHoldings
105.17K درجة الشعبية
#
TrumpVisitsChina
63.39K درجة الشعبية

مُثبت

خريطة الموقع

METR يُحدث معيار قدرات الوكيل الذكي، وموثوقية Gemini 3.1Pro تتفوق على جميع النماذج الرائدة وتتصدر القائمة

المواضيع الرائجة

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

مُثبت