باختصار ARFBench هو أول معيار ذكاء اصطناعي مبني بالكامل من حوادث الإنتاج الحقيقية. يتصدر GPT-5 جميع نماذج الذكاء الاصطناعي الحالية بنسبة دقة تبلغ 62.7% لكنه لا يرقى إلى خبراء المجال الذين يحققون 72.7%. نموذج نظري-خبير استشاري — يجمع بين الذكاء الاصطناعي والحكم البشري — يصل إلى دقة 87.2%، مما يضع ال

Decrypt

2026-05-18 21:11:18

باختصار

* ARFBench هو أول معيار قياسي للذكاء الاصطناعي مبني بالكامل من حوادث إنتاج حقيقية.
* يقود GPT-5 جميع نماذج الذكاء الاصطناعي الحالية بنسبة دقة 62.7% لكنه يقصر عن خبراء المجال الذين تصل دقتهم إلى 72.7%.
* نموذج-خبير نظري—يجمع بين الذكاء الاصطناعي والحكم البشري—يحقق دقة 87.2%، مما يحدد الحد الأقصى لما يمكن أن تحققه فرق التعاون بين الذكاء الاصطناعي والبشر.

تواصل شركات الذكاء الاصطناعي الترويج لوكلاء مهندسي موثوقية الموقع الذاتيين—ذكاء اصطناعي يحقق في حوادث الإنتاج بدلاً من البشر. أجرى Datadog الاختبار الفعلي على انقطاعات حقيقية، ولا تزال أفضل نماذج الذكاء الاصطناعي لا تتفوق بعد على المهندسين الذين من المفترض أن يحلوا محلهم.
المعيار هو ARFBench (إطار عمل استدلال الشذوذ)، وهو مشروع مشترك بين Datadog و Carnegie Mellon. مبني من 63 حادثة إنتاج حقيقية، مستخرجة من محادثات Slack الخاصة بالمهندسين أثناء حالات الطوارئ الحية—750 سؤال اختيار من متعدد تغطي 142 مقياس مراقبة و5.38 مليون نقطة بيانات، وكل سؤال تم التحقق منه يدويًا. لا بيانات صناعية. لا سيناريوهات من الكتب الدراسية.
"يُفقد تريليونات الدولارات سنويًا بسبب انقطاعات النظام"، يكتب الباحثون. يختبر المعيار ما إذا كان يمكن للذكاء الاصطناعي أن يساعد حقًا في تغيير ذلك.

"على الرغم من الدور المركزي لهذا التحليل القائم على الأسئلة في استجابة الحوادث، لا يزال غير واضح ما إذا كانت نماذج الأساس الحديثة يمكنها الإجابة بشكل موثوق على أنواع الأسئلة المتعلقة بالسلاسل الزمنية التي يطرحها المهندسون في الممارسة العملية"، يقرأ البحث.

تأتي الأسئلة بثلاث مستويات. المستوى الأول: هل يوجد شذوذ في هذا الرسم البياني؟ المستوى الثاني: متى بدأ، مدى شدته، نوعه؟
المستوى الثالث—الأصعب—يتطلب استدلال عبر مقاييس متعددة: هل يسبب هذا الرسم البياني المشكلة في الرسم البياني الآخر؟ هنا يتفكك الذكاء الاصطناعي. يحقق GPT-5 فقط 47.5% من مقياس F1 في أسئلة المستوى الثالث، وهو مقياس يعاقب النماذج على خداع الإجابات باختيار الفئة الأكثر شيوعًا.

"على الرغم من الدور المركزي لهذا التحليل القائم على الأسئلة في استجابة الحوادث، لا يزال غير واضح ما إذا كانت نماذج الأساس الحديثة يمكنها الإجابة بشكل موثوق على أنواع الأسئلة المتعلقة بالسلاسل الزمنية التي يطرحها المهندسون في الممارسة العملية"، يكتب الباحثون.
كيف تصدرت كل نموذج
تصدر GPT-5 جميع النماذج الحالية بنسبة دقة 62.7%—في اختبار يحصل فيه التخمين العشوائي على 24.5%. حقق Gemini 3 Pro نسبة 58.1%. وClaude Opus 4.6: 54.8%. وClaude Sonnet 4.5: 47.2%.
حقق خبراء المجال نسبة دقة 72.7%. أما غير خبراء المجال—باحثو السلاسل الزمنية في Datadog بدون خبرة واسعة في الرصد—فلا يزالون يحققون 69.7%.
لم يتفوق أي نموذج ذكاء اصطناعي على أي من الخطوط الأساسية البشرية.

صورة أنشأها Decrypt استنادًا إلى ملف CSV الخاص بلوحة نتائج ARFBench

النموذج الذي تصدر فعليًا لوحة النتائج الكاملة كان هجين Datadog الخاص: Toto—نموذج التنبؤ بالسلاسل الزمنية الداخلي لديهم—بالإضافة إلى Qwen3-VL 32B. حقق Toto-1.0-QA-Experimental دقة بنسبة 63.9%، متفوقًا على GPT-5 مع استخدام جزء بسيط من معاييره. وعلى وجه التحديد، في تحديد الشذوذ، تفوق على جميع النماذج الأخرى بما لا يقل عن 8.8 نقاط مئوية في مقياس F1.
نموذج مخصص للمجال، مدرب على بيانات الرصد، يتفوق على نظام عام متقدم في هذه المهمة المحددة هو النتيجة المتوقعة. هذا هو الهدف.
أهم اكتشاف ليس هو النموذج الذي حقق أعلى نتيجة.
"نلاحظ أنماط أخطاء مختلفة بشكل كبير بين النماذج الرائدة والخبراء البشريين، مما يشير إلى أن نقاط قوتهم تكمل بعضها البعض"، يكتب الباحثون. النماذج تتوهم، وتفقد البيانات الوصفية، وتفقد السياق المجال. البشر يقرأون الطوابع الزمنية الدقيقة بشكل خاطئ وأحيانًا يفشلون في تعليمات معقدة. الأخطاء بالكاد تتداخل.

نموذج "نموذج-خبير نظري"—حكم مثالي يختار دائمًا الإجابة الصحيحة بين الذكاء الاصطناعي والبشر—تحصل على 87.2% دقة و82.8% مقياس F1. أعلى بكثير من أي منهما بمفرده.
هذا ليس منتجًا. إنه هدف موثق—مبني من حالات طوارئ حقيقية، وليس من مجموعات بيانات منسقة—يحدد بدقة مدى تفوق التعاون بين الإنسان والذكاء الاصطناعي. لوحة النتائج مباشرة على Hugging Face. GPT-5 يقف عند 62.7%. الحد الأقصى هو 87.2%.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
145.25K درجة الشعبية
#
PYTHUnlocks2.13BillionTokens
928.27K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
47.99K درجة الشعبية
#
#DailyPolymarketHotspot
1.01M درجة الشعبية
#
TrumpDelaysIranStrike
16.08M درجة الشعبية

مُثبت

خريطة الموقع

لا تزال الذكاء الاصطناعي عاجزًا عن التفوق على مهندس الخدمة الطارئة: إليك السبب

المواضيع الرائجة

TradfiTradingChallenge

PYTHUnlocks2.13BillionTokens

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

TrumpDelaysIranStrike

مُثبت