تأثير اختبار Augment Code على توليد الكود: الأفضل يعادل ترقية النموذج إلى مستوى أعلى، والأسوأ لا يساوي عدم الكتابة

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 23 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، قامت شركة أدوات البرمجة الذكية Augment Code باستخراج عشرات ملفات AGENTS.md من مستودعها الأحادي، واختبار تأثيرها الفعلي على إنتاج وكيل البرمجة باستخدام مجموعة التقييم الداخلية AuggieBench. الطريقة هي الاعتماد على طلبات السحب عالية الجودة المدمجة كمرجع، ثم يعيد الوكيل أداء نفس المهمة في حالتين: وجود وغياب ملفات AGENTS.md، لمقارنة النتائج. الفارق كان أكبر بكثير من المتوقع. التحسين في الجودة الناتج عن أفضل ملفات AGENTS.md يعادل استبدال النموذج من Haiku إلى Opus، وأدنى مستوى منها لا يختلف عن عدم وجودها على الإطلاق. والأمر المثير أن نفس الملف يمكن أن يكون له تأثير معاكس في مهام مختلفة: حيث زاد الالتزام بمعايير تصحيح خطأ واحد بنسبة 25%، لكنه خفض إنجاز وظيفة معقدة في نفس الوحدة بنسبة 30%.
هناك عدة طرق فعالة للكتابة: جعل الملف الرئيسي يتراوح بين 100 إلى 150 سطر، وإرفاق بعض الوثائق المرجعية المركزة، حيث يمكن أن يؤدي ذلك إلى تحسين شامل يتراوح بين 10% إلى 15% في وحدات مركزية تتكون من حوالي مائة ملف. كتابة الخطوات بشكل مرقم يعطي أفضل النتائج، حيث أن عملية نشر مكونة من 6 خطوات تقلل نسبة الطلبات التي تفوت ملفاتها من 40% إلى 10%، وترتفع نسبة الدقة بنسبة 25%. استخدام جدول قرارات لمساعدة الوكيل على اختيار الحل الصحيح قبل التنفيذ، زاد من الالتزام بالمعايير بنسبة 25%. عند كتابة أوامر المنع، يجب أن تكون مصحوبة بخيارات بديلة، فكتابة “لا تفعل” فقط تجعل الوكيل يتردد، وتؤدي أكثر من 15 تحذير متتالي إلى تدهور واضح في الأداء.
أكثر الأمور عرضة للفشل هي وجود الكثير من الوثائق. فعندما يُجبر الوكيل على التعامل مع عدد كبير من وثائق الهيكلية، بعد تحميل مئات الآلاف من الرموز، يصبح الأداء أسوأ. هناك وحدة تحتوي على 226 وثيقة تتجاوز 2 ميجابايت، وملفات AGENTS.md حتى لو كانت ممتازة لن تفيد. بالإضافة إلى ذلك، فإن ملف AGENTS.md هو الموقع الوحيد الذي يقرأه الوكيل بنسبة 100%، حيث أن نسبة اكتشاف الوثائق غير المرتبطة في مجلد _docs/ أقل من 10%.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت