Sakana Fugu و Fable 5 مقارنة نتائج الاختبار موضع شك، اختلافات سقالة الاختبار قد تسبب انحرافًا من 10 إلى 20 نقطة.

robot
إنشاء الملخص قيد التقدم
ME AI أخبار، وفقًا لمراقبة Beating، فإن نظام التعاون متعدد الوكلاء Fugu Ultra الذي طورته شركة AI الناشئة اليابانية Sakana AI يدعي أنه تفوق على النموذج الرائد لـ Anthropic Fable 5 في العديد من المعايير المعيارية مثل الاستدلال العلمي والبرمجة، لكن استنتاج النقاط قوبل بتشكيك واسع من المجتمع. ينتقدون أنه ليس موضوعيًا مقارنة البيانات الذاتية في بيئة اختبار غير موحدة. تعتمد نتائج الاختبار بشكل كبير على السقالات التشغيلية (Scaffold/Harness)، ويمكن أن يصل انحراف النقاط الناتج عن السقالات المختلفة إلى 10-20 نقطة، مما يجعل ما يُسمى بـ "التفوق" إلى حد كبير نتاج تحسين هندسة النظم، وليس تفوقًا عبر الأجيال في قدرات النموذج الأساسي. تشير بيانات التقييم المستقلة إلى أن السقالات التشغيلية للوكلاء المبنية حول النماذج الكبيرة لها تأثير كبير على النتيجة النهائية. تحت نفس نموذج Claude Opus 4.5، مجرد استبدال ثلاثة سقالات مفتوحة المصدر مختلفة يؤدي إلى تقلب في معدل الإصلاح في اختبار SWE-bench Pro من 50.2% إلى 55.4%. يؤكد تحليل مؤسسة الاختبار المستقلة Scale AI أن استراتيجيات التشغيل مثل قوالب الموجهات والحد الأقصى لعدد المحاولات وإدارة الاحتفاظ بالسياق وتكامل استدعاء الأدوات كافية لإنتاج انحراف نقاط يتراوح بين 10 و20 نقطة لنفس مجموعة أوزان النموذج. نظرًا لأن البيانات التي نشرتها Sakana AI و Anthropic تستند إلى سقالات مغلقة المصدر (Vendor Scaffold) تم تحسينها كل منها لنظامها الخاص، دون اختبار موحد في بيئة مستقلة طرف ثالث معيارية (مثل Scale SEAL)، فإن البيانات لا يمكن أن تعكس حقًا قوة قدرات النموذجين الأساسيتين. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت