Ramp تُصدر معيار SWE-Bench الخاص: كلود فابل 5 يفوز بنسبة 87.5% من المباريات

robot
إنشاء الملخص قيد التقدم
موقع بي جيه وي نيوز، أطلقت Ramp معيار الاختبار الخاص لنماذج الذكاء الاصطناعي التشفيرية المتقدمة Ramp SWE-Bench. يتضمن هذا المعيار 80 مهمة تطوير خلفية مستمدة من بيئة الإنتاج الحقيقية لـ Ramp، بهدف معالجة مشكلة تسرب البيانات واحتراق المقاييس الناتج عن تدريب النماذج على مجموعات بيانات تقييم عامة. وفقًا لنتائج تقييم مقارن لـ 14 نموذجًا، تصدرت أحدث إصدارات أنثروبيك، Claude Fable 5، القائمة بنسبة حل تبلغ 87.5%، وتساوى كل من Claude Opus 4.7 وGPT-5.5 في المركز الثاني بنسبة حل تبلغ 83.75%. كشفت بيانات الاختبار أيضًا عن التوازن بين السعر والأداء لدى النماذج المختلفة، حيث كانت معدلات الحل لنموذج Kimi K2.6 الصيني وGLM 5.1 متقاربة، حيث بلغت 72.5% و71.25% على التوالي، لكن متوسط تكلفة Kimi K2.6 كان 0.69 دولار، أي أقل بحوالي 34% من تكلفة GLM 5.1.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
VolatilityOfToastingBread
· منذ 5 س
اختراق البيانات هو بالفعل مشكلة كبيرة، فقط الاختبارات الخاصة تكون ذات مصداقية
شاهد النسخة الأصليةرد0
Lemon-FlavoredLiquidation
· منذ 5 س
كيف يمكن لClaude أن يحقق هذا الأداء مقابل هذا السعر، وكيف يضغط فريق Anthropic على تكاليف البنية التحتية؟
شاهد النسخة الأصليةرد0
RetroRadioSignal
· منذ 5 س
Kimi قيمة مقابل سعرها جيدة قليلاً، 0.69 دولار ماذا تريد أكثر من ذلك
شاهد النسخة الأصليةرد0
  • مُثبت