موقع بي جيه وي نيوز، أطلقت Ramp معيار الاختبار الخاص لنماذج الذكاء الاصطناعي التشفيرية المتقدمة Ramp SWE-Bench. يتضمن هذا المعيار 80 مهمة تطوير خلفية مستمدة من بيئة الإنتاج الحقيقية لـ Ramp، بهدف معالجة مشكلة تسرب البيانات واحتراق المقاييس الناتج عن تدريب النماذج على مجموعات بيانات تقييم عامة. وفقًا لنتائج تقييم مقارن لـ 14 نموذجًا، تصدرت أحدث إصدارات أنثروبيك، Claude Fable 5، القائمة بنسبة حل تبلغ 87.5%، وتساوى كل من Claude Opus 4.7 وGPT-5.5 في المركز الثاني بنسبة حل تبلغ 83.75%. كشفت بيانات الاختبار أيضًا عن التوازن بين السعر والأداء لدى النماذج المختلفة، حيث كانت معدلات الحل لنموذج Kimi K2.6 الصيني وGLM 5.1 متقاربة، حيث بلغت 72.5% و71.25% على التوالي، لكن متوسط تكلفة Kimi K2.6 كان 0.69 دولار، أي أقل بحوالي 34% من تكلفة GLM 5.1.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 4

أعجبني
4
3
1
مشاركة

تعليق

إضافة تعليق

VolatilityOfToastingBread

· منذ 5 س

اختراق البيانات هو بالفعل مشكلة كبيرة، فقط الاختبارات الخاصة تكون ذات مصداقية

شاهد النسخة الأصليةرد0

Lemon-FlavoredLiquidation

· منذ 5 س

كيف يمكن لClaude أن يحقق هذا الأداء مقابل هذا السعر، وكيف يضغط فريق Anthropic على تكاليف البنية التحتية؟

شاهد النسخة الأصليةرد0

RetroRadioSignal

· منذ 5 س

Kimi قيمة مقابل سعرها جيدة قليلاً، 0.69 دولار ماذا تريد أكثر من ذلك

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
163.69K درجة الشعبية
#
TradFiCFDGoldMaster
1.99M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
57.63K درجة الشعبية
#
PredictWorldCup🇺🇸vs🇵🇾
773.11K درجة الشعبية
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5.73M درجة الشعبية

مُثبت

خريطة الموقع

Ramp تُصدر معيار SWE-Bench الخاص: كلود فابل 5 يفوز بنسبة 87.5% من المباريات

المواضيع الرائجة

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

مُثبت