موقع بي جيه وي نيوز، أصدرت شركة AA-Briefcase بيانًا يفيد بأن كلاود فابل 5 فاز بالمركز الأول في التقييم، بينما جاء GLM-5.2 في المركز الثالث. أطلقت وكالة التقييم Artificial Analysis أول معيار تقييم معرفي طويل الأمد مصمم خصيصًا لنماذج الذكاء الاصطناعي الكبيرة، ويشمل أربعة سيناريوهات: علوم البيانات، إدارة المنتجات، عمليات البنوك، واستراتيجيات الصناعات الثقيلة، تم تطويره بواسطة خبراء من جوجل وماكينزي واستشارات بوسطن، ويتضمن 91 مهمة بهدف محاكاة تدفقات المشاريع التجارية المعقدة والحقيقية. أظهرت النتائج أن كلاود فابل 5 حصل على أعلى تقييم شامل، يليه كلاود أوبوس 4.8 وGLM-5.2 في المركزين الثاني والثالث على التوالي. على الرغم من أداء كلاود فابل 5 القوي، إلا أن معدل الكمال في معيار الأداء الكامل للمهمات الفردية كان فقط 3%. فيما يخص النماذج المفتوحة المصدر، أظهر نموذج جي بي إم-5.2 من زيبور أداءً مميزًا، حيث كانت الدرجة الإجمالية أقل بمقدار 90 نقطة فقط من كلاود أوبوس 4.8، ولكن تكاليف التشغيل كانت أقل من 25% من تكاليفه.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 3

أعجبني
3
4
1
مشاركة

تعليق

إضافة تعليق

MempoolMaggie

· منذ 4 س

كلود فابل 5 يفوز بالبطولة لكن معدل الكمال 3٪، هذا الرقم مؤلم جدًا، ويُظهر أن المهام طويلة المدى لا تزال بمثابة جحيم بالنسبة للذكاء الاصطناعي.

شاهد النسخة الأصليةرد0

SandwichAlertAgent

· منذ 4 س

Opus 4.8 الموقع الثاني لديه بعض الإحراج، غالي ولكنه غير مستقر، على Anthropic أن يفكر في كيفية سرد القصة.

شاهد النسخة الأصليةرد0

BridgeHopRanger

· منذ 4 س

نموذج GLM-5.2 مفتوح المصدر يحقق قيمة ممتازة مقابل السعر، بفارق 90 نقطة في النتائج مع توفير 75% من التكاليف، والشركات ستعيد حساباتها في الشراء.

شاهد النسخة الأصليةرد0

GlassDomeObservatory

· منذ 4 س

91 مهمة تغطي أربع صناعات، مع اعتماد من جوجل وماكينزي، وأنا أعتقد أن قيمة هذا المعيار عالية.

شاهد النسخة الأصليةرد0

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
856.17K درجة الشعبية
#
WarshDebutsAsFedHoldsRatesSteady
1.44M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
59.33K درجة الشعبية
#
PredictWorldCup🇺🇸vs🇵🇾
885.38K درجة الشعبية
#
TradFiCFDGoldMaster
1.1M درجة الشعبية

مُثبت

خريطة الموقع

نشرة AA-Briefcase: فاز Claude Fable 5 بالمركز الأول، و GLM-5.2 دخل الثلاثة الأوائل

المواضيع الرائجة

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

مُثبت