نشرة AA-Briefcase: فاز Claude Fable 5 بالمركز الأول، و GLM-5.2 دخل الثلاثة الأوائل

robot
إنشاء الملخص قيد التقدم
موقع بي جيه وي نيوز، أصدرت شركة AA-Briefcase بيانًا يفيد بأن كلاود فابل 5 فاز بالمركز الأول في التقييم، بينما جاء GLM-5.2 في المركز الثالث. أطلقت وكالة التقييم Artificial Analysis أول معيار تقييم معرفي طويل الأمد مصمم خصيصًا لنماذج الذكاء الاصطناعي الكبيرة، ويشمل أربعة سيناريوهات: علوم البيانات، إدارة المنتجات، عمليات البنوك، واستراتيجيات الصناعات الثقيلة، تم تطويره بواسطة خبراء من جوجل وماكينزي واستشارات بوسطن، ويتضمن 91 مهمة بهدف محاكاة تدفقات المشاريع التجارية المعقدة والحقيقية. أظهرت النتائج أن كلاود فابل 5 حصل على أعلى تقييم شامل، يليه كلاود أوبوس 4.8 وGLM-5.2 في المركزين الثاني والثالث على التوالي. على الرغم من أداء كلاود فابل 5 القوي، إلا أن معدل الكمال في معيار الأداء الكامل للمهمات الفردية كان فقط 3%. فيما يخص النماذج المفتوحة المصدر، أظهر نموذج جي بي إم-5.2 من زيبور أداءً مميزًا، حيث كانت الدرجة الإجمالية أقل بمقدار 90 نقطة فقط من كلاود أوبوس 4.8، ولكن تكاليف التشغيل كانت أقل من 25% من تكاليفه.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
MempoolMaggie
· منذ 4 س
كلود فابل 5 يفوز بالبطولة لكن معدل الكمال 3٪، هذا الرقم مؤلم جدًا، ويُظهر أن المهام طويلة المدى لا تزال بمثابة جحيم بالنسبة للذكاء الاصطناعي.
شاهد النسخة الأصليةرد0
SandwichAlertAgent
· منذ 4 س
Opus 4.8 الموقع الثاني لديه بعض الإحراج، غالي ولكنه غير مستقر، على Anthropic أن يفكر في كيفية سرد القصة.
شاهد النسخة الأصليةرد0
BridgeHopRanger
· منذ 4 س
نموذج GLM-5.2 مفتوح المصدر يحقق قيمة ممتازة مقابل السعر، بفارق 90 نقطة في النتائج مع توفير 75% من التكاليف، والشركات ستعيد حساباتها في الشراء.
شاهد النسخة الأصليةرد0
GlassDomeObservatory
· منذ 4 س
91 مهمة تغطي أربع صناعات، مع اعتماد من جوجل وماكينزي، وأنا أعتقد أن قيمة هذا المعيار عالية.
شاهد النسخة الأصليةرد0
  • مُثبت