نموذج K2 Thinking الأحدث لكيمي قد حطم للتو معايير الصناعة المتعددة. نحن نتحدث عن قفزات جدية في قوة التفكير ومهارات البرمجة هنا.
الأرقام؟ برية جدًا: - حقق 44.9% على HLE عند تزويده بالأدوات - وصلت إلى 60.2% على BrowseComp - وصلت إلى 71.3% على SWE-Bench Verified
تعتبر هذه الدرجات مهمة لأنها تقيس مدى قدرة الذكاء الاصطناعي على التعامل مع حل المشكلات المعقدة والمهام على مستوى الوكيل. بالنسبة لأي شخص يعمل في هذا المجال، فإن هذا النوع من التقدم يمكن أن يعيد تشكيل طريقة تعاملنا مع سير عمل التطوير الآلي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 6
أعجبني
6
4
إعادة النشر
مشاركة
تعليق
0/400
GateUser-00be86fc
· منذ 9 س
لقد حان الوقت للدخول في الصفقة
شاهد النسخة الأصليةرد0
LiquidatedThrice
· منذ 10 س
هاكر، إذا استمر الأمر على هذا النحو، ستأخذ الذكاء الاصطناعي وظيفتي.
نموذج K2 Thinking الأحدث لكيمي قد حطم للتو معايير الصناعة المتعددة. نحن نتحدث عن قفزات جدية في قوة التفكير ومهارات البرمجة هنا.
الأرقام؟ برية جدًا:
- حقق 44.9% على HLE عند تزويده بالأدوات
- وصلت إلى 60.2% على BrowseComp
- وصلت إلى 71.3% على SWE-Bench Verified
تعتبر هذه الدرجات مهمة لأنها تقيس مدى قدرة الذكاء الاصطناعي على التعامل مع حل المشكلات المعقدة والمهام على مستوى الوكيل. بالنسبة لأي شخص يعمل في هذا المجال، فإن هذا النوع من التقدم يمكن أن يعيد تشكيل طريقة تعاملنا مع سير عمل التطوير الآلي.