اختبار معيار SOOHAK يكشف عن عيوب نماذج الذكاء الاصطناعي: القدرة على التعرف على المشكلات الرياضية التي لا حل لها لم تتجاوز 50%

robot
إنشاء الملخص قيد التقدم
رسالة AIMPACT، في 17 مايو (بتوقيت UTC+8)، كشفت اختبار المعايير الرياضية الجديدة للذكاء الاصطناعي SOOHAK، الذي أنشأه اتحاد الرياضيين من 64 عضوًا، عن عيوب رئيسية في نماذج الذكاء الاصطناعي. يتضمن الاختبار 439 مهمة يدوية، منها 99 مهمة مصممة عمدًا بدون حل. يتفوق Google Gemini 3 Pro في المسائل البحثية، محققًا دقة بنسبة 30%، لكن لا يوجد أي نموذج قادر على التعرف على المهام غير القابلة للحل بأكثر من 50%. أظهرت الدراسات أن زيادة الموارد الحسابية يمكن أن تعزز قدرة النماذج على حل المشكلات، لكنها لا تستطيع تحسين قدرتها على الاعتراف بعدم وجود حل للمشكلة. يهدف SOOHAK إلى قياس الفجوة بين بعض الإنجازات المتميزة للذكاء الاصطناعي والمهارات البحثية الواسعة التي لا تزال مفقودة في الأنظمة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت