اختبار معيار SOOHAK يكشف عن عيوب نماذج الذكاء الاصطناعي: القدرة على التعرف على المشكلات الرياضية التي لا حل لها لم تتجاوز 50%

robot
إنشاء الملخص قيد التقدم

AIMPACT رسالة، في 17 مايو (بتوقيت UTC+8)، كشفت اختبار المعايير الرياضية الجديدة للذكاء الاصطناعي SOOHAK، الذي أنشأه اتحاد الرياضيين المكون من 64 عضوًا، عن عيوب رئيسية في نماذج الذكاء الاصطناعي. يتضمن الاختبار 439 مهمة يدوية، منها 99 مهمة مصممة عمدًا بدون حل. يتفوق Google Gemini 3 Pro في المسائل البحثية، محققًا دقة بنسبة 30%، لكن لا يوجد أي نموذج يتجاوز 50% في التعرف على المهام غير القابلة للحل. أظهرت الدراسات أن المزيد من الموارد الحسابية يمكن أن يعزز قدرة النماذج على حل المشكلات، لكنه لا يمكن أن يعزز قدرتها على الاعتراف بعدم وجود حل للمشكلة. يهدف SOOHAK إلى قياس الفجوة بين إنجازات الذكاء الاصطناعي المتميزة والمهارات البحثية الواسعة التي لا تزال غير متوفرة في الأنظمة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت