4,760 نقطة إنجاز تم إدخالها، والتوقعات لا تزال على مستوى رمي العملة. حتى مع قوة الاستدلال الميكانيكي، عند مواجهة مجالات غير معروفة بدون معايير واضحة، لا تزال تتخبط.

شاهد النسخة الأصلية
CoinNetwork
الذكاء الاصطناعي لا يمكنه أن يكون عالمًا مستقلًا بعد، تقييم CUSP يكشف عن نقص الرؤية البحثية المستقبلية في النماذج الكبيرة
أطلقت مؤسسة ستانفورد / أكسفورد / معهد ألين للأبحاث في الذكاء الاصطناعي معيار التوقيت الزمني CUSP، لتقييم قدرة الذكاء الاصطناعي على التنبؤ بالتقدم العلمي. أظهرت اختبارات GPT-5.4، Claude Sonnet 4.5، DeepSeek R1 وغيرها أداءً جيدًا في فهم آليات المسارات التقنية الحالية، لكن التنبؤ بما إذا كانت الاكتشافات الجديدة ستتحقق كان شبه عشوائي، وكان هناك تأخير منهجي في توقيت الاختراقات. يعتمد CUSP على المعرفة الزمنية حتى الآن، ويجمع أحدث التطورات في مجلات Nature و Science، ويشمل المعيار 4,760 علامة بارزة، و17,429 مهمة. والنتيجة هي أنه في الاستكشاف العلمي الذي يفتقر إلى إجابات معيارية، لا يمكن للنماذج الحالية تقديم تنبؤات موثوقة للمستقبل.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت