أطلقت OpenAI معيارًا جديدًا في علم الأحياء الحسابي يُدعى GeneBench-Pro، ونسبة صحة الإصدار الكامل من GPT-5.6 لا تتجاوز 30%.

robot
إنشاء الملخص قيد التقدم
أخبار من Coin World، أصدرت OpenAI معيارًا للتقييم في البيولوجيا الحاسوبية يُدعى GeneBench-Pro، يستخدم لاختبار قدرة وكلاء الذكاء الاصطناعي على اتخاذ قرارات متعددة الخطوات في مواجهة السيناريوهات العلمية المعقدة مثل علم الجينوم والطب التحويلي. يحتوي المعيار الجديد على 129 سؤالًا (منها 82 خضعت لمراجعة خبراء خارجيين)، ويتم إنشاء بيانات ذات علاقات سببية واضحة من خلال المحاكاة الحاسوبية، لمنع النماذج من الغش عن طريق اختصار المسارات أو تلبية تفضيلات واضعي الأسئلة. أظهرت نتائج الاختبار أن النماذج المتطورة لا تزال تواجه صعوبة كبيرة في التعامل مع الاستدلال العلمي الذي يتضمن عدم يقين كمي. أقوى نموذج GPT-5.6 في وضع Pro لم يحقق سوى معدل صحة 31.5%، بينما بلغ معدل صحة Claude Opus 4.8 فقط 16.0%. وأشار فريق البحث إلى أن النماذج تعاني بشكل عام من ظاهرة "فجوة" حيث تستطيع اكتشاف الشذوذ لكنها لا تصحح التحليل اللاحق، وغالبًا ما تختار طرقًا إحصائية خاطئة أو تتمسك باتجاهات علمية خاطئة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 3
  • 2
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
ShellsLeftBehindByTheReceding
· منذ 2 س
هذه النقاط جعلتني صامتًا، كلود أوبوس 16% فقط؟
شاهد النسخة الأصليةرد0
Salt-BakedSentimentChart
· منذ 2 س
في 129 سؤالًا، تم مراجعة 82 منها من قبل خبراء، وقد بُذل جهد كبير في مكافحة الغش، لكن النموذج أخطأ في اختيار الطريقة الإحصائية، مما يدل على نقص في المنطق الأساسي.
شاهد النسخة الأصليةرد0
PixelMetaverseRaccoon
· منذ 2 س
اتخاذ القرارات متعددة الخطوات سهل، لكن عندما تكتشف الخطأ وتستمر في المضي قدمًا بعناد، أليس هذا هو ما أفعله في تجاربي؟
شاهد النسخة الأصليةرد0
  • مُثبت