ميثوس 5 يجعل الدكتور العام يلاحق الخبراء المتميزين، لكنه لا يزال غير قادر على أن يكون عالمًا مستقلًا

robot
إنشاء الملخص قيد التقدم
وفقًا لمراقبة Beating، كشفت أنثروبيك في أنظمة Claude Fable 5 وClaude Mythos 5 عن قدرة قوية للمساعدة الخبيرة في تقييم السلامة البيولوجية. في تمرين فريق أحمر لعلم الأمراض النباتية، قام 6 من دكاترة الأحياء بالتعاون مع خبراء النماذج الكبيرة، باستخدام Mythos 5 لتصميم خطة مقاومة بيولوجية شاملة ضد مسببات الأمراض الزراعية الهندسية الافتراضية. من بين الفرق الثلاثة، ضم فريقان خبراء في علم الأمراض النباتية، بينما تشكل الفريقان الآخران دكاترة في علم الأحياء الدقيقة العامة.

أظهرت النتائج أنه خلال 16 ساعة، تفوق فريقان من الفرق الثلاثة من الدكاترة العامين على جميع الفرق الثلاثة من الخبراء من حيث الجودة العلمية والجدوى. قدر خبراء التقييم أنه بدون أدوات الذكاء الاصطناعي، عادةً ما يستغرق إكمال هذه الاستراتيجيات والبروتوكولات التنفيذية من 40 إلى 95 يوم عمل، بمتوسط حوالي 72.5 يوم عمل. ترى أنثروبيك أن هذا يُعد أحد أدلة الأقوى على اقتراب Mythos 5 من عتبة مخاطر CB-2، مما يدل على أن النموذج أصبح قادرًا على دعم الباحثين العامين بمعرفة تخصصية قريبة من خبراء عالميين في بعض المهام.

لكن هذا لا يعني أن Mythos 5 قادر على إتمام الأبحاث المتقدمة بشكل مستقل. وأشارت أنثروبيك أيضًا إلى أن النموذج لا يزال يعتمد على تصفية الأفكار من قبل الخبراء البشريين، ويعاني من ضعف في القدرة على التفكير المفتوح، حيث يكرر تجميع الأدبيات الموجودة بشكل معقد بدلاً من اقتراح مسارات جديدة حقًا؛ كما أنه يميل إلى الاستمرار في التقدم وفقًا لإطار عمل خاطئ يقدمه المستخدم، حتى لو اكتشف عيوبًا في الحلول، قد يستمر في التنفيذ.

هذا الحكم يتناغم أيضًا مع معيار التنبؤ العلمي CUSP. يغطي CUSP 4760 حدثًا علميًا، ويقيم قدرة النموذج على تقييم تقدم البحث العلمي، والتعرف على الآليات، وتوليد الحلول، والتنبؤ بالوقت. أظهرت النتائج أن GPT-5.4 حقق 81.9% في أسئلة التعرف على الآليات ذات الاختيارات الأربعة، مقابل 72.4% لـClaude S4.5، لكن في مهمة التصنيف الثنائي التي تقيم ما إذا كان التقدم العلمي سيُحقق فعلاً، كانت دقة النماذج تتراوح بين 45.3% و51.9%، مما يقارب التخمين العشوائي. بعبارة أخرى، أصبحت النماذج الكبيرة الحالية جيدة جدًا في إكمال الخطوات الجزئية للبحث العلمي، لكنها لا تزال غير موثوقة في تحديد المسارات العلمية التي ستنجح حقًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت