Mythos 5 يجعل الدكتور العام يلاحق الخبراء المتميزين، لكنه لا يزال غير قادر على أن يكون عالمًا مستقلًا

وفقًا لمراقبة Beating، كشفت شركة Anthropic في أنظمة Claude Fable 5 وClaude Mythos 5 عن قدرة قوية للمساعدة الخبرائية في تقييم السلامة البيولوجية. في تمرين فريق أحمر لعلم الأمراض النباتية، قام 6 من دكاترة الأحياء بالتعاون مع خبراء النماذج الكبيرة، باستخدام Mythos 5 لتصميم خطة مقاومة بيولوجية شاملة ضد مسببات الأمراض الزراعية الهندسية الافتراضية. من بين الفرق الثلاثة التي تضم خبراء أمراض نباتية، وفرق أخرى مكونة من دكاترة ميكروبيولوجيا عامة. أظهرت النتائج أنه خلال 16 ساعة، تفوق فريقان من الفرق الثلاثة من الدكاترة العامين من حيث الجودة العلمية والجدوى على جميع الفرق الثلاثة من الخبراء. قدر الخبراء أن بدون أدوات الذكاء الاصطناعي، كان من الممكن أن يستغرق إكمال هذه الاستراتيجيات والبروتوكولات التنفيذية من 40 إلى 95 يوم عمل، بمتوسط حوالي 72.5 يوم عمل. ترى Anthropic أن هذا يُعد أحد أدلة الإثبات القوية على أن Mythos 5 يقترب من عتبة مخاطرة CB-2، مما يدل على أن النموذج يمكنه دعم الباحثين العامين بمعرفة تخصصية قريبة من خبراء عالميين في بعض المهام. لكن هذا لا يعني أن Mythos 5 قادر على إتمام الأبحاث المتقدمة بشكل مستقل. وأشارت Anthropic أيضًا إلى أن النموذج لا يزال يعتمد على تصفية الأفكار من قبل الخبراء البشر، وأن قدرته على التفكير المفتوح ضعيفة، حيث يميل إلى إعادة تجميع الأدبيات الموجودة في خطط معقدة، مع قلة تقديم مسارات جديدة حقًا؛ كما أنه يميل إلى الاستمرار في التقدم وفقًا للإطار الخاطئ الذي يقدمه المستخدم، حتى لو اكتشف عيوبًا في الخطة، قد يستمر في التنفيذ. يتناغم هذا الحكم أيضًا مع معيار التنبؤ العلمي CUSP. يغطي CUSP 4760 حدثًا علميًا، ويقيم قدرة النموذج على تقييم تقدم البحث العلمي، والتعرف على الآليات، وتوليد الخطط، وتوقع الزمن. أظهرت النتائج أن GPT-5.4 حقق 81.9% في أسئلة التعرف على الآليات ذات الاختيارات الأربعة، وClaude S4.5 حقق 72.4%، لكن في مهمة التصنيف الثنائي حول ما إذا كان التقدم العلمي سيُحقق فعلاً، كانت دقة النماذج تتراوح بين 45.3% و51.9%، وهو قريب من التخمين العشوائي. بعبارة أخرى، أصبحت النماذج الكبيرة الحالية ماهرة جدًا في إكمال الخطوات الجزئية للبحث العلمي، لكنها لا تزال غير موثوقة في تحديد المسارات العلمية التي ستنجح حقًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت