أنثروبيك تصدر BioMysteryBench: خمسة خبراء لا يستطيعون الإجابة على أسئلة الكائنات الحية، كلود ميثوس يستطيع حل 30% منها

robot
إنشاء الملخص قيد التقدم

AIMPACT رسالة، في 30 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating من 动察، أصدرت Anthropic BioMysteryBench، وهي مجموعة من 99 سؤالًا لتقييم المعايير في علم الأحياء المعلوماتي. تم إعداد الأسئلة بواسطة خبراء المجال استنادًا إلى مجموعات بيانات حقيقية (تسلسل DNA/RNA، علم البروتينات، علم الأيض، وغيرها)، والإجابات تأتي من خصائص البيانات الموضوعية أو من بيانات وصفية للتحقق التجريبي، ولا تعتمد على الحكم الشخصي للباحثين. من الأمثلة النموذجية على الأسئلة: تحديد الجين الذي تم تعطيله في مجموعة تجريبية استنادًا إلى بيانات RNA-seq، أو استنتاج علاقة الأبوة من بيانات تسلسل الجينوم الكامل. يوفر بيئة تقييم لClaude حاوية مثبت فيها أدوات علم الأحياء المعلوماتي الشائعة، ويمكن تثبيت البرامج عبر pip و conda، والوصول إلى قواعد البيانات العامة مثل NCBI و Ensembl لتحميل الجينوم المرجعي، ويقتصر التقييم على الإجابة النهائية، دون قيود على مسار التحليل. من بين الـ99 سؤالًا، أجاب على الأقل واحد من خبراء بشريين بشكل صحيح في 76 سؤالًا (يمكن للبشر حلها)، في حين أن الـ23 سؤالًا المتبقية لم يتمكن من حلها أكثر من 5 خبراء في المجال بعد محاولاتهم (صعبة على البشر).
بالنسبة للأسئلة التي يمكن للبشر حلها، بلغت دقة Claude Opus 4.6 نسبة 77.4%، مع تحسين إضافي بواسطة Mythos Preview. في الـ23 سؤالًا الصعبة على البشر، تمكنت نماذج Sonnet 4.6 والأقوى من حل نسبة كبيرة منها، ووصلت Mythos Preview إلى 30%. أظهر تحليل المسارات أن لدى Claude استراتيجيتين رئيسيتين: الأولى هي استدعاء المعرفة المدمجة في بيانات التدريب، لإجراء استنتاجات تتطلب تحليلًا ميتا لا يمكن للبشر مباشرة الوصول إليها؛ الثانية هي تشغيل عدة طرق تحليلية في وقت واحد عند عدم اليقين، وأخذ تقاطع الأدلة من عدة مسارات.
يكشف تحليل الموثوقية عن فرق دقيق: في الأسئلة التي يمكن للبشر حلها، كانت نسبة الإجابات الصحيحة من Opus 4.6 التي كانت على الأقل صحيحة 4 مرات من أصل 5 محاولات 86%، وهو أداء مستقر؛ أما في الأسئلة الصعبة على البشر، انخفضت هذه النسبة إلى 44%، حيث أن نصف الإجابات الصحيحة كانت تتكرر مرة أو مرتين فقط من أصل 5 محاولات، وهو أشبه بمحاولة عشوائية لاتباع مسار استنتاج معين. وراء فرق الدقة، يوضح فرق الموثوقية بشكل أفضل حدود القدرة.
نشرت شركة Genentech و Roche في نفس الوقت مجموعة CompBioBench، التي تتضمن 100 سؤال في علم الأحياء الحسابي، وتبلغ نسبة نجاح Claude Opus 4.6 فيها بشكل عام 81%، وأصعب سؤال بنسبة 69%، مما يدعم استنتاجات BioMysteryBench.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت