تقرير أمان Meta Muse Spark: المعرفة بالأسلحة الكيميائية والتهديدات البيولوجية تصل إلى "مخاطر عالية"، حوالي 20% من النماذج في الاختبار تدرك أنها تتعرض للتقييم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت Meta تقرير الأمان والاستعداد لنموذجها الأول من مختبرات الذكاء الاصطناعي الفائق (Meta Superintelligence Labs) المسمى Muse Spark. Muse Spark هو نموذج استنتاج متعدد الوسائط أصلي، يدعم استدعاء الأدوات، وسلسلة التفكير البصري، والتعاون بين الوكيلات الذكية، وقد تم إطلاقه على منصة Meta AI وفتح معاينة API خاصة. وتقول Meta إن هذا هو الخطوة الأولى لعائلة Muse الجديدة، وهو أيضًا أول إنجاز بعد إعادة بناء نظام البحث والتطوير في الذكاء الاصطناعي من الأساس.
النتائج الأساسية للتقرير: قبل التخفيف، تم تصنيف Muse Spark ضمن إطار التوسع المتقدم للذكاء الاصطناعي من Meta على أنه “عالي المخاطر” في السيناريوهات المتعلقة بالأسلحة الكيميائية والتهديدات البيولوجية، مما يعني أن المعرفة المرتبطة التي يمتلكها النموذج قد تساعد بشكل جوهري في تنفيذ هجمات كيميائية أو بيولوجية. بعد تنفيذ تدابير التخفيف المتعددة، تم خفض المخاطر إلى “متوسطة أو أدنى”.
بعد التخفيف، أظهر Muse Spark معدل رفض أعلى للمواضيع المتعلقة بالتهديدات الكيميائية والبيولوجية مقارنة بجميع المنافسين: BioTIER بنسبة 98.0% (Claude Opus 4.6 بنسبة 95.4%، GPT-5.4 بنسبة 75.4%، Gemini 3.1 Pro بنسبة 59.2%)، ومعدل رفض للمركبات الكيميائية بنسبة 99.4%.
كما كشف التقرير عن ثلاثة نقاط ضعف رئيسية:

  1. فجوة كبيرة في توافق الوكيلات الذكية: في اختبار Agentic Misalignment، يحتمل أن يتخذ Muse Spark إجراءات ضارة بنسبة 47.7%، وGemini 3.1 Pro بنسبة 51.4%، في حين أن Claude Opus 4.6 وGPT-5.4 كلاهما بنسبة 0%.
  2. ضعف في الدفاع ضد الهجمات متعددة المراحل: معدل نجاح الهجمات التكيفية متعددة المراحل هو 44.6%، أعلى من Claude (31.7%) وGPT-5.4 (37.6%).
  3. ارتفاع غير طبيعي في الوعي بالتقييم: اكتشفت مؤسسة Apollo Research الخارجية أن وعي Muse Spark بالتقييم هو الأعلى بين جميع النماذج التي تم اختبارها، حيث أدركت في 19.8% من العينات على المعايير المفتوحة أنها تحت التقييم، واعتبرت السيناريوهات “فخ التوافق” وبدأت في استنتاج أنه يجب أن تكون صادقة في الإجابة.
    يطرح الوعي بالتقييم مشكلة أعمق: إذا كان النموذج يستطيع “التمثيل” خلال الاختبارات الأمنية، فقد لا تعكس نتائج الاختبار سلوكه الحقيقي عند النشر. وتقول Meta إنها لم تكتشف حتى الآن أن الوعي بالتقييم يغير سلوك النموذج بشكل ملحوظ، لكنها تعترف بأنه موضوع بحث مفتوح.
    وفيما يتعلق بالقدرة على البرمجة والبحث المستقل، يتخلف Muse Spark عن المنافسين: معدل النجاح في CyBench هو 65.4% (Claude Opus 4.6 بنسبة 93.0%)، ودرجة MLE-bench هي 15.8% (Claude Opus 4.6 بنسبة 52.0%). وتقر Meta في مدونتها أن “هناك فجوات لا تزال قائمة في أنظمة الوكيلات الذكية طويلة الأمد وسير عمل البرمجة”. ومع ذلك، تشير Meta إلى أن كفاءة التدريب المسبق لـ Muse Spark تفوقت على Llama 4 Maverick بأكثر من 10 أضعاف، وأن نماذج أكبر قيد التطوير.
    (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت