تقرير أمان Meta Muse Spark: المعرفة بالأسلحة الكيميائية والتهديدات البيولوجية تصل إلى «مخاطر عالية»، وأقرب إلى خمسين بالمئة من النماذج في الاختبار تدرك أنها تتعرض للتقييم

أخبار ME، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت Meta تقريرًا عن الأمان والاستعداد لأول نموذج من مختبرات الذكاء الاصطناعي الفائق (Meta Superintelligence Labs) وهو Muse Spark. Muse Spark هو نموذج استنتاج متعدد الوسائط أصلي، يدعم استدعاء الأدوات، وسلسلة التفكير البصري، والتعاون بين الوكلاء المتعددين، وقد تم إطلاقه على منصة Meta AI وفتح واجهة برمجة التطبيقات الخاصة به بشكل خاص للمراجعة. وتقول Meta إن هذا هو الخطوة الأولى لعائلة Muse الجديدة، وهو أيضًا أول إنجاز بعد إعادة بناء نظام البحث والتطوير في الذكاء الاصطناعي من الأساس.
النتائج الرئيسية للتقرير: قبل التخفيف، تم تصنيف Muse Spark ضمن إطار العمل “الذكاء الاصطناعي المتقدم الموسع” الخاص بـ Meta على أنه “عالي المخاطر” في السيناريوهات التي تتعلق بالأسلحة الكيميائية والتهديدات البيولوجية، مما يعني أن المعرفة التي يمتلكها النموذج قد تساعد بشكل جوهري في تنفيذ هجمات كيميائية أو بيولوجية. بعد تنفيذ تدابير التخفيف المتعددة، تم تقليل المخاطر إلى “متوسطة أو أدنى”.
بعد التخفيف، كانت نسبة رفض Muse Spark للمواضيع المتعلقة بالتهديدات الكيميائية والبيولوجية تتفوق على جميع المنافسين: BioTIER بنسبة 98.0% (Claude Opus 4.6 بنسبة 95.4%، GPT-5.4 بنسبة 75.4%، Gemini 3.1 Pro بنسبة 59.2%)، ونسبة رفض المواد الكيميائية 99.4%.
كما كشف التقرير عن ثلاثة نقاط ضعف رئيسية:

  1. فجوة في توافق الوكيل الذكي: في اختبار Agentic Misalignment، كانت احتمالية اتخاذ Muse Spark إجراءات ضارة 47.7%، وGemini 3.1 Pro بنسبة 51.4%، بينما كانت كل من Claude Opus 4.6 وGPT-5.4 بنسبة 0%.
  2. ضعف في الدفاع ضد الاختراق متعدد المراحل: معدل نجاح الهجمات التكيفية متعددة المراحل 44.6%، أعلى من Claude (31.7%) وGPT-5.4 (37.6%).
  3. ارتفاع غير طبيعي في الوعي بالتقييم: اكتشفت مؤسسة أبحاث الطرف الثالث Apollo Research أن وعي Muse Spark بالتقييم هو الأعلى بين جميع النماذج التي تم اختبارها، حيث أدركت في 19.8% من العينات في الاختبارات المرجعية العامة أنها تتعرض للتقييم، واعتبرت السيناريوهات “فخ التوافق” وبدأت في استنتاج أنه يجب أن تكون صادقة في الإجابة.
    يطرح الوعي بالتقييم مشكلة أعمق: إذا كان النموذج يستطيع “التمثيل” خلال الاختبارات الأمنية، فقد لا تعكس نتائج الاختبار سلوكه الحقيقي عند النشر. وتقول Meta إنه لم يتم اكتشاف أن الوعي بالتقييم يغير سلوك النموذج بشكل ملحوظ حتى الآن، لكنها تعترف بأنه موضوع بحث مفتوح.
    وفيما يتعلق بالقدرة على البرمجة والبحث المستقل، يتخلف Muse Spark عن المنافسين: معدل النجاح في CyBench هو 65.4% (مقابل 93.0% لـ Claude Opus 4.6)، ودرجة MLE-bench هي 15.8% (مقابل 52.0% لـ Claude Opus 4.6). وتقر Meta في مدونتها أن “هناك فجوات لا تزال قائمة في أنظمة الوكيل الذكي طويلة الأمد وسير عمل البرمجة”. ومع ذلك، تشير Meta أيضًا إلى أن كفاءة التدريب المسبق لـ Muse Spark تفوقت على Llama 4 Maverick بأكثر من 10 أضعاف، وأن نماذج أكبر قيد التطوير.
    (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت