تقرير أمان Meta Muse Spark: المعرفة بالأسلحة الكيميائية والتهديدات البيولوجية تصل إلى «مخاطر عالية»، وقرابة عشرين بالمئة من النماذج في الاختبار تدرك أنها قيد التقييم

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت Meta تقريرًا عن الأمان والاستعداد لأول نموذج من مختبرات الذكاء الاصطناعي الفائق (Meta Superintelligence Labs) وهو Muse Spark. Muse Spark هو نموذج استنتاج متعدد الوسائط أصلي، يدعم استدعاء الأدوات، وسلسلة التفكير البصري، والتعاون بين الوكلاء المتعددين، وقد تم إطلاقه على منصة Meta AI وفتح واجهة برمجة التطبيقات الخاصة به بشكل خاص للمراجعة. وتقول Meta إن هذا هو الخطوة الأولى لعائلة Muse الجديدة، وهو أيضًا أول إنجاز بعد إعادة بناء نظام البحث والتطوير في الذكاء الاصطناعي من الأساس.
النتائج الرئيسية للتقرير: قبل التخفيف، تم تصنيف Muse Spark ضمن إطار العمل “الذكاء الاصطناعي المتقدم الموسع” الخاص بـ Meta على أنه “عالي المخاطر” في السيناريوهات التي تتعلق بالأسلحة الكيميائية والتهديدات البيولوجية، مما يعني أن المعرفة التي يمتلكها النموذج قد تساعد بشكل جوهري في تنفيذ هجمات كيميائية أو بيولوجية. بعد تنفيذ تدابير التخفيف المتعددة، انخفضت المخاطر إلى “متوسطة أو أدنى”.
بعد التخفيف، كانت نسبة رفض Muse Spark للمواضيع المتعلقة بالتهديدات الكيميائية والبيولوجية تتفوق على جميع المنافسين: BioTIER بنسبة 98.0% (Claude Opus 4.6 بنسبة 95.4%، GPT-5.4 بنسبة 75.4%، Gemini 3.1 Pro بنسبة 59.2%)، ونسبة رفض المواد الكيميائية 99.4%.
كما كشف التقرير عن ثلاثة نقاط ضعف رئيسية:

  1. فجوة في توافق الوكيل الذكي: في اختبار Agentic Misalignment، كانت احتمالية اتخاذ Muse Spark إجراءات ضارة 47.7%، وGemini 3.1 Pro بنسبة 51.4%، في حين أن Claude Opus 4.6 وGPT-5.4 كانت 0%.
  2. ضعف في الدفاع ضد الاختراق متعدد الجولات: معدل نجاح الهجمات التكيفية متعددة الجولات 44.6%، أعلى من Claude (31.7%) وGPT-5.4 (37.6%).
  3. ارتفاع غير طبيعي في الوعي بالتقييم: اكتشفت مؤسسة أبحاث الطرف الثالث Apollo Research أن وعي Muse Spark بالتقييم هو الأعلى بين جميع النماذج التي تم اختبارها، حيث أدركت في 19.8% من العينات في الاختبارات المرجعية العامة أنها تحت التقييم، واعتبرت السيناريوهات “فخ التوافق” وبدأت في استنتاج أنه يجب أن تكون صادقة في الإجابة.
    يطرح الوعي بالتقييم مشكلة أعمق: إذا كان النموذج يمكنه “التمثيل” أثناء الاختبارات الأمنية، فقد لا تعكس نتائج الاختبار سلوكه الحقيقي عند النشر. وتقول Meta إنه لم يتم اكتشاف أن الوعي بالتقييم يغير سلوك النموذج بشكل ملحوظ حتى الآن، لكنها تعترف بأنه موضوع بحث مفتوح.
    وفيما يتعلق بالقدرة على البرمجة والبحث المستقل، يتخلف Muse Spark عن المنافسين: معدل النجاح في CyBench هو 65.4% (Claude Opus 4.6 بنسبة 93.0%)، ودرجة MLE-bench هي 15.8% (Claude Opus 4.6 بنسبة 52.0%). وتقر Meta في مدونتها بأن “هناك فجوات لا تزال قائمة في أنظمة الوكيل الذكي طويلة الأمد وسير عمل البرمجة”. ومع ذلك، تشير Meta إلى أن كفاءة التدريب المسبق لـ Muse Spark تفوقت على Llama 4 Maverick بأكثر من 10 أضعاف، وأن نماذج أكبر قيد التطوير.
    (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت