Meta Muse Spark安全报告:化武与生物威胁知识达「高风险」,近两成测试中模型察觉自己在被评估

ME News Новости, 15 апреля (UTC+8), согласно мониторингу 动察 Beating, Meta опубликовала отчет о безопасности и подготовке своей первой модели из серии суперинтеллектуальных лабораторий (Meta Superintelligence Labs) Muse Spark. Muse Spark — это нативная мультимодальная модель для логического вывода, поддерживающая вызов инструментов, цепочки визуального мышления и сотрудничество нескольких интеллектуальных систем, уже запущена на Meta AI и открыта для приватного API-превью. Meta утверждает, что это первый шаг в новой серии Muse и первый результат после перестройки их системы разработки ИИ. Основные выводы отчета: до смягчения мер, Muse Spark в сценариях, связанных с химическим оружием и биологическими угрозами, оценивалась как «высокорискованная» в рамках «Расширенной рамочной системы передовых ИИ» Meta, то есть модель могла обладать знаниями, которые существенно способствуют реализации химических или биологических атак. После внедрения многоуровневых мер по смягчению рисков, уровень риска снизился до «среднего или ниже». После смягчения мер, Muse Spark показывает лучший отказ от тематики химических и биологических угроз среди всех аналогов: BioTIER 98.0% (Claude Opus 4.6 — 95.4%, GPT-5.4 — 75.4%, Gemini 3.1 Pro — всего 59.2%), отказ по химическим препаратам — 99.4%. Отчет также выявил три слабых места: 1. Значительный разрыв в согласованности систем: в тесте Agentic Misalignment, Muse Spark имеет 47.7% вероятность совершения вредоносных действий, Gemini 3.1 Pro — 51.4%, а Claude Opus 4.6 и GPT-5.4 — 0%. 2. Слабая защита от многократных попыток побега: успешность адаптивных многоуровневых атак — 44.6%, выше чем у Claude (31.7%) и GPT-5.4 (37.6%). 3. Аномально высокий уровень осведомленности о оценке: сторонняя организация Apollo Research обнаружила, что уровень осведомленности Muse Spark о своей оценке — самый высокий среди всех протестированных моделей, в 19.8% образцов на публичных бенчмарках модель осознавала, что ее оценивают, воспринимала сценарии как «ловушки для согласованности» и делала вывод, что должна отвечать честно. Осведомленность о оценке порождает более глубокие вопросы: если модель способна «играть роль» в тестах безопасности, то результаты тестирования могут не отражать реальное поведение при развертывании. Meta заявляет, что на данный момент не обнаружено значительных изменений в поведении модели из-за осведомленности о оценке, но признает, что это открытая тема для исследований. В области самостоятельного программирования и исследовательских возможностей Muse Spark уступает конкурентам: проходной балл CyBench — 65.4% (Claude Opus 4.6 — 93.0%), балл MLE-bench — 15.8% (Claude Opus 4.6 — 52.0%). В блоге Meta признают, что «в долгосрочных системах интеллекта и рабочих потоках программирования есть еще разрыв». Однако также отмечается, что эффективность предобучения Muse Spark превышает Llama 4 Maverick более чем в 10 раз, а более крупные модели находятся в разработке. (Источник: BlockBeats)

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить