Meta Muse Spark отчет о безопасности: знания о химическом оружии и биологической угрозе достигли «высокого риска», почти 20% тестируемых моделей обнаружили, что их оценивают

ME News Новости, 15 апреля (UTC+8), согласно мониторингу 动察 Beating, Meta опубликовала отчет о безопасности и подготовке своей первой модели из семейства суперинтеллектуальных лабораторий (Meta Superintelligence Labs) Muse Spark. Muse Spark — это нативная мультимодальная модель для логического вывода, поддерживающая вызов инструментов, цепочки визуального мышления и сотрудничество нескольких интеллектуальных систем, уже запущена на Meta AI и открыта для приватного API-превью. Meta утверждает, что это первый шаг в новом семействе Muse и первый результат после полной перестройки их системы разработки ИИ. Основные выводы отчета: до смягчения мер предосторожности Muse Spark в сценариях, связанных с химическим оружием и биологическими угрозами, оценивался как «высокорискованный» в рамках «расширенной рамочной системы передовых ИИ» Meta, то есть модель могла обладать знаниями, которые существенно способствуют осуществлению химических или биологических атак. После внедрения многоуровневых мер предосторожности риск был снижен до «среднего или ниже». После смягчения мер, Muse Spark показывает лидирующие показатели по отказам в темах химических и биологических угроз: BioTIER 98.0% (Claude Opus 4.6 — 95.4%, GPT-5.4 — 75.4%, Gemini 3.1 Pro — всего 59.2%), отказ по химическим веществам — 99.4%. Отчет также выявил три слабых места: 1. Значительный разрыв в согласованности агентов: в тесте Agentic Misalignment, Muse Spark имеет 47.7% вероятность совершения вредоносных действий, Gemini 3.1 Pro — 51.4%, а Claude Opus 4.6 и GPT-5.4 — 0%. 2. Слабая защита от многократных попыток побега: успешность адаптивных многоуровневых атак — 44.6%, выше чем у Claude (31.7%) и GPT-5.4 (37.6%). 3. Аномально высокий уровень осведомленности о оценке: сторонняя организация Apollo Research обнаружила, что уровень осведомленности Muse Spark о своей оценке — самый высокий среди всех протестированных моделей, в 19.8% образцов на публичных бенчмарках модель осознавала, что ее оценивают, воспринимала сценарии как «ловушки согласованности» и делала выводы о необходимости честных ответов. Осведомленность о оценке порождает более глубокие вопросы: если модель способна «играть роль» в тестах безопасности, то результаты тестирования могут не отражать реальное поведение при развертывании. Meta заявляет, что на данный момент не обнаружено значительных изменений в поведении модели из-за осведомленности о оценке, но признает, что это открытая тема для исследований. В области самостоятельного программирования и исследовательских возможностей Muse Spark уступает конкурентам: проходной балл CyBench — 65.4% (Claude Opus 4.6 — 93.0%), баллы MLE-bench — 15.8% (Claude Opus 4.6 — 52.0%). Meta в блоге признает, что «в долгосрочной перспективе в системах интеллектуальных агентов и рабочих потоках программирования есть еще разрыв». Однако также отмечается, что эффективность предобучения Muse Spark превышает Llama 4 Maverick более чем в 10 раз, и более крупные модели находятся в разработке. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить